.. blogpost:: :title: Année 2023, séance 2 :keywords: python :date: 2023-02-06 :categories: plan Séance découpée en quatre parties. **Partie I : exercice** Un base de données contient une variable catégorielle. Malheureusement, elle est renseignée de façon imparfaite car elle contient des erreurs de syntaxe. Exemple : :: ['comptabilité', 'datascience', 'data science', 'pilote', 'pilotage', 'auteur', 'autrice', ...] Que peut-on faire pour nettoyer cette variable ? **Partie II : pandas, graphes, gros fichiers, cartes** * :epkg:`pandas` : tables de données * enregister et restaurer des dataframe avec :epkg:`pickle` * lecture d'un gros fichier `Demandes de valeurs foncières `_ * :epkg:`geopandas` *fonction, notion de coût* Les fonctions * fonctions : def .. runpython:: :showcode: :toggle: out import cProfile nombres = [9, 7, 5, 4, 6, 7, 3, 1, 7, 8] def moyenne(ens): return sum(ens) / len(ens) def ecarttype(ens): var = [(n - moyenne(ens)) ** 2 for n in ens] return (sum(var) / len(var)) ** 0.5 print(moyenne(nombres)) print(ecarttype(nombres)) with cProfile.Profile() as pr: for n in range(100000): ecarttype(nombres) pr.print_stats() * coût d'un algorithme * notation ``with`` **Partie III : premiers pas avec scikit-learn** Pourquoi :epkg:`scikit-learn` ? * créer son premier modèle * type de problème résolus * famille de modèles * transformer * pipeline