.. blogpost:: :title: Année 2022, séance 2 :keywords: python :date: 2022-02-07 :categories: plan Séance découpée en trois parties. **Partie I : programmation et exercice** * installer un package * mettre à jour un package * réfléchir au problème suivant Un base de données contient une variable catégorielle. Malheureusement, elle est renseignée de façon imparfaite car elle contient des erreurs de syntaxe. Exemple : ``['comptabilité', 'datascience', 'data science', 'pilote', 'pilotage', 'auteur', 'autrice', ...]``. Que peut-on faire pour nettoyer cette variable ? Voir aussi `dirty-cat `_. **Partie II : classes** * `C'est obligé les classes ? `_ * `Classes `_ * Créer une classe qui code du texte **Partie III : scikit-learn** * Un régresseur chez :epkg:`scikit-learn` * Design de :epkg:`scikit-learn` * :mod:`pickle` * prédicteur, transformer, cluster **Exercice : créer son propre prédicteur** Implémentation un transformeur qui transforme les catégories comme suggéré lors de la première partie.