.. blogpost::
:title: Année 2022, séance 2
:keywords: python
:date: 2022-02-07
:categories: plan
Séance découpée en trois parties.
**Partie I : programmation et exercice**
* installer un package
* mettre à jour un package
* réfléchir au problème suivant
Un base de données contient une variable catégorielle.
Malheureusement, elle est renseignée de façon
imparfaite car elle contient des erreurs de syntaxe.
Exemple :
``['comptabilité', 'datascience', 'data science',
'pilote', 'pilotage', 'auteur', 'autrice', ...]``.
Que peut-on faire pour nettoyer cette variable ?
Voir aussi `dirty-cat `_.
**Partie II : classes**
* `C'est obligé les classes ? `_
* `Classes `_
* Créer une classe qui code du texte
**Partie III : scikit-learn**
* Un régresseur chez :epkg:`scikit-learn`
* Design de :epkg:`scikit-learn`
* :mod:`pickle`
* prédicteur, transformer, cluster
**Exercice : créer son propre prédicteur**
Implémentation un transformeur qui transforme les catégories
comme suggéré lors de la première partie.