Variables catégorielles#
Les variables catégorielles sont plus ou moins difficiles selon que le nombre de catégories est grand ou pas. S’il est petit, les transformations classiques type OneHotEncoder sont suffisamment performantes. Lorsque le nombre n’est pas très grand, il faut nécessairement réduire le nombre de catégorie en utilisant un BaseNEncoder ou un HashingEncoder. Si le nombre est très grand, il peut arriver que ce soit ce qui est attendu comme l’ensemble des produits d’un site de vente en ligne ou un grand nombre quelque peu surfaits et dû en grande partie à erreurs de saisie. Par exemple pour une colonne qui contient le nom d’une ville, Charleville et Charleville-Mézières désignent la même ville et devraient être rangés dans la même catégorie. Néanmoins, le fait de faire la différence est peut-être intéressant, cela veut peut-être dire que la personne vit à Mézières plutôt qu’à Charleville. Pour tenir compte des ces similarités au niveau caractères, le module dirty-cat propose le SimilarityEncoder qui est particulièrement efficace pour gérer ces erreurs ennuyeuses mais contenant de l’information.
(à venir)
Corrélation entre des variables catégorielles
Notebooks
Lectures
Enoncé d’examan autour des variables catégorielles et sa corection
Visiting: Categorical Features and Encoding in Decision Trees
Similarity encoding for learning with dirty categorical variables
Similarity encoding for learning with dirty categorical variables
Modules