Economie Statistique

Variables catégorielles

Les variables catégorielles sont plus ou moins difficiles selon que le nombre de catégories est grand ou pas. S’il est petit, les transformations classiques type OneHotEncoder sont suffisamment performantes. Lorsque le nombre n’est pas très grand, il faut nécessairement réduire le nombre de catégorie en utilisant un BaseNEncoder ou un HashingEncoder. Si le nombre est très grand, il peut arriver que ce soit ce qui est attendu comme l’ensemble des produits d’un site de vente en ligne ou un grand nombre quelque peu surfaits et dû en grande partie à erreurs de saisie. Par exemple pour une colonne qui contient le nom d’une ville, Charleville et Charleville-Mézières désignent la même ville et devraient être rangés dans la même catégorie. Néanmoins, le fait de faire la différence est peut-être intéressant, cela veut peut-être dire que la personne vit à Mézières plutôt qu’à Charleville. Pour tenir compte des ces similarités au niveau caractères, le module dirty-cat propose le SimilarityEncoder qui est particulièrement efficace pour gérer ces erreurs ennuyeuses mais contenant de l’information.

(à venir)

Notebooks

Lectures

Modules