2018-11-15 dirty-cat(égories)

Je suis assis à côté de Gaël Varoquaux qui me raconte son dernier papier sur dirty-cat pour traiter des colonnes catégorielles avec beaucoup de catégories et qui se ressemblent :

  • Charleville
  • Charleville-Mérières
  • Paris
  • Pari
  • Paris 18

En pratique, beaucoup de data-scientist diraient qu’ils faut d’abord nettoyer les données avec de les transformer en variables numériques. Une autre option consiste à utiliser un SimilarityEncoder qui encode les catégories de telle façon que deux catégories proches au niveau caractères seront proches une fois encodées.

https://nostarch.com/malwaredatascience