Imbalanced classification#

Imbalanced, mal balancé, skewed, ce type de problème de données est très fréquent. Il signifie qu’une classe dans un problème de classification est sous-représentée par rapport aux autres et que le modèle de machine learning n’est pas suffisamment pénalisé s’il n’en tient pas compte. Le cas classique est un problème à deux classes, une majoritaire à 99%, une minoritaire à 1%. Un modèle qui répond toujours la majorité est correct 99% du temps mais il n’a rien appris puisque sa réponse est constante. Comment le forcer à apprendre quelque chose ? Il existe trois types approches et la réponse est souvent un mélange des trois :

boosting : le modèle pondère davantage les exemples sur lesquels il fait des erreurs, a fortiori, les exemples de la classe minoritaire
over sampling : on multiplie les exemples de la classe minoritaire de façon à lui donner plus de poids
under sampling : on réduit le nombre d’exemples de la classe majoritaire sans altérer la capacité du modèle à trouver une bonne solution, cela consiste à enlever des exemples loin de la frontière de classification.

Notebooks

2A.ml - Imbalanced dataset

Lectures

Lectures - subsampling

Modules

imbalanced-learn (la documentation est intéressante)

Liens

Contenu

Information

Sujet précédent

Sujet suivant

Imbalanced classification#