.. image:: pyeco.png :height: 20 :alt: Economie :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-economiste .. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist .. _l-imbalanced-classification: Imbalanced classification +++++++++++++++++++++++++ .. index:: imbalanced, mal-balancé Imbalanced, mal balancé, skewed, ce type de problème de données est très fréquent. Il signifie qu'une classe dans un problème de classification est sous-représentée par rapport aux autres et que le modèle de machine learning n'est pas suffisamment pénalisé s'il n'en tient pas compte. Le cas classique est un problème à deux classes, une majoritaire à 99%, une minoritaire à 1%. Un modèle qui répond toujours la majorité est correct 99% du temps mais il n'a rien appris puisque sa réponse est constante. Comment le forcer à apprendre quelque chose ? Il existe trois types approches et la réponse est souvent un mélange des trois : * *boosting* : le modèle pondère davantage les exemples sur lesquels il fait des erreurs, a fortiori, les exemples de la classe minoritaire * *over sampling* : on multiplie les exemples de la classe minoritaire de façon à lui donner plus de poids * *under sampling* : on réduit le nombre d'exemples de la classe majoritaire sans altérer la capacité du modèle à trouver une bonne solution, cela consiste à enlever des exemples loin de la frontière de classification. *Notebooks* .. toctree:: :maxdepth: 2 ../notebooks/ml_b_imbalanced *Lectures* * `Classification of Imbalanced Data with a Geometric Digraph Family `_ * `RUSBoost: A Hybrid Approach to Alleviating Class Imbalance `_ * `RAMOBoost: Ranked Minority Oversampling in Boosting `_ * `ND DIAL: Imbalanced Algorithms `_ * `rusboost.py `_ (plutôt un bout de code) * `xgboost `_ * `Boosting and AdaBoost for Machine Learning `_, `A Gentle Introduction to the Gradient Boosting Algorithm for Machine Learning `_, `Thoughts on Hypothesis Boosting `_, `Predictions Games and Arcing Algorithms `_ * `Focal Loss for Dense Object Detection `_ *Lectures - subsampling* * `Data Subsampling (Edward) `_ * `5601 Notes: The Subsampling Bootstrap `_ * `Bootstrapping and Subsampling: Part I `_ * `Subsampling versus bootstrapping in resampling-based model selection for multivariable regression `_ * `Subsampling vs Bootstrap `_ *Modules* * `imbalanced-learn `_ (la `documentation `_ est intéressante)