.. image:: pyeco.png :height: 20 :alt: Economie :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-economiste .. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist .. _l-td2a-missing-values: Valeurs manquantes ++++++++++++++++++ .. index:: valeurs manquantes Les valeurs manquantes sont rarement l'objectif final d'un système de prédiction mais elles sont souvent sur le chemin. Pourquoi leur consacrer un chapitre alors qu'il paraît si facile de les remplacer par la moyenne ? Pourquoi ne pas chercher à les prédire puisqu'il s'agit d'utiliser une valeur appropriée à la place de quelque chose qu'on ne connaît ? Les mots-clés importants : *imputation*, *MICE*, *Amelia*. Il vaut mieux garder les valeurs manquantes si cela réduit la base de données de façon trop conséquente. Il y a deux approches, la première consiste à les remplacer. La manière naïve qui consiste à remplacer une valeur manquante par sa moyenne suppose que les variables sont indépendantes ce qui est rarement le cas. D'autres méthodes tiennent compte des corrélations. La seconde approche consiste à tenir compte des valeurs manquantes lors de l'apprentissage et donc à ne pas les remplacer. La librairie :epkg:`XGBoost` apprend des forêts aléatoires qui définissent pour chaque noeud des arbres la branche à suivre si la variable est manquante. *Notebook* * :ref:`tdnote20191rst` * :ref:`tdnote20192rst` *Lectures* * `Missing Data `_ * `Imputation de données manquantes `_ * `Missing Data & How to Deal: An overview of missing data `_ * `Additive Non-negative Matrix Factorization for Missing Data `_ * `Scalable Tensor Factorizations for Incomplete Data `_ * `Missing-data imputation `_ * `Check your missing-data imputations using cross-validation `_ * `Multiple Imputation for Continuous and Categorical Data: Comparing Joint and Conditional Approaches `_ * `Multiple Imputation by Chained Equations: What is it and how does it work? `_ * `Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models `_ * `Multivariate Imputation by Chained Equations in R `_ *Librairies* * `fancyimpute `_ * `knnimpute `_ * `scikit-learn/impute `_