Economie Statistique

Valeurs manquantes

Les valeurs manquantes sont rarement l’objectif final d’un système de prédiction mais elles sont souvent sur le chemin. Pourquoi leur consacrer un chapitre alors qu’il paraît si facile de les remplacer par la moyenne ? Pourquoi ne pas chercher à les prédire puisqu’il s’agit d’utiliser une valeur appropriée à la place de quelque chose qu’on ne connaît ? Les mots-clés importants : imputation, MICE, Amelia.

Il vaut mieux garder les valeurs manquantes si cela réduit la base de données de façon trop conséquente. Il y a deux approches, la première consiste à les remplacer. La manière naïve qui consiste à remplacer une valeur manquante par sa moyenne suppose que les variables sont indépendantes ce qui est rarement le cas. D’autres méthodes tiennent compte des corrélations.

La seconde approche consiste à tenir compte des valeurs manquantes lors de l’apprentissage et donc à ne pas les remplacer. La librairie XGBoost apprend des forêts aléatoires qui définissent pour chaque noeud des arbres la branche à suivre si la variable est manquante.

Notebook

Lectures

Librairies