2A.ml - Réduction d’une forêt aléatoire - énoncé

Links: notebook, html, PDF, python, slides, GitHub

Le modèle Lasso permet de sélectionner des variables, une forêt aléatoire produit une prédiction comme étant la moyenne d’arbres de régression. Et si on mélangeait les deux ?

from jyquickhelper import add_notebook_menu
add_notebook_menu()
%matplotlib inline

Datasets

Comme il faut toujours des données, on prend ce jeu Boston.

from sklearn.datasets import load_boston
data = load_boston()
X, y = data.data, data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

Q2 : calculer soi-même la moyenne des prédictions des arbres de la forêt aléatoire

C’est peut-être inutile mais ça permet de s’assurer que la prédiction d’une forêt aléatoire est bien issue de la moyenne des prédictions d’un ensemble d’arbre de régression.

A priori, c’est la même chose.

Q3 : Pondérer les arbres à l’aide d’une régression linéaire

La forêt aléatoire est une façon de créer de nouvelles features, 100 exactement qu’on utilise pour caler une régression linéaire. A vous de jouer.

Q4 : Que se passe-t-il si on remplace la régression linéaire par un Lasso ?

Petit rappel : le Lasso est une façon de sélectionner les variables.