Régressions linéaires et autres variations¶

La régression linéaire est le modèle prédictif le plus simple et celui qu’on préfère quand il marche car il est facilement interprétable à l’inverse des modèles non linéaires qui gardent leurs secrets si on s’en tient seulement à leurs coefficients. Concrètement, on dispose d’un nuage de point $(X_i, y_i)$ où $X_i \in \R^d$ est un vecteur de dimension d et $y_i \in \R$ un réel. La régression linéaire consiste à construire une fonction prédictive $\hat{y_i} = f(X_i) = <X_i, \beta> = X_i \beta$ où $\beta$ est un vecteur de dimension d. Dans le cas le plus courant, on modélise les données de telle sorte que : $y_i = X_i \beta + \epsilon_i$ où $\epsilon_i$ suit une loi normale de moyenne nulle et de variance $\sigma$ . Sous cette hypothèse, il “agit de trouver le vecteur $\beta$ qui minimise la vraisemblance du modèle, ce qui revient à résoudre le problème d’optimisation :

$\min_\beta \sum_i (y_i - X_i \beta)^2$

En dérivant, on sait exprimer explicitement la solution. On note $X = (X_1, ..., X_i, ...)$ la matrice où chaque ligne est une observation $X_i$ et $y = (y_1, ..., y_i, ...)$ . $X'$ est la transposée de X. Alors :

$\beta_* = (X'X)^{-1}X'y$

Les chapitres suivants explorent d’autres aspects de ce problèmes comme la régression quantile, la régression linéaire par morceaux, ou encore l’expression de $\beta$ sans calculer de matrice inverse ni de valeurs propres.

Liens entre factorisation de matrices, ACP, k-means Régression linéaire

Liens

Contenu

Information

Sujet précédent

Sujet suivant

Cette page

Régressions linéaires et autres variations¶