Régressions logistiques et autres variations¶

La régression logistique est le modèle prédictif le plus simple et celui qu’on préfère quand il marche car il est facilement interprétable à l’inverse des modèles non linéaires qui gardent leurs secrets si on s’en tient seulement à leurs coefficients. Concrètement, on dispose d’un nuage de point $(X_i, y_i)$ où $X_i \in \R^d$ est un vecteur de dimension d et $y_i \in \acc{0, 1}$ un entier binaire. Le problème de la régression linéaire consiste à construire une fonction prédictive $\hat{y_i} = f(X_i) = <X_i, \beta> = X_i \beta$ où $\beta$ est un vecteur de dimension d (voir classification). Le signe de la fonction $f(X_i)$ indique la classe de l’observation $X_i$ et la valeur $\frac{1}{1 + e^{f(X)}}$ la probabilité d’être dans la classe 1.