2020-02 - 1/1 Blog session (28)

2020-02 - 1/1#

Plan pour la session du 21#

2020-02-21

Importance des variables

feature importance
- When training a tree we can compute how much each feature contributes to decreasing the weighted impurity.
- que dire des variables corrélées ?
permutation importance
- On permute les valeurs dans une colonne de features, on mesure la perte en performance par rapport au score sans permutation.
- Random Forest
Dépendances partielles
- Partial dependence of a feature (or a set of features) corresponds to the average response of an estimator for each possible value of the feature.
- Partial dependance plots

Interprétation locales

LIME (Local Interpretable Model-Agnostic Explanations)
- Approximer localement la prédiction d’un modèle par un modèle interprétable (comme une régression Lasso), cela revient en quelque sorte à calculer le gradient du modèle en chaque feature pour un point donnée.
- Simplifier l’analyse en groupant les variables (pixels) si trop de variables
SHAP (SHapley Additive exPlanations)
Value d’une variable : on calcule l’espérance de la prédiction en tirant aléatoirement des valeurs pour cette variable (loi marginal),

on fait la différence avec la prédiction moyenne.
- Lire Interpretable Machine Learning
CounterFactual
Dérivées partielles
- La prédiction est Y, on souhaite Z, quelle est le plus petit changement dans X pour avoir Z ?

…

article

Plan pour la session du 14#

2020-02-14

séries temporelles (statsmodels), prédictions, tendance, lissage, saisonnalité (prophet), voir lissage exponentiel, changement de tendances, le module peut tenir compte des jours fériés, SSA, Application of the singular-spectrum analysis to change-point detection in time, Singular Spectrum Analysis
quelques jeux de données
clustering à Chicago
Tracer une carte en Python

article

Régression Lasso, Ridge#

2020-02-07

Le notebook Régression Ridge, Lasso et nouvel estimateur reprend ce qui a été développé durant la dernière session, à savoir la régression Ridge, Lasso qui permet de sélectionner les variables, puis l’API de scikit-learn et une façon de créer ses propres modèles.

article

2020-02 - 1/1 2022-01 (1) 2022-02 (4) 2022-09 (1) 2023-01 (2) 2023-02 (3)