2020-02 - 1/1 Blog session (28)
2020-02 - 1/1#
Plan pour la session du 21#
2020-02-21
Importance des variables
- feature importance
When training a tree we can compute how much each feature contributes to decreasing the weighted impurity.
que dire des variables corrélées ?
- permutation importance
On permute les valeurs dans une colonne de features, on mesure la perte en performance par rapport au score sans permutation.
- Dépendances partielles
Partial dependence of a feature (or a set of features) corresponds to the average response of an estimator for each possible value of the feature.
Interprétation locales
- LIME (Local Interpretable Model-Agnostic Explanations)
Approximer localement la prédiction d’un modèle par un modèle interprétable (comme une régression Lasso), cela revient en quelque sorte à calculer le gradient du modèle en chaque feature pour un point donnée.
Simplifier l’analyse en groupant les variables (pixels) si trop de variables
- SHAP (SHapley Additive exPlanations)
Value d’une variable : on calcule l’espérance de la prédiction en tirant aléatoirement des valeurs pour cette variable (loi marginal),
on fait la différence avec la prédiction moyenne.
- CounterFactual
Dérivées partielles
La prédiction est Y, on souhaite Z, quelle est le plus petit changement dans X pour avoir Z ?
…
Plan pour la session du 14#
2020-02-14
séries temporelles (statsmodels), prédictions, tendance, lissage, saisonnalité (prophet), voir lissage exponentiel, changement de tendances, le module peut tenir compte des jours fériés, SSA, Application of the singular-spectrum analysis to change-point detection in time, Singular Spectrum Analysis
Régression Lasso, Ridge#
2020-02-07
Le notebook Régression Ridge, Lasso et nouvel estimateur reprend ce qui a été développé durant la dernière session, à savoir la régression Ridge, Lasso qui permet de sélectionner les variables, puis l’API de scikit-learn et une façon de créer ses propres modèles.
2020-02 - 1/1 2022-01 (1) 2022-02 (4) 2022-09 (1) 2023-01 (2) 2023-02 (3)