RSS 2020-02 - 1/1 Blog session (28)


2020-02 - 1/1#

Plan pour la session du 21#

2020-02-21

Importance des variables

  • feature importance
    • When training a tree we can compute how much each feature contributes to decreasing the weighted impurity.

    • que dire des variables corrélées ?

  • permutation importance
    • On permute les valeurs dans une colonne de features, on mesure la perte en performance par rapport au score sans permutation.

    • Random Forest

  • Dépendances partielles
    • Partial dependence of a feature (or a set of features) corresponds to the average response of an estimator for each possible value of the feature.

    • Partial dependance plots

Interprétation locales

  • LIME (Local Interpretable Model-Agnostic Explanations)
    • Approximer localement la prédiction d’un modèle par un modèle interprétable (comme une régression Lasso), cela revient en quelque sorte à calculer le gradient du modèle en chaque feature pour un point donnée.

    • blog/lime.png
    • Simplifier l’analyse en groupant les variables (pixels) si trop de variables

  • SHAP (SHapley Additive exPlanations)
    • Value d’une variable : on calcule l’espérance de la prédiction en tirant aléatoirement des valeurs pour cette variable (loi marginal),

    on fait la différence avec la prédiction moyenne.

  • CounterFactual
    • Dérivées partielles

    • La prédiction est Y, on souhaite Z, quelle est le plus petit changement dans X pour avoir Z ?

article

Plan pour la session du 14#

2020-02-14

article

Régression Lasso, Ridge#

2020-02-07

Le notebook Régression Ridge, Lasso et nouvel estimateur reprend ce qui a été développé durant la dernière session, à savoir la régression Ridge, Lasso qui permet de sélectionner les variables, puis l’API de scikit-learn et une façon de créer ses propres modèles.

article


RSS 2020-02 - 1/1 2022-01 (1) 2022-02 (4) 2022-09 (1) 2023-01 (2) 2023-02 (3)