RSS page de blog - 1/3 ==> Blog session (17)


page de blog - 1/3

Plan pour la session du 23

2020-03-23

Scrapping

Séries temporelles

Le module standard est statsmodels qui implémente tous les modèles linéaires associés aux séries temporelles. Récemment, le module prophet l’a supplanté avec plus d’options pour prédire, extraire la tendance, lissé, extraire la saisonnalité. Une approche assez nouvelle consiste à décomposer la série pour extraire les changements de tendance : changement de tendances, le module peut tenir compte des jours fériés. Trois notebooks extraits de la page Timeseries - Séries temporelles.

article

Plan pour la session du 21

2020-02-21

Importance des variables

  • feature importance
    • When training a tree we can compute how much each feature contributes to decreasing the weighted impurity.

    • que dire des variables corrélées ?

  • permutation importance
    • On permute les valeurs dans une colonne de features, on mesure la perte en performance par rapport au score sans permutation.

    • Random Forest

  • Dépendances partielles
    • Partial dependence of a feature (or a set of features) corresponds to the average response of an estimator for each possible value of the feature.

    • Partial dependance plots

Interprétation locales

  • LIME (Local Interpretable Model-Agnostic Explanations)
    • Approximer localement la prédiction d’un modèle par un modèle interprétable (comme une régression Lasso), cela revient en quelque sorte à calculer le gradient du modèle en chaque feature pour un point donnée.

    • blog/lime.png
    • Simplifier l’analyse en groupant les variables (pixels) si trop de variables

  • SHAP (SHapley Additive exPlanations)
    • Value d’une variable : on calcule l’espérance de la prédiction en tirant aléatoirement des valeurs pour cette variable (loi marginal),

    on fait la différence avec la prédiction moyenne.

  • CounterFactual
    • Dérivées partielles

    • La prédiction est Y, on souhaite Z, quelle est le plus petit changement dans X pour avoir Z ?

article

Plan pour la session du 14

2020-02-14

article

Régression Lasso, Ridge

2020-02-07

Le notebook Régression Ridge, Lasso et nouvel estimateur reprend ce qui a été développé durant la dernière session, à savoir la régression Ridge, Lasso qui permet de sélectionner les variables, puis l’API de scikit-learn et une façon de créer ses propres modèles.

article

Jeux de données

2020-01-30

De nombreux jeux de données peuvent être trouvés à cette adresse : VanderBilt University DataSets. Le tout est utilisé dans le notebook Machine learning avec des catégories et du texte. Un autre notebook revient sur la classification binaire : Classification.

article

Awesome, une mot clé utile

2020-01-30

Le mot-clé awesome, tout comme le mot-clé cheat sheet est très utilisé pour désigner une revue des meilleures librairies dans un domaine précis comme python awesome ml qui peut mener à ce type de page : awesome-python-data-science qui par exemple cite le module pandas-summary ou POT ou encore rpforest qui propose des algorithmes de recherche des plus proches voisins approchée. Tous ne sont pas maintenus mais le suivant l’est pandas-profiling.

article

Petite introduction au machine learning

2020-01-20

Le notebook Courte introduction au machine learning fut construit lors d’une session. Le voici un peu retravaillé. Il essaye de prédire la note d’un vin et montre que des données homogènes, ça n’existe pas vraiment.

article

Session 5

2019-03-08

L’objectif de la séance est de passer du temps sur des jeux de données. Le premier jeu, Titanic (jeu 1), contient des informations sur près de 900 passagers du Titanic. On souhaite prédire la probabilité qu’une personne n’ait pas survécu au naufrage. Le fait d’obtenir un modèle performant n’est pas nécessairement ce qui est recherché ici psuique l’information est déjà connue mais plutôt ce que le modèle peut nous apprendre en terme d’équité sociale face à la mort. Ce jeu est intéressant dans la mesure où les variables sont de types variés.

article

article

Installer Python à l’université

2019-02-24

L’université bloque parfois quelques usages pour des raisons de sécurité. Il n’est pas toujours possible d’utiliser pip install pandas ou conda install pandas. Il faut télécharger les packages à la main et la liste des dépendances peut être longues. Les liens qui suivent sont valides pour le système Windows. On commence par installer Python avec la distribution Python ou miniconda. J’ai pris Miniconda qui est plus léger qu”Anaconda mais nécessite de télécharger des paquets à la main. Il faut l’installer Just for me et ne pas ajouter Python à la variable d’environnement PATH. Je commence toujours par installer numpy numpy (numpy-1.16.1+mkl-cp37-cp37m-win_amd64.whl dans mon cas). Et on l’installe avec pip install <fichier_local> depuis la ligne de commande. Dans mon cas, cela donne

...

article


RSS page de blog - 1/3 ==> 2019-02 (3) 2019-03 (2) 2020-01 (3) 2020-02 (3) 2020-03 (1)