:orphan: |rss_image| :ref:`<== ` **session - 2/3** :ref:`==> ` :ref:`Blog ` :ref:`session (28) ` .. |rss_image| image:: feed-icon-16x16.png :target: ../_downloads/rss.xml :alt: RSS ---- .. _ap-cat-session-1: session - 2/3 +++++++++++++ .. blogpostagg:: :title: Plan des séances :date: 2021-01-28 :keywords: plan :categories: session :rawfile: 2021/2021-01-28_plan.rst Voici le plan prévu pour les cinq séances du cours de machine learning pour l'économie et la finance. ... .. blogpostagg:: :title: Plan pour la session du 23 :date: 2020-03-23 :keywords: scrapping,text mining,séries temporelles :categories: session :rawfile: 2020/2020-03-23_scrap.rst *Scrapping* * `Scraping, récupérer une image depuis LeMonde `_ * `Web-Scraping `_, `Web-Scraping - correction `_ * `API, API REST `_ *Séries temporelles* Le module standard est :epkg:`statsmodels` qui implémente tous les modèles linéaires associés aux séries temporelles. Récemment, le module :epkg:`prophet` l'a supplanté avec plus d'options pour prédire, extraire la tendance, lissé, extraire la saisonnalité. Une approche assez nouvelle consiste à décomposer la série pour extraire les changements de tendance : changement de tendances, le module peut tenir compte des jours fériés. Trois notebooks extraits de la page `Timeseries - Séries temporelles `_. ... .. blogpostagg:: :title: Plan pour la session du 21 :date: 2020-02-21 :keywords: interprétabilité,biais éthniques :categories: session :rawfile: 2020/2020-02-21_session.rst Importance des variables * feature importance * When training a tree we can compute how much each feature contributes to decreasing the weighted impurity. * que dire des variables corrélées ? * permutation importance * On permute les valeurs dans une colonne de features, on mesure la perte en performance par rapport au score sans permutation. * `Random Forest `_ * Dépendances partielles * Partial dependence of a feature (or a set of features) corresponds to the average response of an estimator for each possible value of the feature. * `Partial dependance plots `_ Interprétation locales * `LIME (Local Interpretable Model-Agnostic Explanations) `_ * Approximer localement la prédiction d'un modèle par un modèle interprétable (comme une régression Lasso), cela revient en quelque sorte à calculer le gradient du modèle en chaque feature pour un point donnée. * .. image:: lime.png * Simplifier l'analyse en groupant les variables (pixels) si trop de variables * `SHAP (SHapley Additive exPlanations) `_ * Value d'une variable : on calcule l'espérance de la prédiction en tirant aléatoirement des valeurs pour cette variable (loi marginal), on fait la différence avec la prédiction moyenne. * Lire `Interpretable Machine Learning `_ * .. image:: shap.png * `CounterFactual `_ * Dérivées partielles * La prédiction est Y, on souhaite Z, quelle est le plus petit changement dans X pour avoir Z ? ... .. blogpostagg:: :title: Plan pour la session du 14 :date: 2020-02-14 :keywords: séries temporelles :categories: session :rawfile: 2020/2020-02-14_session.rst * séries temporelles (:epkg:`statsmodels`), prédictions, tendance, lissage, saisonnalité (:epkg:`prophet`), voir `lissage exponentiel `_, changement de tendances, le module peut tenir compte des jours fériés, `SSA `_, `Application of the singular-spectrum analysis to change-point detection in time `_, `Singular Spectrum Analysis `_ * `quelques jeux de données `_ * `clustering à Chicago `_ * :ref:`enediscartesrst` .. blogpostagg:: :title: Régression Lasso, Ridge :date: 2020-02-07 :keywords: ridge,lasso,API :categories: session :rawfile: 2020/2020-02-07_sklapi.rst Le notebook :ref:`2020-02-07sklapirst` reprend ce qui a été développé durant la dernière session, à savoir la régression Ridge, Lasso qui permet de sélectionner les variables, puis l'API de *scikit-learn* et une façon de créer ses propres modèles. .. blogpostagg:: :title: Petite introduction au machine learning :date: 2020-01-20 :keywords: vins,wines :categories: session :rawfile: 2020/2020-01-20_intro.rst Le notebook :ref:`2020-01-20introrst` fut construit lors d'une session. Le voici un peu retravaillé. Il essaye de prédire la note d'un vin et montre que des données homogènes, ça n'existe pas vraiment. .. blogpostagg:: :title: Session 5 :date: 2019-03-08 :keywords: session 5 :categories: session :rawfile: 2019/2019-03-08_sessions5.rst L'objectif de la séance est de passer du temps sur des jeux de données. Le premier jeu, `Titanic `_ (**jeu 1**), contient des informations sur près de 900 passagers du Titanic. On souhaite prédire la probabilité qu'une personne n'ait pas survécu au naufrage. Le fait d'obtenir un modèle performant n'est pas nécessairement ce qui est recherché ici psuique l'information est déjà connue mais plutôt ce que le modèle peut nous apprendre en terme d'équité sociale face à la mort. Ce jeu est intéressant dans la mesure où les variables sont de types variés. ... .. blogpostagg:: :title: Session 4 :date: 2019-03-01 :keywords: session 4 :categories: session :rawfile: 2019/2019-03-01_sessions4.rst * :ref:`l-cheatsheet-ml` * `clustering `_, `k-means `_ un exemple avec les `vélos à Chicago `_ et l'utilisation du clustering pour trouver les `profils de cyclistes à Chicago `_ *deep learning* * `Réseaux de neurones avec pytorch `_ * `Transfer Learning avec pytorch `_ ou `Transfer Learning avec keras `_ * :ref:`l-gan` *Liens* * `Découverte du deep learning `_ * `Deep Learning course: lecture slides and lab notebooks `_ (`Master DataScience `_ - `Paris Saclay `_) .. blogpostagg:: :title: Session 3 :date: 2019-02-22 :keywords: session 3 :categories: session :rawfile: 2019/2019-02-22_session3.rst **Scraping** * `Scraping `_ * `Un peu plus sur le scraping `_ (`éléments de réponses `_) * `API REST `_ **Devinettes** * :ref:`l-devinette-naive-normalisation` **Texte** * :ref:`l-preprocessing` * :ref:`artificieltokenizerst` * `Analyse de sentiments `_ (`éléments de réponse `_) **Regarder les données** * `Les vélos à Chicago `_ **Un peu d'algorithme** Je reproduis ici un code qui construit les permutations d'un ensemble avec la fonction `combinaison `_ : ... .. blogpostagg:: :title: Session 2 :date: 2019-02-01 :keywords: session 2 :categories: session :rawfile: 2019/2019-02-01_session2.rst * :ref:`l-regclass` * formalisation de la :ref:`classification ` * Courbe ROC : :ref:`sphx_glr_gyexamples_plots_plot_roc.py` * :ref:`classification multi-classe ` * `régularisation `_, `Ridge `_, `Lasso `_, `ElasticNet `_ * :ref:`l-cheatsheet-ml` * Notions de pipeline `API de scikit-learn `_, `Visualisation de pipeline `_ ---- |rss_image| :ref:`<== ` **session - 2/3** :ref:`==> ` :ref:`2022-01 (1) ` :ref:`2022-02 (4) ` :ref:`2022-09 (1) ` :ref:`2023-01 (2) ` :ref:`2023-02 (3) `