Feuille de route 2018 (2A)

en préparation

Page principale du cours

Plan

Les cours et séances se déroulent sur 8 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans Les notions qu’il faut avoir comprises ou vues. Un compte slack python-ensae-2a.slack.com a été créé pour faciliter les échanges, annonces et questions. Une compétition sera ouverte le premier jour et fermée à la dernière session où les résultas et les idées seront discutées.

Séance Voie stat Voie éco

11/9 (1) amphi

Séance 1

18/9 (2) TD/amphi

Séance 2 - stat, Séance 2 - éco

Rappels et exercices sur la manipulation des données avec pandas, numpy, matplotlib, scikit-learn, notion de prédicteur, transformeurs, pipelines, stacking Rappels et exercices sur le langage Python, manipulation des données avec pandas

25/9 (3) TD/amphi

Séance 3 - stat, Séance 3 - éco, deux exposés

ACP, réduction de dimension variables catégorielles, textuelles, mention de catboost Suite et fin des exercices pandas et représentations graphiques variées, fin des exercices sur pandas, numpy, visualisation avec matplotlib, cartographie

2/10 (4) TD/amphi

Séance 4 - stat, Séance 4 - éco deux exposés

Ranking, détection d’anomalies, clustering, valeurs manquantes, imbalanced classification, recommandation, test A/B Premiers pas avec scikit-learn, ACP, Regréssion linéaire, Logit, classification binaire, scraping avec un exemple sur la récupération d’image 2018-10-02_scraping_recuperer_images

9/10 (5) TD/amphi

Séance 5 - stat, Séance 5 - éco, deux exposés

Machine learning crypté, séries temporelles, apprentissage par renforcement, algorithme du bandit, auto-learning Variables textuelles, clustering, détection d’anomalies, graphes et recommandations

16/10 (6) TD/amphi

Séance 6, deux exposés

  • Propriétés des modèles mathématiques, modèles linéaires, modèles ensemblistes, modèles dérivables, gradient, feature importance, parallélisme, boosting (Xavier Dupré)
  • Interprétation des modèles de machine learning (Gaël Varoquaux), notes : Understanding and diagnosing your machine-learning models

23/10 (7) amphi

Séance 7, deux exposés

  • notion de deep learning sans en faire, application au texte, et aux images, transfer learning, exemples avec un moteur de recherche d’images (Xavier Dupré)
  • Ethique et algorithmes avec (Frédéric Bardolle)

6/11 (8) TD

Séance 8 - stat, Séance 8 - éco, deux exposés

Notion d’algorithmes, écrire du code efficace en Python, avec pandas, numpy, discussion sur les projets Travailler le texte, de la récupération à l’exploitation (2/2), Exercice de webscraping, API, NLP

Prérequis

Intervenants

Xavier Dupré, Anne Muller, Elodie Royant, Antoine Ly, Eliot Barril, Frédéric Bardolle, Gaël Varoquaux.

Notes

Liens, notebooks prévus pour les séances pratiques.

Séance 1

Séance 2 - stat

8h30 - TD

Lectures conseillées

Les cours de Gaël Varoquaux Machine learning, cours de Gaël Varoquaux, les notebooks d’exercices associées à ces lectures.

10h15 - modèle complexe avec scikit-learn

Séance 2 - éco

8h30 - amphi

10h15 - TD

Vérifier que les trois notebooks ont été exécutés, exécuter trois notebooks, 1A.1 - D’une structure de données à l’autre, 1A.1 - Histogramme et dictionnaire, 2A.ml - Features ou modèle

Séance 4 - éco

8h30 - TD

Notebooks pour s’exercer :

10h15 - cours

Expression régulière et scrapping, 2018-10-02 - Scraping, récupérer une image depuis LeMonde.

Séance 5 - éco

8h30 - TD

10h15 - cours

  • ACP
  • Traitement des variables catégorielles
  • Graphes et recommandations

Séance 6

Propriétés des modèles mathématiques

Autour du linéaire

Illustrations des propriétés mathématiques

Lectures annexes

Librairies random forest

10h15 - Gaël Varoquaux

Interprétation des modèles de machine learning

Notes : Understanding and diagnosing your machine-learning models.

Séance 7

Ethide dans les données par Frédéric Bardolle

Dilemmes