Feuille de route 2018 (2A)

en préparation

Page principale du cours

Plan

Les cours et séances se déroulent sur 8 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans Les notions qu’il faut avoir comprises ou vues. Un compte slack python-ensae-2a.slack.com a été créé pour faciliter les échanges, annonces et questions. Une compétition sera ouverte le premier jour et fermée à la dernière session où les résultas et les idées seront discutées.

Séance Voie stat Voie éco

11/9 (1) amphi

Séance 1

18/9 (2) TD/amphi

Séance 2 - stat, Séance 2 - éco

Rappels et exercices sur la manipulation des données avec pandas, numpy, matplotlib, scikit-learn Rappels et exercices sur le langage Python, manipulation des données avec pandas

25/9 (3) TD

Séance 3 - stat, Séance 3 - éco, deux exposés

Notion, de prédicteur, transformeurs, pipelines, application aux variables catégorielles, introduction de statsmodels, xgboost, stacking Suite et fin des exercices pandas et représentations graphiques variées, fin des exercices sur pandas, numpy, visualisation avec matplotlib, cartographie

2/10 (5) TD

Séance 4 - stat, Séance 4 - éco deux exposés

Ranking, Détection d’anomalies, clustering, valeurs manquantes, imbalanced classification Econométrie, analyse de données et premiers pas avec scikit-learn, (ACP, Regréssion linéaire, Logit, séries temporelles)

9/10 (5) TD

Séance 5 - stat, Séance 5 - éco, deux exposés

Machine learning crypté, hyperparamètres, recommandation, séries temporelles Travailler le texte, de la récupération à l’exploitation (1/2), Expressions régulière, web scrapping

16/10 (6) amphi

Séance 6, deux exposés

  • Propriétés des modèles mathématiques, modèles linéaires, modèles ensemblistes, modèles dérivables, feature importance (Xavier Dupré)
  • Interprétation des modèles de machine learning (Gaël Varoquaux)

23/10 (7) amphi

Séance 7, deux exposés

  • notion de deep learning sans en faire, application au texte, et aux images, transfer learning, exemples avec un moteur de recherche d’images (Xavier Dupré)
  • Ethique et algorithmes avec (Frédéric Bardolle)

6/11 (8) TD

Séance 8 - stat, Séance 8 - éco, deux exposés

Notion d’algorithmes, écrire du code efficace en Python, avec pandas, numpy, discussion sur les projets Travailler le texte, de la récupération à l’exploitation (2/2), Exercice de webscraping, API, NLP

Prérequis

Intervenants

Xavier Dupré, Anne Muller, Elodie Royant, Antoine Ly, Eliot Barril, Frédéric Bardolle, Gaël Varoquaux.

Notes

Liens, notebooks prévus pour les séances pratiques.

Séance 1

Séance 2 - stat

8h30 - TD

Lectures conseillées

Les cours de Gaël Varoquaux Machine learning, cours de Gaël Varoquaux, les notebooks d’exercices associées à ces lectures.

10h15 - modèle complexe avec scikit-learn

Séance 2 - éco

8h30 - amphi

  • Rappels sur le langage python, Cheat sheet: Python, variable, listes, dictionnaires, boucles, fonctions
  • Introduction à pandas, notion de table, lecture, écriture de fichiers texte, Excel, ajout de colonne, opérations entre colonne, apply, opérations standard (sort, filter, group by, join),
  • Introduction à numpy, opérations standard, calcul matriciel, différences avec un dataframe

10h15 - TD

Vérifier que les trois notebooks ont été exécutés, exécuter trois notebooks, 1A.1 - D’une structure de données à l’autre, 1A.1 - Histogramme et dictionnaire, 2A.ml - Features ou modèle

Séance 4 - éco

Beaucoup de choses pour ce TD, voici ce que vous devez absolument avoir lu pendant les 3 heures.

Exercice à réaliser

Objectifs

  • avoir compris comment réaliser les différentes classes de modèles présentées (régression linéaire, ACP , logit)
  • avoir bien compris les notions de SQL utilisées dans le début de l’exercice
  • réaliser la regression demandée avec les deux packages proposés (scikit-learn et statsmodels)

Pour aller plus loin :