Feuille de route 2017 (2A)

Page principale du cours

Plan

Les cours et séances se déroulent sur 8 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans Les notions qu’il faut avoir comprises ou vues. Un compte slack python-ensae-2a.slack.com a été créé pour faciliter les échanges, annonces et questions. Une compétition sera ouverte le premier jour et fermée à la dernière session où les résultas et les idées seront discutées.

Séance

Stat

Eco

19/9 (1)

Introduction du cours, présentation de la compétition, rappel pandas, numpy, matplotlib, SQL, Cartes, sérialisation Séance 1 Stat

Introduction du cours, présentation de la compétition, pandas, numpy, matplotlib, manipulation de données, Séance 1 Eco

26/9 (2)

Algorithmes, itérateur, notion de pipelines, mise en production de modèles, test unitaires, régression, logging, dask, parallélisation, Séance 2 Stat

SQL, Cartes, Rappel des méthodes linéaires (régression linéaire, logistique, ACP, …), Séance 2 Eco

3/10 (3)

Python et C++, sérialisation, profiling cours de Gaël Varoquaux, Séance 3 Stat

pandas, vélib cours de Gaël Varoquaux, Séance 3 Eco

Après 3 séances, vous devriez connaître et savoir utiliser numpy, pandas, matplotlib.

Après 3 séances, vous devriez connaître et savoir utiliser numpy, pandas, matplotlib.

10/10 (4)

Revue de problèmes de machine learning formalisés, cross-validation Données textuelles, variables catégorielles, word embedding Séance 4 Maths

Texte et expression régulière, Revue de problèmes de machine learning formalisés, Données textuelles, variables catégorielles, Séance 4 Eco

17/10 (5)

Machine learning données cryptées, hyperparamètres, données textuelles Séance 5 Maths

Web scrapping, API, Séance 5 Eco

24/10 (6)

Deep learning, Keras, Torch, Transfer Learning, Séance 6 Maths

NLP, Séance 6 Eco

7/11 (7)

Série temporelles, éthique dans les modèles, Séance 7 Maths

Traitement du langage, LDA, tf-idf, expression régulière, Séance 7 Eco

14/11 (8)

Algorithme de streaming, Imbalanced datasets Revue de compétition Kaggle, présentation des projets, premiers suivis de projets, Séance 8

Premiers suivis de projets, Revue de compétition Kaggle, présentation des projets, Séance 8

Intervenants

Xavier Dupré, Anne Muller, Elodie Royant, Antoine Thabault, Antoine Ly, Benjamin Donnot, Eliot Barril, Gaël Varoquaux.

Retour sur les projets

Le cours est évalué par un projet informatique 2A - Projets informatiques - Data Scientist - Economiste. Voici quelques retours sur les projets de cette année. Le barême choisi se résume ainsi :

  • 8 : le projet est mauvais,

  • 12 : le projet s’est arrête à la comparaison de modèles de machine learning,

  • 16 : le projet contient une idée originale, une analyse intéressantes des résultats,

  • 20 : les auteurs ont construit un raisonnement qui a abouti à un fait intéressant sur le jeu de données de départ.

Beaucoup de projets se sont conclus par un graphique comparant les performances de plusieurs modèles de machine learning sur une problématique précise, extraite d”UCI, Kaggle ou d’un autre site. Les enseignements qu’on peut en tirer sont assez pauvres si le projet s’arrête là. Il n’y a rien de répliquable à d’autres projets (méthodologie), ni rien qu’on puisse vraiment apprendre des données (domaine). Les premiers résultats intéressants viennent souvent d’une analyse d’erreurs qui consiste à comprendre pourquoi le modèle s’est trompé sur tel ou tel exemple avec un haut score de confiance.

Notes

Liens, notebooks prévus pour les séances pratiques.

Séance 2 Eco

Beaucoup de choses pour ce TD, voici ce que vous devez absolument avoir lu pendant les 3 heures.

Exercice à réaliser

Objectifs

  • avoir compris comment réaliser les différentes classes de modèles présentées (régression linéaire, ACP , logit)

  • avoir bien compris les notions de SQL utilisées dans le début de l’exercice

  • réaliser la regression demandée avec les deux packages proposés (scikit-learn et statsmodels)

Pour aller plus loin :