Feuille de route 2019 (2A)

en préparation

Page principale du cours

Les cours et séances se déroulent sur 9 séances de 3h mardi matin. Le cours est divisé en deux pistes Stat et Eco qui correspondent aux profils décrits dans Les notions qu’il faut avoir comprises ou vues. Voici les principaux thèmes abordés durant le cours :

Commun data scientist - économiste

  • Pratique des principaux problèmes de machines Learning avec scikit-learn (classification, régression, clustering, prétraitement)

  • Visualisation des données

  • Construction d’un module python

  • Traitement des données textuelles (NLP, analyse de sentiments…)

Data scientiste

  • Implémentation de modèles personnalisés avec scikit-learn

  • Déploiement de modèles de machine Learning via des API rest

  • Problèmes moins fréquents de machine learning : apprentissage par renforcement, ranking, recommandation

Economiste

  • Rappel sur les notebooks, les dataframes, pandas, numpy, manipulation de données…

  • Cartographie

  • Ethique des données

  • Webscrapping, API et expressions régulières

  • Séries temporelles

Séance 1 - 10/9 - amphi - introduction

A faire pour la prochaine fois : exécuter trois notebooks, 1A.1 - D’une structure de données à l’autre, 1A.1 - Histogramme et dictionnaire, 2A.ml - Features ou modèle

suite à réécrire

Séance 2 - 17/9

DS - TD : régression quantile - détection d’anomalies

Eco - Cours : rappels pandas numpy matplotlib début scikit-learn

Séance 3 - 24/9

DS

Eco

Séance 4 - 1/10

DS

Eco

Séance 5 - 8/10

DS

Eco

Séance 6 - 15/10

DS

Eco

Séance 7 - 22/10

DS

Eco

Séance 8 - 5/11

DS

Eco

Séance 9 - 12/10

DS

Eco

Prérequis

Intervenants

Xavier Dupré, Anne Muller, Eliot Barril, Mayeul Picard, Frédéric Bardolle, Gaël Varoquaux.

Liens utiles et trop nombreux

Organisée comme une compétition, choisir un jeu de données sur UCI et enregister les performances. La séance commencera par le requêtage d’une API REST car la soumission se fera via une API et non via un site.

prévoir deux jeux d’apprentissage et de tests

Aborder les prétraitement comme la normalisation, la Réduction des dimensions.

  • normalisation,

  • Réduction des dimensions

  • traitement des catégories avec le jeu de données tiré de l’exemple Investigating dirty categories

  • comparaison de modèles, régression logistique, plus proche voisin, random forest, gradient boosting classifier, xgboost, lightgbm, catboost, Lasso, Ridge, toujours sous la forme d’une compétition

  • Ranking, détection d’anomalies, clustering, valeurs manquantes, recommandations, imbalanced classification

Toujours sous la forme d’une compétition