.. _centrale201606rst: ========================================= Big Data, Azure, Machine Learning, Python ========================================= .. only:: html **Links:** :download:`notebook `, :downloadlink:`html `, :download:`PDF `, :download:`python `, :downloadlink:`slides `, :githublink:`GitHub|_doc/notebooks/2016/centrale/centrale_201606.ipynb|*` Présentation à Centrale Paris - Juin 2016. `Xavier Dupré `__ ``xavier.dupre AT gmail.com`` Senior Engineer at **Microsoft France** on `Azure ML `__, **Teacher in Computer Science** at the `ENSAE `__ |Azure ML| |ENSAE| .. |Azure ML| image:: logo_azureml.png .. |ENSAE| image:: ENSAE_logo_developpe.jpg .. code:: ipython3 from jyquickhelper import add_notebook_menu add_notebook_menu() .. contents:: :local: Introduction ------------ **Expérience** - Microsoft, Bing, Azure - Enseignements, ENSAE, Formation professionnelle (Institut des actuaires) (+ 200 élèves, + 60h de cours) **Expertise** - Machine Learning (PhD) - Python - Map Reduce - Azure **Microsoft in universities** - `Microsoft, partenaire de la filière Data Science de l’ENSAE ParisTech avec Microsoft Azure Machine Learning `__ (2014) - `Developing the Next Wave of Data Scientists `__ (2015-2016) - Microsoft is one of the sponsors of the `DataScienceGame `__ (2016) `Microsoft - ENSAE - Hackathon `__ Que feriez-vous si ? ~~~~~~~~~~~~~~~~~~~~ - Statistiques descriptives sur un fichier de 1GO, 10Go, 100Go ? - Apprendre une régression logisitique sur … ? - Apprendre une forêt d’arbre sur … ? - Et si vous ceviez le faire toutes les semaines ? - Comment représenter 10M de points sur une carte ? Retour des étudiants à propos du hackathon : *C’était bien de se confronter à des données pas très propres.* Démarrage d’un cluster Hadoop sur Azure ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Cas concret 1 : système de recommandation, moteur de recherches --------------------------------------------------------------- - Système de recommandation, application chez Bing aux recherches associées - Quelques approches théoriques - La mise en pratique avec aux gros volumes de données - Optimisation sur Internet, apprentissage par renforcement Outils Big Data chez Microsoft / Azure -------------------------------------- - Cluster Map/Reduce, Azure ML, Machine Virtuelle, Power BI - Trois exemples d’utilisation (Machine Virtual, Azure ML, Cluster Hadoop) sur des jeux de données académiques - Quelques exercices Cas concret 2 : suggestions sur Internet ---------------------------------------- - Réflexions autour de l’impact d’un système de suggestions - Sur les utilisateurs - Sur les logs - Métriques : comment mesurer l’impact ? .. figure:: img_bing.png :alt: suggestion suggestion