XD blog

blog page

~ENSAE


2017-04-26 dotAI

J'ai passé l'après-midi à la conférence dotAI. J'ai vu neuf présentations aux théâtres des variétés. Un lieu insolite pour ce genre d'événements. J'ai pris quelques notes que j'ai intégrées aux références du cours que je donne à l'ENSAE. C'est pourquoi vous les trouverez sous la forme d'un commit dotAI.

Le deep learning était la star de la conférence. La moitié des orateurs ont parlé de transfer learning. Je terminerai par deux librairies javascript reinforcejs et synaptic qui ne sont pas aussi puissantes que les outils disponibles en python mais plus vivants depuis une page web.

Bref, ce post est plus m'inciter à y retourner l'année prochaine que pour vous.

2017-04-07 Sherlock Holmes le détective des marginales

Même si je ne suis pas convaincu par la dernière saison, les premiers épisodes contiennent quelques séquences de déductions statistiques symbolisées par les incrustations à l'écran.

Le dessin animé Basil le détective livre aussi quelques séquences de réflexions intéressantes. Sherlock sait où on a le plus de chance de trouver un taxi à telle heure, le nombre de voyageurs problables dans telle zone de Londres, la durée de transport moyenne en fonction du traffic.

Sherlock se penche sur le corps d'une femme. Son manteau est mouillé et n'a pas eu le temps de sécher. La météo indique qu'il a plus au Sud de Londres il y a quelques heures. C'est comme si Sherlock faisait de la traingulation. Chaque indice réduit l'ensemble des possibilités à quelques unes. Plusieurs indices finissent par lui donner une image précise de la personne qu'il ausculte.

Pourquoi les lois marginales... Une personne regarde facebook tous les matins avant de partir au boulot. Si elle ne le fait pas un jour, c'est qu'il s'est peut-être passé quelque chose d'important le matin. Si on n'en sait pas plus, alors on utilise ce qu'on sait des gens en général, les lois marginales. Que les gens le matin ? Ils vont travailler. La personne en question a dû arriver en retard. On vérifie. C'est le cas. Lorsque Sherlock n'a pas assez d'indice, il fait des hypothèses en partant de que feraient les gens qui ressemblent au sujet de son enquête.

2017-01-08 La chevauchée informatique de 100 notebooks

Articule publié dans Variances 18/01/2017.

Je coordonne et j'anime environ 60 heures de cours et travaux pratiques à l'ENSAE chaque année depuis trois ans et la création de la voix datascience. Si vous allez sur mon site, vous découvrirez que la plupart de ces heures s'appuient sur des exercices écrits sous formes de notebooks et qu'une bonne partie fonctionne par paire, un énoncé, une correction, d'autres contiennent la correction des examens, d'autres répondent à des questions d'étudiants, d'autres... Le notebook est apparu il y a une dizaine d'années et est récemment devenu populaire sous le nom Jupyter. Un notebook Jupyter est un endroit où on écrit du texte, des formules, du code et où on garde la trace des graphiques et des sorties que ces petits bouts de code ont produits. C'est même un lieu où on peut insérer une carte interactive pour zoomer ou dézoomer à volonté. C'est un outil qui a rapidement trouvé son public. Rares sont les professeurs de mathématiques ou d'informatiques qui n'ont pas de notebooks d'autant plus que les étudiants peuvent les télécharger, les exécuter, que tout le monde peut aisément les convertir en PDF, html ou présentations. Essayez, allez sur un moteur de recherche, écrivez le nom d'un professeur, d'une université suivi de notebook et github... (berkely notebook github) C'est un sacré chemin parcouru depuis les polycopiés qui sentaient l'alcool. Ce sont les premières reproduction de support pédagogique qu'il m'ait été donné de découvrir. Cela vous donne d'ailleurs une idée de mon âge. J'ai découvert l'école, j'ai vécu la transition du polycopié vers la photocopie. Un pas fou ! Et depuis je mets en ligne tout ce que je produis pour mes cours, plus d'une centaine de notebooks. Tout est accessible depuis GitHub, le lieu des projets open source, tout est compilé en plusieurs sites web.


more...

2017-01-01 Suite du hackathon

Un hackathon, une nuit blanche, des doutes. Ai-je assez travaillé sur les données ? Sont-elles assez propres ? Si la mauvaise qualité des données suscite l'imaganitation, j'ai eu quelques doutes à une heure avancée de la nuit, vers 4h du heures du matin, au moment où la fatigue vient à bout du plus tenace des étudiants. Je crois que je n'ai jamais vu autant de gens aussi motivés rassemblés au même endroit. Il y avait même une liste d'attente.

Comme l'année dernière, deux challenges, créatif et compétitif. Le premier était proposé par la Croix-Rouge qui proposait de se plonger dans la vie des bénévoles. Plus de 80.000 d'entre eux participent à l'action de la Croix-Rouge, tous de manière différente, qu'est-ce qui les motive ? Un groupe a remarqué qu'il y a avait quelques âges creux qui correspondait avec la venue du premier enfant. Les données proposées aux étudiants étaient plus complètes que celles disponibles sur data.gouv.fr.

Le second challenge, compétitif, proposait de prédire le caractère urgent d'un dossier de surendettement proposé par Crésus. De cette façon, il serait envisageable de passer plus de temps sur les dossiers considérés comme urgent. Les gagnants de ce challenge ont favorisé la qualité de la prédiction même si celle-ci était précise une part réduire des dossiers.

Vers 8h du matin samedi, les croissants ont été dévorés en 20 minutes. Refill. 10h du soir vendredi, sandwitch grecs. Les données, ça creuse. 4h. 4 chaises, c'est assez confortable, plus qu'une chaise.

à suivre

2016-12-20 Hackathon ENSAE numéro 2

Comme l'année dernière, l'organisation du second hackathon est allée crescendo durant le dernier mois jusqu'au 25 et 26 novembre. Il était sponsorisé par Ernst & Young et organisé par l'association Genius côté étudiants. Comme l'année dernière, les équipes devaient être composées d'étudiants des trois années et ce sont 70 participants qui ont passé la nuit chez Cap Digital dans le dixième arrondissement. Trois acteurs toujours, les étudiants de l'ENSAE, le sponsor EY et deux associations caritatives, La Croix-Rouge, et Crésus.

Il ne vaut mieux pas être d'un tempérament inquiet lorsqu'on se lance dans l'organisation de ce type d'événement. Comme l'année dernière, les deux challenges se sont dessinés quelques semaines avant l'événement, c'est-à-dire deux semaines après que le sponsor a accepté mais deux semaines avant que le lieu final ne soit choisi. J'ai passé deux petites heures chez La Croix-Rouge pour peaufiner le sujet à peu près 24h avant que la compétition ne commence.

Je vous en raconte un peu plus demain mais j'ai encore passé un moment incroyable. Vidéo : Hackathon ENSAE / EY / Genius 2016.

2016-11-19 Hackathon ENSAE - EY - Croix-Rouge - Crésus

Le premier hackathon organisé pour les étudiants de l'ENSAE a eu beaucoup de succès et l'édition numéro 2 est en préparation. Il est sponsorisé par Ernst & Young et organisé conjointement avec l'association Génius ENSAE. Ce hackathon reprend le thème caritatif avec les associations La Croix-Rouge et Crésus : Hackathon ENSAE 2016. ll aura lieu chez Cap Digitial le week-end prochain. Un peu plus sur le sujet bientôt.

Quelques articles autour du thème des données pour faire le bien pour exprimer le fait le big data ne fonctionne pas comme une boîte magique qui a réponse à tout. C'est avant tout une idée, un algorithme qui s'insinue dans le quotidien et modifie les habitudes. Elle automatise une partie du travail et a vocation à gérer tout tâche répétitive. Les algorithmes sont d'autant plus performant qu'on interagit avec eux. Et cela prend du temps ! J'ai testé Bob emploi : et si je devenais chauffeuse de salle ?, Paul Duan, ce petit génie des data qui vous veut du bien.

Le big data nécessite pour fonctionner de connaître nos habitudes pour proposer des solutions adaptées au plus près de nos besoins : 22 % de gaspillage alimentaire en moins dans les supermarchés (avec l'aide des big data). Nous n'aurons bientôt plus besoin d'acheter plus grand et de jeter le bout des manches. Pour conclure : Aujourd'hui dans un monde aux repères perturbés, il importe de réenchanter l'acte d'enseigner et d'apprendre..

2016-11-06 Entrepreneurs d'Intérêt Général

Le gouvernement lance un programme intéressant : Entrepreneurs d'Intérêt Général. 10 projets à mener par 10 lauréats choisis sur audition, rémunérés par un CDD, ses problématiques liées au numérique. Clôture des candidatures : 21 novmbre 2016.

2016-10-21 J'aimerais avoir le temps de lire

Si j'avais le temps entre la préparation de mes cours et tout le reste, je m'arrêterais une journée pour lire JMLR. J'étais étonné de constater qu'il y a régulièrement des articles sur des librairies de calculs et que celle-ci sont plus souvent en Python. Quelques articles :

Parmi les librairies, la dernière est intéressante. Le calcul GPU cherche encore son standard.

2016-10-18 Regard personnel sur le Big Data

Regard personnel sur le Big Data paru dans Variances.

2016-10-13 Histoire de données et éléments de réflexions pour l'avenir

Lectures intéressantes parues dans Variances.

2016-06-14 Post de Microsoft sur le hackathon avec l'ENSAE et la Croix-Rouge

Je relaie les deux articles publiés par Microsoft à propos de la série de hackathons académiques dont celui organisé à Paris avec l'ENSAE et La Croix-Rouge : Developing the Next Wave of Data Scientists, Firing up next-generation data scientists. Le premier article contient un lien vers les vidéos réalisées pour chaque événement.

J'ai participé à celui-ci.

2016-05-25 2 Challenges Big Data

Data Science Game 2016 C'est une compétition internationale regroupant des équipes de 4 étudiants d'une même école (doctorants inclus !). L'évènement étant en partie créé par l'ENSAE, l'école se doit d'y participer! Princeton, la National University of Singapour, Télécom ou la TSE se sont déjà inscrits... Bref, l'évènement est parrainé par Capgemini et Microsoft, il y aura du beau monde et de la visibilité !

Paris Summer Innovation Fellowship En partie organisé par Data for Good x Bayes Impact, c'est un programme d'innovation intensif de 2 semaines pour vous permettre de développer un projet de data science à impact social. Les participants recevront une bourse de financement et des conseils d'experts tels que Paul Duan (fondateur de Bayes Impact), Rand Hindi (fondateur de Snips) ou Max Song (ex genetic engineer à la NASA). Ça se déroule dans les superbes locaux de FiveByFive (Paris 10ème) avec une présentation prévue à la mairie de Paris en septembre.

A propos des Big Data, Olivier Grisel (un des concepteurs de scikit-learn) est passé sur France Inter dans la tête au carré Nos vies à l'heure des "big data".

2015-11-30 Hackathon ENSAE - Microsoft - Croix-Rouge

Ce hackathon que j'ai contribué à organiser fait partie des moments que je ne pourrai jamais oublier tant il fut incroyable.

Un grand merci à toutes les personnes qui ont participé, en particulier les élèves qui ont montré une détermination sans faille jusqu'à la dernière minute.

2015-07-11 Apprendre à programmer, coding goûter

Ils sont de plus en plus populaires.

Quelques précédents liens déjà mentionnés : coding goûter.

2015-06-03 Le chapeau du Petit Prince

L'année scolaire se termine et je suis encore surpris d'être arrivé au bout. J'ai changé tous mes cours, utilisé les notebooks que je ne connaissais pas il y a un an, préparé deux autres cours qui ont quasiment doublé mes heures de présence à l'ENSAE. J'ai passé des heures, souvent nocturnes, à chercher comment lancer facilement des jobs sur des clusters depuis des notebooks. Je regarde un peu effaré le nombre de téléchargements (19.000 durant le dernier mois) d'un des modules que j'ai commencé voici un an et demi pour automatiser la mise à jour de mes cours, la conversion des notebooks en page HTML, en slides, en PDF, la récupération des mails envoyés par les élèves.

Je me suis beaucoup amusé. J'ai aussi été agréablement surpris de voir les élèves inonder les clusters de jobs, se lancer dans des projets de machine learning avec plaisir, se montrer curieux, apprendre la programmation et l'apprécier. Et le dire !

Je me souviens d'un jour où je me suis retrouvé à La Maison des Contes et des Histoires. Une conteuse et des enfants de trois à dix ans, ils étaient tous conquis au bout de vingt minutes. Je n'imaginais pas que je vivrais quelque chose de similaire cette année, des enfants de huit à quatorze ans, tous regroupés autour d'une histoire de données. Et j'ai créé un autre site lesenfantscodaient.fr pour dire que les histoires d'algorithmes ressemblent aussi beaucoup à ça :

Un grand merci à tous ceux qui m'ont permis de faire tout ça.


<-- -->

Xavier Dupré