XD blog

blog page


2017-01-08 La chevauchée informatique de 100 notebooks

Articule publié dans Variances 18/01/2017.

Je coordonne et j'anime environ 60 heures de cours et travaux pratiques à l'ENSAE chaque année depuis trois ans et la création de la voix datascience. Si vous allez sur mon site, vous découvrirez que la plupart de ces heures s'appuient sur des exercices écrits sous formes de notebooks et qu'une bonne partie fonctionne par paire, un énoncé, une correction, d'autres contiennent la correction des examens, d'autres répondent à des questions d'étudiants, d'autres... Le notebook est apparu il y a une dizaine d'années et est récemment devenu populaire sous le nom Jupyter. Un notebook Jupyter est un endroit où on écrit du texte, des formules, du code et où on garde la trace des graphiques et des sorties que ces petits bouts de code ont produits. C'est même un lieu où on peut insérer une carte interactive pour zoomer ou dézoomer à volonté. C'est un outil qui a rapidement trouvé son public. Rares sont les professeurs de mathématiques ou d'informatiques qui n'ont pas de notebooks d'autant plus que les étudiants peuvent les télécharger, les exécuter, que tout le monde peut aisément les convertir en PDF, html ou présentations. Essayez, allez sur un moteur de recherche, écrivez le nom d'un professeur, d'une université suivi de notebook et github... (berkely notebook github) C'est un sacré chemin parcouru depuis les polycopiés qui sentaient l'alcool. Ce sont les premières reproduction de support pédagogique qu'il m'ait été donné de découvrir. Cela vous donne d'ailleurs une idée de mon âge. J'ai découvert l'école, j'ai vécu la transition du polycopié vers la photocopie. Un pas fou ! Et depuis je mets en ligne tout ce que je produis pour mes cours, plus d'une centaine de notebooks. Tout est accessible depuis GitHub, le lieu des projets open source, tout est compilé en plusieurs sites web.


more...

2017-01-01 Suite du hackathon

Un hackathon, une nuit blanche, des doutes. Ai-je assez travaillé sur les données ? Sont-elles assez propres ? Si la mauvaise qualité des données suscite l'imaganitation, j'ai eu quelques doutes à une heure avancée de la nuit, vers 4h du heures du matin, au moment où la fatigue vient à bout du plus tenace des étudiants. Je crois que je n'ai jamais vu autant de gens aussi motivés rassemblés au même endroit. Il y avait même une liste d'attente.

Comme l'année dernière, deux challenges, créatif et compétitif. Le premier était proposé par la Croix-Rouge qui proposait de se plonger dans la vie des bénévoles. Plus de 80.000 d'entre eux participent à l'action de la Croix-Rouge, tous de manière différente, qu'est-ce qui les motive ? Un groupe a remarqué qu'il y a avait quelques âges creux qui correspondait avec la venue du premier enfant. Les données proposées aux étudiants étaient plus complètes que celles disponibles sur data.gouv.fr.

Le second challenge, compétitif, proposait de prédire le caractère urgent d'un dossier de surendettement proposé par Crésus. De cette façon, il serait envisageable de passer plus de temps sur les dossiers considérés comme urgent. Les gagnants de ce challenge ont favorisé la qualité de la prédiction même si celle-ci était précise une part réduire des dossiers.

Vers 8h du matin samedi, les croissants ont été dévorés en 20 minutes. Refill. 10h du soir vendredi, sandwitch grecs. Les données, ça creuse. 4h. 4 chaises, c'est assez confortable, plus qu'une chaise.

à suivre

2016-12-20 Hackathon ENSAE numéro 2

Comme l'année dernière, l'organisation du second hackathon est allée crescendo durant le dernier mois jusqu'au 25 et 26 novembre. Il était sponsorisé par Ernst & Young et organisé par l'association Genius côté étudiants. Comme l'année dernière, les équipes devaient être composées d'étudiants des trois années et ce sont 70 participants qui ont passé la nuit chez Cap Digital dans le dixième arrondissement. Trois acteurs toujours, les étudiants de l'ENSAE, le sponsor EY et deux associations caritatives, La Croix-Rouge, et Crésus.

Il ne vaut mieux pas être d'un tempérament inquiet lorsqu'on se lance dans l'organisation de ce type d'événement. Comme l'année dernière, les deux challenges se sont dessinés quelques semaines avant l'événement, c'est-à-dire deux semaines après que le sponsor a accepté mais deux semaines avant que le lieu final ne soit choisi. J'ai passé deux petites heures chez La Croix-Rouge pour peaufiner le sujet à peu près 24h avant que la compétition ne commence.

Je vous en raconte un peu plus demain mais j'ai encore passé un moment incroyable. Vidéo : Hackathon ENSAE / EY / Genius 2016.

2016-12-02 Les outils de debugging des navigateurs

C'est une façon original de se server des outils de débugging d'une navigateur : Ras-le-bol de votre fil d’actus Facebook ? Voici comment le désactiver.

2016-12-01 Le papier...

Le papier est aux données ce que l'or est à la monnaie.

Je me demandais ce que deviendrait l'expression faire des faux papiers dans un monde numérique. Et puis j'ai eu un peur de ce fichier central qui regroupe toutes les informations devenant de ce fait le répertoire des identités. Plus facile à hacker qu'une multitude de fichiers.

2016-11-23 Les sondages ont tout faux

En guise d'introduction, je recopie ici un extrait d'André Malraux issues de l'article suivant : Malraux : ses étonnantes confidences au Figaro en 1967

[...] Je pense du Gallup [sondage] ce que je pense du carbone 14. Vous retrouvez, en faisant des fouilles, un morceau d'une matière qui a contenu du carbone. Bon. En l'analysant, il vous est facile de savoir quelle est sa quantité de carbone 14. Ce qui vous donne l'âge approximatif de l'objet trouvé. Pour un objet préhistorique, la méthode est excellente, parce que, à cinq cents ans près, elle est précise. Mais s'il s'agit d'un objet découvert dans un foyer allumé sous Louis XIV, mieux vaut ne pas insister. Il en est de même des sondages. Supposons que nous voulions savoir si, oui ou non, les garçons de 18 ans ont envie de voter. Un sondage nous renseignera vraiment. Mais s'il s'agit d'un problème où le sentiment public joue à 52 contre 48 — ce qui est souvent le cas en France — on arrive souvent à un résultat incertain. Dernier point. Au début, nous avons fait des sondages avec des agents qui avaient souvent des passions politiques. Or le gallup ne peut être sérieux qu'à condition d'être fait par des enquêteurs indifférents. Prenez des collectionneurs de papillons, des farfelus complets, sachant à peine qui est le général de Gaulle, M. Mitterrand, M. Mendès-France ou M. Waldeck Rochet. Le travail sera à peu près rigoureux. Si, au contraire, vous avez affaire à des passionnés, c'est la catastrophe.

La précision d'un sondage est assez faible lorsqu'on interroge 1000 personnes : Exemple I : Application aux présidentielles. Tout au plus, la méthode dégage une tendance. Ce qui étonne à propos des élections présidentielles aux Etats-Unis ou de la primaire de la droite en France, le gagnant n'a jamais été en tête dans les sondages. A priori, même si les sondages ne sont que des tendances, l'accumulation des chiffres finit se muer en certitude. Qu'est-ce qui n'a pas marché alors ?


more...

2016-11-21 Liens GitHub

Tous les notebooks sont maintenant facilement accessibles sur GitHub : DataFrame et Graphes. Il en est de même pour les fonctions et classes enumerate_permutations.

2016-11-19 Hackathon ENSAE - EY - Croix-Rouge - Crésus

Le premier hackathon organisé pour les étudiants de l'ENSAE a eu beaucoup de succès et l'édition numéro 2 est en préparation. Il est sponsorisé par Ernst & Young et organisé conjointement avec l'association Génius ENSAE. Ce hackathon reprend le thème caritatif avec les associations La Croix-Rouge et Crésus : Hackathon ENSAE 2016. ll aura lieu chez Cap Digitial le week-end prochain. Un peu plus sur le sujet bientôt.

Quelques articles autour du thème des données pour faire le bien pour exprimer le fait le big data ne fonctionne pas comme une boîte magique qui a réponse à tout. C'est avant tout une idée, un algorithme qui s'insinue dans le quotidien et modifie les habitudes. Elle automatise une partie du travail et a vocation à gérer tout tâche répétitive. Les algorithmes sont d'autant plus performant qu'on interagit avec eux. Et cela prend du temps ! J'ai testé Bob emploi : et si je devenais chauffeuse de salle ?, Paul Duan, ce petit génie des data qui vous veut du bien.

Le big data nécessite pour fonctionner de connaître nos habitudes pour proposer des solutions adaptées au plus près de nos besoins : 22 % de gaspillage alimentaire en moins dans les supermarchés (avec l'aide des big data). Nous n'aurons bientôt plus besoin d'acheter plus grand et de jeter le bout des manches. Pour conclure : Aujourd'hui dans un monde aux repères perturbés, il importe de réenchanter l'acte d'enseigner et d'apprendre..

2016-11-06 Entrepreneurs d'Intérêt Général

Le gouvernement lance un programme intéressant : Entrepreneurs d'Intérêt Général. 10 projets à mener par 10 lauréats choisis sur audition, rémunérés par un CDD, ses problématiques liées au numérique. Clôture des candidatures : 21 novmbre 2016.

2016-10-21 J'aimerais avoir le temps de lire

Si j'avais le temps entre la préparation de mes cours et tout le reste, je m'arrêterais une journée pour lire JMLR. J'étais étonné de constater qu'il y a régulièrement des articles sur des librairies de calculs et que celle-ci sont plus souvent en Python. Quelques articles :

Parmi les librairies, la dernière est intéressante. Le calcul GPU cherche encore son standard.

2016-10-18 Regard personnel sur le Big Data

Regard personnel sur le Big Data paru dans Variances.

2016-10-13 Histoire de données et éléments de réflexions pour l'avenir

Lectures intéressantes parues dans Variances.

2016-10-12 Convertir un notebook après filtrage

On m'a demandé récemment s'il était possible de convertir un notebook au format PDF après avoir supprimé les portions de code. La réponse est oui : Export a notebook with no code.

2016-09-25 add_notebook_menu

La plupart des notebooks que je créé commencent par ces deux lignes.

from pyquickhelper.ipythonhelper import add_notebook_menu
add_notebook_menu()

La fonction ajoute une bout de javascript qui produit un menu permettant d'accéder directement à tel ou tel paragraphe. Si la fonction ne fonctionne, c'est que le module pyquickhelper n'est pas installé. Ce n'est pas très grave dans la mesure ou la plupart du temps, le module n'est pas utilisé autrement que pour ce menu. Comme il requiert diverses dépendances, j'ai décidé d'extraire cette fonction et de la placer dans un module plus petit et sans dépendance : jyquickhelper. On peut maintenant écrire :

from jyquickhelper import add_notebook_menu
add_notebook_menu()

2016-09-21 A few tricks with Anaconda

Anaconda hides some undesirable behaviors sometimes. I ran into this one a few days ago: cannot import name 'QtCore' which I solved by applying the following trick: ImportError: cannot import name 'QtCore'. Another unexpected behavior happened when I tried to create a virtual environment on a different drive. Finally, I'd like to have a way to avoid copying everything when I need a new virtual environment. At least, this is what happens on Windows.


<-- -->

Xavier Dupré