XD blog

blog page


2017-03-13 Table ronde sur la numérisation de l'Etat

9 mars. J'assiste à une table ronde autour de la numérisation et la simplification de l'état. Ca bouge beaucoup et bien. Quelques pitchs qui commencent toujours par ce qui irrite et ce qui est proposé. Les ministères communiquent entre eux et le modèle choisi est simple et efficace. Tout le monde communique via des API. Les ministères ne travaillent pas sur un immense système communs mais mettent à disposition des autres leurs données via une API. C'est plutôt futé. Chaque entité gère ses données et contrôle son accès. Les équipes fonctionnent en startup, pitch, font des prototypes en trois mois, on teste avec des cobayes, et passent à l'industrialisation si c'est convainquant. La loi a aussi changé, les échanges de données entre ministères sont gratuits, et un citoyen n'est plus obligé de renseigner ses informations plusieurs fois à partir du moment où ses données sont déjà détenues par un ministère. Il est en quelque sorte très démocratique puisque chaque service échange ce qu'il veut avec qui il veut. Il l'est aussi car l'état ne force pas la numérisation mais donne les moyens d'y parvenir. Regardez FranceConnect, DataAsso, Palyma, Miquado Idée, Alicem, Liquid immat, ApiCarto. Le tout est chapeauté par SGMAT.

On parle d'agilité. Il faut beaucoup de temps pour former quelqu'un à être agile.


more...

2017-02-25 Système de votes

Quelques articles intéressantes sur des systèmes de votes infalsifiables : Theoretical online voting system, Survey of Fully Verifiable Voting Cryptoschemes.

2017-02-24 Open Data

J'ai imaginé des énigmes algorithmiques ou de données. Rien de tel pour apprendre qu'un mystère. Je cherchais à reproduire ce que j'avais fait avec les données vélib sur Paris (Busy areas in Paris) mais pour une ville américaine. J'ai finalement opté pour Chicago car le site open data City Of Chicago est juste incroyable. Par comparaison, (Open Data Paris propose 204 jeux de données, Chicago 1097 et le site est plus simple d'utilisation. On ne trouve rien à Paris lorsqu'on cherche velib ou vélo et on trouve beaucoup de données lorsqu'on cherche bike à Chicago. A quand un seul point d'entrée pour tous les jeux de données ? Bref, l'énigme est accessible : City Bike. Il s'agit de trouver les zones habitées et les zones où l'on trouve une majorité de sociétés. L'énigme se termine par une question : que font les habitants de Chicago après le boulot ?

2017-02-16 Pourquoi je n'aime pas l'informatique

Ca c'est tout ce qui pète en ce moment. J'utilise Jenkins pour vérifier tous les notebooks que j'utilise pour mes enseignements. Un site web a décidé de rendre l'âme et boom deux ronds rouges. Et bim Python 3.6 est sorti. Et plein de rouge à nouveau.

Fais chier !

J'en suis à plus de 150 notebooks et ça prend cinq à six heures de tout tester.

Les ronds rouges, ça fait chier.

2017-02-12 Corrélation de variables catégorielles

Parmi toutes les questions, ce n'est pas l'une de celle qu'on m'a posée cette année et pourtant j'ai vu beaucoup de corrélations entre variables catégorielles. C'est très difficile d'en tirer quoi que ce soit. Au lieu d'essayer de répondre à cette question, je me suis dit qu'il serait sans doute plus amusant d'essayer de traficoter une corrélation entre catégorie qui ait plus de sens. Je me suis dirigé alors vers l'idée d'une corrélation non linéaire et puis sur le fait que si deux variables sont liées alors peut-être qu'on peut prédire l'une à partir de l'autre... Bref, si vous êtes curieux, la suite est là : Corrélations non linéaires.

2017-02-04 Loin des élections, Entrepreneur d'intérêt général, Algorithmes et transparence

J'avais beaucoup d'idées en commençant cet article et j'ai finalement opté pour la rédaction de sa diagonale. Je reviens sur le très cours article écrit sur le projet Entrepreneurs d'Intérêt Général auquel j'ai participé. La liste des lauréats a maintenant été publiée Découvrez la 1e promotion des Entrepreneurs d’intérêt général ! (voir aussi Les lauréats désignés et le dossier de presse). On y retrouve 10 candidats aux profils très variés dont deux que j'avais déjà croisés au cours de mes voyages professoriques. Marion Paclot qui a été élève à l'ENSAE et Frédéric Bardolle qui est le CTO de Data For Good. Pour la petite histoire, Data For Good est l'association qui m'a mis en contact avec la Croix-Rouge grâce à laquelle nous avons pu oragniser le premier hackathon de l'ENSAE. Au delà du fait que cette initiative me paraît très positive, j'ai découvert des personnes qui ont réussi à partager leur plaisir de travailler pour l'Etat. J'ai beaucoup apprécié faire partie du projet en tant que jury.

Depuis ce point de départ, je déroule la pelote des hyperliens et, loin des élections, je découvre l'image d'une administration qui bouge. C'est du moins l'image que j'en ai via Le portail de la modernisation de l'action publique et pour en avoir eu un aperçu de l'intérieur, je suis plutôt confiant que ces projets comme Les services publics se simplifient et innovent sont l'expression d'une réforme ou plutôt d'un mouvement continu de réforme qui dépasse les débats politiques. L'Etat met aussi à disposition des outils qui permettent d'en suivre l'avancement : Tableau de bord des services des services publics numériques - Edition 2016, liste des projets en cours. Les fonctionnaires ne sont pas les seuls à exprimer leurs envies pour l'Etat. Ce dernier organise des hackathons comme celui-ci Design à la BNF : 20 nouveaux services imaginés par les étudiants de l'ENSCI, une façon comme une autre de recueillir des idées imaginées par ceux qui en bénéficieront plus tard.


more...

2017-01-24 Python is better than Perl

Blindspot season 1, episode 6, from Anyone here a fan of "Blindspot"? They had a perl/python smackdown in the last episode.

You might agree or disagree. The fact is that's first time I heard Python in a TV show.

2017-01-09 Les journaux sont sur GitHub

Petit voyage sur GitHub : Los Angeles Time/datadesk, NYTimes, Le Monde, Libération. Je n'ai pas trouvé de GitHub pour Le Figaro. On ne voit que la partie visible mais dans l'ensemble, il y a surtout du javascript et peu de python. Les journaux américains paraissent plus avancés que les journaux français. Le site la BBC proposent un package Python clever-thumbnailer capable d'extraire un échantillon d'une musique ou d'un extrait sonore.

2017-01-08 La chevauchée informatique de 100 notebooks

Articule publié dans Variances 18/01/2017.

Je coordonne et j'anime environ 60 heures de cours et travaux pratiques à l'ENSAE chaque année depuis trois ans et la création de la voix datascience. Si vous allez sur mon site, vous découvrirez que la plupart de ces heures s'appuient sur des exercices écrits sous formes de notebooks et qu'une bonne partie fonctionne par paire, un énoncé, une correction, d'autres contiennent la correction des examens, d'autres répondent à des questions d'étudiants, d'autres... Le notebook est apparu il y a une dizaine d'années et est récemment devenu populaire sous le nom Jupyter. Un notebook Jupyter est un endroit où on écrit du texte, des formules, du code et où on garde la trace des graphiques et des sorties que ces petits bouts de code ont produits. C'est même un lieu où on peut insérer une carte interactive pour zoomer ou dézoomer à volonté. C'est un outil qui a rapidement trouvé son public. Rares sont les professeurs de mathématiques ou d'informatiques qui n'ont pas de notebooks d'autant plus que les étudiants peuvent les télécharger, les exécuter, que tout le monde peut aisément les convertir en PDF, html ou présentations. Essayez, allez sur un moteur de recherche, écrivez le nom d'un professeur, d'une université suivi de notebook et github... (berkely notebook github) C'est un sacré chemin parcouru depuis les polycopiés qui sentaient l'alcool. Ce sont les premières reproduction de support pédagogique qu'il m'ait été donné de découvrir. Cela vous donne d'ailleurs une idée de mon âge. J'ai découvert l'école, j'ai vécu la transition du polycopié vers la photocopie. Un pas fou ! Et depuis je mets en ligne tout ce que je produis pour mes cours, plus d'une centaine de notebooks. Tout est accessible depuis GitHub, le lieu des projets open source, tout est compilé en plusieurs sites web.


more...

2017-01-01 Suite du hackathon

Un hackathon, une nuit blanche, des doutes. Ai-je assez travaillé sur les données ? Sont-elles assez propres ? Si la mauvaise qualité des données suscite l'imaganitation, j'ai eu quelques doutes à une heure avancée de la nuit, vers 4h du heures du matin, au moment où la fatigue vient à bout du plus tenace des étudiants. Je crois que je n'ai jamais vu autant de gens aussi motivés rassemblés au même endroit. Il y avait même une liste d'attente.

Comme l'année dernière, deux challenges, créatif et compétitif. Le premier était proposé par la Croix-Rouge qui proposait de se plonger dans la vie des bénévoles. Plus de 80.000 d'entre eux participent à l'action de la Croix-Rouge, tous de manière différente, qu'est-ce qui les motive ? Un groupe a remarqué qu'il y a avait quelques âges creux qui correspondait avec la venue du premier enfant. Les données proposées aux étudiants étaient plus complètes que celles disponibles sur data.gouv.fr.

Le second challenge, compétitif, proposait de prédire le caractère urgent d'un dossier de surendettement proposé par Crésus. De cette façon, il serait envisageable de passer plus de temps sur les dossiers considérés comme urgent. Les gagnants de ce challenge ont favorisé la qualité de la prédiction même si celle-ci était précise une part réduire des dossiers.

Vers 8h du matin samedi, les croissants ont été dévorés en 20 minutes. Refill. 10h du soir vendredi, sandwitch grecs. Les données, ça creuse. 4h. 4 chaises, c'est assez confortable, plus qu'une chaise.

à suivre

2016-12-20 Hackathon ENSAE numéro 2

Comme l'année dernière, l'organisation du second hackathon est allée crescendo durant le dernier mois jusqu'au 25 et 26 novembre. Il était sponsorisé par Ernst & Young et organisé par l'association Genius côté étudiants. Comme l'année dernière, les équipes devaient être composées d'étudiants des trois années et ce sont 70 participants qui ont passé la nuit chez Cap Digital dans le dixième arrondissement. Trois acteurs toujours, les étudiants de l'ENSAE, le sponsor EY et deux associations caritatives, La Croix-Rouge, et Crésus.

Il ne vaut mieux pas être d'un tempérament inquiet lorsqu'on se lance dans l'organisation de ce type d'événement. Comme l'année dernière, les deux challenges se sont dessinés quelques semaines avant l'événement, c'est-à-dire deux semaines après que le sponsor a accepté mais deux semaines avant que le lieu final ne soit choisi. J'ai passé deux petites heures chez La Croix-Rouge pour peaufiner le sujet à peu près 24h avant que la compétition ne commence.

Je vous en raconte un peu plus demain mais j'ai encore passé un moment incroyable. Vidéo : Hackathon ENSAE / EY / Genius 2016.

2016-12-02 Les outils de debugging des navigateurs

C'est une façon original de se server des outils de débugging d'une navigateur : Ras-le-bol de votre fil d’actus Facebook ? Voici comment le désactiver.

2016-12-01 Le papier...

Le papier est aux données ce que l'or est à la monnaie.

Je me demandais ce que deviendrait l'expression faire des faux papiers dans un monde numérique. Et puis j'ai eu un peur de ce fichier central qui regroupe toutes les informations devenant de ce fait le répertoire des identités. Plus facile à hacker qu'une multitude de fichiers.

2016-11-23 Les sondages ont tout faux

En guise d'introduction, je recopie ici un extrait d'André Malraux issues de l'article suivant : Malraux : ses étonnantes confidences au Figaro en 1967

[...] Je pense du Gallup [sondage] ce que je pense du carbone 14. Vous retrouvez, en faisant des fouilles, un morceau d'une matière qui a contenu du carbone. Bon. En l'analysant, il vous est facile de savoir quelle est sa quantité de carbone 14. Ce qui vous donne l'âge approximatif de l'objet trouvé. Pour un objet préhistorique, la méthode est excellente, parce que, à cinq cents ans près, elle est précise. Mais s'il s'agit d'un objet découvert dans un foyer allumé sous Louis XIV, mieux vaut ne pas insister. Il en est de même des sondages. Supposons que nous voulions savoir si, oui ou non, les garçons de 18 ans ont envie de voter. Un sondage nous renseignera vraiment. Mais s'il s'agit d'un problème où le sentiment public joue à 52 contre 48 — ce qui est souvent le cas en France — on arrive souvent à un résultat incertain. Dernier point. Au début, nous avons fait des sondages avec des agents qui avaient souvent des passions politiques. Or le gallup ne peut être sérieux qu'à condition d'être fait par des enquêteurs indifférents. Prenez des collectionneurs de papillons, des farfelus complets, sachant à peine qui est le général de Gaulle, M. Mitterrand, M. Mendès-France ou M. Waldeck Rochet. Le travail sera à peu près rigoureux. Si, au contraire, vous avez affaire à des passionnés, c'est la catastrophe.

La précision d'un sondage est assez faible lorsqu'on interroge 1000 personnes : Exemple I : Application aux présidentielles. Tout au plus, la méthode dégage une tendance. Ce qui étonne à propos des élections présidentielles aux Etats-Unis ou de la primaire de la droite en France, le gagnant n'a jamais été en tête dans les sondages. A priori, même si les sondages ne sont que des tendances, l'accumulation des chiffres finit se muer en certitude. Qu'est-ce qui n'a pas marché alors ?


more...

2016-11-21 Liens GitHub

Tous les notebooks sont maintenant facilement accessibles sur GitHub : DataFrame et Graphes. Il en est de même pour les fonctions et classes enumerate_permutations.


<-- -->

Xavier Dupré