XD blog

blog page

~technical


2017-02-12 Corrélation de variables catégorielles

Parmi toutes les questions, ce n'est pas l'une de celle qu'on m'a posée cette année et pourtant j'ai vu beaucoup de corrélations entre variables catégorielles. C'est très difficile d'en tirer quoi que ce soit. Au lieu d'essayer de répondre à cette question, je me suis dit qu'il serait sans doute plus amusant d'essayer de traficoter une corrélation entre catégorie qui ait plus de sens. Je me suis dirigé alors vers l'idée d'une corrélation non linéaire et puis sur le fait que si deux variables sont liées alors peut-être qu'on peut prédire l'une à partir de l'autre... Bref, si vous êtes curieux, la suite est là : Corrélations non linéaires.

2017-02-04 Loin des élections, Entrepreneur d'intérêt général, Algorithmes et transparence

J'avais beaucoup d'idées en commençant cet article et j'ai finalement opté pour la rédaction de sa diagonale. Je reviens sur le très cours article écrit sur le projet Entrepreneurs d'Intérêt Général auquel j'ai participé. La liste des lauréats a maintenant été publiée Découvrez la 1e promotion des Entrepreneurs d’intérêt général ! (voir aussi Les lauréats désignés et le dossier de presse). On y retrouve 10 candidats aux profils très variés dont deux que j'avais déjà croisés au cours de mes voyages professoriques. Marion Paclot qui a été élève à l'ENSAE et Frédéric Bardolle qui est le CTO de Data For Good. Pour la petite histoire, Data For Good est l'association qui m'a mis en contact avec la Croix-Rouge grâce à laquelle nous avons pu oragniser le premier hackathon de l'ENSAE. Au delà du fait que cette initiative me paraît très positive, j'ai découvert des personnes qui ont réussi à partager leur plaisir de travailler pour l'Etat. J'ai beaucoup apprécié faire partie du projet en tant que jury.

Depuis ce point de départ, je déroule la pelote des hyperliens et, loin des élections, je découvre l'image d'une administration qui bouge. C'est du moins l'image que j'en ai via Le portail de la modernisation de l'action publique et pour en avoir eu un aperçu de l'intérieur, je suis plutôt confiant que ces projets comme Les services publics se simplifient et innovent sont l'expression d'une réforme ou plutôt d'un mouvement continu de réforme qui dépasse les débats politiques. L'Etat met aussi à disposition des outils qui permettent d'en suivre l'avancement : Tableau de bord des services des services publics numériques - Edition 2016, liste des projets en cours. Les fonctionnaires ne sont pas les seuls à exprimer leurs envies pour l'Etat. Ce dernier organise des hackathons comme celui-ci Design à la BNF : 20 nouveaux services imaginés par les étudiants de l'ENSCI, une façon comme une autre de recueillir des idées imaginées par ceux qui en bénéficieront plus tard.


more...

2017-01-24 Python is better than Perl

Blindspot season 1, episode 6, from Anyone here a fan of "Blindspot"? They had a perl/python smackdown in the last episode.

You might agree or disagree. The fact is that's first time I heard Python in a TV show.

2017-01-09 Les journaux sont sur GitHub

Petit voyage sur GitHub : Los Angeles Time/datadesk, NYTimes, Le Monde, Libération. Je n'ai pas trouvé de GitHub pour Le Figaro. On ne voit que la partie visible mais dans l'ensemble, il y a surtout du javascript et peu de python. Les journaux américains paraissent plus avancés que les journaux français. Le site la BBC proposent un package Python clever-thumbnailer capable d'extraire un échantillon d'une musique ou d'un extrait sonore.

2017-01-08 La chevauchée informatique de 100 notebooks

Articule publié dans Variances 18/01/2017.

Je coordonne et j'anime environ 60 heures de cours et travaux pratiques à l'ENSAE chaque année depuis trois ans et la création de la voix datascience. Si vous allez sur mon site, vous découvrirez que la plupart de ces heures s'appuient sur des exercices écrits sous formes de notebooks et qu'une bonne partie fonctionne par paire, un énoncé, une correction, d'autres contiennent la correction des examens, d'autres répondent à des questions d'étudiants, d'autres... Le notebook est apparu il y a une dizaine d'années et est récemment devenu populaire sous le nom Jupyter. Un notebook Jupyter est un endroit où on écrit du texte, des formules, du code et où on garde la trace des graphiques et des sorties que ces petits bouts de code ont produits. C'est même un lieu où on peut insérer une carte interactive pour zoomer ou dézoomer à volonté. C'est un outil qui a rapidement trouvé son public. Rares sont les professeurs de mathématiques ou d'informatiques qui n'ont pas de notebooks d'autant plus que les étudiants peuvent les télécharger, les exécuter, que tout le monde peut aisément les convertir en PDF, html ou présentations. Essayez, allez sur un moteur de recherche, écrivez le nom d'un professeur, d'une université suivi de notebook et github... (berkely notebook github) C'est un sacré chemin parcouru depuis les polycopiés qui sentaient l'alcool. Ce sont les premières reproduction de support pédagogique qu'il m'ait été donné de découvrir. Cela vous donne d'ailleurs une idée de mon âge. J'ai découvert l'école, j'ai vécu la transition du polycopié vers la photocopie. Un pas fou ! Et depuis je mets en ligne tout ce que je produis pour mes cours, plus d'une centaine de notebooks. Tout est accessible depuis GitHub, le lieu des projets open source, tout est compilé en plusieurs sites web.


more...

2016-11-21 Liens GitHub

Tous les notebooks sont maintenant facilement accessibles sur GitHub : DataFrame et Graphes. Il en est de même pour les fonctions et classes enumerate_permutations.

2016-10-12 Convertir un notebook après filtrage

On m'a demandé récemment s'il était possible de convertir un notebook au format PDF après avoir supprimé les portions de code. La réponse est oui : Export a notebook with no code.

2016-09-25 add_notebook_menu

La plupart des notebooks que je créé commencent par ces deux lignes.

from pyquickhelper.ipythonhelper import add_notebook_menu
add_notebook_menu()

La fonction ajoute une bout de javascript qui produit un menu permettant d'accéder directement à tel ou tel paragraphe. Si la fonction ne fonctionne, c'est que le module pyquickhelper n'est pas installé. Ce n'est pas très grave dans la mesure ou la plupart du temps, le module n'est pas utilisé autrement que pour ce menu. Comme il requiert diverses dépendances, j'ai décidé d'extraire cette fonction et de la placer dans un module plus petit et sans dépendance : jyquickhelper. On peut maintenant écrire :

from jyquickhelper import add_notebook_menu
add_notebook_menu()

2016-09-21 A few tricks with Anaconda

Anaconda hides some undesirable behaviors sometimes. I ran into this one a few days ago: cannot import name 'QtCore' which I solved by applying the following trick: ImportError: cannot import name 'QtCore'. Another unexpected behavior happened when I tried to create a virtual environment on a different drive. Finally, I'd like to have a way to avoid copying everything when I need a new virtual environment. At least, this is what happens on Windows.

2016-09-20 Digging into a random forest

A few links. Help yourself. Interpreting random forests, Reading and interpreting random forest models, treeinterpreter.

2016-09-19 Apprendre la programmation avec Python

Je songe à donner une seconde vie au livre que j'ai écrit voici quelques années pour apprendre la programmation sous la même forme que celle que j'utilise pour mes enseignements. Apprendre la programmation avec Python.

2016-09-18 HDF5

A slightly biaised post is a good way to learn. See for example this one Moving away from HDF5 and the next one more objective Should you use HDF5?. The post is about publishing a blog post with Travis: Setting up a blog with Pelican and GitHub Pages. By following the link, you find a way to put private keys in your code Publish your Pelican blog on Github pages via Travis-CI.

2016-09-05 Reprise des cours

Et donc je n'ai pas trop le temps de blogger. J'ai jeté un coup d'oeil sur PyCon 2016. Pas mal de vidéo intéressante. Pour ceux qui préfèrent les maths, quelques jeux autour des systèmes de complétion. Mais je ne suis pas le seul artiste dans la famille. Si vous passez à Charleville.


more...

2016-08-16 Reading, modules about machine learning...

How to train a model with imbalanced datasets (not enough observation for a class), to do recommendations or to compute confidence intervals on prediction with a random forest? That's some of the answer the following extensions of scikit-learn try to answer.

Some papers. I will not probably have time to read more than one or two with the teachings preparation but I should to get more ideas about students projects.

2016-08-11 Tous mes cours sont sur GitHub...

Et pour m'envoyer une correction, vous pouvez m'envoyer un mail ou utiliser le processus suivant : Editing files in your repository.


<-- -->

Xavier Dupré