XD blog

blog page


2016-11-23 Les sondages ont tout faux

En guise d'introduction, je recopie ici un extrait d'André Malraux issues de l'article suivant : Malraux : ses étonnantes confidences au Figaro en 1967

[...] Je pense du Gallup [sondage] ce que je pense du carbone 14. Vous retrouvez, en faisant des fouilles, un morceau d'une matière qui a contenu du carbone. Bon. En l'analysant, il vous est facile de savoir quelle est sa quantité de carbone 14. Ce qui vous donne l'âge approximatif de l'objet trouvé. Pour un objet préhistorique, la méthode est excellente, parce que, à cinq cents ans près, elle est précise. Mais s'il s'agit d'un objet découvert dans un foyer allumé sous Louis XIV, mieux vaut ne pas insister. Il en est de même des sondages. Supposons que nous voulions savoir si, oui ou non, les garçons de 18 ans ont envie de voter. Un sondage nous renseignera vraiment. Mais s'il s'agit d'un problème où le sentiment public joue à 52 contre 48 — ce qui est souvent le cas en France — on arrive souvent à un résultat incertain. Dernier point. Au début, nous avons fait des sondages avec des agents qui avaient souvent des passions politiques. Or le gallup ne peut être sérieux qu'à condition d'être fait par des enquêteurs indifférents. Prenez des collectionneurs de papillons, des farfelus complets, sachant à peine qui est le général de Gaulle, M. Mitterrand, M. Mendès-France ou M. Waldeck Rochet. Le travail sera à peu près rigoureux. Si, au contraire, vous avez affaire à des passionnés, c'est la catastrophe.

La précision d'un sondage est assez faible lorsqu'on interroge 1000 personnes : Exemple I : Application aux présidentielles. Tout au plus, la méthode dégage une tendance. Ce qui étonne à propos des élections présidentielles aux Etats-Unis ou de la primaire de la droite en France, le gagnant n'a jamais été en tête dans les sondages. A priori, même si les sondages ne sont que des tendances, l'accumulation des chiffres finit se muer en certitude. Qu'est-ce qui n'a pas marché alors ?


more...

2016-11-21 Liens GitHub

Tous les notebooks sont maintenant facilement accessibles sur GitHub : DataFrame et Graphes. Il en est de même pour les fonctions et classes enumerate_permutations.

2016-11-19 Hackathon ENSAE - EY - Croix-Rouge - Crésus

Le premier hackathon organisé pour les étudiants de l'ENSAE a eu beaucoup de succès et l'édition numéro 2 est en préparation. Il est sponsorisé par Ernst & Young et organisé conjointement avec l'association Génius ENSAE. Ce hackathon reprend le thème caritatif avec les associations La Croix-Rouge et Crésus : Hackathon ENSAE 2016. ll aura lieu chez Cap Digitial le week-end prochain. Un peu plus sur le sujet bientôt.

Quelques articles autour du thème des données pour faire le bien pour exprimer le fait le big data ne fonctionne pas comme une boîte magique qui a réponse à tout. C'est avant tout une idée, un algorithme qui s'insinue dans le quotidien et modifie les habitudes. Elle automatise une partie du travail et a vocation à gérer tout tâche répétitive. Les algorithmes sont d'autant plus performant qu'on interagit avec eux. Et cela prend du temps ! J'ai testé Bob emploi : et si je devenais chauffeuse de salle ?, Paul Duan, ce petit génie des data qui vous veut du bien.

Le big data nécessite pour fonctionner de connaître nos habitudes pour proposer des solutions adaptées au plus près de nos besoins : 22 % de gaspillage alimentaire en moins dans les supermarchés (avec l'aide des big data). Nous n'aurons bientôt plus besoin d'acheter plus grand et de jeter le bout des manches. Pour conclure : Aujourd'hui dans un monde aux repères perturbés, il importe de réenchanter l'acte d'enseigner et d'apprendre..

2016-11-06 Entrepreneurs d'Intérêt Général

Le gouvernement lance un programme intéressant : Entrepreneurs d'Intérêt Général. 10 projets à mener par 10 lauréats choisis sur audition, rémunérés par un CDD, ses problématiques liées au numérique. Clôture des candidatures : 21 novmbre 2016.

2016-10-21 J'aimerais avoir le temps de lire

Si j'avais le temps entre la préparation de mes cours et tout le reste, je m'arrêterais une journée pour lire JMLR. J'étais étonné de constater qu'il y a régulièrement des articles sur des librairies de calculs et que celle-ci sont plus souvent en Python. Quelques articles :

Parmi les librairies, la dernière est intéressante. Le calcul GPU cherche encore son standard.

2016-10-18 Regard personnel sur le Big Data

Regard personnel sur le Big Data paru dans Variances.

2016-10-13 Histoire de données et éléments de réflexions pour l'avenir

Lectures intéressantes parues dans Variances.

2016-10-12 Convertir un notebook après filtrage

On m'a demandé récemment s'il était possible de convertir un notebook au format PDF après avoir supprimé les portions de code. La réponse est oui : Export a notebook with no code.

2016-09-25 add_notebook_menu

La plupart des notebooks que je créé commencent par ces deux lignes.

from pyquickhelper.ipythonhelper import add_notebook_menu
add_notebook_menu()

La fonction ajoute une bout de javascript qui produit un menu permettant d'accéder directement à tel ou tel paragraphe. Si la fonction ne fonctionne, c'est que le module pyquickhelper n'est pas installé. Ce n'est pas très grave dans la mesure ou la plupart du temps, le module n'est pas utilisé autrement que pour ce menu. Comme il requiert diverses dépendances, j'ai décidé d'extraire cette fonction et de la placer dans un module plus petit et sans dépendance : jyquickhelper. On peut maintenant écrire :

from jyquickhelper import add_notebook_menu
add_notebook_menu()

2016-09-21 A few tricks with Anaconda

Anaconda hides some undesirable behaviors sometimes. I ran into this one a few days ago: cannot import name 'QtCore' which I solved by applying the following trick: ImportError: cannot import name 'QtCore'. Another unexpected behavior happened when I tried to create a virtual environment on a different drive. Finally, I'd like to have a way to avoid copying everything when I need a new virtual environment. At least, this is what happens on Windows.

2016-09-20 Digging into a random forest

A few links. Help yourself. Interpreting random forests, Reading and interpreting random forest models, treeinterpreter.

2016-09-19 Apprendre la programmation avec Python

Je songe à donner une seconde vie au livre que j'ai écrit voici quelques années pour apprendre la programmation sous la même forme que celle que j'utilise pour mes enseignements. Apprendre la programmation avec Python.

2016-09-18 HDF5

A slightly biaised post is a good way to learn. See for example this one Moving away from HDF5 and the next one more objective Should you use HDF5?. The post is about publishing a blog post with Travis: Setting up a blog with Pelican and GitHub Pages. By following the link, you find a way to put private keys in your code Publish your Pelican blog on Github pages via Travis-CI.

2016-09-05 Reprise des cours

Et donc je n'ai pas trop le temps de blogger. J'ai jeté un coup d'oeil sur PyCon 2016. Pas mal de vidéo intéressante. Pour ceux qui préfèrent les maths, quelques jeux autour des systèmes de complétion. Mais je ne suis pas le seul artiste dans la famille. Si vous passez à Charleville.


more...

2016-08-16 Reading, modules about machine learning...

How to train a model with imbalanced datasets (not enough observation for a class), to do recommendations or to compute confidence intervals on prediction with a random forest? That's some of the answer the following extensions of scikit-learn try to answer.

Some papers. I will not probably have time to read more than one or two with the teachings preparation but I should to get more ideas about students projects.


<-- -->

Xavier Dupré