Hackathon Microsoft / ENSAE / Croix-Rouge / DataForGood - 2015

../_images/logo_hackathon.png

The hackathon was sponsored by Microsoft, the participants were ENSAE’s students and they worked on data from La Croix-Rouge. See Hackathon, photos, vidéo.

Documentation

Comment démarrer ?

Les tables sont grandes, plus de 10 Go, il est quasiment impossible de les charger en mémoire. Votre ordinateur n’est pas assez puissant mais ce n’est pas un problème, il suffit de démarrer une machine virtuelle sur Azure, assez puissante, pour commencer à regarder les données. Vous pouvez regarder la section suivante pour voir comment faire.

Helpers, notebooks and passwords

The two following notebooks requires access to an Azure Blob Storage. The credentials to access it can be stored in environment variable CRCREDENTIALS with following format:

<blob storage name>**<access key>

Encrypted data available in this module can be accessed setting up environment variable PWDCROIXROUGE with with password.

Après la compétition

Take Away

La définition de la problématique décrite comme une compétition était identique pour tous les participants puisqu’il fallait produire le même type résultat à savoir une prédiction à 15 jours du nombre de bénéficiaires attendus dans chaque unité de distribution. Mais les différents chemins suivis, les études menées sur les données pour valider telle ou telle hypothèse ont tout autant apporté d’enseignements dans la façon d’aborder le problème que la qualité de la prédiction finale. Cette phase exploratoire en parallèle, ludique, qui n’était ni l’application d’un cours, ni un travail au sens où il n’y avait pas d’obligation de résultats, a produit beaucoup d’idées qui seront assemblées lors de la conception du modèle prédictif final.

Quelques enseignements tirés du hackathon qui donne un aperçu des paramètres pris en compte par les participants pour construire leur modèle de prédiction. Un groupe a étudié la récurrence de certains bénéficiaires, si on restreint la population à ces candidats réguliers, la prédiction est nettement meilleure. Un centre peut fermer temporairement, les bénéficiaires se répartissent ailleurs, chez la Croix-Rouge ou chez une autre association. C’est pourquoi il apparaît plus simple de prédire d’abord sur de grandes régions puis de propager la prédiction centre par centre. Ce même procédé d’agglomération peut être utilisé pour le temps : on prédit d’abord à la semaine puis on répartit cette prédiction pour chaque jour de la semaine. Les séries agrégées sont moins bruitées.

Photos

../_images/h2015_1.jpg ../_images/h2015_2.jpg ../_images/h2015_3.jpg ../_images/h2015_4.jpg

Un visage après une nuit quasiment sans dormir :

../_images/xd_image.png

Agenda

Lieu : Centre de Conference Microsoft

Agenda vendredi 27 novembre

  • 14h00 - Introduction Pierre-Louis Xech
  • 14h05 - Julien Pouget, directeur de l’ENSAE
  • 14h15 - Kenji Takeda
  • 14h25 - Jean-François Recco, Lauriane Nicol - BioCycle - le monde caritatif et l’importance des données
  • 14h35 - Laurent Monnet - Croix-Rouge - présentation et enjeux
  • 14h50 - DataForGood - un peu plus sur les données
  • 15h05 - Question / Réponses
  • 15h25 - tutorials - début du hackathon
  • 15h30 - Xavier Dupré - accès aux données
  • 15h40 - Benjamin Guinebertière - Azure tutorial

Agenda samedi 28 novembre

  • 17h00 - fin du hackathon
  • 17h20 - jury
  • 18h20 - délibération
  • 18h40 - remise des prix
  • 20h00 - afterwork