.. _kagglereview2017rst:

===================================
Revue de compétitions Kaggle (2017)
===================================


.. only:: html

    **Links:** :download:`notebook <kaggle_review_2017.ipynb>`, :downloadlink:`html <kaggle_review_20172html.html>`, :download:`PDF <kaggle_review_2017.pdf>`, :download:`python <kaggle_review_2017.py>`, :downloadlink:`slides <kaggle_review_2017.slides.html>`, :githublink:`GitHub|_doc/notebooks/2017/ensae/kaggle_review_2017.ipynb|*`


Les gagnants des compétitions `Kaggle <https://www.kaggle.com/>`__
décrivent parfois leurs solutions sur le blog de Kaggle `No Free
Hunch <http://blog.kaggle.com/>`__. Il y a toujours de bonnes idées à
glaner.

.. code:: ipython3

    %matplotlib inline
    from jyquickhelper import add_notebook_menu
    add_notebook_menu()


.. contents::
    :local:


Le `blog Kaggle <http://blog.kaggle.com/>`__ publie régulièrement des
interviews des gagnants des compétitions. C’est l’occasion de découvrir
la meilleur solution et les outils qui ont permis de la mettre en place.
Certains sujets sont des compétitions académiques et les gagnants
mettent parfois leur code à disposition sous Github.

The Nature Conservancy Fisheries Monitoring
-------------------------------------------

`kaggle <https://www.kaggle.com/c/the-nature-conservancy-fisheries-monitoring>`__


-  **Objectif :** classification d’images de poissons
-  **données :** images de poisssons et l’espèces à reconnaître

`The Nature Conservancy Fisheries Monitoring Competition, 1st Place
Winner’s Interview: Team ‘Towards Robust-Optimal Learning of
Learning’ <http://blog.kaggle.com/2017/07/07/the-nature-conservancy-fisheries-monitoring-competition-1st-place-winners-interview-team-towards-robust-optimal-learning-of-learning/>`__

Eléments clés de la solution
~~~~~~~~~~~~~~~~~~~~~~~~~~~~


-  La solution s’inspire de **transfer learning** :
   `VGG-16 <https://gist.github.com/baraldilorenzo/07d7802847aaad0a35d3>`__,
   `ResNet-101 <https://gist.github.com/flyyufelix/65018873f8cb2bbe95f429c474aa1294>`__.
-  Un modèle de **Fast-RNN** a été utilisée pour extraire les boîtes
   englobantes des poissons.
-  Les images étaient de **tailles différentes**, grandes et petites.
   Plutôt que de les normaliser toutes à la même taille, **deux
   modèles** pré-entraînés sur des tailles différentes ont été mis en
   concurrence.
-  Les images ont été réannotées avec des **boîtes englobantes
   polygonales**. Les poissons sur le pont d’un bateau sont différentes
   des images de poissons habituelles. Il fallait faire attention à ce
   que le modèle de classification n’utilise pas le bateau comme
   features pour classer un type de poisson que ce bateau pêche souvent.
-  La base d’images d’apprentissage a été augmentée avec des opérations
   classiques (**rotations, flous, …**)
-  Il y avait des **images prises de nuits** mais sous-représentées. Une
   des tâches à consister à créer plus d’images de nuits à partir des
   images prises de jours en redressant les distributions des couleurs.
-  Carte NVIDIA : 2x NVIDIA GTX 1080, 1x NVIDIA TITAN X
-  Le meilleur modèle a nécessité 4h d’apprentissage et nécessitait 0.5
   secondes pour la prédiction.

Sur GitHub :
`amsqr/Allen_AI_Kaggle <https://github.com/amsqr/Allen_AI_Kaggle>`__

Idées à récupérer
~~~~~~~~~~~~~~~~~


-  Le bateau et l’espèce de poisson étaient corrélés. Il fallait réduire
   cette corrélation.
-  Certaines images étaient très types (de nuit) et sous-représentées.
   Il a fallu redresser la base d’apprentissage de ces petits biais.
-  Transfer Learning en première approche.

Data Science Bowl 2017: Can you improve lung cancer detection?
--------------------------------------------------------------

`kaggle <https://www.kaggle.com/c/data-science-bowl-2017>`__


-  **objectif :** détecter la présence d’un cancer du poumon
-  **données :** scan 3D des poumons haute résolution

`2017 Data Science Bowl, Predicting Lung Cancer: 2nd Place Solution
Write-up, Daniel Hammack and Julian de
Wit <http://blog.kaggle.com/2017/06/29/2017-data-science-bowl-predicting-lung-cancer-2nd-place-solution-write-up-daniel-hammack-and-julian-de-wit/>`__,
`2nd place solution for the 2017 national datascience
bowl <http://juliandewit.github.io/kaggle-ndsb2017/>`__

Eléments de solutions
~~~~~~~~~~~~~~~~~~~~~


-  Les gagnants ont **augmentés leurs données** avec les résultats du
   challenge `Lung Nodule Andalysis
   2016 <https://luna16.grand-challenge.org/>`__ (de cet article
   `Validation, comparison, and combination of algorithms for automatic
   detection of pulmonary nodules in computed tomography images: The
   LUNA16
   challenge <http://www.medicalimageanalysisjournal.com/article/S1361-8415(17)30102-0/fulltext>`__),
   et des tutoriels `Full Preprocessing
   Tutorial <https://www.kaggle.com/gzuidhof/full-preprocessing-tutorial>`__
   ainsi que les
   `autres <https://www.kaggle.com/c/data-science-bowl-2017/kernels>`__
   comme celui-ci `Applying a 3D convolutional neural network to the
   data <https://www.kaggle.com/sentdex/first-pass-through-data-w-3d-convnet>`__
-  La première étape a été de **reconstituer les images 3D** (une image
   3D = séquence d’images 2D prise à intervalle régulier)
-  Le problèmes **a été modifié** en prédictions de la taille des
   nodules (à partir d’autres jeux de données
   `LIDC <https://www.ncbi.nlm.nih.gov/pubmed/18035277>`__) sur des
   bouts de scans puis prédiction de la probabilités de cancer.
-  Utilisation de la méthode `Curriculum
   Learning <https://ronan.collobert.com/pub/matos/2009_curriculum_icml.pdf>`__
   qui consiste à apprendre un modèle **d’abord sur des données
   propres** puis à ajouter petit à petit des exemples plus difficiles à
   classer.
-  Pas d’utilisation de modèles connus
   `U-net <https://arxiv.org/abs/1505.04597>`__ (modèles de deep
   learning spécialisés dans la segmentation d’images médicales) mais
   utilisation de **CNN sur des fenêtres glissantes**.
-  Le modèle `C3D <http://vlg.cs.dartmouth.edu/c3d/>`__ (**Convolution
   3D**) n’a pas marché tel quel mais le modèle final est très proche de
   la même architecture
   (`github/C3D <https://github.com/facebook/C3D>`__).
-  Deux auteurs, deux codes : `code
   1 <https://github.com/juliandewit/kaggle_ndsb2017>`__, `code
   2 <https://github.com/dhammack/DSB2017>`__,
   `rapport <https://github.com/dhammack/DSB2017/blob/master/dsb_2017_daniel_hammack.pdf>`__
   et autres références.
-  L’équipe arrivée 9ème a décrit sa solution `Predicting lung
   cancer <https://eliasvansteenkiste.github.io/machine%20learning/lung-cancer-pred/>`__
   - un peu plus clair et didactique.

Idées à récupérer
~~~~~~~~~~~~~~~~~


-  Utilisation de modèles existants pour prédire des résultats
   intermédiaires sur les nodules pour augmenter les données.
-  Exemple de code avec des modèles de convolution 3D.
-  Architecture gagnante : U-net](https://arxiv.org/abs/1505.04597),
   `C3D <http://vlg.cs.dartmouth.edu/c3d/>`__
-  Base de données médicales : `Lung Nodule Andalysis
   2016 <https://luna16.grand-challenge.org/>`__,
   `LIDC <https://www.ncbi.nlm.nih.gov/pubmed/18035277>`__

March Machine Learning Mania 2017: Predict the 2017 NCAA Basketball Tournament
------------------------------------------------------------------------------

`kaggle <https://www.kaggle.com/c/march-machine-learning-mania-2017>`__


-  **objectif :** prédire des résultats de basket-ball
-  **données :** données des matchs passés

`March Machine Learning Mania, 5th Place Winner’s Interview: David
Scott <http://blog.kaggle.com/2017/05/23/march-machine-learning-mania-5th-place-winners-interview-david-scott/>`__

Elements de solution
~~~~~~~~~~~~~~~~~~~~


-  Le participant arrivé 5ème est un **passionné de basket et de
   régression logistique** et c’est tout ce qu’il avouera.
-  Le premier a réutilisé la solution d’ancien vainqueur `Building an
   NCAA mens basketball predictive model and quantifying its
   success <https://arxiv.org/abs/1412.0248>`__.
-  Utilisation de `Linear Mixed Effects
   Models <http://www.statsmodels.org/dev/mixed_linear.html>`__ qui
   s’appliquent sur des **données non indépendantes** : utilisation
   d’une variable de groupe.
-  Le challenge était évalué avec la formule suivante :
   :math:`LogLoss = -\frac{1}{n} \sum_{i=1}^{n} y_i \log \hat{y_i} + (1-y_i) \log (1-\hat{y_i})`
   avec :math:`\hat{y_i}` la probabilité pour l’équipe 1 de battre
   l’équipe 2. Ce type d’erreur marche plutôt bien pour la régression
   logistique puisqu’elle optimise cette erreur.
-  Le gagnant a construit **15 features** issues de la connaissance du
   basket (degré d’offensivité…).
-  Il fallait aussi **prédire le gagnant d’un tournoi** : cette
   prédiction a été réalisée à partir de simulation faite à partir du
   modèle appris.

Idées à récupérer
~~~~~~~~~~~~~~~~~

-  Il vaut connaître le basket.

Dstl Satellite Imagery Feature Detection
----------------------------------------

`kaggle <https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection>`__


-  **objectif :** reconnaître des objets (voitures, bâtiments, routes,
   arbres, cours d’eau, lacs…) dans de grandes images satellites
-  **données :** grandes images satellistes, la même zone est recouverte
   avec différents types de capteurs (noir et blanc, infra…)

`Dstl Satellite Imagery Competition, 3rd Place Winners’ Interview:
Vladimir &
Sergey <http://blog.kaggle.com/2017/05/09/dstl-satellite-imagery-competition-3rd-place-winners-interview-vladimir-sergey/>`__

Eléments de la solution
~~~~~~~~~~~~~~~~~~~~~~~


-  Pas d’utilisation de `Fast-RNN <https://arxiv.org/abs/1506.01497>`__
   ou `SSD <https://arxiv.org/abs/1512.02325>`__ trop complexes à mettre
   en oeuvre.
-  **Distributions des classes** : il y a plus d’arbres que de voitures,
   les prédictions doivent refléter cette distribution. Il est possible
   de modifier les prédictions afin de respecter cette distribution.
-  Utilisation des **détecteurs d’images simples** tels que
   `NDWI <https://en.wikipedia.org/wiki/Normalized_difference_water_index>`__,
   cela marche assez bien pour les cours d’eau
-  Utilisation de **réseaux de neurones** :
   `u-net <https://arxiv.org/abs/1505.04597>`__,
   `Tiramisu <https://arxiv.org/abs/1611.09326>`__, un optimiseur
   différent `Incorporating Nesterov Momentum into
   Adam <http://cs229.stanford.edu/proj2015/054_report.pdf>`__
-  **Choisir les features** pour le réseau de neurones : RBG, M, P
   images, on laisse tomber
   `ECI <https://en.wikipedia.org/wiki/Enhanced_vegetation_index>`__,
   `SAVI <https://en.wikipedia.org/wiki/Soil-Adjusted_Vegetation_Index>`__,
   `NDWI <https://en.wikipedia.org/wiki/Normalized_difference_water_index>`__
-  **Découper les images** plutôt que les normaliser : un réseau de
   neurones est appliqué sur chaque image. Problème : les prédictions
   sont moins bonnes sur les bords. On résoud cela avec un quadrillage
   qui se superposent (**overlapping** grid) et on ajoute une couche
   dans le réseau de neurones qui enlève les bords
   `Cropping2D <https://keras.io/layers/convolutional/#cropping2d>`__.
-  Les images 3600x3600 ont été découpées en zones 112x112 : cela laisse
   des zones incomplètes de l’autre côté de l’image. Ces zones sont
   complétées avec une image symétrique (comme dans un miroir).
-  Prédire sur les images symétriques et réconcilier les prédictions.

Idées à retenir
~~~~~~~~~~~~~~~


-  Détecteurs d’images pour les arbres, les cours d’eau
   `ECI <https://en.wikipedia.org/wiki/Enhanced_vegetation_index>`__,
   `SAVI <https://en.wikipedia.org/wiki/Soil-Adjusted_Vegetation_Index>`__,
   `NDWI <https://en.wikipedia.org/wiki/Normalized_difference_water_index>`__
-  Corriger les sorties avec des informations sur une distribution a
   priori des objets à détecter

Autres compétitions
-------------------


-  `Two Sigma Financial Modeling Code Competition, 5th Place Winners’
   Interview: Team Best Fitting \| Bestfitting, Zero, &
   CircleCircle <http://blog.kaggle.com/2017/05/11/two-sigma-financial-modeling-code-competition-5th-place-winners-interview-team-best-fitting-bestfitting-zero-circlecircle/>`__
   - algorithme de trading, la solution est assez classique et introduit
   des caractéristiques que les modèles ont du mal à capturer comme des
   courtes périodes de fortes volatilités, des périodes assez calmes…


-  `Santander Product Recommendation Competition: 3rd Place Winner’s
   Interview, Ryuji
   Sakata <http://blog.kaggle.com/2017/02/22/santander-product-recommendation-competition-3rd-place-winners-interview-ryuji-sakata/>`__
   - recommandation de produits, ce participant a isolé deux catégories
   de produits (tendances inhabituelles pour l’un des groupes) pour
   lesquels deux modèles et deux jeux de features distincts ont été
   construits.


-  `Seizure Prediction Competition, 3rd Place Winner’s Interview: Gareth
   Jones <http://blog.kaggle.com/2017/01/10/seizure-prediction-competition-3rd-place-winners-interview-gareth-jones/>`__
   - prédire les crises (épilepsie, …). Les features s’appuient sur des
   électro-encéphalogramme (EEG). A noter l’utlisation de
   `RUSboost <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=9260A5C92AC5F8FA3B8590A53A06248D?doi=10.1.1.309.2305&rep=rep1&type=pdf>`__
   pour les problèmes de données mal balancées.