.. _kagglereview2016rst:

===================================
Revue de compétitions Kaggle (2016)
===================================


.. only:: html

    **Links:** :download:`notebook <kaggle_review_2016.ipynb>`, :downloadlink:`html <kaggle_review_20162html.html>`, :download:`PDF <kaggle_review_2016.pdf>`, :download:`python <kaggle_review_2016.py>`, :downloadlink:`slides <kaggle_review_2016.slides.html>`, :githublink:`GitHub|_doc/notebooks/2016/ensae/kaggle_review_2016.ipynb|*`


Les gagnants des compétitions `Kaggle <https://www.kaggle.com/>`__
décrivent parfois leurs solutions sur le blog de Kaggle `No Free
Hunch <http://blog.kaggle.com/>`__. Il y a toujours de bonnes idées à
glaner.

.. code:: ipython3

    %matplotlib inline
    from jyquickhelper import add_notebook_menu
    add_notebook_menu()


.. contents::
    :local:


Le `blog Kaggle <http://blog.kaggle.com/>`__ publie régulièrement des
interviews des gagnants des compétitions. C’est l’occasion de découvrir
la meilleur solution et les outils qui ont permis de la mettre en place.
Certains sujets sont des compétitions académiques et les gagnants
mettent parfois leur code à disposition sous Github.

The Allen AI Science Challenge
------------------------------

`kaggle <https://www.kaggle.com/c/the-allen-ai-science-challenge>`__


-  **Objectif :** prédire la bonne réponse à un QCM
-  **données :** des QCM et leurs réponses

`The Allen AI Science Challenge, Winner’s Interview: 3rd place,
Alejandro
Mosquera <http://blog.kaggle.com/2016/04/09/the-allen-ai-science-challenge-winners-interview-3rd-place-alejandro-mosquera/>`__
(lire aussi `résumé des trois
solutions <https://gist.github.com/vihari/32b11ad1fac001cfab5981430ad8f36c>`__

Type de features
~~~~~~~~~~~~~~~~


-  ES_raw_lemma: IR scores by using ES and raw/lemmatized KB.
-  ES_lemma_regex: Regex scoring (number of characters matched) after IR
   results.
-  W2V_COSQA: Cosine similarity between question and answer embeddings.
-  CAT_A1: Is multiphrase question + short response?
-  CAT_A2: Is fill the \______\_ + no direct question + long response?
-  CAT_A3: Is multiphrase question + long response?
-  ANS_all_above: Is “all of the above” answer?
-  ANS_none_above: Is “none of the above” answer?
-  ANS_both: Is “both X and Y” answer?
-  ES_raw_lemmaLMJM: IR scores by using ES and raw/lemmatized KB with
   LMJM scoring.
-  ES_lemma_regexLMJM: Regex scoring (number of characters matched)
   after IR results using LMJM.

ES = Elastic search

Sur GitHub :
`amsqr/Allen_AI_Kaggle <https://github.com/amsqr/Allen_AI_Kaggle>`__

Idées à récupérer
~~~~~~~~~~~~~~~~~


-  ajout de données provenant de sources exéterieures aux problèmes
   (voir la liste des `ressources ajoutées par le
   vainqueur <https://github.com/Cardal/Kaggle_AllenAIscience/blob/master/README.txt#L23>`__).
-  calcul de statistiques sur des corpus plus grand que les données du
   problème
-  Code disponible sur GitHub : des exemples à récupérer
-  Utilisation de `BM25 <https://en.wikipedia.org/wiki/Okapi_BM25>`__,
   version améliorée du
   `TF-IDF <https://en.wikipedia.org/wiki/Tf%E2%80%93idf>`__

Predicting Red Hat Business Value
---------------------------------

`kaggle <https://www.kaggle.com/c/predicting-red-hat-business-value>`__


-  **Objectif :** déterminer le potentiel d’un client, ce potentiel est
   déterminé par la réalisation d’un événement dans une fenêtre de temps
-  **Données :** les données contiennent des informations sur les
   utilisateurs et sur leurs actions

`Red Hat Business Value Competition, 1st Place Winner’s Interview:
Darius
Barušauskas <http://blog.kaggle.com/2016/11/03/red-hat-business-value-competition-1st-place-winners-interview-darius-barusauskas/>`__

Points essentiels
~~~~~~~~~~~~~~~~~


-  **leakage** (1) : il y avait un *data leakage* pour une partie de la
   base, le gagnant a choisi d’utiliser deux stratégies différentes sur
   ces deux parties
-  **leakage** (2) : le gagnant a utilisé cette fuite pour construire un
   modèle qui puisse servir pour les données qui ne bénéficiaient pas
   cette fuite
-  **features agrégées :** il fallait construire des statistiques
   agrégées par la compagnie du client de Red Hat (plusieurs clients
   pour une même compagnie)

TalkingData Mobile User Demographics
------------------------------------

`kaggle <https://www.kaggle.com/c/talkingdata-mobile-user-demographics>`__


-  **Objectif :** décrire une personne (sexe, âge) en fonction de
   l’utilisation de son téléphone
-  **Données :** décription des téléphones et des événements se
   rapportant à plusieurs personnes

`TalkingData Mobile User Demographics Competition, Winners’ Interview:
3rd Place, Team utc(+1,-3) \| Danijel &
Matias <http://blog.kaggle.com/2016/10/19/talkingdata-mobile-user-demographics-competition-winners-interview-3rd-place-team-utc1-3-danijel-matias/>`__

Idées intéressantes
~~~~~~~~~~~~~~~~~~~


-  TF-IDF : appliqué dans un cas non typique (marques, modèles de
   téléphones)
-  utilisation de
   `keras <https://www.kaggle.com/chechir/talkingdata-mobile-user-demographics/keras-on-labels-and-brands>`__
-  utilisation de `matrice
   sparse <https://en.wikipedia.org/wiki/Sparse_matrix>`__
-  xgboost et les réseaux de neurones ont obtenu leurs meilleurs
   performances avec des features différentes
-  modélisation du problème : prédire d’abord le genre puis utiliser ce
   résultat comme feature pour prédire la classe d’âge
   :math:`P(A_i,F)=P(A_i|F)P(F)`

Grupo Bimbo Inventory Demand
----------------------------

`kaggle <https://www.kaggle.com/c/grupo-bimbo-inventory-demand>`__


-  **Objectif :** prédire la demande (limiter les stocks, limiter la
   surproduction)
-  **Données :** ventes passées

`Grupo Bimbo Inventory Demand, Winners’ Interview: Clustifier & Alex &
Andrey <http://blog.kaggle.com/2016/09/27/grupo-bimbo-inventory-demand-winners-interviewclustifier-alex-andrey/>`__

faits notables
~~~~~~~~~~~~~~


-  Truncated SVD on TF-IDF matrix of client and product names
-  Soin particulier apportés aux features :
-  utilisation de model
   `FTRL <http://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf>`__,
   FFM :
   `script <https://www.kaggle.com/jiweiliu/springleaf-marketing-response/ftrl-starter-code>`__
   : le modèle FTRL vient du domaine des publicités sur internet pour
   lesquels il faut prédire la probabilité d’un click. FTRL est un
   modèle de `online
   training <https://en.wikipedia.org/wiki/Online_machine_learning>`__
   qui permet de mettre à jour le modèle au fur et à mesure que les
   données sont découvertes. Cela suppose que les données sont
   séquentielles dans le temps.
-  le gagnant a suivi le cours de `Alexander
   D’yakonov <http://alexanderdyakonov.narod.ru/engpapers.htm>`__ qui a
   écrit `Two Recommendation Algorithms Based on Deformed Linear
   Combinations <http://ceur-ws.org/Vol-770/paper5.pdf>`__

Facebook V: Predicting Check Ins
--------------------------------

`kaggle <https://www.kaggle.com/c/facebook-v-predicting-check-ins>`__


-  **Objectif :** on connaît (x, y, location accuracy, timestamp) et il
   faut prédire un business id

Trois solutions :


-  `Facebook V: Predicting Check Ins, Winner’s Interview: 1st Place, Tom
   Van de
   Wiele <http://blog.kaggle.com/2016/08/16/facebook-v-predicting-check-ins-winners-interview-1st-place-tom-van-de-wiele/>`__
-  `Facebook V: Predicting Check Ins, Winner’s Interview: 2nd Place,
   Markus
   Kliegl <http://blog.kaggle.com/2016/08/02/facebook-v-predicting-check-ins-winners-interview-2nd-place-markus-kliegl/>`__
-  `Facebook V: Predicting Check Ins, Winner’s Interview: 3rd Place,
   Ryuji
   Sakata <http://blog.kaggle.com/2016/08/18/facebook-v-predicting-check-ins-winners-interview-3rd-place-ryuji-sakata/>`__

Obstacles et solutions
~~~~~~~~~~~~~~~~~~~~~~


-  multi-class : impossible d’utiliser un modèle multi-class, trop de
   choix, la performance est mauvaise
-  approche 1 : transformer le problème en un problème de ranking
   (approche moteur de recherche), des heuristiques produisent 20
   candidats qu’un modèle viendra *“scorer”*
-  approche 2 :
   :math:`P(business id | x, y, accuracy, time) \propto P(x, y, accuracy, time |place) P(place)`

Avito Duplicate Ads Detection
-----------------------------

`kaggle <https://www.kaggle.com/c/avito-duplicate-ads-detection>`__


-  **Objectif :** trouver des publicités en double dans une base de
   publicités
-  **Données :** images et textes des publicités


-  `Avito Duplicate Ads Detection, Winners’ Interview: 1st Place Team,
   Devil Team \| Stanislav Semenov & Dmitrii
   Tsybulevskii <http://blog.kaggle.com/2016/08/24/avito-duplicate-ads-detection-winners-interview-1st-place-team-devil-team-stanislav-dmitrii/>`__
-  `Avito Duplicate Ads Detection, Winners’ Interview: 2nd Place, Team
   TheQuants \| Mikel, Peter, Marios, &
   Sonny <http://blog.kaggle.com/2016/08/31/avito-duplicate-ads-detection-winners-interview-2nd-place-team-the-quants-mikel-peter-marios-sonny/>`__

Points intéressants
~~~~~~~~~~~~~~~~~~~


-  features calculées sur une grande variétés de supports (image, texte,
   titre, description, marques, prix, localisation) –> `grande liste de
   features <http://blog.kaggle.com/2016/08/31/avito-duplicate-ads-detection-winners-interview-2nd-place-team-the-quants-mikel-peter-marios-sonny/>`__,
   `weights of
   evidence <http://www.listendata.com/2015/03/weight-of-evidence-woe-and-information.html>`__
-  problème de préparation des données : les labels étaient données sous
   forme de paires pub i = pub j –> comment séparés en base
   d’apprentissage et de test pour éviter les problèmes d’overfitting
-  le gagnant a utilisé des modèles de deep learning préentraînés `Full
   ImageNet
   Network <https://github.com/dmlc/mxnet-model-gallery/blob/master/imagenet-21k-inception.md>`__,
   il n’a pas utilisé sa sortie mais le résultat d’une couche
   intermédiaire

Draper Satellite Image Chronology
---------------------------------

`kaggle <https://www.kaggle.com/c/draper-satellite-image-chronology>`__


-  **Objectifs :** ordonner dans le temps des images du même lieu
-  **Données :** des images ordonnées


-  `Draper Satellite Image Chronology: Pure ML Solution \| Vicens
   Gaitan <http://blog.kaggle.com/2016/09/15/draper-satellite-image-chronology-machine-learning-solution-vicens-gaitan/>`__
-  `Draper Satellite Image Chronology: Pure ML Solution \| Damien
   Soukhavong <http://blog.kaggle.com/2016/09/08/draper-satellite-image-chronology-damien-soukhavong/>`__

Points intéressants
~~~~~~~~~~~~~~~~~~~


-  le
   `notebook <https://www.kaggle.com/vicensgaitan/draper-satellite-image-chronology/image-registration-the-r-way/notebook>`__
   par l’auteur de la première solution explique comment faire du
   matching d’une image et c’est très clair
-  `Fast Explicit Diffusion for Accelerated Features in Nonlinear Scale
   Spaces <http://isit.u-clermont1.fr/~ab/Publications/Alcantarilla_etal_BMVC13.pdf>`__,
   `AKAZE <http://docs.opencv.org/3.0-beta/doc/tutorials/features2d/akaze_matching/akaze_matching.html#akaze>`__
-  `RANSAC <https://en.wikipedia.org/wiki/Random_sample_consensus>`__

Yelp Restaurant Photo Classification
------------------------------------

`kaggle <https://www.kaggle.com/c/yelp-restaurant-photo-classification>`__


-  **Objectifs :** classer des photos de restaurants, particularité, une
   photo peut avoir plusieurs labels
-  **Données :** des images en entrées, des labels à prédire en sortie,
   0: good_for_lunch 1: good_for_dinner 2: takes_reservations 3:
   outdoor_seating 4: restaurant_is_expensive 5: has_alcohol 6:
   has_table_service 7: ambience_is_classy 8: good_for_kids

`Yelp Restaurant Photo Classification, Winner’s Interview: 1st Place,
Dmitrii
Tsybulevskii <http://blog.kaggle.com/2016/04/28/yelp-restaurant-photo-classification-winners-interview-1st-place-dmitrii-tsybulevskii/>`__

Points intéressants
~~~~~~~~~~~~~~~~~~~


-  plusieurs idées pour traiter le cas multi-label
-  `Fisher
   Vectors <http://www.vlfeat.org/api/fisher-fundamentals.html>`__
-  `TruncatedSVD <http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html>`__
-  `Multiple Instance Classification: review, taxonomy and comparative
   study <http://158.109.8.37/files/Amo2013.pdf>`__
-  `Classifier Chains for Multi-label
   Classification <http://www.cs.waikato.ac.nz/ml/publications/2009/chains.pdf>`__
-  `Random k-Labelsets for Multi-Label
   Classification <http://lpis.csd.auth.gr/publications/tsoumakas-tkde10.pdf>`__
   : méthode moins performante pour ce problème