Devinettes 2016

Q1 : groupby et NaN

Que se passe-t-il lorsqu’on application un groupby (dataframe) sur une colonne qui contient des valeurs manquantes ?

Elles ne sont tout simplement pas prise en compte.

Pandas et groupby.

Q2 : float et double

En informatique, on utilise deux types de réels, les float (4 octets) et les double (8 octets = plus précis). Pourquoi quelques librairies de machine learning utilisent des float ? (comme xgboost, ou scikit-learn).

Même si les float sont deux fois plus petits, les processeurs 64 bit sont aussi rapides pour faire du calcul en double précision (lire aussi SIMD). Le principal avantage est l’emprunte mémoire réduite de moitié avec des floats. Côté GPU, les cartes graphiques capables de calcul avec des doubles sont significativement plus chère et cette précision pour la génération d’images virtuelles.

Q3 : imbalanced

Un jeu de données imabalenced

Q4 : multiclass et imabalanced