.. _l-devinettes-2016: Devinettes 2016 =============== Q1 : groupby et NaN +++++++++++++++++++ *Que se passe-t-il lorsqu'on application un groupby (dataframe) sur une colonne qui contient des valeurs manquantes ?* Elles ne sont tout simplement pas prise en compte. `Pandas et groupby `_. Q2 : float et double ++++++++++++++++++++ En informatique, on utilise deux types de réels, les float (4 octets) et les double (8 octets = plus précis). Pourquoi quelques librairies de machine learning utilisent des float ? (comme `xgboost `_, ou `scikit-learn `_). Même si les float sont deux fois plus petits, les processeurs 64 bit sont aussi rapides pour faire du calcul en double précision (lire aussi `SIMD `_). Le principal avantage est l'emprunte mémoire réduite de moitié avec des floats. Côté GPU, les cartes graphiques capables de calcul avec des doubles sont significativement plus chère et cette précision pour la génération d'images virtuelles. * `What Every Computer Scientist Should Know About Floating-Point Arithmetic `_ * `Random thoughts on High Performance Computing `_ Q3 : imbalanced +++++++++++++++ Un jeu de données `imabalenced `_ ... Q4 : multiclass et imabalanced ++++++++++++++++++++++++++++++