:orphan: |rss_image| :ref:`<== ` **page de blog - 5/16** :ref:`==> ` :ref:`Blog ` :ref:`article (8) ` :ref:`articles (3) ` :ref:`cours (6) ` :ref:`module (7) ` :ref:`paper (3) ` .. |rss_image| image:: feed-icon-16x16.png :target: ../_downloads/rss.xml :alt: RSS ---- .. _ap-main-4: page de blog - 5/16 +++++++++++++++++++ .. blogpostagg:: :title: Articles :date: 2020-02-20 :keywords: articles :categories: papers :rawfile: 2020/2020-02-24_review.rst La librairie `deslib `_ implémente plusieurs algorithme de sélection de modèles sur des problèmes de classifications. Mais plutôt que de sélectionner un modèle ou un ensemble de modèle sur toutes la base, elle sélectionne les meilleurs modèles localement. On appelle cela la `sélection dynamique de classifieurs `_ (voir :ref:`l-dynamic-selection-ml`). ... .. blogpostagg:: :title: Kaggle... :date: 2019-12-05 :keywords: exercice :categories: kaggle :rawfile: 2019/2019-12_05_kaggle.rst :epkg:`Kaggle` propose des sujets principalement académiques depuis quelques années. Est-ce une bonne source de données pour un projet étudiant ? Ca l'a été. Maintenant, les étudiants n'ont plus grand chose à faire pour sortir de ce qui a déjà été fait. Le sujet `soccer `_ a été étudié sous toutes les coutures par beaucoup de gens qui laissent le fruit de leur travail sur le site. Un des derniers parus `Match Outcome Prediction Project `_ correspond à ce qu'on attend d'un futur datascientist. Il faudrait que je regarde ce que le site contient avant de me pencher sur le projet d'un étudiant qui a choisi ce jeu de données. Il serait possible de bannir *kaggle* de la liste des sources de données admissibles ou faire confiance aux étudiants. J'avoue qu'à leur âge, je ne lisais pas beaucoup, internet n'existait pas il est vrai. Mais ça m'amusait plus d'inventer mes propres trucs que de réutiliser ceux des autres qui marchaient pourtant bien. C'est comme ça que j'ai recodé plein de trucs inutiles pour le principe de faire quelque chose qui m'appartienne. Ou alors ça me paraissait plus simple d'inventer un truc nouveau que de comprendre le travail des autres. .. blogpostagg:: :title: Notebook maintenance :date: 2019-09-21 :keywords: exercice :categories: maintenance :rawfile: 2019/2019-09-21_issues.rst Je dis souvent en cours qu'un notebook pète tous les quinze jours. Le dernier :ref:`mltablemortaliterst` plante sur une instruction qui me fait penser que j'attendrais la prochaine version avant de me pencher dessus car je n'en comprends pas la logique. Je l'ai laissée avec une exception et j'ai ajouté une ligne équivalente mais très probablement moins efficace. Tout cela à cause de :epkg:`xarray`. Le monde open source est pavé de bonnes intentions. .. blogpostagg:: :title: Créer un exécutable :date: 2019-06-15 :keywords: setup,innosetup,pyinstaller :categories: installation :rawfile: 2019/2019-06-15_exe.rst On me pose parfois la question, comment faire pour créer son propre exécutable et ne pas avoir à installer python chez un client pour faire tourner ce qu'on a fait pour lui. Cet article y répond : `Making a Stand Alone Executable from a Python Script using PyInstaller `_. ... .. blogpostagg:: :title: Un module pour annoter les données :date: 2019-05-24 :keywords: smart,annotations,label :categories: annotation :rawfile: 2019/2019-05-24_smart.rst Le machine learning supervisé a besoin de données labellisées. Sans label, pas d'apprentissage, quand il n'y en a pas, il faut les fabriquer. C'est long, fastidieux mais on apprend beaucoup on labellisant ses données, il arrive souvent qu'on change la façon de le faire en les regardant. Toutefois, il faut le faire un jour. Je n'ai pas essayé l'outil suivant mais il pourrait aider : `SMART `_. .. blogpostagg:: :title: Quelques modules intéressants :date: 2019-05-20 :keywords: loguru,botflow,pandas :categories: modules :rawfile: 2019/2019-05-20_modules.rst Une liste de modules à suivre. Un benchmark sur :epkg:`pandas` pour commencer : `Fast-Pandas `_. On voit que en deça de 10.000 lignes, l'ordinateur passe son temps surtout dans le code python. Après, il fait enfin un peu de calcul. ... .. blogpostagg:: :title: Ludwig, machine learning et réchauffement climatique :date: 2019-02-20 :keywords: ludwig,Uber :categories: module :rawfile: 2019/2019-02-20_ludwig.rst Uber a sorti son module de machine learning `ludwig `_ (`documentation `_) qui automatise plein de choses pour une catégorie de problèmes de machine learning classique et deep. Certains apprentissages peuvent être parallélisés avec `mpi4py `_. J'ai fini sur le site de son auteur `Ryan Abernathey `_ qui étudie la circulation de l'eau autour du globe, ce qui m'a amené à `Pangeo `_ *A community platform for Big Data geoscience* et des jeux de données sur la Terre `Pangeo Data Catalog `_ ou encore le module `xgcm `_ qui pourrait être utile pour faire des simulations sur le réchauffement climatique. .. blogpostagg:: :title: Problème avec spacy :date: 2019-02-18 :keywords: spacy :categories: installation :rawfile: 2019/2019-02-18_spacy.rst Et voilà comment on peut perdre quelques heures à comprendre pourquoi un notebook qui fonctionnait ne fonctionne plus. C'est l'erreur que j'ai depuis quelques semaines déjà pour laquelle je ne peux pas vraiment mettre à jour certains modules sans rencontrer l'erreur suivante : ... .. blogpostagg:: :title: Pipeline et processeur :date: 2019-01-16 :keywords: CPU,pipeline :categories: performance :rawfile: 2019/2019-01-16_perf.rst Trois liens différents vers trois articles qui parlent tous du même sujet : `Why use an FPGA instead of a CPU or GPU? `_, `Why use an FPGA instead of a CPU or GPU? (Quora) `_, `Why Use an FPGA Instead of a CPU or GPU? (News) `_. On y apprend que le :epkg:`FGPA` est plus lent que le :epkg:`CPU` et :epkg:`GPU`, ou plus précisément qu'un cycle d'exécution du FGPA est plus lent. En revanche, dans ce cycle, on peut y mettre plus d'instructions. Le dernier article cite un chiffre : le FGPA est 10 plus lent mais un cycle peut contenir 20 fois plus d'instructions qu'un CPU. Le dernier article compare les forces et faiblesses de plusieurs approches : `FPGA vs CPU vs GPU vs Microcontroller: How Do They Fit into the Processing Jigsaw Puzzle? `_. FGPA permet d'aller plus vite mais il faut s'y connaître un peu pour les obtenir. ... .. blogpostagg:: :title: Mars : calcul distribué en python :date: 2019-01-16 :keywords: mars,numpy :categories: calcul :rawfile: 2019/2019-01-20_mars.rst :epkg:`mars` est un projet open source depuis 15 jours et qui permet de faire des calculs sur ds matrices en grande dimension. Il est supporté par *Alibaba* : `Alibaba Open-Sources Mars to Complement NumPy `_. Les performances ont l'air intéressantes même si mon premier essai sur un produit scalaire montre que des vecteurs de tailles humaines, :epkg:`numpy` restent difficile à battre. ---- |rss_image| :ref:`<== ` **page de blog - 5/16** :ref:`==> ` :ref:`2022-10 (1) ` :ref:`2022-12 (2) ` :ref:`2023-01 (1) ` :ref:`2023-02 (1) ` :ref:`2023-04 (1) `