<== page de blog - 3/13 ==> Blog cours (3) module (4)
page de blog - 3/13¶
Ludwig, machine learning et réchauffement climatique¶
2019-02-20
Uber a sorti son module de machine learning ludwig (documentation) qui automatise plein de choses pour une catégorie de problèmes de machine learning classique et deep. Certains apprentissages peuvent être parallélisés avec mpi4py. J’ai fini sur le site de son auteur Ryan Abernathey qui étudie la circulation de l’eau autour du globe, ce qui m’a amené à Pangeo A community platform for Big Data geoscience et des jeux de données sur la Terre Pangeo Data Catalog ou encore le module xgcm qui pourrait être utile pour faire des simulations sur le réchauffement climatique.
Problème avec spacy¶
2019-02-18
Et voilà comment on peut perdre quelques heures à comprendre pourquoi un notebook qui fonctionnait ne fonctionne plus. C’est l’erreur que j’ai depuis quelques semaines déjà pour laquelle je ne peux pas vraiment mettre à jour certains modules sans rencontrer l’erreur suivante :
…
Pipeline et processeur¶
2019-01-16
Trois liens différents vers trois articles qui parlent tous du même sujet : Why use an FPGA instead of a CPU or GPU?, Why use an FPGA instead of a CPU or GPU? (Quora), Why Use an FPGA Instead of a CPU or GPU? (News). On y apprend que le FGPA est plus lent que le CPU et GPU, ou plus précisément qu’un cycle d’exécution du FGPA est plus lent. En revanche, dans ce cycle, on peut y mettre plus d’instructions. Le dernier article cite un chiffre : le FGPA est 10 plus lent mais un cycle peut contenir 20 fois plus d’instructions qu’un CPU. Le dernier article compare les forces et faiblesses de plusieurs approches : FPGA vs CPU vs GPU vs Microcontroller: How Do They Fit into the Processing Jigsaw Puzzle?. FGPA permet d’aller plus vite mais il faut s’y connaître un peu pour les obtenir.
…
Mars : calcul distribué en python¶
2019-01-16
mars est un projet open source depuis 15 jours et qui permet de faire des calculs sur ds matrices en grande dimension. Il est supporté par Alibaba : Alibaba Open-Sources Mars to Complement NumPy. Les performances ont l’air intéressantes même si mon premier essai sur un produit scalaire montre que des vecteurs de tailles humaines, numpy restent difficile à battre.
Spacy ressources¶
2019-01-11
Le moyen le plus simple pour installer les ressources linguistiques de spacy est d’exécuter la commande suivante pour la langue souhaitée :
…
Exercices de scrapping¶
Des articles intéressants¶
2018-12-09
Je retombe parfois sur ce site medium et il propose quelques articles intéressant pour qui veut apprendre à manipuler les données. Quelques articles trouvés sur cet agrégateur : Markov Chain Monte Carlo in Python, Interpretable Machine Learning with XGBoost, An End-to-End Project on Time Series Analysis and Forecasting with Python, The 2018 Web Developer Roadmap. Le dernier montre quelques bizarreries des outils de traduction automatique : Introduction and main issues of Neural Machine Translation. Un dernier pour la route sur les déformations d’informations principalement sur facebook : France might be losing its first big information war. Un paragraphe étudie les heures de parutions des articles ou réponses pur montrer que les auteurs n’ont pas grand chose à voir avec les informations qu’ils relaient. Il est difficile d’être anonyme sur Internet… oui mais on peut noyer sa propre identité au milieu de plein d’autres tout à fait fausses, comme on peut noyer la vérité au milieu d’articles quelque peu déformés.
Quelques modules intéressants¶
Machine et sécurité¶
2018-11-15
Recommandation depuis PyParis : Malware Data Science: Attack Detection and Attribution, Joshua Saxe with Hillary Sanders.
KBinsDiscretizer¶
2018-11-15
Le modèle linéaire est facilement interprétable mais ne marche pas aussi bien qu’une random forest. Pourquoi le pas utiliser des modèles linéaires par morceaux. Il suffit juste de découper l’espace des features en morceaux ce que fait le KBinsDiscretizer. Et ça marche plutôt bien, particulièrement lorsque les données sont peu nombreuses.
<== page de blog - 3/13 ==> 2020-08 (2) 2020-09 (1) 2020-10 (2) 2020-11 (2) 2020-12 (1)