RSS <== page de blog - 6/16 ==> Blog article (8) articles (3) cours (6) module (7) paper (3)


page de blog - 6/16#

Spacy ressources#

2019-01-11

Le moyen le plus simple pour installer les ressources linguistiques de spacy est d’exécuter la commande suivante pour la langue souhaitée :

article

Exercices de scrapping#

2019-01-09

Le site contient quelques notebooks à propos du scraping. Je distingue souvent deux niveaux de difficultés. Le plus simple est d’utiliser une API REST. On récupère alors des informations formatées prêtes à être utilisées. Ces API sont souvent stables mais nécessitent de s’authentifier.

article

Des articles intéressants#

2018-12-09

Je retombe parfois sur ce site medium et il propose quelques articles intéressant pour qui veut apprendre à manipuler les données. Quelques articles trouvés sur cet agrégateur : Markov Chain Monte Carlo in Python, Interpretable Machine Learning with XGBoost, An End-to-End Project on Time Series Analysis and Forecasting with Python, The 2018 Web Developer Roadmap. Le dernier montre quelques bizarreries des outils de traduction automatique : Introduction and main issues of Neural Machine Translation. Un dernier pour la route sur les déformations d’informations principalement sur facebook : France might be losing its first big information war. Un paragraphe étudie les heures de parutions des articles ou réponses pur montrer que les auteurs n’ont pas grand chose à voir avec les informations qu’ils relaient. Il est difficile d’être anonyme sur Internet… oui mais on peut noyer sa propre identité au milieu de plein d’autres tout à fait fausses, comme on peut noyer la vérité au milieu d’articles quelque peu déformés.

article

Quelques modules intéressants#

article

Machine et sécurité#

2018-11-15

Recommandation depuis PyParis : Malware Data Science: Attack Detection and Attribution, Joshua Saxe with Hillary Sanders.

article

KBinsDiscretizer#

2018-11-15

Le modèle linéaire est facilement interprétable mais ne marche pas aussi bien qu’une random forest. Pourquoi le pas utiliser des modèles linéaires par morceaux. Il suffit juste de découper l’espace des features en morceaux ce que fait le KBinsDiscretizer. Et ça marche plutôt bien, particulièrement lorsque les données sont peu nombreuses.

article

dirty-cat(égories)#

2018-11-15

Je suis assis à côté de Gaël Varoquaux qui me raconte son dernier papier sur dirty-cat pour traiter des colonnes catégorielles avec beaucoup de catégories et qui se ressemblent :

article

Fairness - fairlearn - classification#

2018-10-24

Je suis tombé sur ce module fairlearn qui s’appuie sur l’article A Reductions Approach to Fair Classification. L’article définit mathématiquement l’aspect éthique qu’il souhaite vérifier dans des modèles de machine learning dédiés à la classification. L’article commence par définir le triplet (X,A,Y)A est l’ensemble des attributs protégés, X l’ensemble des variables, Y la chose à prédire. On note h(X) la prédiction du classifieur binaire. L’article définit ensuite la parité \pr{h(X) = \hat{y} | A = a} = \pr{h(X) = \hat{y}} \; \forall a, \hat{y} \in \{0, 1\}, puis l’égalité des chances : \pr{h(X) = \hat{y} | A = a, Y = y} = \pr{h(X) = \hat{y} | Y = y}. L’article propose une façon d’apprendre un modèle respectant ces contraintes qui s’expriment sous la forme d’un ensemble de contraintes linéaires.

article

English content#

2018-10-13

Most of the content is written in French. Two reaons for that, my teachings are in French, most of the content available on the internet is already in English. However, there exist some English content. A good start would be the lectures by Gaël Varoquaux :. :ref:`l-ml-skgael. I wrote some challenges in English one about algorithmic, the other one about unsupervized machine learning : Computer Science Challenges. The main goal of this course is to introduce many standard machine learning problems and play with them. I suggest doing one competition or study with a known datasets (Kaggle, UCI).

article

Représenter un arbre de décision#

2018-09-27

Deux pistes :

article


RSS <== page de blog - 6/16 ==> 2022-10 (1) 2022-12 (2) 2023-01 (1) 2023-02 (1) 2023-04 (1)