:orphan: |rss_image| :ref:`<== ` **page de blog - 6/16** :ref:`==> ` :ref:`Blog ` :ref:`article (8) ` :ref:`articles (3) ` :ref:`cours (6) ` :ref:`module (7) ` :ref:`paper (3) ` .. |rss_image| image:: feed-icon-16x16.png :target: ../_downloads/rss.xml :alt: RSS ---- .. _ap-main-5: page de blog - 6/16 +++++++++++++++++++ .. blogpostagg:: :title: Spacy ressources :date: 2019-01-11 :keywords: spacy,nlp :categories: nlp :rawfile: 2019/2019-01-11_spacyres.rst Le moyen le plus simple pour installer les ressources linguistiques de :epkg:`spacy` est d'exécuter la commande suivante pour la langue souhaitée : ... .. blogpostagg:: :title: Exercices de scrapping :date: 2019-01-09 :keywords: exercice :categories: exercice :rawfile: 2019/2019-01-09_scraping.rst Le site contient quelques notebooks à propos du :epkg:`scraping`. Je distingue souvent deux niveaux de difficultés. Le plus simple est d'utiliser une :epkg:`API REST`. On récupère alors des informations formatées prêtes à être utilisées. Ces API sont souvent stables mais nécessitent de s'authentifier. ... .. blogpostagg:: :title: Des articles intéressants :date: 2018-12-09 :keywords: :categories: modules :rawfile: 2018/2018-12-09_medium.rst Je retombe parfois sur ce site `medium `_ et il propose quelques articles intéressant pour qui veut apprendre à manipuler les données. Quelques articles trouvés sur cet agrégateur : `Markov Chain Monte Carlo in Python `_, `Interpretable Machine Learning with XGBoost `_, `An End-to-End Project on Time Series Analysis and Forecasting with Python `_, `The 2018 Web Developer Roadmap `_. Le dernier montre quelques bizarreries des outils de traduction automatique : `Introduction and main issues of Neural Machine Translation `_. Un dernier pour la route sur les déformations d'informations principalement sur facebook : `France might be losing its first big information war `_. Un paragraphe étudie les heures de parutions des articles ou réponses pur montrer que les auteurs n'ont pas grand chose à voir avec les informations qu'ils relaient. Il est difficile d'être anonyme sur Internet... oui mais on peut noyer sa propre identité au milieu de plein d'autres tout à fait fausses, comme on peut noyer la vérité au milieu d'articles quelque peu déformés. .. blogpostagg:: :title: Quelques modules intéressants :date: 2018-11-30 :keywords: pyFFTW,fftw3,DTW,kNN,Flt-SNE :categories: modules :rawfile: 2018/2018-11-30_module_interessent.rst * `pyFFTW `_ (`fftw3 `_) * `K Nearest Neighbors & Dynamic Time Warping `_ * `FFT-accelerated Interpolation-based t-SNE (FIt-SNE) `_ * `py-spy `_ * `kalman-filter `_ Depuis le site `Awesome Functional Python `_ : ... .. blogpostagg:: :title: Machine et sécurité :date: 2018-11-15 :keywords: security,machine learning :categories: machine learning :rawfile: 2018/2018-11-15_malware.rst Recommandation depuis `PyParis `_ : `Malware Data Science: Attack Detection and Attribution `_, Joshua Saxe with Hillary Sanders. .. blogpostagg:: :title: KBinsDiscretizer :date: 2018-11-15 :keywords: KBinsDiscretizer,modèle interprétable :categories: machine learning :rawfile: 2018/2018-11-15_kbins.rst Le modèle linéaire est facilement interprétable mais ne marche pas aussi bien qu'une random forest. Pourquoi le pas utiliser des modèles linéaires par morceaux. Il suffit juste de découper l'espace des features en morceaux ce que fait le `KBinsDiscretizer `_. Et ça marche plutôt bien, particulièrement lorsque les données sont peu nombreuses. .. blogpostagg:: :title: dirty-cat(égories) :date: 2018-11-15 :keywords: dirty-cat,variable catégorielle :categories: machine learning :rawfile: 2018/2018-11-15_dirtycat.rst Je suis assis à côté de Gaël Varoquaux qui me raconte son dernier papier sur :epkg:`dirty-cat` pour traiter des colonnes catégorielles avec beaucoup de catégories et qui se ressemblent : ... .. blogpostagg:: :title: Fairness - fairlearn - classification :date: 2018-10-24 :keywords: classification,éthique :categories: éthique :rawfile: 2018/2018-10-24_fair.rst Je suis tombé sur ce module `fairlearn `_ qui s'appuie sur l'article `A Reductions Approach to Fair Classification `_. L'article définit mathématiquement l'aspect éthique qu'il souhaite vérifier dans des modèles de machine learning dédiés à la classification. L'article commence par définir le triplet *(X,A,Y)* où *A* est l'ensemble des attributs protégés, *X* l'ensemble des variables, *Y* la chose à prédire. On note *h(X)* la prédiction du classifieur binaire. L'article définit ensuite la *parité* :math:`\pr{h(X) = \hat{y} | A = a} = \pr{h(X) = \hat{y}} \; \forall a, \hat{y} \in \{0, 1\}`, puis l'égalité des chances : :math:`\pr{h(X) = \hat{y} | A = a, Y = y} = \pr{h(X) = \hat{y} | Y = y}`. L'article propose une façon d'apprendre un modèle respectant ces contraintes qui s'expriment sous la forme d'un ensemble de contraintes linéaires. .. blogpostagg:: :title: English content :date: 2018-10-13 :keywords: english content :categories: english :rawfile: 2018/2018-10-13_english.rst Most of the content is written in French. Two reaons for that, my teachings are in French, most of the content available on the internet is already in English. However, there exist some English content. A good start would be the lectures by `Gaël Varoquaux `_ :`. :ref:`l-ml-skgael`. I wrote some challenges in English one about algorithmic, the other one about unsupervized machine learning : `Computer Science Challenges `_. The main goal of this course is to introduce many standard machine learning problems and play with them. I suggest doing one competition or study with a known datasets (:epkg:`Kaggle`, :epkg:`UCI`). .. blogpostagg:: :title: Représenter un arbre de décision :date: 2018-09-27 :keywords: decision tree :categories: machine learning :rawfile: 2018/2018-09-27_tree.rst Deux pistes : ... ---- |rss_image| :ref:`<== ` **page de blog - 6/16** :ref:`==> ` :ref:`2022-10 (1) ` :ref:`2022-12 (2) ` :ref:`2023-01 (1) ` :ref:`2023-02 (1) ` :ref:`2023-04 (1) `