.. blogpost:: :title: Machine Learning - session 6 :keywords: python, machine learning :date: 2017-06-25 :categories: session **Exercices** * Sélection de features * Comparaison des tests de coefficients pour un modèle linéaire `OLS `_, et des `features importance `_ * Résultat au niveau d'une observation `treeinterpreter `_ * Données : `Housing `_, `Forest Fire `_ * Prédiction et séries temporelles * Comparaison d'un modèle `ARIMA `_ et d'une `random forest `_ avec les séries décalées `lagmat `_, `pandas.shift `_ * Données : `DowJones `_, `Google Trends `_ * Notebooks : `Timeseries et machine learning `_ * Text * Comparer une `LDA `_ avec `word2vec `_ + `kmeans `_ * Données : * `tweets `_ * Notebooks : * `Texte et machine learning `_ **Plan** * Modules * Classique * `pandas `_, `numpy `_, `scipy `_ * `scikit-learn `_, `xgboost `_ * `statsmodels `_, * `prince `_, `fbpca `_ * `nltk `_, `gensim `_ * Extension * Extension de scikit-learn (`category_encoders `_, ...) * `imbalanced-learn `_ * `polylearn `_, `lightfm `_ * `edward `_ * `pyflux `_ * interprétation d'une prédiction `treeinterpreter `_ * `pyfolio `_, `zipline `_ * `lda2vec `_, `spacy `_ * Auto learning * `auto-sklearn `_ * `TPOT `_ * Graphes * Graphes (`ROC `_, `plus de maths `_, `sklearn.metrics.roc_curve `_) * `matplotlib `_, `seaborn `_, `bokeh `_ * Cartes * `basemap `_, * `shapely `_, `pyproj `_ * Données cryptées * `cyphermed `_ * Revue des différents problèmes de machine learning * `Python pour un datascientist `_ * Texte * Aperçu de traitement du langage `Texte et machine learning `_