.. blogpost:: :title: Plan séance 2 :keywords: plan :date: 2023-01-27 :categories: session Voici le plan prévu pour la seconde séance du cours de machine learning pour l'économie et la finance. **exercices** * exercice autour du `pivot de gauss `_ * `Evoluation d’une population `_ **résumé** * :epkg:`numpy` * :epkg:`pandas` **exemples de problèmes rencontrés** * économie, sociologie : études statistiques, analyse de biais, prévision * finance : trading, analyse de nouvelles, vitesse de trading, scoring * actuariat : prédiction des sinistres * statégie : emplacement d'un entrepôt **machine learning** * prétraitement : transformer toutes les variables, quelles qu'elles soient, en variables numériques * optimisation d'un modèle Données supervisées, non supervisées... **scikit-learn** * transformer / prédicteur * régression, classification, clustering, ranking, réduction de dimension, recommandation * hyperparamètres, grille de recherche * validation croisée * notion de pipeline * sérialisation **pour aller plus loin** * créer son propre transformer ou prédicteur * `factorisation de matrices `_ * `TSNE `_ **autres packages** * `category_encoders `_ * `dirty_cat `_ * `xgboost `_ * `lightgbm `_ * `catboost `_ * cheatcheet numpy, or `awesome machine learning `_, `Track Awesome Machine Learning Updates Daily `_ * `statsmodels `_ **exercice** On veut constuire un modèle qui prédit le loyer moyen en fonction de caractéristiques moyennes, données : `Résultats nationaux des observatoires locaux des loyers `_ Il faut construire un pipeline simple avec au moins une classe `ColumnTransformer `_.