.. index:: ressources, événements, source de données, données .. _l-ressources: Ressources, Evénements, Source de données ========================================= .. index:: Croix-Rouge, opendata, data.gouv.fr, quandl, wikipedia, Letor, WordNet, ImageNet, données, OpenWeatherMap, sources de données .. contents:: :local: .. _l-datasources: Source de données +++++++++++++++++ **annuaire de données** * `Data Sources on the Web (MRAN) `_ * `Awesome Public Datasets `_ * `Wikidata `_ * `Where can I find large datasets open to the public? (Quora) `_ **API** * `données vélib `_ * `API SNCF `_ * `Bing Maps API `_ * `API Geocoding `_ (voir également le module `geopy `_) * `Dark Sky API `_ (météo, temps passé et futur, payant) **Jeux de données** * *banque* `Home Mortgage Disclouse Act `_ (voir `Introducing Blaze - HMDA Practice `_ * *cinéma* `IMDB 5000 Movie Dataset `_ * *climat* `OpenWeatherMap `_ * *climat* `Land-Based Datasets and Products `_, `Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD) `_, voir aussi `Daily Global Weather Measurements (http://spatial-analyst.net/) `_ * *climat* `Pangeo Data Catalog `_ * *code* `Evénements GitHub `_ : tous les commit sur GitHub chaque jour (~15.000 commit par jour) * *consommation* `World Food Facts `_ * *deep*: `Microsoft Research Open Data `_ * *finance* `Daily News for Stock Market Prediction `_ * *images* `ImageNet `_, base de données d'images avec leur contenu * *ML* `Kaggle Datasets `_ * *ML* `Data Gouv pour le Machine Learning `_ * *ML* `UCI Machine Learning Repository `_ (collection de jeux de données classés par type de problème - régression, classification, ...) Les jeux **UCI** apparaissent dans de nombreux scientifiques. * *ML* `Data Science at Microsoft Research `_ * *ML* `Microsoft Research Letor `_ * *ML* `Public data sets for testing and prototyping `_, `Use the sample datasets in Azure Machine Learning Studio `_ * *ML* `Data Science for Research `_ * *ML* `Ensembles de données publics AWS (Amazon) `_, `AWS Public Data Sets `_ * *ML* `Data Analysis, Modeling and Machine Learning Group `_ * *ML* `List of datasets for machine learning research `_ * *ML-big-santé* `Imagerie médicale, photo de cancers `_ * *ML-big* `Pascal Large Scale Learning Challenge `_ * *ML-big* `170 millions courses de taxi à New-York `_ (via l'article `Building Azure ML Models on the NYC Taxi Dataset `_) * *ML-deep*: `Open Data for Deep Learning `_ * *ML-graphes* `Stanford Large Network Dataset Collection `_ * *ML-image* `Labeled Faces in the Wild `_ : 1323 images, 5749 personnes, 1680 personnes avec 2 ou plus d'images, lire `How well do facial recognition algorithms cope with a million strangers? `_ * *ML-recommandations*: `GroupLens Datasets `_ * *ML-text* `urls, spam, ... `_, jeux de données utilisés comme benchmark pour la libraire `libsvm `_ * *musique* `Semantic Artist Similarity Dataset `_ * *musique* `The Music Matrix – Exploring tags in the Million Song Dataset `_ * *musique* `Audio Content Analysis Datasets `_ * *musique* projets, librairies Python, données sur la musique `LabROSA (Columbia) `_, `librosa `_, `Music Similarity `_, `Million Song Dataset `_ * *ONG* `Données Croix-Rouge sur les dons reçus `_ * *politique* `Hillary Clinton's Emails `_ * *santé* `Dépenses d'assurance maladie hors prestations hospitalières par caisse primaire/département `_ (1 Go), `La démographie des médecins (RPPS) `_ * *santé* `Epidemium `_ : challenge big data sur le cancer (voir `Les challenges `_), le site référence également un nombre important de jeux de données autour des thèmes liés à la santé `data.epidemium `_ * *santé* `Global Disease Monitoring and Forecasting with Wikipedia `_ * *santé* `MIMIC `_ : base de données de 40.000 patients passés par un service de réanimations, contient les résultats de plusieurs dizaines de tests par patient, des traitements qui leur ont été données. * *santé* `TransPlant `_ * *social* `HappyMeal `_ * *sports* `European Soccer Database `_ * *texte* `soTweet: Studying Twitter at Scale `_: base de 500 millions de tweets et 23 milliards de liens * *texte* `WordNet `_, base de données anglaises sur le vocabulaire, la grammaire, les synonymes... * *texte* `dump wikipedia `_ * *texte* `SQuAD The Stanford Question Answering Dataset `_ * *texte* `Multi-Domain Sentiment Dataset (version 2.0) `_ * *vidéo* `Jiku `_, vidéo d'événements, de concerts * *vidéo* `YouTube 8M `_, 8 millions de vidéo YouTube par Google * *vidéo* `YouTube 1M Sports `_, 1 millions de vidéo annotées * autres pistes: `Where can I find large datasets open to the public? `_ **Graphiques, cartes** * `Geonames `_ **moteurs de recherches sur les données** * `data.gouv.fr `_, `INSEE `_ * `opendata Paris `_ (presque toutes les villes ont maintenant un site open data, il suffit de chercher avec un moteur de recherche `opendata + ville `_ pour le trouver) * `data-publica `_ * `data.epidemium `_ * `Quandl `_ (et son module python `quandl `_, `quandl/API `_,) * `Datahub `_ * `AWS Public Data Sets `_ (Amazon) (voir `Using Public Data Sets `_ et `boto `_) * `UN ComTrade `_ : United Nations Commodity Trade Statistics Database * `MusicBrainz Database `_ **annuaire de données** * `Data Sources on the Web (MRAN) `_ * `Awesome Public Datasets `_ * `Wikidata `_ Compétition, Codes ++++++++++++++++++ .. index:: stackoverflow Code ^^^^ * `nullege `_ : moteur de recherche dédié au code Python * `stackoverflow `_ : forum d'échanges sur des questions de code * `stackexchange `_ : liste de forums d'échanges autour de sujets scientifiques appliqués, dont `datascience stackexchange `_, `mathoverflow `_, `tex, latex `_, `Web Apps `_, `Computer Science Theory `_, `Scientific Computation `_, `Computer Science `_, `Chess `_, `Open Data `_, `Software Recommendations `_, `forum sur la langue française `_ Puzzle, Enigme, Jeux ^^^^^^^^^^^^^^^^^^^^ * `Code Golf `_ * `Puzzle Stack Exchange `_ * `Google Code Jam `_ * `HackerRank `_ * `Coding Game `_ .. index:: Kagle, datascience, challenge, compétition Compétitions Machine Learning ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ * `datascience.net `_ * `kaggle `_ * `Data Challenges Paris `_ * `Challenge Data (MVA) `_ : compétitions supervisées par les professeurs du master `MVA `_. .. index:: meetup, Data Tuesday, Data For Good Evénements, Médias ++++++++++++++++++ Evénements réguliers ^^^^^^^^^^^^^^^^^^^^ * `Data Tuesday `_ * `Big Data Meetup Paris `_, voir aussi `search page `_ * `Paris Startup Job Fair `_ (a lieu régulièrement au `104 à Paris `_) * `Paris Datageeks `_ * `Data For Good - FR `_ .. index:: conférence, communauté, pydata, pycon, pyvideo, tutoral, vidéo Conférences, Communautés ^^^^^^^^^^^^^^^^^^^^^^^^ * `PyCon `_ * `PyData `_ .. index:: Agoranov, Microsoft, TekTos, numa Incubateurs +++++++++++ * `Agoranov `_ (Paris) * `Microsoft Spark `_ (Paris) * `TekTos `_ * `Le Top des incubateurs et accélérateurs de start-up à Paris `_ * `numa `_ (Paris)