Ressources, Evénements, Source de données#
Source de données#
annuaire de données
API
API Geocoding (voir également le module geopy)
Dark Sky API (météo, temps passé et futur, payant)
Jeux de données
banque Home Mortgage Disclouse Act (voir Introducing Blaze - HMDA Practice
cinéma IMDB 5000 Movie Dataset
climat OpenWeatherMap
climat Land-Based Datasets and Products, Daily Global Weather Measurements, 1929-2009 (NCDC, GSOD), voir aussi Daily Global Weather Measurements (http://spatial-analyst.net/)
climat Pangeo Data Catalog
code Evénements GitHub : tous les commit sur GitHub chaque jour (~15.000 commit par jour)
consommation World Food Facts
images ImageNet, base de données d’images avec leur contenu
ML UCI Machine Learning Repository (collection de jeux de données classés par type de problème - régression, classification, …) Les jeux UCI apparaissent dans de nombreux scientifiques.
ML Public data sets for testing and prototyping, Use the sample datasets in Azure Machine Learning Studio
ML Ensembles de données publics AWS (Amazon), AWS Public Data Sets
ML-big-santé Imagerie médicale, photo de cancers
ML-big 170 millions courses de taxi à New-York (via l’article Building Azure ML Models on the NYC Taxi Dataset)
ML-deep: Open Data for Deep Learning
ML-graphes Stanford Large Network Dataset Collection
ML-image Labeled Faces in the Wild : 1323 images, 5749 personnes, 1680 personnes avec 2 ou plus d’images, lire How well do facial recognition algorithms cope with a million strangers?
ML-recommandations: GroupLens Datasets
ML-text urls, spam, …, jeux de données utilisés comme benchmark pour la libraire libsvm
musique The Music Matrix – Exploring tags in the Million Song Dataset
musique Audio Content Analysis Datasets
musique projets, librairies Python, données sur la musique LabROSA (Columbia), librosa, Music Similarity, Million Song Dataset
politique Hillary Clinton’s Emails
santé Dépenses d’assurance maladie hors prestations hospitalières par caisse primaire/département (1 Go), La démographie des médecins (RPPS)
santé Epidemium : challenge big data sur le cancer (voir Les challenges), le site référence également un nombre important de jeux de données autour des thèmes liés à la santé data.epidemium
santé Global Disease Monitoring and Forecasting with Wikipedia
santé MIMIC : base de données de 40.000 patients passés par un service de réanimations, contient les résultats de plusieurs dizaines de tests par patient, des traitements qui leur ont été données.
santé TransPlant
social HappyMeal
sports European Soccer Database
texte soTweet: Studying Twitter at Scale: base de 500 millions de tweets et 23 milliards de liens
texte WordNet, base de données anglaises sur le vocabulaire, la grammaire, les synonymes…
texte dump wikipedia
vidéo Jiku, vidéo d’événements, de concerts
vidéo YouTube 8M, 8 millions de vidéo YouTube par Google
vidéo YouTube 1M Sports, 1 millions de vidéo annotées
autres pistes: Where can I find large datasets open to the public?
Graphiques, cartes
moteurs de recherches sur les données
opendata Paris (presque toutes les villes ont maintenant un site open data, il suffit de chercher avec un moteur de recherche opendata + ville pour le trouver)
Quandl (et son module python quandl, quandl/API,)
AWS Public Data Sets (Amazon) (voir Using Public Data Sets et boto)
UN ComTrade : United Nations Commodity Trade Statistics Database
annuaire de données
Compétition, Codes#
Code#
nullege : moteur de recherche dédié au code Python
stackoverflow : forum d’échanges sur des questions de code
stackexchange : liste de forums d’échanges autour de sujets scientifiques appliqués, dont datascience stackexchange, mathoverflow, tex, latex, Web Apps, Computer Science Theory, Scientific Computation, Computer Science, Chess, Open Data, Software Recommendations, forum sur la langue française
Puzzle, Enigme, Jeux#
Compétitions Machine Learning#
Challenge Data (MVA) : compétitions supervisées par les professeurs du master MVA.
Evénements, Médias#
Evénements réguliers#
Big Data Meetup Paris, voir aussi search page
Paris Startup Job Fair (a lieu régulièrement au 104 à Paris)
Conférences, Communautés#
Incubateurs#
Agoranov (Paris)
Microsoft Spark (Paris)
numa (Paris)