Big data sans cluster, structures de données#

Beaucoup de jeux de données tiennent en mémoire mais les temps de calcul ou de chargement même pour des choses simples sont parfois rédhibitoires. Parfois, on ne peut simplement pas copier plus d’une fois le jeu de données sous peine de dépasser les capacités de la mémoire. Face à ces obstacles, différentes stratégies sont possibles. Un échantillon aléatoire conserve les propriétés statistiques mais réduit la taille mémoire. Les itérateurs réduisent le temps le laps de temps entre le début de lecture des données et le début des calculs. Ils ont aussi le mérité de n’utiliser que les données nécessaires lors des calculs : les données défilent en mémoire. D’autres modules font en sorte qu’on puisse écrire des calculs de la même manière alors que les données sont toujours sur le disque dur. D’autres compressent les données et ne les décompressent que si besoin. Dans tous les cas, il s’agit de contourner de façon intelligente la contrainte de volume. Et s’il n’y avait qu’une idée à retenir, ce serait le concept d’ìtérateur <https://fr.wikipedia.org/wiki/It%C3%A9rateur>`_.

présentation données structurées

Notebooks

Lectures

Propriétés des base de données : ACID, relationnelle, transactionnelle
Best practices, index et foreign key (importance des random access et accès séquentiel)
Limites des structures relationnelles (données arborescentes, données hétérogènes)
Base de données non relationnelles dont NoSQL
Distribution des calculs, stratégies de stockage, SQL NoSQL
Un tools d’itertour, ou l’inverse
Benchmark of Python JSON libraries

Bases de données no SQL

MongoDB
rethinkdb (python : rethinkdb)

Modules

dask
cytoolz

Liens

Contenu

Information

Sujet précédent

Sujet suivant

Big data sans cluster, structures de données#