Statistique

Big data sans cluster, structures de données

Beaucoup de jeux de données tiennent en mémoire mais les temps de calcul ou de chargement même pour des choses simples sont parfois rédhibitoires. Parfois, on ne peut simplement pas copier plus d’une fois le jeu de données sous peine de dépasser les capacités de la mémoire. Face à ces obstacles, différentes stratégies sont possibles. Un échantillon aléatoire conserve les propriétés statistiques mais réduit la taille mémoire. Les itérateurs réduisent le temps le laps de temps entre le début de lecture des données et le début des calculs. Ils ont aussi le mérité de n’utiliser que les données nécessaires lors des calculs : les données défilent en mémoire. D’autres modules font en sorte qu’on puisse écrire des calculs de la même manière alors que les données sont toujours sur le disque dur. D’autres compressent les données et ne les décompressent que si besoin. Dans tous les cas, il s’agit de contourner de façon intelligente la contrainte de volume. Et s’il n’y avait qu’une idée à retenir, ce serait le concept d’ìtérateur <https://fr.wikipedia.org/wiki/It%C3%A9rateur>`_.

Notebooks

Lectures

Bases de données no SQL

Modules