.. image:: pystat.png :height: 20 :alt: Statistique :target: http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_2a_notions.html#pour-un-profil-plutot-data-scientist .. _l-cluster-non-struct-2a: Big data sans cluster, structures de données ++++++++++++++++++++++++++++++++++++++++++++ .. index:: itérateur Beaucoup de jeux de données tiennent en mémoire mais les temps de calcul ou de chargement même pour des choses simples sont parfois rédhibitoires. Parfois, on ne peut simplement pas copier plus d'une fois le jeu de données sous peine de dépasser les capacités de la mémoire. Face à ces obstacles, différentes stratégies sont possibles. Un échantillon aléatoire conserve les propriétés statistiques mais réduit la taille mémoire. Les itérateurs réduisent le temps le laps de temps entre le début de lecture des données et le début des calculs. Ils ont aussi le mérité de n'utiliser que les données nécessaires lors des calculs : les données défilent en mémoire. D'autres modules font en sorte qu'on puisse écrire des calculs de la même manière alors que les données sont toujours sur le disque dur. D'autres compressent les données et ne les décompressent que si besoin. Dans tous les cas, il s'agit de contourner de façon intelligente la contrainte de volume. Et s'il n'y avait qu'une idée à retenir, ce serait le concept d'ìtérateur `_. * `présentation données structurées `_ .. toctree:: :maxdepth: 2 ../notebooks/_gs2a_no_sql_exo ../notebooks/dataframe_matrix_speed ../notebooks/ml_huge_datasets ../notebooks/ml_table_mortalite *Notebooks* .. toctree:: :maxdepth: 2 ../notebooks/_gs2a_no_sql_twitter ../notebooks/_gs2a_big_in_memory *Lectures* - Propriétés des base de données : `ACID `_, `relationnelle `_, `transactionnelle `_ - Best practices, index et `foreign key `_ (importance des `random access `_ et `accès séquentiel `_) - Limites des structures relationnelles (`données arborescentes `_, données hétérogènes) - Base de données non relationnelles dont `NoSQL `_ - :ref:`l-td25asynthese` - `Un tools d'itertour, ou l'inverse `_ - `Benchmark of Python JSON libraries `_ *Bases de données no SQL* * `MongoDB `_ * `rethinkdb `_ (python : `rethinkdb `_) *Modules* * `dask `_ * `cytoolz `_