Introduction à Spark

Articles

Articles un peu plus éloignés

FAQ

Modules

Autres librairies / outils

  • Hadoop : système de fichier distribué + Map Reduce simple
  • Kafka : distributed streaming platform, conçu pour stocker et récupérer en temps réel des événements de sites web
  • Mesos : Apache Mesos abstracts CPU, memory, storage, and other compute resources away from machines (physical or virtual), Elixi
  • MLlib : distributed machine learning for Spark
  • Parquet : Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem.
  • Presto : Distributed SQL Query Engine for Big Data (Facebook)
  • Spark : Map Reduce, minimise les accès disques, (DPark clone Python de Spark)
  • Spark SQL : SQL distribué, sur couche de Spark
  • Storm : Apache Storm is a free and open source distributed realtime computation system, conçu pour distribuer des pipelines de traitements de données
  • YARN : Ressource negociator