RSS 2018-04 - 1/1 Blog references (4)


2018-04 - 1/1

article

Streaming et pipelines

2018-04-10

Deux pages qui recensent de nombreuses libraires qui permettent de créer des pipelines et plus généralement de traiter les données en parallèles :

article

Sujets abordés en introduction à Spark

2018-04-09

Partie 1 : programmation fonctionnelle

  • notion de map, filter, reduce (group by), combine (ou join)

  • exemple détailler avec un mapper, suivi d’un reducer, suivi d’un mapper

  • pourquoi trier localement pour un reducer

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • pourquoi la programmation fonctionnelle est adaptée à la distribution des calculs

  • stratégie de distribution

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • notion de reducer récursif : cas de la somme et de la moyenne

  • introduction des termes : lazy evaluation, index

  • notebook Reducers récursifs

Partie 2 : exemples et Spark

  • Enlever les doublons dans une base de données (code postal, nom, téléphone), sont considérés comme doublons deux entités qui ont au moins deux champs en commun (sur trois)

  • lien vers installation en local : Installation de Spark en local

  • exécution de Premiers pas avec Spark

Enfin, quelques lignes sur :

article

First step

2018-04-09

First content from ensae_teaching_cs.

article


RSS 2018-04 - 1/1 2018-04 (4) 2018-12 (1)