RSS page de blog - 1/1 Blog references (4)


page de blog - 1/1#

GraphFrames#

2018-12-29

Les graphes sont toujours compliqués en MapReduce, GraphFrames. Ca n’a pas l’air trop mal A Gentle Intro To Graph Analytics With GraphFrames mais il est difficile de comprendre en quoi la solution se distingue d’un neo4j. En fait, je ne suis pas sûr que ce type de solution permettent de résoudre tous les problèmes. Le coût réseau Groute performance vs. Gunrock est très important pour les graphes car il faut pouvoir accéder à n’importe quelle partie. Je crois plutôt à des grosses machines avec pas mal de coeurs et des librairies écrites en C++. Je m’interroge sur des trucs de ce style Charm++ ou Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. Un autre article High-Level Programming Abstractions for Distributed Graph Processing à lire sans doute (ça aussi MapReduce formulation of PageRank) Lemon. J’ai trouvé ça aussi teexgraph mais le code n’a pas l’air terrible (double, pas float et autres défauts). Bref, pour les très gros graphes, la ruse a encore quelques beaux jours.

article

Références sur scala#

article

Streaming et pipelines#

2018-04-10

Deux pages qui recensent de nombreuses libraires qui permettent de créer des pipelines et plus généralement de traiter les données en parallèles :

article

Sujets abordés en introduction à Spark#

2018-04-09

Partie 1 : programmation fonctionnelle

  • notion de map, filter, reduce (group by), combine (ou join)

  • exemple détailler avec un mapper, suivi d’un reducer, suivi d’un mapper

  • pourquoi trier localement pour un reducer

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • pourquoi la programmation fonctionnelle est adaptée à la distribution des calculs

  • stratégie de distribution

  • coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément

  • notion de reducer récursif : cas de la somme et de la moyenne

  • introduction des termes : lazy evaluation, index

  • notebook Reducers récursifs

Partie 2 : exemples et Spark

  • Enlever les doublons dans une base de données (code postal, nom, téléphone), sont considérés comme doublons deux entités qui ont au moins deux champs en commun (sur trois)

  • lien vers installation en local : Installation de Spark en local

  • exécution de Premiers pas avec Spark

Enfin, quelques lignes sur :

article

First step#

2018-04-09

First content from ensae_teaching_cs.

article


RSS page de blog - 1/1 2018-04 (4) 2018-12 (1)