page de blog - 1/1 Blog references (4)
page de blog - 1/1#
GraphFrames#
2018-12-29
Les graphes sont toujours compliqués en MapReduce, GraphFrames. Ca n’a pas l’air trop mal A Gentle Intro To Graph Analytics With GraphFrames mais il est difficile de comprendre en quoi la solution se distingue d’un neo4j. En fait, je ne suis pas sûr que ce type de solution permettent de résoudre tous les problèmes. Le coût réseau Groute performance vs. Gunrock est très important pour les graphes car il faut pouvoir accéder à n’importe quelle partie. Je crois plutôt à des grosses machines avec pas mal de coeurs et des librairies écrites en C++. Je m’interroge sur des trucs de ce style Charm++ ou Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. Un autre article High-Level Programming Abstractions for Distributed Graph Processing à lire sans doute (ça aussi MapReduce formulation of PageRank) Lemon. J’ai trouvé ça aussi teexgraph mais le code n’a pas l’air terrible (double, pas float et autres défauts). Bref, pour les très gros graphes, la ruse a encore quelques beaux jours.
Références sur scala#
2018-04-16
Anglais
Français
Streaming et pipelines#
2018-04-10
Deux pages qui recensent de nombreuses libraires qui permettent de créer des pipelines et plus généralement de traiter les données en parallèles :
…
Sujets abordés en introduction à Spark#
2018-04-09
Partie 1 : programmation fonctionnelle
exemple détailler avec un mapper, suivi d’un reducer, suivi d’un mapper
pourquoi trier localement pour un reducer
coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément
pourquoi la programmation fonctionnelle est adaptée à la distribution des calculs
stratégie de distribution
coûts associés (calcul + mémoire) pour les quatre primitives pour une exécution locale dans deux cas : parcourir la liste complète, obtenir le premier élément
notion de reducer récursif : cas de la somme et de la moyenne
introduction des termes : lazy evaluation, index
notebook Reducers récursifs
Partie 2 : exemples et Spark
Enlever les doublons dans une base de données (code postal, nom, téléphone), sont considérés comme doublons deux entités qui ont au moins deux champs en commun (sur trois)
lien vers installation en local : Installation de Spark en local
exécution de Premiers pas avec Spark
Enfin, quelques lignes sur :
…
First step#
2018-04-09
First content from ensae_teaching_cs.
page de blog - 1/1 2018-04 (4) 2018-12 (1)