Eléments logiciels pour le traitement des données massives#

Eléments logiciels pour le traitement des données massives (ENSAE)

Cours animé par : Matthieu Durut, Xavier Dupré.

Le cours est évalué avec un projet informatique. Programme de l’année 2023 : Feuille de route 2022-2023 (3A).

Eléments techniques #

Anatomie et histoire d’un ordinateur #

mémoire, cache, northbridge, southbridge
CPU, GPU, FGPA, ASICS
2004 - espace entre deux circuits intégrés de 32 ns, passage à 24 ns ? effet quantique, passage d’électron
optimisation des calculs, parallélisation, notion de cache et de latence

Lectures

Memory Latency over the years
What every computer scientist should know about floating point
What every programmer should know about memory
Introduction to High Performance Scientific Computing
Zoologie des réseaux de neurones
Teaching a machine how to play Mario
Introduction au système de recommandation par facteurs latents
The Unreasonable Effectiveness of Data
Après l’architecture Von Neumann
Learning Efficient Algorithms with Hierarchical Attentive Memory
GotoBLAS (écrit par Kazushige Gotō)
Judy Arrays, site, cette structure implémente un mapping int/int plus efficace que l’implémentation traditionnelle avec une table de hashage, la structure utilise les propriétés des caches dans les processeurs

Machine Learning

Infrastructure for Usable Machine Learning: The Stanford DAWN Project

CPU #

Notebooks

Le notebook suivant montre comment écrire du code C++ tout en l’utilisant depuis Python pour mesurer une optimisation que proposent les processeurs CPU : le branching.

Measures branching in C++ from python

Code

ENH: Improves speed of one hot encoding, cette pull request (PR) modifie un code très court pour réduire le nombre d’allocations mémoire avec numpy
New K-means implementation for improved performances, cette pull request (PR) étudie une nouvelle implémentation de l’algorithme des k-means, il n’est pas évident de se plonger dans le code mais il faut lire les commentaires qui illustrent les différences de performances selon que la machine utilise ses caches L2, L3.

Lectures

Weld: A Multithreading Technique Towards Latencytolerant VLIW Processors
Stackless Python : implémentation de l’interpréteur de Python spécialisée dans le micro threading.
Why is it faster to process a sorted array than an unsorted array?
How to optimize C and C++ code in 2018
C++ Concurrency in Action (second edition, published 2019 by Manning Publications)
Embarrassingly parallel for loops
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models
SLIDE : In Defense of Smart Algorithms over Hardware Acceleration for Large-Scale Deep Learning Systems

Vidéos

C++ and Beyond 2012: Herb Sutter - atomic<> Weapons, 1 of 2

Librairies

OpenMP : c’est une librairie très utilisée pour paralléliser les calculs en C++ sur plusieurs threads
OpenMPI : c’est une librairie utilisée pour synchroniser des calculs parallélisés sur plusieurs processeurs (ou machines)
daal4py, réécriture d’algorithme de machine learning optimisée pour les processeurs Intel

Outils

Intel propose une version de l’interpréteur python avec les principaux modules compilée spécifiquement pour ces processeurs : Intel Python. L’accélération n’est pas exceptionnelle pour un processeur avec un ou deux coeurs, mais elle l’est particulièrement sur des machines dédiées aux calculs.

GPU #

Convolution
Introduction to CUDA C
Notion de block, threads
Echange d’information entre CPU et GPU
index de thread
syncthread
shared array

Lectures sur le GPU

Lectures sur le C++

Thinking in C++, Bruce Eckel
Effective C++, Scott Meyers
What Every Programmer Should Know About Memory, Ulrich Drepper
The Art of Multiprocessor Programming, Maurice Herlihy, Nir Shavit
An Introduction to GPGPU Programming - CUDA Architecture, Rafia Inam
SizeBench: a new tool for analyzing Windows binary size

Python

GPU and pycuda or pyopencl on Windows
Pycuda ou pyopencl pour ceux qui n’ont pas de carte NVidia
theano (n’est plus maintenu)
Tous les modules de deep learning.

Bas niveau

Low-Level Programming University

Sécurité et bas niveau

“Kernel memory leaking” Intel processor design flaw forces Linux, Windows redesign
KASLR is Dead: Long Live KASLR
Meltdown and Spectre : Bugs in modern computers leak passwords and sensitive data.
Meltdown
Spectre Attacks: Exploiting Speculative Execution∗

Optimisation

No Bits Left Behind : l’article quelques stratégies bas-niveau pour optimiser les programmes

Modules

scikit-cuda
pycuda
numbapro (voir A Monte Carlo Option Pricer)

TPU, IPU, FGPA, …#

BLAS, LAPACK, calcul matriciel #

Notebook

Pas vraiment un notebook, un exemple d’utilisation d’une fonction LAPACK dans un code python / cython : Résoudre une régression linéaire avec BLAS (et le code associé direct_blas_lapack.pyx).

Lectures

Fonctions LAPACK
Introducing TensorNetwork, an Open Source Library for Efficient Tensor Calculations, Tensor in a Nutshell (github)
Anatomy of High-Performance Many-Threaded Matrix Multiplication
Computing the vector norm
Faster identification of optimal contraction sequences for tensor networks, cet article s’intéresse à l’implémentation optimale de réaliser une opération de type einsum, les découvertes de l’article sont implémentées dans le module opt-einsum.

Modules

Optimisations logicielles #

`Compiling ONNX Neural Network Models Using MLIR
<https://arxiv.org/pdf/2008.08272.pdf>`_
Compiling Classical ML Pipelines into Tensor Computations for One-size-fits-all Prediction Serving, Taming Model Serving Complexity, Performance and Cost: A Compilation to Tensor Computations Approach

Calcul matriciel #

Autres que CPU, GPU #

Lectures

Eléments théoriques #

Crypographie, block chain #

commitment et signature (RSA)
Tiers de confiance et distributed consensus (PAXOS), RAFT
Block chain, Bitcoin, Attque (Incentive, long term consensus, la probabilité qu’on soit en désaccord décroît avec le temps, monnaie stable, sûre, anonyme ?)
Ethereum
Trustless Machine Learning Contracts; Evaluating and Exchanging Machine Learning Models on the Ethereum Blockchain

Lectures

The art of multiprocessor programming, Nit Shavit
CS176: Multiprocessor Synchronization
Bitcoin and Cryptocurrency Technologies
Delivery versus payment
Ethereum official website
Hello World in Ethereum
Introduction to Smart Contracts
Monnaie, finance et économie réelle

Algorithmes Distribués #

(à venir)

Lectures

Vidéo

Compilateur, compilation à la volée, JIT #

La compilation à la volée ou JIT pour Just in Time est utilisé pour optimiser une partie du code après que l’exécution du programme ait démarrée. numba permet de demander à un compilateur JIT de remplacer le code python par un code optimisé en C++ souvent beaucoup plus rapide si ce code est purement numérique.

Lectures

à venir

Modules

ast
ply (Lex Yacc)
llvmlite
numba
cffi
jax : module pour calculer automatique la dérivée d’une fonction écrité avec numpy
tensornetwork
clang