RSS Hadoop - 1/1 Blog machine_learning (13) modules (8)


Hadoop - 1/1

Numpy, Hadoop, PIG, Java

2016-01-25

Le fait qu’on puisse utiliser des scripts Python dans un script PIG est un peu trompeur. De là à penser que la librairie numpy serait utilisable… Tout d’abord, les versions officielles de numpy et Python sont implémentaires en C voire un peu de Fortran et Hadoop / PIG est implémenté en java qui a l’avantage de bénéficier d’un garbage collector contrairement au langage C. Ceci explique que la version de Python utilisée par PIG pour définir des UDF (User Defined Function) est Jython. Utiliser numpy dans une fonction UDF n’est pas simple. La première direction consiste à utiliser une version java de numpy :

article


RSS Hadoop - 1/1 2018-08 (4) 2018-09 (2) 2018-10 (2) 2018-11 (4) 2018-12 (1)