XD blog

amazon

2015-07-03 Livres, films, couches, prêts... Amazon en assurance ?

C'est paru il y a deux jours : Amazon va faire du crédit aux PME en Europe et en Chine. Amazon sera capable de décider de prêter ou non de l'argent en une journée pour des montants allant de 1000 à 600.000 euros à des taux de 6% à 14%. L'article met en avant la simplicité et la rapidité du système. Derrière ces deux mots, je suppose qu'Amazon aggrègera de nombreuses informations autre que celles récupérées depuis le questionnaire proposé à l'emprunteur (informations géographiques, économiques, web scraping, livres achetés chez Amazon...) Derrière la rapidité se cache probablement le machine learning et des modèles capables d'aggréger toutes ces informations disparates.

Je fais un parallèle avec la reconnaissance d'image ou plus particulièrement celle des chèques. Un ordinateur lit le montant à partir d'une image. Il retourne une prédiction (le montant) avec un score (un nombre entre 0 - mauvais et 1 - bon). Concrètement, l'ordinateur permet de traiter 80% des chèques les plus difficiles et laisse le reliquat à des opérateurs humains. Le modèle d'Amazon ne devrait pas être si éloigné : la société va s'emparer d'une part de marché correspondant aux empunteurs faciles à catégoriser tout en proposant des taux de d'emprunts plus faibles que ceux de la concurrence grâce à un coût de traitement plus faible expliqué par une chaîne de traitement automatisée. Le reliquat des autres emprunteurs devra être traité manuellement probablement par les acteurs de ce secteur qui se partageront la part la plus difficile à gérer et la moins rentable. Après les livres, les films, et à peu près tout ce qui se vend de non périssable, les prêts, que reste-t-il... Les contrats d'assurance ?

2013-05-26 Processing (big) data with Hadoop

Big Data becomes very popular nowadays. If the concept seems very simple - use many machines to process big chunks of data -, pratically, it takes a couple of hours before being ready to run the first script on the grid. Hopefully, this article will help you saving some times. Here are some directions I looked to create and submit a job map/reduce.

Unless you are very strong, there is very little chance that you develop a script without making any mistake on the first try. Every run on the grid has a cost, plus accessing a distant cluster might take some time. That's why it is convenient to be able to develop a script on a local machine. I looked into several ways: Cygwin, a virtual machine with Cloudera, a virtual machine with HortonWorks, a local installation of Hadoop on Windows. As you may have understood, my laptop OS is Windows. Setting up a virtual machine is more complex but it gives a better overview of how Hadoop works.

Here are the points I will develop:

Develop a short script in Hue and Hive on this local machine,
Install a virtual machine (VM) on a laptop,
Run this script on the grid (using Amazon AWS).

To go through all the steps, you need a machine with 30Gb free on your hard drive, and at least 4Gb memory. 64bit OS is better. I went through the steps with Windows 8 and it works on any other OS.

Contents:

Local run with Java

Installation
Executing a script PIG with Cygwin
Executing a script PIG without Cygwin

Installation of a local server with HortonWorks
Install a virtual machine (Cloudera)

Files to download
Only for French keyboards
Upload, download files to the local grid
Install the VMWare Tools and create a shared folder
Final tweaks: change the repository
Install Python 3.3, Numpy (optional)
Install R and Rpy2

Install a virtual machine (HortonWorks)
Develop a short script

Run a pig Script through the command line
Checking job execution
Same process with Hive and Hue

Hadoop and Python
Using Amazon AWS

Open an Amazon account
Run a script PIG on Amazon

Errors you might face

Cannot retrieve repository metadata (repomd.xml)
ImportError: No module named '_sqlite3'
Compilation Error for a PIG script
Error when creating a Hive table

I'll assume you are familiar with Map/Reduce concepts and you have heard about Hadoop and PIG.
more...

Xavier Dupré