from jyquickhelper import add_notebook_menu
add_notebook_menu()


import pyensae.datasource
%load_ext pyensae
%load_ext pyenbc
import os, datetime


if not os.path.exists("velib") : os.mkdir("velib")
files=pyensae.datasource.download_data("data_velib_paris_2014-11-11_22-23.zip", website="xdtd", whereTo="velib")
files[:2]

['velib\\paris.2014-11-11_22-00-18.331391.txt',
 'velib\\paris.2014-11-11_22-01-17.859194.txt']


with open("velib/paris.2014-11-11_22-00-18.331391.txt","r",encoding="utf-8")as f :
    text = f.read()
text[:300] + "..."

"[{'address': 'RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) - 93170 BAGNOLET', 'collect_date': datetime.datetime(2014, 11, 11, 22, 0, 18, 628226), 'lng': 2.416170724425901, 'contract_name': 'Paris', 'name': '31705 - CHAMPEAUX (BAGNOLET)', 'banking': 0, 'lat': 48.8645278209514, 'bonus': 0, 'status': '..."


data = eval(text)
data[:2]

[{'name': '31705 - CHAMPEAUX (BAGNOLET)',
  'available_bikes': 1,
  'status': 'OPEN',
  'number': 31705,
  'lng': 2.416170724425901,
  'available_bike_stands': 49,
  'contract_name': 'Paris',
  'address': 'RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) - 93170 BAGNOLET',
  'last_update': datetime.datetime(2014, 11, 11, 21, 55, 22),
  'lat': 48.8645278209514,
  'bike_stands': 50,
  'collect_date': datetime.datetime(2014, 11, 11, 22, 0, 18, 628226),
  'bonus': 0,
  'banking': 0},
 {'name': '10042 - POISSONNIÈRE - ENGHIEN',
  'available_bikes': 32,
  'status': 'OPEN',
  'number': 10042,
  'lng': 2.348395236282807,
  'available_bike_stands': 1,
  'contract_name': 'Paris',
  'address': "52 RUE D'ENGHIEN / ANGLE RUE DU FAUBOURG POISSONIERE - 75010 PARIS",
  'last_update': datetime.datetime(2014, 11, 11, 21, 59, 5),
  'lat': 48.87242006305313,
  'bike_stands': 33,
  'collect_date': datetime.datetime(2014, 11, 11, 22, 0, 18, 628226),
  'bonus': 0,
  'banking': 0}]


import pandas
df = pandas.DataFrame(data)
df.head(n=2)


df.shape

(1229, 14)


df.plot(x="lng",y="lat",style=".",xlim=[2.20, 2.50])

<matplotlib.axes.AxesSubplot at 0xcc30090>


import json

class DateTimeEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime.datetime):
            encoded_object = "%04d-%02d-%02dT%02d:%02d:%02d"% (obj.timetuple()[:6] )
        else:
            encoded_object =json.JSONEncoder.default(self, obj)
        return encoded_object

files = [ os.path.join("velib",_) for _ in os.listdir("velib") if "paris" in _ and _.endswith(".txt") ]
for f in files :
    print("*****",f)
    with open(f, "r", encoding="utf8") as h:
        for row in h:
            js = eval(row)
            sjs = json.dumps( { "minute":js }, cls = DateTimeEncoder )  # essayer sans le paramètre cls pour
                                                                        # voir l'erreur que cela produit
            print(sjs [:400] + "...")
    break

***** velib\paris.2014-11-11_22-00-18.331391.txt
{"minute": [{"name": "31705 - CHAMPEAUX (BAGNOLET)", "available_bikes": 1, "status": "OPEN", "number": 31705, "lng": 2.416170724425901, "available_bike_stands": 49, "contract_name": "Paris", "address": "RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) - 93170 BAGNOLET", "last_update": "2014-11-11T21:55:22", "lat": 48.8645278209514, "bike_stands": 50, "collect_date": "2014-11-11T22:00:18", "bonus": 0, ...


%%PYTHON stream_json.py

import sys, datetime
cols = [ _ for _ in sys.argv if ".py" not in _ ]
for row in sys.stdin:
    row = row.strip()
    if len(row) == 0 :
        continue
    js = eval(row)
    for station in js:
        vals = [ str(station[c]) for c in cols ]
        sys.stdout.write(",".join(vals))
        sys.stdout.write("\n")
        sys.stdout.flush()


%%runpy stream_json.py name status
[{'address': 'RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) - 93170 BAGNOLET', 'collect_date': datetime.datetime(2014, 11, 11, 22, 2, 18, 47270), 'lng': 2.416170724425901, 'contract_name': 'Paris', 'name': '31705 - CHAMPEAUX (BAGNOLET)', 'banking': 0, 'lat': 48.8645278209514, 'bonus': 0, 'status': 'OPEN', 'available_bikes': 1, 'last_update': datetime.datetime(2014, 11, 11, 21, 55, 22), 'number': 31705, 'available_bike_stands': 49, 'bike_stands': 50}]
[{'address': 'RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) - 93170 BAGNOLET', 'collect_date': datetime.datetime(2014, 11, 11, 22, 2, 18, 47270), 'lng': 2.416170724425901, 'contract_name': 'Paris', 'name': '31705 - CHAMPEAUX (BAGNOLET)', 'banking': 0, 'lat': 48.8645278209514, 'bonus': 0, 'status': 'OPEN', 'available_bikes': 1, 'last_update': datetime.datetime(2014, 11, 11, 21, 55, 22), 'number': 31705, 'available_bike_stands': 49, 'bike_stands': 50}]

31705 - CHAMPEAUX (BAGNOLET),OPEN
31705 - CHAMPEAUX (BAGNOLET),OPEN


import pyensae
from pyquickhelper.ipythonhelper import open_html_form
params={"server":"df...fr", "username":"", "password":""}
open_html_form(params=params,title="server + credentials", key_save="params")


import pyensae
%load_ext pyensae
password = params["password"]
server = params["server"]
username = params["username"]
client = %remote_open
client

<pyensae.remote.remote_connection.ASSHClient at 0x7bdbbb0>


%dfs_mkdir velib_py

('', '')


%dfs_ls .


files = [ os.path.join("velib",_) for _ in os.listdir("velib") if "paris" in _ and _.endswith(".txt")]
for i,f in enumerate(files[51:]) :
    if i % 10 == 0 : print(i,"/",len(files),f)
    filename = os.path.split(f)[-1]
    f = os.path.abspath(f)
    client.upload_cluster(f, "velib_py")

0 / 61 velib\paris.2014-11-11_22-51-17.300775.txt


%dfs_mkdir velib_py_results

('', '')


%%PIG json_velib.pig

DEFINE pystream `python stream_json.py available_bike_stands available_bikes lat lng name status` SHIP ('stream_json.py') INPUT(stdin USING PigStreaming(',')) OUTPUT (stdout USING PigStreaming(',')) ;

jspy = LOAD 'velib_py/*.txt' USING PigStorage('\t') AS (arow:chararray);

matrice = STREAM jspy THROUGH pystream AS 
                (   available_bike_stands:chararray, 
                    available_bikes:chararray, 
                    lat:double, 
                    lng:double, 
                    name:chararray, 
                    status:chararray) ;

STORE matrice INTO 'velib_py_results/firstjob' USING PigStorage('\t') ;


if client.dfs_exists("velib_py_results/firstjob"):
    client.dfs_rm("velib_py_results/firstjob", recursive=True)
%dfs_mkdir velib_py_results

("Moved: 'hdfs://nameservice1/user/xavierdupre/velib_py_results/firstjob' to trash at: hdfs://nameservice1/user/xavierdupre/.Trash/Current\n",
 '14/11/21 01:50:26 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 1440 minutes, Emptier interval = 0 minutes.\n')


%pig_submit json_velib.pig stream_json.py -r redirection


%remote_ls .


%remote_cmd tail redirection.pig.err

Total bytes written : 4611956
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0

Job DAG:
job_1414491244634_0092


2014-11-21 01:51:16,166 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!


%dfs_ls velib_py_results


if os.path.exists("velib_hd.txt") : os.remove("velib_hd.txt")
client.download_cluster("velib_py_results/firstjob","velib_hd.txt", merge=True)

'velib_py_results/firstjob'


%head velib_hd.txt -n 5

47	3	48.864527821	2.41617072443	31705 - CHAMPEAUX (BAGNOLET)	OPEN
5	28	48.8724200631	2.34839523628	10042 - POISSONNIÈRE - ENGHIEN	OPEN
42	1	48.8821489456	2.31986005477	08020 - METRO ROME	OPEN
5	31	48.8682170168	2.3304935114	01022 - RUE DE LA PAIX	OPEN
20	5	48.8932686647	2.41271573339	35014 - DE GAULLE (PANTIN)	OPEN


import pandas
df = pandas.read_csv("velib_hd.txt", sep="\t",names=["available_bike_stands","available_bikes","lat","lng","name","status"])
df.head()


df.shape

(73740, 6)

	attributes	code	alias	folder	size	date	time	name	isdir
0	drwx------	-	xavierdupre	xavierdupre	0	2014-11-21	01:05	.Trash	True
1	drwx------	-	xavierdupre	xavierdupre	0	2014-11-21	01:06	.staging	True
2	-rw-r--r--	3	xavierdupre	xavierdupre	132727	2014-11-16	02:37	ConfLongDemo_JSI.small.example.txt	False
3	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-16	02:38	ConfLongDemo_JSI.small.example2.walking.txt	True
4	-rw-r--r--	3	xavierdupre	xavierdupre	461444	2014-11-20	01:33	paris.2014-11-11_22-00-18.331391.txt	False
5	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-20	23:43	unitest2	True
6	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-20	22:29	unittest	True
7	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-21	01:05	unittest2	True
8	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-20	01:53	velib_1hjs	True
9	drwxr-xr-x	-	xavierdupre	xavierdupre	0	2014-11-21	01:06	velib_py	True

		attributes	code	alias	folder	size	unit	name	isdir
-rw-rw-r--	1	xavierdupre	xavierdupre	0	Nov	21	01:43	dummy	False
	1	xavierdupre	xavierdupre	650	Nov	21	01:50	json_velib.pig	False
	1	xavierdupre	xavierdupre	523646	Nov	21	01:15	paris.2014-11-11_22-50-17.777867.txt	False
	1	xavierdupre	xavierdupre	3077	Nov	21	01:24	pig_1416529443864.log	False
	1	xavierdupre	xavierdupre	3297	Nov	21	01:37	pig_1416530241713.log	False
	1	xavierdupre	xavierdupre	672	Nov	21	01:43	pystream.pig	False
	1	xavierdupre	xavierdupre	382	Nov	21	01:43	pystream.py	False
	1	xavierdupre	xavierdupre	860	Nov	21	01:50	redirection.err	False
	1	xavierdupre	xavierdupre	0	Nov	21	01:50	redirection.out	False
	1	xavierdupre	xavierdupre	356	Nov	21	01:50	stream_json.py	False

PIG et JSON et streaming avec les données vélib - énoncé¶

Récupération des données¶

Conversion des données en streaming¶

Connexion au cluster¶

Upload version¶

PIG, pseudo JSON et streaming¶

Exercice 1 : convertir les valeurs numériques¶

Exercice 2 : stations fermées¶

Exercice 3 : stations fermées, journée complète¶

Exercice 4 : astuces¶

	address	available_bike_stands	available_bikes	banking	bike_stands	bonus	collect_date	contract_name	last_update	lat	lng	name	number	status
0	RUE DES CHAMPEAUX (PRES DE LA GARE ROUTIERE) -...	49	1	0	50	0	2014-11-11 22:00:18.628226	Paris	2014-11-11 21:55:22	48.864528	2.416171	31705 - CHAMPEAUX (BAGNOLET)	31705	OPEN
1	52 RUE D'ENGHIEN / ANGLE RUE DU FAUBOURG POISS...	1	32	0	33	0	2014-11-11 22:00:18.628226	Paris	2014-11-11 21:59:05	48.872420	2.348395	10042 - POISSONNIÈRE - ENGHIEN	10042	OPEN