{"cells": [{"cell_type": "markdown", "metadata": {}, "source": ["# 2A.eco - Web-Scraping\n", "\n", "Sous ce nom se cache une pratique tr\u00e8s utile pour toute personne souhaitant travailler sur des informations disponibles en ligne, mais n'existant pas forc\u00e9ment sous la forme d'un tableau *Excel*... Bref, il s'agit de r\u00e9cup\u00e9rer des informations depuis *Internet*."]}, {"cell_type": "markdown", "metadata": {}, "source": ["Le [webscraping](https://fr.wikipedia.org/wiki/Web_scraping) d\u00e9signe les techniques d'extraction du contenu des sites internet. Via un programme informatique : nous allons aujourd'hui vous pr\u00e9senter comme cr\u00e9er et ex\u00e9cuter ces robots afin de recup\u00e9rer rapidement des informations utiles \u00e0 vos projets actuels ou futurs."]}, {"cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [{"data": {"text/html": ["
\n", ""], "text/plain": ["``, ``
`` et ``
``)."]}, {"cell_type": "markdown", "metadata": {}, "source": ["#### Exemple : les balise des tableaux\n", "\n", "$$\n", "\\begin{array}{rr} \\hline\n", "Balise & \\text{Description} \\\\ \\hline\n", "< table> & \\text{Tableau} \\\\\n", "< caption>& \\text{Titre du tableau} \\\\\n", "< tr> & \\text{Ligne de tableau} \\\\\n", "< th> & \\text{Cellule d'en-t\u00eate}\\\\\n", "< td> & \\text{Cellule} \\\\\n", "< thead> & \\text{Section de l'en-t\u00eate du tableau} \\\\\n", "< tbody> & \\text{Section du corps du tableau} \\\\\n", "< tfoot> & \\text{Section du pied du tableau} \\\\\n", "\\end{array}\n", "$$"]}, {"cell_type": "markdown", "metadata": {}, "source": ["##### Application : un tableau en HTML\n", "\n", "Le code *HTML* du tableau suivant"]}, {"cell_type": "raw", "metadata": {}, "source": ["Pr\u00e9nom | \n", "Nom | \n", "Profession | \n", "
---|---|---|
Mike | \n", "Stuntman | \n", "Cascadeur | \n", "
Mister | \n", "Pink | \n", "Gangster | \n", "
`` tandis que l'\u00e9l\u00e9ment ``
`` est l'enfant de l'\u00e9l\u00e9ment ``