2023-02-06 Année 2023, séance 2#

Séance découpée en quatre parties.

Partie I : exercice

Un base de données contient une variable catégorielle. Malheureusement, elle est renseignée de façon imparfaite car elle contient des erreurs de syntaxe. Exemple :

['comptabilité', 'datascience', 'data science',
 'pilote', 'pilotage', 'auteur', 'autrice', ...]

Que peut-on faire pour nettoyer cette variable ?

Partie II : pandas, graphes, gros fichiers, cartes

fonction, notion de coût

Les fonctions

  • fonctions : def

<<<

import cProfile

nombres = [9, 7, 5, 4, 6, 7, 3, 1, 7, 8]


def moyenne(ens):
    return sum(ens) / len(ens)


def ecarttype(ens):
    var = [(n - moyenne(ens)) ** 2 for n in ens]
    return (sum(var) / len(var)) ** 0.5


print(moyenne(nombres))
print(ecarttype(nombres))

with cProfile.Profile() as pr:
    for n in range(100000):
        ecarttype(nombres)

pr.print_stats()

  • coût d’un algorithme

  • notation with

Partie III : premiers pas avec scikit-learn

Pourquoi scikit-learn ?

  • créer son premier modèle

  • type de problème résolus

  • famille de modèles

  • transformer

  • pipeline