from jyquickhelper import add_notebook_menu
add_notebook_menu()


import random
X = [random.random() * 16 for i in range(0,1000)]
Y = [ int(x**0.5) % 2 for x in X]


%matplotlib inline


import matplotlib.pyplot as plt
plt.plot(X, Y, '.')

[<matplotlib.lines.Line2D at 0x1f893f9e518>]


nuage = [(x,y) for x,y in zip(X,Y)]
nuage.sort()
nuage[:5]

[(0.014962888038782651, 0),
 (0.020462778257442693, 0),
 (0.022310859639508962, 0),
 (0.03078728731371605, 0),
 (0.03153252863972433, 0)]


def somme_diff(xy, i, j):
    m = sum(e[1] for e in xy[i:j]) / (j-i)
    return sum(abs(e[1]-m) for e in xy[i:j])

somme_diff(nuage, 0, 5), somme_diff(nuage, 0, len(nuage))

(0.0, 476.2380000000092)


def difference(nuage, i, j, k):
    m1 = somme_diff(nuage, i, k)
    m2 = somme_diff(nuage, k, j)
    m = somme_diff(nuage, i, j)
    return abs(m1+m2-m)

difference(nuage, 0, len(nuage), 100)

18.56022222223197


def fct(x, y):
    return abs(x-y)

def distance_list(list_x, list_y, f):
    return sum(f(x,y) for x,y in zip(list_x, list_y))

distance_list([0, 1], [0, 2], fct)

1


def somme_diff(xy, i, j, f):
    m = sum(e[1] for e in xy[i:j]) / (j-i)
    # On a modifié les fonctions précédentes pour calculer
    # une fonction d'erreur "custom" ou définie par l'utilisateur.
    return sum(f(e[1], m) for e in xy[i:j])

def difference(nuage, i, j, k, f):
    m1 = somme_diff(nuage, i, k, f)
    m2 = somme_diff(nuage, k, j, f)
    m = somme_diff(nuage, i, j, f)
    return abs(m - m1) + abs(m - m2)

difference(nuage, 0, len(nuage), 100, fct)

494.7982222222412


def optimise(nuage, i, j, f):
    mx = -1
    ib = None
    for k in range(i+1,j-1):
        d = difference(nuage, i,j,k, f)
        if ib is None or d > mx:
            mx = d
            ib = k
    if ib is None:
        # Au cas où l'intervalle est vide, on retourne une coupure
        # égale à i.
        ib = i
        mx = 0
    return ib, mx

optimise(nuage, 0, len(nuage), fct)

(565, 711.6476814159435)


import matplotlib.pyplot as plt
x = nuage[552][0]
plt.plot(X,Y,'.')
plt.plot([x,x], [0,1])

[<matplotlib.lines.Line2D at 0x1f893ea57b8>]


optimise(nuage, 0, 68, fct), optimise(nuage, 68, len(nuage), fct)

((1, 0.0), (565, 618.0710615624871))


import matplotlib.pyplot as plt
x = nuage[58][0]
x2 = nuage[552][0]
plt.plot(X,Y,'.')
plt.plot([x,x], [0,1])
plt.plot([x2,x2], [0,1])

[<matplotlib.lines.Line2D at 0x1f8943ece80>]


def recursive(nuage, i, j, f, th=0.1):
    k, mx = optimise(nuage, i, j, f)
    if mx <= th:
        return None
    r1 = recursive(nuage, i, k, f, th=th)
    r2 = recursive(nuage, k, j, f, th=th)
    if r1 is None and r2 is None:
        return [k]
    elif r1 is None:
        return [k] + r2
    elif r2 is None:
        return r1 + [k]
    else:
        return r1 + [k] + r2
    
r = recursive(nuage, 0, len(nuage), fct)
r

[68, 242, 565]


import matplotlib.pyplot as plt
plt.plot(X, Y, '.')
for i in r:
    x = nuage[i][0]
    plt.plot([x,x], [0,1])


def somme_diff_abs(xy, i, j):
    m = sum(e[1] for e in xy[i:j]) / (j-i)
    return sum(abs(e[1]-m) for e in xy[i:j])

def difference_abs(nuage, i, j, k):
    m1 = somme_diff_abs(nuage, i, k)
    m2 = somme_diff_abs(nuage, k, j)
    m = somme_diff_abs(nuage, i, j)
    return abs(m1+m2-m)

def optimise_abs(nuage, i, j):
    mx = -1
    ib = None
    for k in range(i+1,j-1):
        d = difference_abs(nuage, i,j,k)
        if ib is None or d > mx:
            mx = d
            ib = k
    if ib is None:
        ib = i
        mx = 0
    return ib, mx

%timeit optimise_abs(nuage, 0, len(nuage))

503 ms ± 21.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# %prun optimise_abs(nuage, 0, len(nuage))


def histogramme_y(xy, i, j):
    d = [0, 0]
    for x, y in xy[i:j]:
        d[y] += 1
    return d

def somme_diff_histogramme(d):
    m = d[1] * 1.0 / (d[0] + d[1])
    return (1-m) * d[1] + m * d[0]

def optimise_rapide(nuage, i, j):
    # On calcule les histogrammes.
    d1 = histogramme_y(nuage, i, i+1)
    d2 = histogramme_y(nuage, i+1, j)
    d = d1.copy()
    d[0] += d2[0]
    d[1] += d2[1]
    
    m = somme_diff_histogramme(d)
    m1 = somme_diff_histogramme(d1)
    m2 = somme_diff_histogramme(d2)
    mx = -1
    ib = None
    for k in range(i+1,j-1):
        d = abs(m1+m2-m)
        if ib is None or d > mx:
            mx = d
            ib = k
        # On met à jour les histogrammes. On ajoute d'un côté, on retranche de l'autre.
        y = nuage[k][1] 
        d1[y] += 1
        d2[y] -= 1
        m1 = somme_diff_histogramme(d1)
        m2 = somme_diff_histogramme(d2)
    if ib is None:
        ib = i
        mx = 0
    return ib, mx

# On vérifie qu'on obtient les mêmes résultats.
optimise_rapide(nuage, 0, len(nuage)), optimise_abs(nuage, 0, len(nuage))

((565, 235.4096814159292), (565, 235.40968141593424))


%timeit optimise_rapide(nuage, 0, len(nuage))

1.63 ms ± 150 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


import random
X2 = list(range(10))
Y2 = X2


import matplotlib.pyplot as plt
plt.plot(X2,Y2,'.')

[<matplotlib.lines.Line2D at 0x1f8944d3ba8>]


nuage2 = [(x,y) for x,y in zip(X2,Y2)]
nuage2.sort()


r = recursive(nuage2, 0, len(nuage2), fct)
len(r), r

(5, [2, 3, 5, 7, 8])


import matplotlib.pyplot as plt
plt.plot(X2,Y2,'.')
for i in r:
    x = nuage2[i][0]
    plt.plot([x,x], [0,10])

1A.e - Enoncé 12 décembre 2017 (1)¶

Q1 - échantillon aléatoire¶

Q1 - dessiner le nuage de points - donnée¶

Q2 - tri¶

Q3 - moyenne¶

Q4 - distance¶

Q5 - fonction comme paramètre¶

Q6 - optimiser¶

Q7 - optimisation encore¶

Q8 - fonction récursive¶

Q9 - coût¶

Q10 - autre nuage de points¶