Liste, t-uple, ensemble, dictionnaire, liste chaînée, coût des opérations

Links: notebook, html ., PDF, python, slides ., GitHub

from jyquickhelper import add_notebook_menu
add_notebook_menu()
Plan
run previous cell, wait for 2 seconds

Python propose différents containers pour stocker des éléments. Voici les plus courants :

  • list : tableau d’éléments indexés de 0 à n exclu auquel on peut ajouter ou retirer des éléments
  • dict : tableau d’éléments indexés par des types immuables auquel on peut ajouter ou retirer des éléments
  • tuple : tableau d’éléments indexés de 0 à n exclu qu’on ne peut pas modifier
  • set : tableau d’éléments uniques non indexés
  • frozenset : set immuables (non modifiable)
  • deque : presque équivalent à une listes, la différent vient de l’implémentation, les mêmes opérations n’auront pas les mêmes coûts (deque = liste chaînée)

D’autres containers sont disponibles via le module collections. Tous proposent de stocker un nombre variables d’éléments. Deux aspects difféèrent :

  • la façon de désigner un élément de l’ensemble
  • le coût de certaines opérations, il faut choisir qui minisera le coût des opérations pour votre programme

Insertion avec list et deque

On veut comparer les coûts d’insertion en début et fin de liste pour un grand nombre d’éléments.

import time, collections
N = 1000000

for p in range(0,3):
    print("passage ", p)
    print("  insertion en fin")

    li = list()
    a = time.clock()
    for i in range(0,N) :
        li.append(i)
    b = time.clock()
    print("    list", N, "éléments, temps par éléments :", (b-a)/N)

    li = collections.deque()
    a = time.clock()
    for i in range(0,N) :
        li.append(i)
    b = time.clock()
    print("    deque", N, "éléments, temps par éléments :", (b-a)/N)

    print("  insertion au début")
    li = collections.deque()
    a = time.clock()
    for i in range(0,N) :
        li.appendleft(i)
    b = time.clock()
    print("    deque", N, "éléments, temps par éléments :", (b-a)/N)

    N2 = N // 100
    li = list()
    a = time.clock()
    for i in range(0,N2) :
        li.insert(0,i)
    b = time.clock()
    print("    list", N, "éléments, temps par éléments :", (b-a)/N)
passage  0
  insertion en fin
    list 1000000 éléments, temps par éléments : 2.5046494771072505e-07
    deque 1000000 éléments, temps par éléments : 2.0089547068874937e-07
  insertion au début
    deque 1000000 éléments, temps par éléments : 1.9280886575847944e-07
    list 1000000 éléments, temps par éléments : 4.187672524574282e-08
passage  1
  insertion en fin
    list 1000000 éléments, temps par éléments : 2.054758845125093e-07
    deque 1000000 éléments, temps par éléments : 1.8848161270256015e-07
  insertion au début
    deque 1000000 éléments, temps par éléments : 1.9194247434717227e-07
    list 1000000 éléments, temps par éléments : 4.5812690966442916e-08
passage  2
  insertion en fin
    list 1000000 éléments, temps par éléments : 2.0198166722616407e-07
    deque 1000000 éléments, temps par éléments : 1.8757844455802796e-07
  insertion au début
    deque 1000000 éléments, temps par éléments : 1.8689465390315263e-07
    list 1000000 éléments, temps par éléments : 4.0188416612011224e-08

On voit que l’insertion au début du tableau est beaucoup plus coûteuse pour une liste que pour un deque.

Un élément dans un ensemble

Faut-il écrire i in [0,1] ou i in (0,1) ou ... Essayons.

import time, collections
N = 100000
lens = list(range(0,1000))
tens = tuple(lens)
sens = set(lens)
fens = frozenset(lens)

for p in range(0,3):
    print("passage",p)
    a = time.clock()
    s = 0
    for i in range(0,N) :
        if i in lens : s += 1
    b = time.clock()
    print("  list", N, "fois, temps par éléments :", (b-a)/N)

    a = time.clock()
    s = 0
    for i in range(0,N) :
        if i in tens : s += 1
    b = time.clock()
    print("  tuple", N, "fois, temps par éléments :", (b-a)/N)

    a = time.clock()
    s = 0
    for i in range(0,N) :
        if i in sens : s += 1
    b = time.clock()
    print("  set", N, "fois, temps par éléments :", (b-a)/N)

    a = time.clock()
    s = 0
    for i in range(0,N) :
        if i in fens : s += 1
    b = time.clock()
    print("  frozenset", N, "fois, temps par éléments :", (b-a)/N)
passage 0
  list 100000 fois, temps par éléments : 2.3807495183744436e-05
  tuple 100000 fois, temps par éléments : 2.3632861293984887e-05
  set 100000 fois, temps par éléments : 1.5523630120128474e-07
  frozenset 100000 fois, temps par éléments : 1.4532368870618483e-07
passage 1
  list 100000 fois, temps par éléments : 2.327263746907704e-05
  tuple 100000 fois, temps par éléments : 2.3603341551079778e-05
  set 100000 fois, temps par éléments : 1.386097967230171e-07
  frozenset 100000 fois, temps par éléments : 1.3637325818365298e-07
passage 2
  list 100000 fois, temps par éléments : 2.3171993234791443e-05
  tuple 100000 fois, temps par éléments : 2.330123351728844e-05
  set 100000 fois, temps par éléments : 1.3354230500340236e-07
  frozenset 100000 fois, temps par éléments : 1.3071990455159722e-07

Il apparaît que les ensemble set ou frozenset sont beaucoup plus rapides. Plus l’ensemble est grand, plus cette différence est importante.