Démonstration du théorème de la densité des réseaux de neurones#
Formulation du problème de la régression#
Soient deux variables aléatoires continues quelconque, la résolution du problème de régression est l’estimation de la fonction . Pour cela, on dispose d’un ensemble de points .
Soit une fonction, on définit . On appelle aussi la valeur prédite pour . On pose alors .
Les résidus sont supposés i.i.d. (identiquement et indépendemment distribués), et suivant une loi normale La vraisemblance d’un échantillon , où les sont indépendantes entre elles et suivent la loi de densité est la densité du vecteur qu’on exprime comme suit :
La log-vraisemblance de l’échantillon s’écrit . Les estimateurs du maximum de vraisemblance pour et sont (voir [Saporta1990]) :
L’estimateur de désirée est de préférence sans biais () et de variance minimum, par conséquent, les paramètres qui maximisent la vraisemblance sont :
(1)#
Réciproquement, on vérifie que si vérifie l’équation (1) alors l’estimateur défini par est sans biais Il suffit pour s’en convaincre de poser avec et de vérifier que la valeur optimale pour est . L’estimateur minimise la vraisemblance . Cette formule peut être généralisée en faisant une autre hypothèse que celle de la normalité des résidus (l’indépendance étant conservée), l’équation (1) peut généralisée par (2).
(2)#
Où la fonction est appelée fonction d’erreur.
Densité des réseaux de neurones#
L’utilisation de réseaux de neurones s’est considérablement développée depuis que l’algorithme de rétropropagation a été trouvé ([LeCun1985], [Rumelhart1986], [Bishop1995]). Ce dernier permet d’estimer la dérivée d’un réseau de neurones en un point donné et a ouvert la voie à des méthodes classiques de résolution pour des problèmes d’optimisation tels que la régression non linéaire.
Comme l’ensemble des fonctions polynômiales, l’ensemble des fonctions engendrées par des réseaux de neurones multi-couches possède des propriétés de densité et sont infiniment dérivables. Les réseaux de neurones comme les polynômes sont utilisés pour modéliser la fonction de l’équation (2). Ils diffèrent néanmoins sur certains points
Si une couche ne contient que des fonctions de transfert bornées comme la fonction sigmoïde, tout réseau de neurones incluant cette couche sera aussi borné. D’un point de vue informatique, il est préférable d’effectuer des calculs avec des valeurs du même ordre de grandeur. Pour un polynôme, les valeurs des termes de degré élevé peuvent être largement supérieurs à leur somme.
Un autre attrait est la symétrie dans l’architecture d’un réseau de neurones, les neurones qui le composent jouent des rôles symétriques (corollaire familles libres. Pour améliorer l’approximation d’une fonction, dans un cas, il suffit d’ajouter un neurone au réseau, dans l’autre, il faut inclure des polynômes de degré plus élevé que ceux déjà employés.
Théorème T1 : densité des réseaux de neurones (Cybenko1989)
[Cybenko1989] Soit l’espace des réseaux de neurones à entrées et sorties, possédant une couche cachée dont la fonction de seuil est une fonction sigmoïde , une couche de sortie dont la fonction de seuil est linéaire Soit l’ensemble des fonctions continues de avec compact muni de la norme Alors est dense dans .
La démonstration de ce théorème nécessite deux lemmes. Ceux-ci utilisent la définition usuelle du produit scalaire sur défini par . et la norme infinie : . Toutes les normes sont équivalentes sur .
Corollaire C1 : approximation d’une fonction créneau
Soit , alors :
Démonstration du corollaire
Partie 1
Soit la fonction définie par : avec et . A , fixé, , on cherche tel que :
Partie 2
Soit et ,
On pose d’après sa définition, .
Pour obtenu dans la partie précédente :
Partie 3
Soit la fonction définie par :
La fonction est un polynôme en dont le discriminant est positif. Par conséquent la fraction rationnelle admet une décomposition en éléments simples du premier ordre et il existe quatre réels , , , tels que :
Par conséquent :
Il existe tel qu’il soit possible d’écrire sous la forme :
Corollaire C2 : approximation d’une fonction indicatrice
Soit compact, alors :
Démonstration du corollaire
Partie 1
Soit et
Le premier lemme suggère que la fonction cherchée pour ce lemme dans le cas particulier est :
Pour , on a :
Par conséquent, il est facile de construire la fonction cherchée pour tout compact connexe par arc.
Partie 2
Si un compact n’est pas connexe par arc, on peut le recouvrir par une somme finie de compacts connexes par arcs et disjoints de telle sorte que :
Démontration du théorème de densité des réseaux de neurones
Partie 1
On démontre le théorème dans le cas où . Soit une fonction continue du compact et soit .
On suppose également que est positive, dans le cas contraire, on pose .
Si est nulle, alors c’est fini, sinon, on pose . existe car est continue et est compact (de même, existe également).
On pose . est compact car il est l’image réciproque d’un compact par une fonction continue et compact.
Par construction, et on définit~:
D’où~:
Comme est continue sur un compact, elle est uniformément continue sur ce compact :
Par conséquent :
D’après le second lemme, on peut construire des fonctions telles que :
On en déduit que :
Comme est de la forme désirée, le théorème est démontré dans le cas .
Partie 2
Dans le cas , on utilise la méthode précédente pour chacune des projections de dans un repère orthonormé de . Il suffit de sommer sur chacune des dimensions.
Ce théorème montre qu’il est judicieux de modéliser la fonction dans l’équation (2) par un réseau de neurones puisqu’il possible de s’approcher d’aussi près qu’on veut de la fonction , il suffit d’ajouter des neurones sur la couche cachée du réseau. Ce théorème permet de déduire le corollaire suivant :
Corollaire C3 : famille libre de fonctions
Soit l’ensemble des fonctions continues de avec compact muni de la norme : Alors l’ensemble des fonctions sigmoïdes :
est une base de .
Démonstration du corollaire
Le théorème de densité montre que la famille est une famille génératrice. Il reste à montrer que c’est une famille libre. Soient et vérifiant : . Soit , il faut montrer que :
(3)#
C’est évidemment vrai pour . La démonstration est basée sur un raisonnement par récurrence, on suppose qu’elle est vraie pour , démontrons qu’elle est vraie pour . On suppose donc . S’il existe tel que , la fonction est une constante, par conséquent, dans ce cas le corollaire est est vrai pour . Dans le cas contraire, . On définit les vecteurs et . On cherche à résoude le système de équations à inconnues :
(4)#
On note le vecteur et la matrice :
L’équation (4) est équivalente à l’équation matricielle : . On effectue une itération du pivot de Gauss. (4) équivaut à :
On note et , les matrices :
Donc (4) est équivalent à :
(5)#
Il est possible de choisir de telle sorte qu’il existe une suite avec et vérifiant :
On définit :
On vérifie que :
On obtient, toujours pour (4) :
(6)#
On étudie la limite lorsque :
Donc :
(7)#
D’après l’hypothèse de récurrence, (7) implique que : . Il reste à montrer que est nécessairement nul ce qui est le cas losque , alors . La récurrence est démontrée.
A chaque fonction sigmoïde du corollaire famille libre correspond un neurone de la couche cachée. Tous ont des rôles symétriques les uns par rapport aux autres ce qui ne serait pas le cas si les fonctions de transfert étaient des polynômes. C’est une des raisons pour lesquelles les réseaux de neurones ont du succès. Le théorème densité et le corollaire famille libre sont aussi vraies pour des fonctions du type exponentielle : . Maintenant qu’il est prouvé que les réseaux de neurones conviennent pour modéliser dans l’équation (2), il reste à étudier les méthodes qui permettent de trouver les paramètres optimaux de cette fonction.