RSS 2020-01 - 1/1 Blog


2020-01 - 1/1

GELU et descente de gradient

2020-01-20

Un article intéressant sur un petit changement numérique dans la fonction d’activation : Gaussian Error Linear Units (GELUS). D’après l’article, cette nouvelle fonction d’activation est comparable à la fonction Relu voire meilleure sur certains problèmes. Cette fonction d’activation est stochastique dans le sens où parfois la fonction retourne x ou 0 selon qu’une variable normale Y est inférieur à x. Le réseau introduit lui-même un bruit lors de la prédiction, la couche suivante doit donc en tenir compte.

article


RSS 2020-01 - 1/1 2019-08 (1) 2020-01 (1) 2020-05 (1) 2020-07 (1) 2020-08 (1)