2020-01 - 1/1 Blog

2020-01 - 1/1#

GELU et descente de gradient#

2020-01-20

Un article intéressant sur un petit changement numérique dans la fonction d’activation : Gaussian Error Linear Units (GELUS). D’après l’article, cette nouvelle fonction d’activation est comparable à la fonction Relu voire meilleure sur certains problèmes. Cette fonction d’activation est stochastique dans le sens où parfois la fonction retourne x ou 0 selon qu’une variable normale Y est inférieur à x. Le réseau introduit lui-même un bruit lors de la prédiction, la couche suivante doit donc en tenir compte.

…

article

2020-01 - 1/1 2020-10 (1) 2021-01 (1) 2021-06 (2) 2021-11 (1) 2022-02 (1)