Los autores se sumergen en la mecánica de los gradientes que se desvanecen y explotan durante la fase de inicialización de la red. Se demuestra que en arquitecturas sin normalización, el flujo de la señal se comporta de forma subcrítica, lo que limita la profundidad de propagación efectiva de la activación. Esta limitación fundamental explica las dificultades de convergencia (convergence) a la hora de entrenar redes ultraprofundas. Comprender esta física de señales allana el camino para nuevos esquemas de inicialización de pesos que permitirán un entrenamiento más rápido de transformadores gigantes, ahorrando potencia informática de los clústeres.
Fuente: arXiv
CienciaTransformersDeep LearningOptimizaciónarXiv