Arquitectura sin Muletas: Dinámica de Inicialización en Transformers sin Normalización

Arquitectura sin Muletas: Dinámica de Inicialización en Transformers sin Normalización
Deshacerse de la capa de normalización (LayerNorm) sigue siendo uno de los principales objetivos a la hora de optimizar el entrenamiento de los LLM pesados. El 16 de abril de 2026, apareció en arXiv el artículo "Subcritical Signal Propagation at Initialization in Normalization-Free Transformers".

Los autores se sumergen en la mecánica de los gradientes que se desvanecen y explotan durante la fase de inicialización de la red. Se demuestra que en arquitecturas sin normalización, el flujo de la señal se comporta de forma subcrítica, lo que limita la profundidad de propagación efectiva de la activación. Esta limitación fundamental explica las dificultades de convergencia (convergence) a la hora de entrenar redes ultraprofundas. Comprender esta física de señales allana el camino para nuevos esquemas de inicialización de pesos que permitirán un entrenamiento más rápido de transformadores gigantes, ahorrando potencia informática de los clústeres.

Fuente: arXiv
CienciaTransformersDeep LearningOptimizaciónarXiv
« Volver a la Lista de Noticias
Chat