Архитектура без костылей: Динамика инициализации в Normalization-Free трансформерах

Архитектура без костылей: Динамика инициализации в Normalization-Free трансформерах
Избавление от слоя нормализации (LayerNorm) остается одной из главных задач при оптимизации обучения тяжелых LLM. 16 апреля 2026 года на arXiv появилась работа «Subcritical Signal Propagation at Initialization in Normalization-Free Transformers».

Авторы погружаются в механику затухания и взрыва градиентов на этапе инициализации сети. Доказано, что в архитектурах без нормализации сигнал ведет себя субкритически (Subcritical Signal Propagation), что ограничивает глубину эффективного распространения активаций. Это фундаментальное ограничение объясняет трудности сходимости (convergence) при обучении сверхглубоких сетей. Понимание этой физики сигнала открывает путь к созданию новых схем инициализации весов, которые позволят тренировать гигантские трансформеры быстрее, экономя вычислительные мощности кластеров.

Источник: arXiv
ScienceTransformersDeep LearningOptimizationarXiv
« Назад к списку новостей
Chat