Авторы погружаются в механику затухания и взрыва градиентов на этапе инициализации сети. Доказано, что в архитектурах без нормализации сигнал ведет себя субкритически (Subcritical Signal Propagation), что ограничивает глубину эффективного распространения активаций. Это фундаментальное ограничение объясняет трудности сходимости (convergence) при обучении сверхглубоких сетей. Понимание этой физики сигнала открывает путь к созданию новых схем инициализации весов, которые позволят тренировать гигантские трансформеры быстрее, экономя вычислительные мощности кластеров.
Источник: arXiv
ScienceTransformersDeep LearningOptimizationarXiv