Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
Инициализация Весов и Динамика Дисперсии в Глубоких Нейронных Сетях и Больших Языковых Моделях
Инициализация весов контролирует распространение сигнала и поток градиентов в начале обучения. Данная работа представляет теоретически обоснованное и эмпирически проверенное исследование, охватывающее два направления: компактные многослойные перцептроны с активацией ReLU и Трансформеры в стиле GPT-2. Во-первых, путём логарифмического сканирования начального стандартного отклонения авторы отображают области исчезновения и взрыва градиентов, выявляя широкую полосу стабильности со стандартным отклонением между 1e-2 и 1e-1. Во-вторых, контролируемые сравнения показывают, что при активации ReLU инициализация Kaiming (fan-in) обеспечивает более быструю и стабильную сходимость по сравнению с инициализацией Xavier, что согласуется с теорией сохранения дисперсии. В-третьих, в 12-слойной модели GPT-2 с нуля авторы отслеживают изменения дисперсии весов Q/K/V на всех слоях во время предварительного обучения, наблюдая явление глубинной балансировки: поверхностные слои быстро расширяются, тогда как глубокие слои изменяются более постепенно.
Основная проблема, которую решает данное исследование, заключается в влиянии инициализации весов на стабильность и сходимость обучения в глубоких нейронных сетях и больших языковых моделях. Конкретно это включает:
Чувствительность к масштабу инициализации: Как различные начальные стандартные отклонения влияют на стабильность обучения
Специфичность функции активации: Требуют ли функции активации ReLU и GELU специальные стратегии инициализации
Динамика дисперсии в современных Трансформерах: Сохраняется ли стабилизация дисперсии в больших моделях Трансформеров
Классические методы инициализации (LeCun, Xavier/Glorot, He/Kaiming), хотя и имеют интуитивное обоснование сохранения дисперсии, всё ещё имеют следующие проблемы в практическом применении:
Чувствительность к отклонениям от идеального масштаба недостаточно количественно оценена
Механизмы влияния специфических функций активации (ReLU, GELU) неясны
Систематическое исследование производительности в больших Трансформерах отсутствует
Унифицированная структура анализа дисперсии: Выведены условия распространения дисперсии в прямом и обратном проходе для распространённых функций активации (ReLU, GELU), объясняющие, как масштабирование fan-in сохраняет амплитуду сигнала и откуда берётся коэффициент 2 в ReLU
Количественная оценка чувствительности к масштабу: Путём логарифмического сканирования 25 значений стандартного отклонения авторы отображают области исчезновения/взрыва градиентов, выявляя полосу стабильного обучения σ ∈ 10⁻², 10⁻¹
Проверка инициализации с учётом функции активации: При контролируемом обучении ReLU MLP подтверждается, что Kaiming normal (fan-in) обеспечивает более быструю сходимость и меньшую дисперсию потерь по сравнению с Xavier normal
Анализ динамики дисперсии Трансформера: В 12-слойной модели GPT-2 с нуля обнаружены явные глубинные закономерности: стандартное отклонение весов поверхностных слоёв быстро расширяется, глубоких слоёв — более постепенно, в итоге все стабилизируются в узкой полосе дисперсии
Условия сохранения в прямом и обратном проходе обычно не могут быть одновременно удовлетворены, если только n_in ≈ n_out и c_φ ≈ d_φ. На практике сохранение стабильности прямого сигнала обычно более важно, что объясняет, почему fan-in He/Kaiming обеспечивает более быструю сходимость, чем Xavier.
Интервал стабильности: Обучение гладко протекает в диапазоне σ ∈ 10⁻², 10⁻¹, градиенты ведут себя хорошо, точность достигает пиковых значений в этом интервале
Исчезновение градиентов: Экстремально малые масштабы (σ ≲ 10⁻³) приводят к исчезновению обновлений и снижению точности
Взрыв градиентов: Экстремально большие масштабы (σ ≳ 1) производят нестабильные потери и случайные расхождения
Глубинные закономерности: Поверхностные слои показывают быстрое и значительное расширение стандартного отклонения весов на ранних этапах обучения, глубокие слои расширяются медленнее и плавнее
Балансировка дисперсии: Все слои в итоге стабилизируются в узкой полосе дисперсии
Разреживание распределения: После обучения распределение весов становится более разреженным, многие записи остаются близкими к нулю, немногие большие веса доминируют
Статья раскрывает прогрессивный паттерн балансировки в Трансформерах:
Быстрая адаптация поверхностных слоёв: Слои, близкие к входу, имеют высокое отношение сигнал-шум в градиентах, что стимулирует раннее активное масштабирование
Постепенная регулировка глубоких слоёв: Длина пути остаточных соединений и предварительная нормализация ограничивают эффективный размер шага для глубоких слоёв
Неявные ограничения: Насыщение softmax внимания и затухание весов в AdamW предотвращают большие масштабы параметров
ReLU/GELU MLP: Начинайте с fan-in He/Kaiming; если сильно несбалансированные слои вызывают дрейф градиентов, немного сдвиньтесь в сторону выбора fan-average
Глубокие остаточные стеки: Остаточное масштабирование (например, 1/√L) или нормализация помогают предотвратить дрейф дисперсии в глубоких слоях
Проекции Трансформера: Используйте инициализацию с малым стандартным отклонением (например, 0.02), отслеживайте стандартное отклонение и норму градиентов на каждом слое
Инициализация Fixup: Устраняет необходимость нормализации в экстремально глубоких сетях через тщательно выбранную инициализацию и масштабирование остатков
DeepNet: Предлагает принципиальные правила глубинного масштабирования, позволяющие обучать сети с тысячами слоёв
Преимущества предварительной нормализации: По сравнению с последующей нормализацией улучшает стабильность оптимизации путём сглаживания потока градиентов
Адаптивная инициализация с учётом глубины: Обучение масштабов для каждого слоя или головы, приближение поверхностных слоёв к финальному уровню дисперсии
Связь оптимизатора и расписания: Совместная оптимизация длины разогрева, затухания весов и отсечения градиентов
Масштабирование глубины и ширины: Оценка устойчивости глубинной балансировки в более крупных моделях
Статья цитирует ключевые работы в области инициализации, включая фундаментальные исследования LeCun, Glorot, He и других, а также недавние достижения в оптимизации Трансформеров, обеспечивая прочную теоретическую основу для данного исследования.