2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

Инициализация Весов и Динамика Дисперсии в Глубоких Нейронных Сетях и Больших Языковых Моделях

Основная Информация

  • ID Статьи: 2510.09423
  • Название: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • Автор: Yankun Han (University of Florida)
  • Категория: cs.LG (Машинное обучение)
  • Дата публикации: 10 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09423

Аннотация

Инициализация весов контролирует распространение сигнала и поток градиентов в начале обучения. Данная работа представляет теоретически обоснованное и эмпирически проверенное исследование, охватывающее два направления: компактные многослойные перцептроны с активацией ReLU и Трансформеры в стиле GPT-2. Во-первых, путём логарифмического сканирования начального стандартного отклонения авторы отображают области исчезновения и взрыва градиентов, выявляя широкую полосу стабильности со стандартным отклонением между 1e-2 и 1e-1. Во-вторых, контролируемые сравнения показывают, что при активации ReLU инициализация Kaiming (fan-in) обеспечивает более быструю и стабильную сходимость по сравнению с инициализацией Xavier, что согласуется с теорией сохранения дисперсии. В-третьих, в 12-слойной модели GPT-2 с нуля авторы отслеживают изменения дисперсии весов Q/K/V на всех слоях во время предварительного обучения, наблюдая явление глубинной балансировки: поверхностные слои быстро расширяются, тогда как глубокие слои изменяются более постепенно.

Исследовательский Контекст и Мотивация

Определение Проблемы

Основная проблема, которую решает данное исследование, заключается в влиянии инициализации весов на стабильность и сходимость обучения в глубоких нейронных сетях и больших языковых моделях. Конкретно это включает:

  1. Чувствительность к масштабу инициализации: Как различные начальные стандартные отклонения влияют на стабильность обучения
  2. Специфичность функции активации: Требуют ли функции активации ReLU и GELU специальные стратегии инициализации
  3. Динамика дисперсии в современных Трансформерах: Сохраняется ли стабилизация дисперсии в больших моделях Трансформеров

Значимость

Инициализация весов является критическим фактором успеха обучения глубоких сетей. Неправильная инициализация приводит к:

  • Исчезновению градиентов: Сигнал затухает слой за слоем в глубоких сетях
  • Взрыву градиентов: Сигнал экспоненциально растёт во время распространения
  • Нестабильности обучения: Колебания и расхождение в процессе оптимизации

Ограничения Существующих Методов

Классические методы инициализации (LeCun, Xavier/Glorot, He/Kaiming), хотя и имеют интуитивное обоснование сохранения дисперсии, всё ещё имеют следующие проблемы в практическом применении:

  1. Чувствительность к отклонениям от идеального масштаба недостаточно количественно оценена
  2. Механизмы влияния специфических функций активации (ReLU, GELU) неясны
  3. Систематическое исследование производительности в больших Трансформерах отсутствует

Основные Вклады

  1. Унифицированная структура анализа дисперсии: Выведены условия распространения дисперсии в прямом и обратном проходе для распространённых функций активации (ReLU, GELU), объясняющие, как масштабирование fan-in сохраняет амплитуду сигнала и откуда берётся коэффициент 2 в ReLU
  2. Количественная оценка чувствительности к масштабу: Путём логарифмического сканирования 25 значений стандартного отклонения авторы отображают области исчезновения/взрыва градиентов, выявляя полосу стабильного обучения σ ∈ 10⁻², 10⁻¹
  3. Проверка инициализации с учётом функции активации: При контролируемом обучении ReLU MLP подтверждается, что Kaiming normal (fan-in) обеспечивает более быструю сходимость и меньшую дисперсию потерь по сравнению с Xavier normal
  4. Анализ динамики дисперсии Трансформера: В 12-слойной модели GPT-2 с нуля обнаружены явные глубинные закономерности: стандартное отклонение весов поверхностных слоёв быстро расширяется, глубоких слоёв — более постепенно, в итоге все стабилизируются в узкой полосе дисперсии

Подробное Описание Методологии

Теоретическая Структура

Анализ Дисперсии в Прямом Проходе

Для линейного отображения:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

После нелинейной активации:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

где c_φ = E[φ(z)²]/Var[z] — константа, зависящая от функции активации.

Для предотвращения исчезновения или взрыва активационных значений выбирается σ²_W ≈ 1/(c_φ n_in):

  • ReLU: c_φ ≈ 1/2, следовательно σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5, немного меньше, чем ReLU

Анализ Дисперсии в Обратном Проходе

Обратное распространение даёт:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

где d_φ = E[φ'(z)²]. Для ReLU d_φ = 1/2, балансировка дисперсии градиентов требует σ²_W ≈ 2/n_out.

Компромисс и Практический Выбор

Условия сохранения в прямом и обратном проходе обычно не могут быть одновременно удовлетворены, если только n_in ≈ n_out и c_φ ≈ d_φ. На практике сохранение стабильности прямого сигнала обычно более важно, что объясняет, почему fan-in He/Kaiming обеспечивает более быструю сходимость, чем Xavier.

Дизайн Экспериментов

Эксперимент E1: Сканирование Стандартного Отклонения

  • Архитектура сети: 784→64→32→32→10 MLP с ReLU
  • Набор данных: MNIST
  • Диапазон сканирования: 25 значений стандартного отклонения от 10⁻⁴ до 10, логарифмический интервал
  • Метрики оценки: Траектория потерь, точность классификации

Эксперимент E2: Сравнение Xavier vs Kaiming

  • Архитектура сети: 11→16→32→32→1 сеть с ReLU
  • Набор данных: Бинарная классификация UCI Wine
  • Схемы сравнения: Xavier normal vs Kaiming uniform
  • Статистическая проверка: 10 случайных запусков, парный t-тест

Эксперимент E3: Динамика Дисперсии GPT-2

  • Масштаб модели: 12-слойный Трансформер в стиле GPT-2
  • Инициализация: Стандартная конфигурация (большинство модулей std=0.02, слой встраивания xavier normal)
  • Оптимизатор: AdamW, скорость обучения 1×10⁻⁴, размер батча 16
  • Цели отслеживания: Стандартное отклонение весов проекций Q/K/V на всех слоях

Результаты Экспериментов

Результаты E1: Сканирование Стандартного Отклонения

  • Интервал стабильности: Обучение гладко протекает в диапазоне σ ∈ 10⁻², 10⁻¹, градиенты ведут себя хорошо, точность достигает пиковых значений в этом интервале
  • Исчезновение градиентов: Экстремально малые масштабы (σ ≲ 10⁻³) приводят к исчезновению обновлений и снижению точности
  • Взрыв градиентов: Экстремально большие масштабы (σ ≳ 1) производят нестабильные потери и случайные расхождения

Результаты E2: Сравнение Методов Инициализации

Инициализация Kaiming постоянно превосходит Xavier по нескольким измерениям:

  • Скорость сходимости: Медианное количество эпох для достижения целевого показателя меньше, ранее снижение потерь более крутое
  • Точность: Финальная точность валидации совпадает или немного превосходит Xavier
  • Статистическая значимость: Парный t-тест показывает значительные различия в потерях и точности обучения (p < 0.05)

Результаты E3: Обнаружения Динамики Дисперсии Трансформера

  • Глубинные закономерности: Поверхностные слои показывают быстрое и значительное расширение стандартного отклонения весов на ранних этапах обучения, глубокие слои расширяются медленнее и плавнее
  • Балансировка дисперсии: Все слои в итоге стабилизируются в узкой полосе дисперсии
  • Разреживание распределения: После обучения распределение весов становится более разреженным, многие записи остаются близкими к нулю, немногие большие веса доминируют

Теоретические Инсайты и Практическое Значение

Механизм Глубинной Балансировки Дисперсии

Статья раскрывает прогрессивный паттерн балансировки в Трансформерах:

  1. Быстрая адаптация поверхностных слоёв: Слои, близкие к входу, имеют высокое отношение сигнал-шум в градиентах, что стимулирует раннее активное масштабирование
  2. Постепенная регулировка глубоких слоёв: Длина пути остаточных соединений и предварительная нормализация ограничивают эффективный размер шага для глубоких слоёв
  3. Неявные ограничения: Насыщение softmax внимания и затухание весов в AdamW предотвращают большие масштабы параметров

Практические Принципы Руководства

  1. ReLU/GELU MLP: Начинайте с fan-in He/Kaiming; если сильно несбалансированные слои вызывают дрейф градиентов, немного сдвиньтесь в сторону выбора fan-average
  2. Глубокие остаточные стеки: Остаточное масштабирование (например, 1/√L) или нормализация помогают предотвратить дрейф дисперсии в глубоких слоях
  3. Проекции Трансформера: Используйте инициализацию с малым стандартным отклонением (например, 0.02), отслеживайте стандартное отклонение и норму градиентов на каждом слое

Сравнение с Соответствующими Работами

Базовые Стратегии Инициализации

  • Метод LeCun: Правило сохранения дисперсии для линейных активаций
  • Glorot/Xavier: Масштабирование на основе fan для tanh/sigmoid
  • He/Kaiming: Масштабирование с учётом активации, компенсирующее уменьшение вторых моментов при ReLU

Современные Разработки

  • Инициализация Fixup: Устраняет необходимость нормализации в экстремально глубоких сетях через тщательно выбранную инициализацию и масштабирование остатков
  • DeepNet: Предлагает принципиальные правила глубинного масштабирования, позволяющие обучать сети с тысячами слоёв
  • Преимущества предварительной нормализации: По сравнению с последующей нормализацией улучшает стабильность оптимизации путём сглаживания потока градиентов

Заключение и Обсуждение

Основные Выводы

  1. Существование полосы стабильности: Существует широкая, но чувствительная полоса стабильности в диапазоне σ ∈ 10⁻², 10⁻¹
  2. Важность специфичности функции активации: Инициализация Kaiming действительно превосходит Xavier в сетях с ReLU
  3. Глубинная динамика: Трансформеры демонстрируют глубинную балансировку дисперсии, поверхностные слои быстро адаптируются, глубокие слои регулируются постепенно

Ограничения

  1. Масштаб экспериментов: Эксперименты с GPT-2 относительно небольшие (12 слоёв), поведение в крупномасштабных моделях может отличаться
  2. Охват функций активации: Анализ в основном сосредоточен на ReLU и GELU, анализ других функций активации ограничен
  3. Зависимость от оптимизатора: Результаты могут быть чувствительны к конкретному оптимизатору (AdamW) и настройкам гиперпараметров

Будущие Направления

  1. Адаптивная инициализация с учётом глубины: Обучение масштабов для каждого слоя или головы, приближение поверхностных слоёв к финальному уровню дисперсии
  2. Связь оптимизатора и расписания: Совместная оптимизация длины разогрева, затухания весов и отсечения градиентов
  3. Масштабирование глубины и ширины: Оценка устойчивости глубинной балансировки в более крупных моделях

Глубокая Оценка

Преимущества

  1. Интеграция теории и практики: Органичное сочетание классической теории распространения дисперсии с поведением современных Трансформеров
  2. Систематический дизайн экспериментов: Прогрессивная проверка от простых MLP к сложным Трансформерам
  3. Высокая практическая ценность: Предоставляет конкретные рекомендации по инициализации и методы диагностики
  4. Статистическая строгость: Использование парного t-теста и других статистических методов для проверки значимости результатов

Недостатки

  1. Ограниченная глубина теоретического анализа: Отсутствует более глубокое теоретическое объяснение глубинных явлений
  2. Ограничения масштаба экспериментов: Ограничены вычислительными ресурсами, не проверены на действительно крупномасштабных моделях
  3. Вопросы обобщаемости: Результаты в основном основаны на специфических архитектурах и задачах, обобщаемость требует дальнейшей проверки

Оценка Влияния

  1. Академический вклад: Предоставляет современный взгляд на теорию инициализации, связывая классическую теорию с текущей практикой
  2. Практическая ценность: Предоставляет практикам чёткие стратегии инициализации и инструменты диагностики
  3. Воспроизводимость: Дизайн экспериментов ясен, параметры и настройки кода подробны, что облегчает воспроизведение

Применимые Сценарии

  1. Обучение глубоких сетей: Особенно применимо к глубоким сетям с активациями ReLU/GELU
  2. Оптимизация Трансформеров: Предоставляет руководство по инициализации для обучения больших языковых моделей
  3. Исследовательский инструмент: Предоставляет методологическую структуру для исследователей по анализу динамики весов

Библиография

Статья цитирует ключевые работы в области инициализации, включая фундаментальные исследования LeCun, Glorot, He и других, а также недавние достижения в оптимизации Трансформеров, обеспечивая прочную теоретическую основу для данного исследования.