2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han

Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.

academic

深層ニューラルネットワークと大規模言語モデルにおける重み初期化と分散ダイナミクス

基本情報

論文ID: 2510.09423
タイトル: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
著者: Yankun Han (フロリダ大学)
分類: cs.LG (機械学習)
発表日時: 2025年10月10日 (arXivプレプリント)
論文リンク: https://arxiv.org/abs/2510.09423

要約

重み初期化は訓練開始時の信号伝播と勾配流を制御する。本論文は、理論的基礎が堅牢で経験的検証を備えた研究を提供し、2つの領域をカバーしている：コンパクトなReLU多層パーセプトロンとGPT-2スタイルのTransformer。まず、初期標準偏差の対数スイープを通じて、勾配消失と爆発領域をマッピングし、標準偏差が1e-2から1e-1の間の広範な安定帯を特定した。次に、制御された比較により、ReLU活性化関数下では、Kaiming（fan-in）初期化がXavier初期化よりも高速かつ安定的に収束することを示し、これは分散保持理論と一致している。第三に、ゼロから構築した12層GPT-2スタイルモデルにおいて、事前訓練中の各層Q/K/V重み分散の変化を追跡し、深度関連の平衡現象を観察した：浅層は急速に拡張し、深層はより段階的に変化する。

研究背景と動機

問題定義

本研究が解決すべき中核的な問題は、深層ニューラルネットワークと大規模言語モデルにおける重み初期化が訓練安定性と収束性に与える影響である。具体的には以下を含む：

初期化スケール感度：異なる初期標準偏差が訓練安定性にどのように影響するか
活性化関数特異性：ReLUおよびGELUなどの活性化関数が特定の初期化戦略を必要とするかどうか
現代的Transformerの分散ダイナミクス：大規模Transformerモデルにおいて分散安定化が継続して存在するかどうか

重要性

重み初期化は深層学習訓練成功の重要な要因であり、不適切な初期化は以下をもたらす：

勾配消失：信号が深層ネットワークで層ごとに減衰する
勾配爆発：信号が伝播過程で指数関数的に増大する
訓練不安定性：最適化過程における振動と発散

既存手法の限界

古典的初期化手法（LeCun、Xavier/Glorot、He/Kaiming）は理論的には分散保持の直感を持つが、実際の応用では以下の問題が存在する：

理想的スケール偏差に対する感度が十分に定量化されていない
特定の活性化関数（ReLU、GELU）の影響メカニズムが不明確である
大規模Transformerにおける性能に関する体系的研究が不足している

中核的貢献

統一的分散分析フレームワーク：一般的な活性化関数（ReLU、GELU）の前向きおよび後向き分散伝播条件を導出し、fan-in スケーリングが信号振幅を保持する方法およびReLUにおける係数2の由来を説明した
スケール感度の定量化：25個の標準偏差値の対数スイープを通じて、勾配消失/爆発領域をマッピングし、安定訓練帯σ ∈ 10⁻², 10⁻¹を特定した
活性化関数認識初期化の検証：制御されたReLU MLP訓練において、Kaiming normal（fan-in）がXavier normalより高速に収束し、損失分散がより小さいことを確認した
Transformer分散ダイナミクス分析：ゼロから構築した12層GPT-2スタイルモデルにおいて、明確な深度関連パターンを発見：浅層重み標準偏差は急速に拡張し、深層はより段階的であり、最終的にはすべてが狭い分散帯に安定する

方法論の詳細

理論的フレームワーク

前向き伝播分散分析

線形写像の場合：

Var[z_l] = n_in σ²_W Var[x_{l-1}]

非線形活性化後：

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

ここで c_φ = E[φ(z)²]/Var[z] は活性化関数関連の定数である。

活性化値の消失または爆発を避けるため、σ²_W ≈ 1/(c_φ n_in) を選択する：

ReLU: c_φ ≈ 1/2、したがって σ²_W ≈ 2/n_in (He/Kaiming)
GELU: c_φ ≈ 0.45-0.5、ReLUより若干小さい

後向き伝播分散分析

逆伝播は以下を与える：

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

ここで d_φ = E[φ'(z)²] である。ReLUの場合、d_φ = 1/2 であり、勾配分散のバランスには σ²_W ≈ 2/n_out が必要である。

ネットワークアーキテクチャ：784→64→32→32→10のReLU MLP
データセット：MNIST
スイープ範囲：25個の標準偏差値、10⁻⁴から10まで、対数間隔
評価指標：損失軌跡、分類精度

実験E2：XavierとKaimingの比較

ネットワークアーキテクチャ：11→16→32→32→1のReLUネットワーク
データセット：UCI Wine二値分類タスク
比較スキーム：Xavier normal対Kaiming uniform
統計検証：10回のランダム実行、対応のあるt検定

実験E3：GPT-2分散ダイナミクス

モデルスケール：12層GPT-2スタイルTransformer
初期化：標準設定（ほとんどのモジュールstd=0.02、埋め込み層xavier normal）
オプティマイザー：AdamW、学習率1×10⁻⁴、バッチサイズ16
追跡対象：すべての層のQ/K/V投影重み標準偏差

実験結果

E1：標準偏差スイープ結果

安定区間：σ ∈ 10⁻², 10⁻¹内での訓練は平滑で、勾配性能は良好、精度はこの区間内でピークに達する
勾配消失：極小スケール（σ ≲ 10⁻³）は更新消失と精度低下をもたらす
勾配爆発：極大スケール（σ ≳ 1）は不安定な損失と散発的な発散を生じさせる

E2：初期化手法比較

Kaiming初期化は複数の次元でXavierを継続的に上回る：

収束速度：目標に到達するまでの中央値エポック数が少なく、早期の損失低下がより急峻である
精度：最終的な検証精度はXavierと一致するか若干上回る
統計的有意性：対応のあるt検定は損失と訓練精度の差が有意であることを示す（p < 0.05）

E3：Transformer分散ダイナミクス発見

深度関連パターン：浅層は早期訓練中に重み標準偏差の急速かつ顕著な拡張を示し、深層はより遅く平滑な拡張を示す
分散バランス：すべての層は最終的に狭い分散帯に安定する
分布スパース化：訓練後、重み分布はより疎になり、多くのゼロ近くのエントリは変わらず、少数の大きな重みが支配的である

理論的洞察と実践的意義

深度関連の分散バランスメカニズム

論文はTransformerにおける段階的バランスパターンを明らかにした：

浅層の急速な適応：入力に近い層は高いシグナル対ノイズ比勾配を持ち、早期の積極的スケーリングを促進する
深層の段階的調整：残差パス長とプリノーマライゼーションは深層の有効ステップサイズを制限する
暗黙的制約：注意ソフトマックス飽和とAdamWの重み減衰は大きなパラメータスケールを防止する

実践的ガイドライン

ReLU/GELU MLP：fan-in He/Kaimingから開始；非常に不均衡な層が勾配ドリフトを引き起こす場合、fan-averageへの選択を若干移動させる
深い残差スタック：残差スケーリング（例：1/√L）またはノーマライゼーションは深度分散ドリフトを防止するのに役立つ
Transformer投影：小さな標準偏差初期化（例：0.02）を使用し、各層の標準偏差と勾度ノルムを監視する