2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

深層ニューラルネットワークと大規模言語モデルにおける重み初期化と分散ダイナミクス

基本情報

  • 論文ID: 2510.09423
  • タイトル: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • 著者: Yankun Han (フロリダ大学)
  • 分類: cs.LG (機械学習)
  • 発表日時: 2025年10月10日 (arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.09423

要約

重み初期化は訓練開始時の信号伝播と勾配流を制御する。本論文は、理論的基礎が堅牢で経験的検証を備えた研究を提供し、2つの領域をカバーしている:コンパクトなReLU多層パーセプトロンとGPT-2スタイルのTransformer。まず、初期標準偏差の対数スイープを通じて、勾配消失と爆発領域をマッピングし、標準偏差が1e-2から1e-1の間の広範な安定帯を特定した。次に、制御された比較により、ReLU活性化関数下では、Kaiming(fan-in)初期化がXavier初期化よりも高速かつ安定的に収束することを示し、これは分散保持理論と一致している。第三に、ゼロから構築した12層GPT-2スタイルモデルにおいて、事前訓練中の各層Q/K/V重み分散の変化を追跡し、深度関連の平衡現象を観察した:浅層は急速に拡張し、深層はより段階的に変化する。

研究背景と動機

問題定義

本研究が解決すべき中核的な問題は、深層ニューラルネットワークと大規模言語モデルにおける重み初期化が訓練安定性と収束性に与える影響である。具体的には以下を含む:

  1. 初期化スケール感度:異なる初期標準偏差が訓練安定性にどのように影響するか
  2. 活性化関数特異性:ReLUおよびGELUなどの活性化関数が特定の初期化戦略を必要とするかどうか
  3. 現代的Transformerの分散ダイナミクス:大規模Transformerモデルにおいて分散安定化が継続して存在するかどうか

重要性

重み初期化は深層学習訓練成功の重要な要因であり、不適切な初期化は以下をもたらす:

  • 勾配消失:信号が深層ネットワークで層ごとに減衰する
  • 勾配爆発:信号が伝播過程で指数関数的に増大する
  • 訓練不安定性:最適化過程における振動と発散

既存手法の限界

古典的初期化手法(LeCun、Xavier/Glorot、He/Kaiming)は理論的には分散保持の直感を持つが、実際の応用では以下の問題が存在する:

  1. 理想的スケール偏差に対する感度が十分に定量化されていない
  2. 特定の活性化関数(ReLU、GELU)の影響メカニズムが不明確である
  3. 大規模Transformerにおける性能に関する体系的研究が不足している

中核的貢献

  1. 統一的分散分析フレームワーク:一般的な活性化関数(ReLU、GELU)の前向きおよび後向き分散伝播条件を導出し、fan-in スケーリングが信号振幅を保持する方法およびReLUにおける係数2の由来を説明した
  2. スケール感度の定量化:25個の標準偏差値の対数スイープを通じて、勾配消失/爆発領域をマッピングし、安定訓練帯σ ∈ 10⁻², 10⁻¹を特定した
  3. 活性化関数認識初期化の検証:制御されたReLU MLP訓練において、Kaiming normal(fan-in)がXavier normalより高速に収束し、損失分散がより小さいことを確認した
  4. Transformer分散ダイナミクス分析:ゼロから構築した12層GPT-2スタイルモデルにおいて、明確な深度関連パターンを発見:浅層重み標準偏差は急速に拡張し、深層はより段階的であり、最終的にはすべてが狭い分散帯に安定する

方法論の詳細

理論的フレームワーク

前向き伝播分散分析

線形写像の場合:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

非線形活性化後:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

ここで c_φ = E[φ(z)²]/Var[z] は活性化関数関連の定数である。

活性化値の消失または爆発を避けるため、σ²_W ≈ 1/(c_φ n_in) を選択する:

  • ReLU: c_φ ≈ 1/2、したがって σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5、ReLUより若干小さい

後向き伝播分散分析

逆伝播は以下を与える:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

ここで d_φ = E[φ'(z)²] である。ReLUの場合、d_φ = 1/2 であり、勾配分散のバランスには σ²_W ≈ 2/n_out が必要である。

トレードオフと実践的選択

前向きおよび後向き保持条件は通常同時に満たすことはできない。ただし n_in ≈ n_out かつ c_φ ≈ d_φ の場合を除く。実践では、前向き信号の安定性を保持することが通常より重要であり、これはなぜfan-in He/Kaimingがfan-outより高速に収束するかを説明している。

実験設計

実験E1:標準偏差スイープ

  • ネットワークアーキテクチャ:784→64→32→32→10のReLU MLP
  • データセット:MNIST
  • スイープ範囲:25個の標準偏差値、10⁻⁴から10まで、対数間隔
  • 評価指標:損失軌跡、分類精度

実験E2:XavierとKaimingの比較

  • ネットワークアーキテクチャ:11→16→32→32→1のReLUネットワーク
  • データセット:UCI Wine二値分類タスク
  • 比較スキーム:Xavier normal対Kaiming uniform
  • 統計検証:10回のランダム実行、対応のあるt検定

実験E3:GPT-2分散ダイナミクス

  • モデルスケール:12層GPT-2スタイルTransformer
  • 初期化:標準設定(ほとんどのモジュールstd=0.02、埋め込み層xavier normal)
  • オプティマイザー:AdamW、学習率1×10⁻⁴、バッチサイズ16
  • 追跡対象:すべての層のQ/K/V投影重み標準偏差

実験結果

E1:標準偏差スイープ結果

  • 安定区間:σ ∈ 10⁻², 10⁻¹内での訓練は平滑で、勾配性能は良好、精度はこの区間内でピークに達する
  • 勾配消失:極小スケール(σ ≲ 10⁻³)は更新消失と精度低下をもたらす
  • 勾配爆発:極大スケール(σ ≳ 1)は不安定な損失と散発的な発散を生じさせる

E2:初期化手法比較

Kaiming初期化は複数の次元でXavierを継続的に上回る:

  • 収束速度:目標に到達するまでの中央値エポック数が少なく、早期の損失低下がより急峻である
  • 精度:最終的な検証精度はXavierと一致するか若干上回る
  • 統計的有意性:対応のあるt検定は損失と訓練精度の差が有意であることを示す(p < 0.05)

E3:Transformer分散ダイナミクス発見

  • 深度関連パターン:浅層は早期訓練中に重み標準偏差の急速かつ顕著な拡張を示し、深層はより遅く平滑な拡張を示す
  • 分散バランス:すべての層は最終的に狭い分散帯に安定する
  • 分布スパース化:訓練後、重み分布はより疎になり、多くのゼロ近くのエントリは変わらず、少数の大きな重みが支配的である

理論的洞察と実践的意義

深度関連の分散バランスメカニズム

論文はTransformerにおける段階的バランスパターンを明らかにした:

  1. 浅層の急速な適応:入力に近い層は高いシグナル対ノイズ比勾配を持ち、早期の積極的スケーリングを促進する
  2. 深層の段階的調整:残差パス長とプリノーマライゼーションは深層の有効ステップサイズを制限する
  3. 暗黙的制約:注意ソフトマックス飽和とAdamWの重み減衰は大きなパラメータスケールを防止する

実践的ガイドライン

  1. ReLU/GELU MLP:fan-in He/Kaimingから開始;非常に不均衡な層が勾配ドリフトを引き起こす場合、fan-averageへの選択を若干移動させる
  2. 深い残差スタック:残差スケーリング(例:1/√L)またはノーマライゼーションは深度分散ドリフトを防止するのに役立つ
  3. Transformer投影:小さな標準偏差初期化(例:0.02)を使用し、各層の標準偏差と勾度ノルムを監視する

関連研究との比較

基本的初期化戦略

  • LeCun手法:線形活性化のための分散保持規則
  • Glorot/Xavier:tanh/sigmoid スケーリングのためのfanベース
  • He/Kaiming:ReLU下での二次モーメント半減を補償する活性化認識スケーリング

現代的発展

  • Fixup初期化:慎重に選択された初期化と残差スケーリングを通じて、極度に深いネットワークでノーマライゼーション要件を除去する
  • DeepNet:千層レベルの訓練を可能にする原則的な深度スケーリング規則を提案
  • プリノーマライゼーション利点:ポストノーマライゼーションと比較して、勾配流を平滑化することで最適化安定性を改善する

結論と考察

主要な結論

  1. 安定性帯の存在:σ ∈ 10⁻², 10⁻¹範囲内に広範だが敏感な安定性帯が存在する
  2. 活性化関数特異性の重要性:Kaiming初期化はReLUネットワークにおいてXavierより確かに優れている
  3. 深度関連ダイナミクス:Transformerは深度関連の分散バランスを示し、浅層は急速に適応し、深層は段階的に調整される

限界

  1. 実験規模:GPT-2実験は相対的に小規模(12層)であり、大規模モデルの動作は異なる可能性がある
  2. 活性化関数カバレッジ:主にReLUとGELUに焦点を当てており、他の活性化関数の分析は限定的である
  3. オプティマイザー依存性:結果は特定のオプティマイザー(AdamW)とハイパーパラメータ設定に対して敏感である可能性がある

今後の方向性

  1. 適応的深度認識初期化:各層またはヘッドのスケールを学習し、浅層をより最終分散レベルに近づける
  2. オプティマイザーとスケジュール結合:ウォームアップ長、重み減衰、勾度クリッピングの共同最適化
  3. 深度と幅のスケーリング:より大規模なモデルにおける深度関連バランスの継続性を評価する

深度評価

利点

  1. 理論と実践の統合:古典的分散伝播理論と現代的Transformer動作を有機的に結合
  2. 体系的実験設計:シンプルなMLPから複雑なTransformerへの段階的検証
  3. 高い実用価値:具体的な初期化推奨事項と診断方法を提供
  4. 統計的厳密性:対応のあるt検定などの統計手法を使用して結果の有意性を検証

不足点

  1. 理論分析の深さが限定的:深度関連現象に対するより深い理論的説明が不足している
  2. 実験規模の制約:計算リソースの制限により、真に大規模なモデルでの検証ができていない
  3. 汎化性の問題:結果は主に特定のアーキテクチャとタスクに基づいており、汎化能力はさらなる検証が必要である

影響力評価

  1. 学術的貢献:初期化理論に現代的視点を提供し、古典理論と現在の実践を結びつける
  2. 実用的価値:実践者に明確な初期化戦略と診断ツールを提供
  3. 再現性:実験設計が明確で、コードとパラメータ設定が詳細であり、再現が容易である

適用可能なシナリオ

  1. 深層ネットワーク訓練:特にReLU/GELU活性化を持つ深層ネットワークに適用可能
  2. Transformer最適化:大規模言語モデルの訓練に初期化ガイダンスを提供
  3. 研究ツール:研究者に重み動態を分析するための方法論的フレームワークを提供

参考文献

論文は初期化分野の重要な研究、LeCun、Glorot、Heなどの基礎的研究、およびTransformer最適化に関する最近の進展を引用しており、本研究に堅実な理論的基礎を提供している。