Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
論文ID : 2510.09423タイトル : Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models著者 : Yankun Han (フロリダ大学)分類 : cs.LG (機械学習)発表日時 : 2025年10月10日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.09423 重み初期化は訓練開始時の信号伝播と勾配流を制御する。本論文は、理論的基礎が堅牢で経験的検証を備えた研究を提供し、2つの領域をカバーしている:コンパクトなReLU多層パーセプトロンとGPT-2スタイルのTransformer。まず、初期標準偏差の対数スイープを通じて、勾配消失と爆発領域をマッピングし、標準偏差が1e-2から1e-1の間の広範な安定帯を特定した。次に、制御された比較により、ReLU活性化関数下では、Kaiming(fan-in)初期化がXavier初期化よりも高速かつ安定的に収束することを示し、これは分散保持理論と一致している。第三に、ゼロから構築した12層GPT-2スタイルモデルにおいて、事前訓練中の各層Q/K/V重み分散の変化を追跡し、深度関連の平衡現象を観察した:浅層は急速に拡張し、深層はより段階的に変化する。
本研究が解決すべき中核的な問題は、深層ニューラルネットワークと大規模言語モデルにおける重み初期化が訓練安定性と収束性に与える影響である。具体的には以下を含む:
初期化スケール感度 :異なる初期標準偏差が訓練安定性にどのように影響するか活性化関数特異性 :ReLUおよびGELUなどの活性化関数が特定の初期化戦略を必要とするかどうか現代的Transformerの分散ダイナミクス :大規模Transformerモデルにおいて分散安定化が継続して存在するかどうか重み初期化は深層学習訓練成功の重要な要因であり、不適切な初期化は以下をもたらす:
勾配消失 :信号が深層ネットワークで層ごとに減衰する勾配爆発 :信号が伝播過程で指数関数的に増大する訓練不安定性 :最適化過程における振動と発散古典的初期化手法(LeCun、Xavier/Glorot、He/Kaiming)は理論的には分散保持の直感を持つが、実際の応用では以下の問題が存在する:
理想的スケール偏差に対する感度が十分に定量化されていない 特定の活性化関数(ReLU、GELU)の影響メカニズムが不明確である 大規模Transformerにおける性能に関する体系的研究が不足している 統一的分散分析フレームワーク :一般的な活性化関数(ReLU、GELU)の前向きおよび後向き分散伝播条件を導出し、fan-in スケーリングが信号振幅を保持する方法およびReLUにおける係数2の由来を説明したスケール感度の定量化 :25個の標準偏差値の対数スイープを通じて、勾配消失/爆発領域をマッピングし、安定訓練帯σ ∈ 10⁻², 10⁻¹ を特定した活性化関数認識初期化の検証 :制御されたReLU MLP訓練において、Kaiming normal(fan-in)がXavier normalより高速に収束し、損失分散がより小さいことを確認したTransformer分散ダイナミクス分析 :ゼロから構築した12層GPT-2スタイルモデルにおいて、明確な深度関連パターンを発見:浅層重み標準偏差は急速に拡張し、深層はより段階的であり、最終的にはすべてが狭い分散帯に安定する線形写像の場合:
Var[z_l] = n_in σ²_W Var[x_{l-1}]
非線形活性化後:
Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]
ここで c_φ = E[φ(z)²]/Var[z] は活性化関数関連の定数である。
活性化値の消失または爆発を避けるため、σ²_W ≈ 1/(c_φ n_in) を選択する:
ReLU : c_φ ≈ 1/2、したがって σ²_W ≈ 2/n_in (He/Kaiming)GELU : c_φ ≈ 0.45-0.5、ReLUより若干小さい逆伝播は以下を与える:
Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]
ここで d_φ = E[φ'(z)²] である。ReLUの場合、d_φ = 1/2 であり、勾配分散のバランスには σ²_W ≈ 2/n_out が必要である。
前向きおよび後向き保持条件は通常同時に満たすことはできない。ただし n_in ≈ n_out かつ c_φ ≈ d_φ の場合を除く。実践では、前向き信号の安定性を保持することが通常より重要であり、これはなぜfan-in He/Kaimingがfan-outより高速に収束するかを説明している。
ネットワークアーキテクチャ :784→64→32→32→10のReLU MLPデータセット :MNISTスイープ範囲 :25個の標準偏差値、10⁻⁴から10まで、対数間隔評価指標 :損失軌跡、分類精度ネットワークアーキテクチャ :11→16→32→32→1のReLUネットワークデータセット :UCI Wine二値分類タスク比較スキーム :Xavier normal対Kaiming uniform統計検証 :10回のランダム実行、対応のあるt検定モデルスケール :12層GPT-2スタイルTransformer初期化 :標準設定(ほとんどのモジュールstd=0.02、埋め込み層xavier normal)オプティマイザー :AdamW、学習率1×10⁻⁴、バッチサイズ16追跡対象 :すべての層のQ/K/V投影重み標準偏差安定区間 :σ ∈ 10⁻², 10⁻¹ 内での訓練は平滑で、勾配性能は良好、精度はこの区間内でピークに達する勾配消失 :極小スケール(σ ≲ 10⁻³)は更新消失と精度低下をもたらす勾配爆発 :極大スケール(σ ≳ 1)は不安定な損失と散発的な発散を生じさせるKaiming初期化は複数の次元でXavierを継続的に上回る:
収束速度 :目標に到達するまでの中央値エポック数が少なく、早期の損失低下がより急峻である精度 :最終的な検証精度はXavierと一致するか若干上回る統計的有意性 :対応のあるt検定は損失と訓練精度の差が有意であることを示す(p < 0.05)深度関連パターン :浅層は早期訓練中に重み標準偏差の急速かつ顕著な拡張を示し、深層はより遅く平滑な拡張を示す分散バランス :すべての層は最終的に狭い分散帯に安定する分布スパース化 :訓練後、重み分布はより疎になり、多くのゼロ近くのエントリは変わらず、少数の大きな重みが支配的である論文はTransformerにおける段階的バランスパターンを明らかにした:
浅層の急速な適応 :入力に近い層は高いシグナル対ノイズ比勾配を持ち、早期の積極的スケーリングを促進する深層の段階的調整 :残差パス長とプリノーマライゼーションは深層の有効ステップサイズを制限する暗黙的制約 :注意ソフトマックス飽和とAdamWの重み減衰は大きなパラメータスケールを防止するReLU/GELU MLP :fan-in He/Kaimingから開始;非常に不均衡な層が勾配ドリフトを引き起こす場合、fan-averageへの選択を若干移動させる深い残差スタック :残差スケーリング(例:1/√L)またはノーマライゼーションは深度分散ドリフトを防止するのに役立つTransformer投影 :小さな標準偏差初期化(例:0.02)を使用し、各層の標準偏差と勾度ノルムを監視するLeCun手法 :線形活性化のための分散保持規則Glorot/Xavier :tanh/sigmoid スケーリングのためのfanベースHe/Kaiming :ReLU下での二次モーメント半減を補償する活性化認識スケーリングFixup初期化 :慎重に選択された初期化と残差スケーリングを通じて、極度に深いネットワークでノーマライゼーション要件を除去するDeepNet :千層レベルの訓練を可能にする原則的な深度スケーリング規則を提案プリノーマライゼーション利点 :ポストノーマライゼーションと比較して、勾配流を平滑化することで最適化安定性を改善する安定性帯の存在 :σ ∈ 10⁻², 10⁻¹ 範囲内に広範だが敏感な安定性帯が存在する活性化関数特異性の重要性 :Kaiming初期化はReLUネットワークにおいてXavierより確かに優れている深度関連ダイナミクス :Transformerは深度関連の分散バランスを示し、浅層は急速に適応し、深層は段階的に調整される実験規模 :GPT-2実験は相対的に小規模(12層)であり、大規模モデルの動作は異なる可能性がある活性化関数カバレッジ :主にReLUとGELUに焦点を当てており、他の活性化関数の分析は限定的であるオプティマイザー依存性 :結果は特定のオプティマイザー(AdamW)とハイパーパラメータ設定に対して敏感である可能性がある適応的深度認識初期化 :各層またはヘッドのスケールを学習し、浅層をより最終分散レベルに近づけるオプティマイザーとスケジュール結合 :ウォームアップ長、重み減衰、勾度クリッピングの共同最適化深度と幅のスケーリング :より大規模なモデルにおける深度関連バランスの継続性を評価する理論と実践の統合 :古典的分散伝播理論と現代的Transformer動作を有機的に結合体系的実験設計 :シンプルなMLPから複雑なTransformerへの段階的検証高い実用価値 :具体的な初期化推奨事項と診断方法を提供統計的厳密性 :対応のあるt検定などの統計手法を使用して結果の有意性を検証理論分析の深さが限定的 :深度関連現象に対するより深い理論的説明が不足している実験規模の制約 :計算リソースの制限により、真に大規模なモデルでの検証ができていない汎化性の問題 :結果は主に特定のアーキテクチャとタスクに基づいており、汎化能力はさらなる検証が必要である学術的貢献 :初期化理論に現代的視点を提供し、古典理論と現在の実践を結びつける実用的価値 :実践者に明確な初期化戦略と診断ツールを提供再現性 :実験設計が明確で、コードとパラメータ設定が詳細であり、再現が容易である深層ネットワーク訓練 :特にReLU/GELU活性化を持つ深層ネットワークに適用可能Transformer最適化 :大規模言語モデルの訓練に初期化ガイダンスを提供研究ツール :研究者に重み動態を分析するための方法論的フレームワークを提供論文は初期化分野の重要な研究、LeCun、Glorot、Heなどの基礎的研究、およびTransformer最適化に関する最近の進展を引用しており、本研究に堅実な理論的基礎を提供している。