2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

Gewichtsinitialisierung und Varianz-Dynamik in tiefen neuronalen Netzen und großen Sprachmodellen

Grundinformationen

  • Paper-ID: 2510.09423
  • Titel: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • Autor: Yankun Han (University of Florida)
  • Klassifikation: cs.LG (Machine Learning)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09423

Zusammenfassung

Die Gewichtsinitialisierung steuert die Signalausbreitung und den Gradientenfluss zu Beginn des Trainings. Dieses Papier bietet eine theoretisch fundierte und empirisch validierte Untersuchung, die zwei Bereiche abdeckt: kompakte ReLU-Mehrschicht-Perzeptrone und GPT-2-ähnliche Transformer. Erstens werden durch logarithmische Scans der initialen Standardabweichung die Regionen des verschwindenden und explodierenden Gradienten kartographiert und ein breites stabiles Band mit Standardabweichungen zwischen 1e-2 und 1e-1 identifiziert. Zweitens zeigen kontrollierte Vergleiche, dass Kaiming (fan-in) Initialisierung unter ReLU-Aktivierungsfunktionen schneller und stabiler konvergiert als Xavier-Initialisierung, was mit der Varianzerhaltungstheorie übereinstimmt. Drittens werden in einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell die Varianzänderungen der Q/K/V-Gewichte während des Vortrainings verfolgt, wobei tiefenabhängige Ausgleichsphänomene beobachtet werden: flache Schichten expandieren schnell, während tiefe Schichten gradueller verändern.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme dieser Untersuchung sind die Auswirkungen der Gewichtsinitialisierung auf Trainingsstabilität und Konvergenz in tiefen neuronalen Netzen und großen Sprachmodellen. Dies umfasst konkret:

  1. Skalierungsempfindlichkeit der Initialisierung: Wie verschiedene initiale Standardabweichungen die Trainingsstabilität beeinflussen
  2. Aktivierungsfunktionsspezifität: Ob ReLU und GELU spezifische Initialisierungsstrategien erfordern
  3. Varianz-Dynamik moderner Transformer: Ob Varianzstabilisierung in großen Transformer-Modellen bestehen bleibt

Bedeutung

Die Gewichtsinitialisierung ist ein kritischer Erfolgsfaktor beim Deep Learning Training. Unangemessene Initialisierung führt zu:

  • Verschwindenden Gradienten: Signale schwächen sich in tiefen Netzen schichtweise ab
  • Explodierenden Gradienten: Signale wachsen während der Ausbreitung exponentiell
  • Trainingsinstabilität: Oszillationen und Divergenzen im Optimierungsprozess

Einschränkungen bestehender Methoden

Obwohl klassische Initialisierungsmethoden (LeCun, Xavier/Glorot, He/Kaiming) theoretisch intuitive Varianzerhaltung aufweisen, bestehen in der praktischen Anwendung folgende Probleme:

  1. Die Empfindlichkeit gegenüber idealen Skalierungsabweichungen wurde nicht ausreichend quantifiziert
  2. Die Wirkungsmechanismen spezifischer Aktivierungsfunktionen (wie ReLU, GELU) sind unklar
  3. Die systematische Untersuchung der Leistung in großen Transformern fehlt

Kernbeiträge

  1. Einheitliches Varianzanalyse-Framework: Ableitung der Bedingungen für Vorwärts- und Rückwärts-Varianzausbreitung für häufige Aktivierungsfunktionen (ReLU, GELU), Erklärung, wie fan-in-Skalierung die Signalamplitude erhält und die Herkunft des Faktors 2 in ReLU
  2. Quantifizierung der Skalierungsempfindlichkeit: Kartographierung der Regionen mit verschwindenden/explodierenden Gradienten durch logarithmische Scans von 25 Standardabweichungswerten, Identifikation eines stabilen Trainingsbands σ ∈ 10⁻², 10⁻¹
  3. Aktivierungsfunktions-bewusste Initialisierungsvalidierung: In kontrollierten ReLU-MLP-Trainings wird bestätigt, dass Kaiming normal (fan-in) schneller konvergiert und kleinere Verlustvarianz aufweist als Xavier normal
  4. Transformer-Varianz-Dynamik-Analyse: In einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell werden deutliche tiefenabhängige Muster entdeckt: flache Gewichtsstandards expandieren schnell, tiefe Schichten ändern sich gradueller und stabilisieren sich schließlich in einem engen Varianzband

Methodische Details

Theoretisches Framework

Varianzanalyse der Vorwärtspropagation

Für lineare Abbildung:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Nach nichtlinearer Aktivierung:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

wobei c_φ = E[φ(z)²]/Var[z] eine aktivierungsfunktionsspezifische Konstante ist.

Um Aktivierungswerte zum Verschwinden oder Explodieren zu vermeiden, wählt man σ²_W ≈ 1/(c_φ n_in):

  • ReLU: c_φ ≈ 1/2, daher σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5, leicht kleiner als ReLU

Varianzanalyse der Rückwärtspropagation

Die Rückwärtspropagation ergibt:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

wobei d_φ = E[φ'(z)²]. Für ReLU ist d_φ = 1/2, und zum Ausgleich der Gradienten-Varianz benötigt man σ²_W ≈ 2/n_out.

Abwägung und praktische Wahl

Vorwärts- und Rückwärts-Erhaltungsbedingungen können normalerweise nicht gleichzeitig erfüllt werden, es sei denn n_in ≈ n_out und c_φ ≈ d_φ. In der Praxis ist die Erhaltung stabiler Vorwärtssignale normalerweise wichtiger, was erklärt, warum fan-in He/Kaiming schneller konvergiert als Xavier.

Experimentelles Design

Experiment E1: Standardabweichungs-Scan

  • Netzwerk-Architektur: 784→64→32→32→10 ReLU-MLP
  • Datensatz: MNIST
  • Scan-Bereich: 25 Standardabweichungswerte, logarithmisch verteilt von 10⁻⁴ bis 10
  • Bewertungsmetriken: Verlustverlauf, Klassifikationsgenauigkeit

Experiment E2: Xavier vs. Kaiming Vergleich

  • Netzwerk-Architektur: 11→16→32→32→1 ReLU-Netzwerk
  • Datensatz: UCI Wine binäre Klassifikationsaufgabe
  • Vergleichsschemata: Xavier normal vs. Kaiming uniform
  • Statistische Validierung: 10 zufällige Durchläufe, gepaarter t-Test

Experiment E3: GPT-2 Varianz-Dynamik

  • Modellgröße: 12-schichtiger GPT-2-ähnlicher Transformer
  • Initialisierung: Standardkonfiguration (die meisten Module std=0.02, Embedding-Schicht Xavier normal)
  • Optimierer: AdamW, Lernrate 1×10⁻⁴, Batch-Größe 16
  • Verfolgungsziele: Standardabweichung aller Q/K/V-Projektionsgewichte pro Schicht

Experimentelle Ergebnisse

E1: Standardabweichungs-Scan-Ergebnisse

  • Stabiles Intervall: Innerhalb σ ∈ 10⁻², 10⁻¹ ist das Training glatt, Gradienten zeigen gutes Verhalten, Genauigkeit erreicht Spitzenwerte in diesem Intervall
  • Verschwindende Gradienten: Extrem kleine Skalierungen (σ ≲ 10⁻³) führen zu verschwindenden Aktualisierungen und Genauigkeitsabfall
  • Explodierende Gradienten: Extrem große Skalierungen (σ ≳ 1) erzeugen instabile Verluste und gelegentliche Divergenz

E2: Initialisierungsmethoden-Vergleich

Kaiming-Initialisierung übertrifft Xavier konsistent in mehreren Dimensionen:

  • Konvergenzgeschwindigkeit: Weniger Median-Iterationen zum Erreichen des Ziels, steilerer früher Verlustrückgang
  • Genauigkeit: Endgültige Validierungsgenauigkeit entspricht oder übersteigt leicht Xavier
  • Statistische Signifikanz: Gepaarter t-Test zeigt signifikante Unterschiede bei Verlust und Trainingsgenauigkeit (p < 0.05)

E3: Transformer-Varianz-Dynamik-Erkenntnisse

  • Tiefenabhängiges Muster: Flache Schichten zeigen schnelle und signifikante Gewichtsstandard-Expansion in frühem Training, tiefe Schichten expandieren langsamer und glatter
  • Varianz-Ausgleich: Alle Schichten stabilisieren sich schließlich in einem engen Varianzband
  • Verteilungs-Sparsifizierung: Nach dem Training werden Gewichtsverteilungen spärlicher, viele nahe-null Einträge bleiben unverändert, wenige große Gewichte dominieren

Theoretische Einsichten und praktische Bedeutung

Tiefenabhängiger Varianz-Ausgleichsmechanismus

Das Papier enthüllt ein graduelles Ausgleichsmuster in Transformern:

  1. Schnelle flache Anpassung: Schichten nahe der Eingabe haben hohe Signal-Rausch-Verhältnis-Gradienten, die frühe aggressive Skalierung fördern
  2. Graduelle tiefe Anpassung: Residuale Pfadlänge und Vor-Normalisierung begrenzen effektive Schrittgrößen in tiefen Schichten
  3. Implizite Beschränkungen: Attention-Softmax-Sättigung und Gewichtszerfall in AdamW verhindern große Parameterskalierungen

Praktische Richtlinien

  1. ReLU/GELU MLPs: Mit fan-in He/Kaiming beginnen; bei sehr unausgeglichenen Schichten, die Gradienten-Drift verursachen, leicht zu fan-average verschieben
  2. Tiefe residuale Stapel: Residuale Skalierung (wie 1/√L) oder Normalisierung hilft, tiefe Varianz-Drift zu verhindern
  3. Transformer-Projektionen: Kleine Standardabweichungs-Initialisierung verwenden (wie 0.02), Standardabweichung pro Schicht und Gradienten-Normen überwachen

Vergleich mit verwandten Arbeiten

Grundlegende Initialisierungsstrategien

  • LeCun-Methode: Varianzerhaltungsregeln für lineare Aktivierungen
  • Glorot/Xavier: Fan-basierte Skalierung für tanh/sigmoid
  • He/Kaiming: Aktivierungsbewusste Skalierung, die die Halbierung des zweiten Moments unter ReLU kompensiert

Moderne Entwicklungen

  • Fixup-Initialisierung: Entfernt Normalisierungsbedarf in extrem tiefen Netzen durch sorgfältig gewählte Initialisierung und residuale Skalierung
  • DeepNet: Schlägt prinzipielle Tiefenskalierungsregeln vor, die Tausend-Schicht-Training ermöglichen
  • Vor-Normalisierungs-Vorteile: Verbessert Optimierungsstabilität durch glattere Gradientenflüsse im Vergleich zu Nach-Normalisierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Stabilitätsband existiert: Ein breites aber empfindliches Stabilitätsband existiert im Bereich σ ∈ 10⁻², 10⁻¹
  2. Aktivierungsfunktionsspezifität ist wichtig: Kaiming-Initialisierung übertrifft Xavier tatsächlich in ReLU-Netzen
  3. Tiefenabhängige Dynamik: Transformer zeigen tiefenabhängige Varianz-Ausgleiche, mit schneller flacher Anpassung und gradueller tiefer Anpassung

Einschränkungen

  1. Experimentelle Skalierung: GPT-2-Experimente sind relativ klein (12 Schichten), Verhalten größerer Modelle könnte unterschiedlich sein
  2. Aktivierungsfunktions-Abdeckung: Hauptsächlich ReLU und GELU, begrenzte Analyse anderer Aktivierungsfunktionen
  3. Optimierer-Abhängigkeit: Ergebnisse könnten empfindlich gegenüber spezifischem Optimierer (AdamW) und Hyperparameter-Einstellungen sein

Zukünftige Richtungen

  1. Adaptive tiefenabhängige Initialisierung: Lernen von Skalierungen pro Schicht oder pro Kopf, um flache Schichten näher an endgültige Varianz-Niveaus zu bringen
  2. Optimierer- und Zeitplan-Kopplung: Gemeinsame Optimierung von Aufwärm-Länge, Gewichtszerfall und Gradienten-Clipping
  3. Tiefe und Breite Skalierung: Bewertung der Persistenz tiefenabhängiger Ausgleiche in größeren Modellen

Tiefgreifende Bewertung

Stärken

  1. Theorie und Praxis kombiniert: Organische Verbindung klassischer Varianzausbreitungstheorie mit modernem Transformer-Verhalten
  2. Systematisches experimentelles Design: Progressive Validierung von einfachen MLPs zu komplexen Transformern
  3. Hoher praktischer Wert: Bietet konkrete Initialisierungsempfehlungen und Diagnosemethoden
  4. Statistische Strenge: Verwendet statistische Methoden wie gepaarte t-Tests zur Validierung der Ergebnissignifikanz

Mängel

  1. Begrenzte Theorietiefe: Fehlende tiefere theoretische Erklärung für tiefenabhängige Phänomene
  2. Experimentelle Skalierungsbeschränkungen: Durch Rechenressourcen begrenzt, Validierung auf wirklich großen Modellen nicht durchgeführt
  3. Verallgemeinerungsprobleme: Ergebnisse basieren hauptsächlich auf spezifischen Architekturen und Aufgaben, Verallgemeinerungsfähigkeit erfordert weitere Validierung

Einflussbeurteilung

  1. Akademischer Beitrag: Bietet moderne Perspektive auf Initialisierungstheorie, verbindet klassische Theorie mit aktueller Praxis
  2. Praktischer Wert: Bietet Praktikern klare Initialisierungsstrategien und Diagnosewerkzeuge
  3. Reproduzierbarkeit: Klares experimentelles Design, detaillierte Code- und Parametereinstellungen erleichtern Reproduktion

Anwendungsszenarien

  1. Tiefes Netzwerk-Training: Besonders geeignet für tiefe Netzwerke mit ReLU/GELU-Aktivierungen
  2. Transformer-Optimierung: Bietet Initialisierungsleitfaden für großes Sprachmodell-Training
  3. Forschungswerkzeug: Bietet Forschern methodologisches Framework zur Analyse von Gewichtsdynamik

Literaturverzeichnis

Das Papier zitiert Schlüsselarbeiten im Initialisierungsbereich, einschließlich grundlegender Forschungen von LeCun, Glorot, He und anderen sowie neuere Fortschritte in der Transformer-Optimierung, die eine solide theoretische Grundlage für diese Untersuchung bieten.