2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han

Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.

academic

Gewichtsinitialisierung und Varianz-Dynamik in tiefen neuronalen Netzen und großen Sprachmodellen

Grundinformationen

Paper-ID: 2510.09423
Titel: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Autor: Yankun Han (University of Florida)
Klassifikation: cs.LG (Machine Learning)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09423

Zusammenfassung

Die Gewichtsinitialisierung steuert die Signalausbreitung und den Gradientenfluss zu Beginn des Trainings. Dieses Papier bietet eine theoretisch fundierte und empirisch validierte Untersuchung, die zwei Bereiche abdeckt: kompakte ReLU-Mehrschicht-Perzeptrone und GPT-2-ähnliche Transformer. Erstens werden durch logarithmische Scans der initialen Standardabweichung die Regionen des verschwindenden und explodierenden Gradienten kartographiert und ein breites stabiles Band mit Standardabweichungen zwischen 1e-2 und 1e-1 identifiziert. Zweitens zeigen kontrollierte Vergleiche, dass Kaiming (fan-in) Initialisierung unter ReLU-Aktivierungsfunktionen schneller und stabiler konvergiert als Xavier-Initialisierung, was mit der Varianzerhaltungstheorie übereinstimmt. Drittens werden in einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell die Varianzänderungen der Q/K/V-Gewichte während des Vortrainings verfolgt, wobei tiefenabhängige Ausgleichsphänomene beobachtet werden: flache Schichten expandieren schnell, während tiefe Schichten gradueller verändern.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme dieser Untersuchung sind die Auswirkungen der Gewichtsinitialisierung auf Trainingsstabilität und Konvergenz in tiefen neuronalen Netzen und großen Sprachmodellen. Dies umfasst konkret:

Skalierungsempfindlichkeit der Initialisierung: Wie verschiedene initiale Standardabweichungen die Trainingsstabilität beeinflussen
Aktivierungsfunktionsspezifität: Ob ReLU und GELU spezifische Initialisierungsstrategien erfordern
Varianz-Dynamik moderner Transformer: Ob Varianzstabilisierung in großen Transformer-Modellen bestehen bleibt

Bedeutung

Die Gewichtsinitialisierung ist ein kritischer Erfolgsfaktor beim Deep Learning Training. Unangemessene Initialisierung führt zu:

Verschwindenden Gradienten: Signale schwächen sich in tiefen Netzen schichtweise ab
Explodierenden Gradienten: Signale wachsen während der Ausbreitung exponentiell
Trainingsinstabilität: Oszillationen und Divergenzen im Optimierungsprozess

Einschränkungen bestehender Methoden

Obwohl klassische Initialisierungsmethoden (LeCun, Xavier/Glorot, He/Kaiming) theoretisch intuitive Varianzerhaltung aufweisen, bestehen in der praktischen Anwendung folgende Probleme:

Die Empfindlichkeit gegenüber idealen Skalierungsabweichungen wurde nicht ausreichend quantifiziert
Die Wirkungsmechanismen spezifischer Aktivierungsfunktionen (wie ReLU, GELU) sind unklar
Die systematische Untersuchung der Leistung in großen Transformern fehlt

Kernbeiträge

Einheitliches Varianzanalyse-Framework: Ableitung der Bedingungen für Vorwärts- und Rückwärts-Varianzausbreitung für häufige Aktivierungsfunktionen (ReLU, GELU), Erklärung, wie fan-in-Skalierung die Signalamplitude erhält und die Herkunft des Faktors 2 in ReLU
Quantifizierung der Skalierungsempfindlichkeit: Kartographierung der Regionen mit verschwindenden/explodierenden Gradienten durch logarithmische Scans von 25 Standardabweichungswerten, Identifikation eines stabilen Trainingsbands σ ∈ 10⁻², 10⁻¹
Aktivierungsfunktions-bewusste Initialisierungsvalidierung: In kontrollierten ReLU-MLP-Trainings wird bestätigt, dass Kaiming normal (fan-in) schneller konvergiert und kleinere Verlustvarianz aufweist als Xavier normal
Transformer-Varianz-Dynamik-Analyse: In einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell werden deutliche tiefenabhängige Muster entdeckt: flache Gewichtsstandards expandieren schnell, tiefe Schichten ändern sich gradueller und stabilisieren sich schließlich in einem engen Varianzband

Methodische Details

Theoretisches Framework

Varianzanalyse der Vorwärtspropagation

Für lineare Abbildung:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Nach nichtlinearer Aktivierung:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

wobei c_φ = E[φ(z)²]/Var[z] eine aktivierungsfunktionsspezifische Konstante ist.

Um Aktivierungswerte zum Verschwinden oder Explodieren zu vermeiden, wählt man σ²_W ≈ 1/(c_φ n_in):

ReLU: c_φ ≈ 1/2, daher σ²_W ≈ 2/n_in (He/Kaiming)
GELU: c_φ ≈ 0.45-0.5, leicht kleiner als ReLU

Varianzanalyse der Rückwärtspropagation

Die Rückwärtspropagation ergibt:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

wobei d_φ = E[φ'(z)²]. Für ReLU ist d_φ = 1/2, und zum Ausgleich der Gradienten-Varianz benötigt man σ²_W ≈ 2/n_out.

Abwägung und praktische Wahl

Vorwärts- und Rückwärts-Erhaltungsbedingungen können normalerweise nicht gleichzeitig erfüllt werden, es sei denn n_in ≈ n_out und c_φ ≈ d_φ. In der Praxis ist die Erhaltung stabiler Vorwärtssignale normalerweise wichtiger, was erklärt, warum fan-in He/Kaiming schneller konvergiert als Xavier.

Experimentelles Design

Experiment E1: Standardabweichungs-Scan

Netzwerk-Architektur: 784→64→32→32→10 ReLU-MLP
Datensatz: MNIST
Scan-Bereich: 25 Standardabweichungswerte, logarithmisch verteilt von 10⁻⁴ bis 10
Bewertungsmetriken: Verlustverlauf, Klassifikationsgenauigkeit

Experiment E2: Xavier vs. Kaiming Vergleich

Netzwerk-Architektur: 11→16→32→32→1 ReLU-Netzwerk
Datensatz: UCI Wine binäre Klassifikationsaufgabe
Vergleichsschemata: Xavier normal vs. Kaiming uniform
Statistische Validierung: 10 zufällige Durchläufe, gepaarter t-Test

Experiment E3: GPT-2 Varianz-Dynamik

Modellgröße: 12-schichtiger GPT-2-ähnlicher Transformer
Initialisierung: Standardkonfiguration (die meisten Module std=0.02, Embedding-Schicht Xavier normal)
Optimierer: AdamW, Lernrate 1×10⁻⁴, Batch-Größe 16
Verfolgungsziele: Standardabweichung aller Q/K/V-Projektionsgewichte pro Schicht

Experimentelle Ergebnisse

E1: Standardabweichungs-Scan-Ergebnisse

Stabiles Intervall: Innerhalb σ ∈ 10⁻², 10⁻¹ ist das Training glatt, Gradienten zeigen gutes Verhalten, Genauigkeit erreicht Spitzenwerte in diesem Intervall
Verschwindende Gradienten: Extrem kleine Skalierungen (σ ≲ 10⁻³) führen zu verschwindenden Aktualisierungen und Genauigkeitsabfall
Explodierende Gradienten: Extrem große Skalierungen (σ ≳ 1) erzeugen instabile Verluste und gelegentliche Divergenz

E2: Initialisierungsmethoden-Vergleich

Kaiming-Initialisierung übertrifft Xavier konsistent in mehreren Dimensionen:

Konvergenzgeschwindigkeit: Weniger Median-Iterationen zum Erreichen des Ziels, steilerer früher Verlustrückgang
Genauigkeit: Endgültige Validierungsgenauigkeit entspricht oder übersteigt leicht Xavier
Statistische Signifikanz: Gepaarter t-Test zeigt signifikante Unterschiede bei Verlust und Trainingsgenauigkeit (p < 0.05)

E3: Transformer-Varianz-Dynamik-Erkenntnisse

Tiefenabhängiges Muster: Flache Schichten zeigen schnelle und signifikante Gewichtsstandard-Expansion in frühem Training, tiefe Schichten expandieren langsamer und glatter
Varianz-Ausgleich: Alle Schichten stabilisieren sich schließlich in einem engen Varianzband
Verteilungs-Sparsifizierung: Nach dem Training werden Gewichtsverteilungen spärlicher, viele nahe-null Einträge bleiben unverändert, wenige große Gewichte dominieren

Theoretische Einsichten und praktische Bedeutung

Tiefenabhängiger Varianz-Ausgleichsmechanismus

Das Papier enthüllt ein graduelles Ausgleichsmuster in Transformern:

Schnelle flache Anpassung: Schichten nahe der Eingabe haben hohe Signal-Rausch-Verhältnis-Gradienten, die frühe aggressive Skalierung fördern
Graduelle tiefe Anpassung: Residuale Pfadlänge und Vor-Normalisierung begrenzen effektive Schrittgrößen in tiefen Schichten
Implizite Beschränkungen: Attention-Softmax-Sättigung und Gewichtszerfall in AdamW verhindern große Parameterskalierungen

Praktische Richtlinien

ReLU/GELU MLPs: Mit fan-in He/Kaiming beginnen; bei sehr unausgeglichenen Schichten, die Gradienten-Drift verursachen, leicht zu fan-average verschieben
Tiefe residuale Stapel: Residuale Skalierung (wie 1/√L) oder Normalisierung hilft, tiefe Varianz-Drift zu verhindern
Transformer-Projektionen: Kleine Standardabweichungs-Initialisierung verwenden (wie 0.02), Standardabweichung pro Schicht und Gradienten-Normen überwachen

Vergleich mit verwandten Arbeiten

Grundlegende Initialisierungsstrategien

LeCun-Methode: Varianzerhaltungsregeln für lineare Aktivierungen
Glorot/Xavier: Fan-basierte Skalierung für tanh/sigmoid
He/Kaiming: Aktivierungsbewusste Skalierung, die die Halbierung des zweiten Moments unter ReLU kompensiert

Moderne Entwicklungen

Fixup-Initialisierung: Entfernt Normalisierungsbedarf in extrem tiefen Netzen durch sorgfältig gewählte Initialisierung und residuale Skalierung
DeepNet: Schlägt prinzipielle Tiefenskalierungsregeln vor, die Tausend-Schicht-Training ermöglichen
Vor-Normalisierungs-Vorteile: Verbessert Optimierungsstabilität durch glattere Gradientenflüsse im Vergleich zu Nach-Normalisierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Stabilitätsband existiert: Ein breites aber empfindliches Stabilitätsband existiert im Bereich σ ∈ 10⁻², 10⁻¹
Aktivierungsfunktionsspezifität ist wichtig: Kaiming-Initialisierung übertrifft Xavier tatsächlich in ReLU-Netzen
Tiefenabhängige Dynamik: Transformer zeigen tiefenabhängige Varianz-Ausgleiche, mit schneller flacher Anpassung und gradueller tiefer Anpassung

Einschränkungen

Experimentelle Skalierung: GPT-2-Experimente sind relativ klein (12 Schichten), Verhalten größerer Modelle könnte unterschiedlich sein
Aktivierungsfunktions-Abdeckung: Hauptsächlich ReLU und GELU, begrenzte Analyse anderer Aktivierungsfunktionen
Optimierer-Abhängigkeit: Ergebnisse könnten empfindlich gegenüber spezifischem Optimierer (AdamW) und Hyperparameter-Einstellungen sein

Zukünftige Richtungen

Adaptive tiefenabhängige Initialisierung: Lernen von Skalierungen pro Schicht oder pro Kopf, um flache Schichten näher an endgültige Varianz-Niveaus zu bringen
Optimierer- und Zeitplan-Kopplung: Gemeinsame Optimierung von Aufwärm-Länge, Gewichtszerfall und Gradienten-Clipping
Tiefe und Breite Skalierung: Bewertung der Persistenz tiefenabhängiger Ausgleiche in größeren Modellen

Tiefgreifende Bewertung

Stärken

Theorie und Praxis kombiniert: Organische Verbindung klassischer Varianzausbreitungstheorie mit modernem Transformer-Verhalten
Systematisches experimentelles Design: Progressive Validierung von einfachen MLPs zu komplexen Transformern
Hoher praktischer Wert: Bietet konkrete Initialisierungsempfehlungen und Diagnosemethoden
Statistische Strenge: Verwendet statistische Methoden wie gepaarte t-Tests zur Validierung der Ergebnissignifikanz

Mängel

Begrenzte Theorietiefe: Fehlende tiefere theoretische Erklärung für tiefenabhängige Phänomene
Experimentelle Skalierungsbeschränkungen: Durch Rechenressourcen begrenzt, Validierung auf wirklich großen Modellen nicht durchgeführt
Verallgemeinerungsprobleme: Ergebnisse basieren hauptsächlich auf spezifischen Architekturen und Aufgaben, Verallgemeinerungsfähigkeit erfordert weitere Validierung

Einflussbeurteilung

Akademischer Beitrag: Bietet moderne Perspektive auf Initialisierungstheorie, verbindet klassische Theorie mit aktueller Praxis
Praktischer Wert: Bietet Praktikern klare Initialisierungsstrategien und Diagnosewerkzeuge
Reproduzierbarkeit: Klares experimentelles Design, detaillierte Code- und Parametereinstellungen erleichtern Reproduktion

Anwendungsszenarien

Tiefes Netzwerk-Training: Besonders geeignet für tiefe Netzwerke mit ReLU/GELU-Aktivierungen
Transformer-Optimierung: Bietet Initialisierungsleitfaden für großes Sprachmodell-Training
Forschungswerkzeug: Bietet Forschern methodologisches Framework zur Analyse von Gewichtsdynamik

Literaturverzeichnis

Das Papier zitiert Schlüsselarbeiten im Initialisierungsbereich, einschließlich grundlegender Forschungen von LeCun, Glorot, He und anderen sowie neuere Fortschritte in der Transformer-Optimierung, die eine solide theoretische Grundlage für diese Untersuchung bieten.