Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
Gewichtsinitialisierung und Varianz-Dynamik in tiefen neuronalen Netzen und großen Sprachmodellen
Die Gewichtsinitialisierung steuert die Signalausbreitung und den Gradientenfluss zu Beginn des Trainings. Dieses Papier bietet eine theoretisch fundierte und empirisch validierte Untersuchung, die zwei Bereiche abdeckt: kompakte ReLU-Mehrschicht-Perzeptrone und GPT-2-ähnliche Transformer. Erstens werden durch logarithmische Scans der initialen Standardabweichung die Regionen des verschwindenden und explodierenden Gradienten kartographiert und ein breites stabiles Band mit Standardabweichungen zwischen 1e-2 und 1e-1 identifiziert. Zweitens zeigen kontrollierte Vergleiche, dass Kaiming (fan-in) Initialisierung unter ReLU-Aktivierungsfunktionen schneller und stabiler konvergiert als Xavier-Initialisierung, was mit der Varianzerhaltungstheorie übereinstimmt. Drittens werden in einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell die Varianzänderungen der Q/K/V-Gewichte während des Vortrainings verfolgt, wobei tiefenabhängige Ausgleichsphänomene beobachtet werden: flache Schichten expandieren schnell, während tiefe Schichten gradueller verändern.
Die Kernprobleme dieser Untersuchung sind die Auswirkungen der Gewichtsinitialisierung auf Trainingsstabilität und Konvergenz in tiefen neuronalen Netzen und großen Sprachmodellen. Dies umfasst konkret:
Skalierungsempfindlichkeit der Initialisierung: Wie verschiedene initiale Standardabweichungen die Trainingsstabilität beeinflussen
Aktivierungsfunktionsspezifität: Ob ReLU und GELU spezifische Initialisierungsstrategien erfordern
Varianz-Dynamik moderner Transformer: Ob Varianzstabilisierung in großen Transformer-Modellen bestehen bleibt
Einheitliches Varianzanalyse-Framework: Ableitung der Bedingungen für Vorwärts- und Rückwärts-Varianzausbreitung für häufige Aktivierungsfunktionen (ReLU, GELU), Erklärung, wie fan-in-Skalierung die Signalamplitude erhält und die Herkunft des Faktors 2 in ReLU
Quantifizierung der Skalierungsempfindlichkeit: Kartographierung der Regionen mit verschwindenden/explodierenden Gradienten durch logarithmische Scans von 25 Standardabweichungswerten, Identifikation eines stabilen Trainingsbands σ ∈ 10⁻², 10⁻¹
Aktivierungsfunktions-bewusste Initialisierungsvalidierung: In kontrollierten ReLU-MLP-Trainings wird bestätigt, dass Kaiming normal (fan-in) schneller konvergiert und kleinere Verlustvarianz aufweist als Xavier normal
Transformer-Varianz-Dynamik-Analyse: In einem von Grund auf konstruierten 12-schichtigen GPT-2-ähnlichen Modell werden deutliche tiefenabhängige Muster entdeckt: flache Gewichtsstandards expandieren schnell, tiefe Schichten ändern sich gradueller und stabilisieren sich schließlich in einem engen Varianzband
Vorwärts- und Rückwärts-Erhaltungsbedingungen können normalerweise nicht gleichzeitig erfüllt werden, es sei denn n_in ≈ n_out und c_φ ≈ d_φ. In der Praxis ist die Erhaltung stabiler Vorwärtssignale normalerweise wichtiger, was erklärt, warum fan-in He/Kaiming schneller konvergiert als Xavier.
Stabiles Intervall: Innerhalb σ ∈ 10⁻², 10⁻¹ ist das Training glatt, Gradienten zeigen gutes Verhalten, Genauigkeit erreicht Spitzenwerte in diesem Intervall
Verschwindende Gradienten: Extrem kleine Skalierungen (σ ≲ 10⁻³) führen zu verschwindenden Aktualisierungen und Genauigkeitsabfall
Explodierende Gradienten: Extrem große Skalierungen (σ ≳ 1) erzeugen instabile Verluste und gelegentliche Divergenz
Tiefenabhängiges Muster: Flache Schichten zeigen schnelle und signifikante Gewichtsstandard-Expansion in frühem Training, tiefe Schichten expandieren langsamer und glatter
Varianz-Ausgleich: Alle Schichten stabilisieren sich schließlich in einem engen Varianzband
Verteilungs-Sparsifizierung: Nach dem Training werden Gewichtsverteilungen spärlicher, viele nahe-null Einträge bleiben unverändert, wenige große Gewichte dominieren
ReLU/GELU MLPs: Mit fan-in He/Kaiming beginnen; bei sehr unausgeglichenen Schichten, die Gradienten-Drift verursachen, leicht zu fan-average verschieben
Tiefe residuale Stapel: Residuale Skalierung (wie 1/√L) oder Normalisierung hilft, tiefe Varianz-Drift zu verhindern
Transformer-Projektionen: Kleine Standardabweichungs-Initialisierung verwenden (wie 0.02), Standardabweichung pro Schicht und Gradienten-Normen überwachen
Adaptive tiefenabhängige Initialisierung: Lernen von Skalierungen pro Schicht oder pro Kopf, um flache Schichten näher an endgültige Varianz-Niveaus zu bringen
Optimierer- und Zeitplan-Kopplung: Gemeinsame Optimierung von Aufwärm-Länge, Gewichtszerfall und Gradienten-Clipping
Tiefe und Breite Skalierung: Bewertung der Persistenz tiefenabhängiger Ausgleiche in größeren Modellen
Begrenzte Theorietiefe: Fehlende tiefere theoretische Erklärung für tiefenabhängige Phänomene
Experimentelle Skalierungsbeschränkungen: Durch Rechenressourcen begrenzt, Validierung auf wirklich großen Modellen nicht durchgeführt
Verallgemeinerungsprobleme: Ergebnisse basieren hauptsächlich auf spezifischen Architekturen und Aufgaben, Verallgemeinerungsfähigkeit erfordert weitere Validierung
Das Papier zitiert Schlüsselarbeiten im Initialisierungsbereich, einschließlich grundlegender Forschungen von LeCun, Glorot, He und anderen sowie neuere Fortschritte in der Transformer-Optimierung, die eine solide theoretische Grundlage für diese Untersuchung bieten.