Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
Inizializzazione dei Pesi e Dinamica della Varianza nelle Reti Neurali Profonde e nei Modelli di Linguaggio di Grandi Dimensioni
L'inizializzazione dei pesi controlla la propagazione del segnale e il flusso dei gradienti all'inizio dell'addestramento. Questo articolo fornisce uno studio teoricamente fondato e verificato empiricamente, che copre due domini: i percettroni multistrato ReLU compatti e i Transformer nello stile di GPT-2. In primo luogo, attraverso una scansione logaritmica della deviazione standard iniziale, vengono mappate le regioni di scomparsa e esplosione dei gradienti, identificando una vasta banda di stabilità con deviazione standard tra 1e-2 e 1e-1. In secondo luogo, i confronti controllati mostrano che con la funzione di attivazione ReLU, l'inizializzazione Kaiming (fan-in) converge più rapidamente e stabilmente rispetto all'inizializzazione Xavier, coerentemente con la teoria della conservazione della varianza. In terzo luogo, in un modello Transformer nello stile di GPT-2 a 12 strati costruito da zero, l'articolo traccia i cambiamenti della varianza dei pesi Q/K/V in ogni strato durante il preaddestramento, osservando un fenomeno di equilibrio correlato alla profondità: gli strati superficiali si espandono rapidamente, mentre gli strati profondi cambiano in modo più graduale.
Il problema centrale che questa ricerca affronta è l'impatto dell'inizializzazione dei pesi sulla stabilità dell'addestramento e sulla convergenza nelle reti neurali profonde e nei modelli di linguaggio di grandi dimensioni. Nello specifico include:
Sensibilità della scala di inizializzazione: Come diverse deviazioni standard iniziali influenzano la stabilità dell'addestramento
Specificità della funzione di attivazione: Se le funzioni di attivazione come ReLU e GELU richiedono strategie di inizializzazione specifiche
Dinamica della varianza nei Transformer moderni: Se la stabilizzazione della varianza persiste nei modelli Transformer di grandi dimensioni
L'inizializzazione dei pesi è un fattore critico per il successo dell'addestramento nell'apprendimento profondo, e un'inizializzazione inadeguata può portare a:
Scomparsa del gradiente: Il segnale si attenua strato dopo strato nelle reti profonde
Esplosione del gradiente: Il segnale cresce esponenzialmente durante la propagazione
Instabilità dell'addestramento: Oscillazioni e divergenza nel processo di ottimizzazione
Sebbene i metodi di inizializzazione classici (LeCun, Xavier/Glorot, He/Kaiming) abbiano intuizioni teoriche sulla conservazione della varianza, presentano ancora i seguenti problemi nelle applicazioni pratiche:
La sensibilità alle deviazioni dalla scala ideale non è stata sufficientemente quantificata
I meccanismi di influenza di funzioni di attivazione specifiche (come ReLU, GELU) non sono chiari
Le prestazioni nei Transformer di grandi dimensioni mancano di ricerca sistematica
Framework di analisi della varianza unificato: Derivazione delle condizioni di propagazione della varianza in avanti e all'indietro per funzioni di attivazione comuni (ReLU, GELU), spiegando come il ridimensionamento fan-in conserva l'ampiezza del segnale e l'origine del fattore 2 in ReLU
Quantificazione della sensibilità della scala: Attraverso una scansione logaritmica di 25 valori di deviazione standard, vengono mappate le regioni di scomparsa/esplosione dei gradienti, identificando la banda di addestramento stabile σ ∈ 10⁻², 10⁻¹
Verifica dell'inizializzazione consapevole della funzione di attivazione: Nell'addestramento controllato di MLP ReLU, viene confermato che Kaiming normal (fan-in) converge più rapidamente e con minore varianza di perdita rispetto a Xavier normal
Analisi della dinamica della varianza del Transformer: In un modello Transformer nello stile di GPT-2 a 12 strati costruito da zero, viene scoperto un chiaro pattern correlato alla profondità: la deviazione standard dei pesi negli strati superficiali si espande rapidamente, mentre negli strati profondi è più graduale, stabilizzandosi infine in una banda di varianza ristretta
Le condizioni di conservazione in avanti e all'indietro generalmente non possono essere soddisfatte simultaneamente, a meno che n_in ≈ n_out e c_φ ≈ d_φ. In pratica, mantenere stabile il segnale in avanti è generalmente più importante, il che spiega perché He/Kaiming fan-in converge più rapidamente di Xavier.
Intervallo stabile: L'addestramento è fluido all'interno di σ ∈ 10⁻², 10⁻¹, i gradienti si comportano bene e l'accuratezza raggiunge il picco in questo intervallo
Scomparsa del gradiente: Scale estremamente piccole (σ ≲ 10⁻³) causano scomparsa degli aggiornamenti e diminuzione dell'accuratezza
Esplosione del gradiente: Scale estremamente grandi (σ ≳ 1) producono perdita instabile e occasionali divergenze
Pattern correlato alla profondità: Gli strati superficiali mostrano un'espansione rapida e significativa della deviazione standard dei pesi durante l'addestramento iniziale, mentre gli strati profondi si espandono più lentamente e uniformemente
Equilibrio della varianza: Tutti gli strati si stabilizzano infine in una banda di varianza ristretta
Sparsificazione della distribuzione: Dopo l'addestramento, la distribuzione dei pesi diventa più sparsa, con molti elementi vicini a zero che rimangono invariati e pochi pesi di grande ampiezza che dominano
L'articolo rivela un pattern di equilibrio progressivo nei Transformer:
Adattamento rapido degli strati superficiali: Gli strati vicini all'input hanno gradienti ad alto rapporto segnale-rumore, incoraggiando il ridimensionamento aggressivo iniziale
Regolazione graduale degli strati profondi: La lunghezza del percorso residuo e la pre-normalizzazione limitano la lunghezza del passo effettiva negli strati profondi
Vincoli impliciti: La saturazione del softmax di attenzione e il decadimento dei pesi in AdamW impediscono scale di parametri grandi
MLP ReLU/GELU: Iniziare da He/Kaiming fan-in; se strati molto sbilanciati causano deriva del gradiente, spostarsi leggermente verso la scelta fan-average
Stack residuo profondo: Il ridimensionamento residuo (come 1/√L) o la normalizzazione aiutano a prevenire la deriva della varianza profonda
Proiezioni Transformer: Utilizzare l'inizializzazione con piccola deviazione standard (come 0.02), monitorare la deviazione standard di ogni strato e la norma del gradiente
Inizializzazione Fixup: Rimuove la necessità di normalizzazione nelle reti estremamente profonde attraverso inizializzazione accuratamente scelta e ridimensionamento residuo
DeepNet: Propone regole di ridimensionamento profondo principiate che consentono l'addestramento di reti con migliaia di strati
Vantaggi della pre-normalizzazione: Rispetto alla post-normalizzazione, migliora la stabilità dell'ottimizzazione attraverso il flusso di gradiente più fluido
Esistenza di una banda di stabilità: Esiste una banda di stabilità ampia ma sensibile nell'intervallo σ ∈ 10⁻², 10⁻¹
Importanza della specificità della funzione di attivazione: L'inizializzazione Kaiming supera effettivamente Xavier nelle reti ReLU
Dinamica correlata alla profondità: I Transformer mostrano un equilibrio della varianza correlato alla profondità, con adattamento rapido degli strati superficiali e regolazione graduale degli strati profondi
Inizializzazione adattiva consapevole della profondità: Apprendimento della scala per ogni strato o testa, portando gli strati superficiali più vicini al livello di varianza finale
Accoppiamento tra ottimizzatore e pianificazione: Ottimizzazione congiunta della lunghezza del riscaldamento, decadimento dei pesi e ritaglio del gradiente
Ridimensionamento della profondità e della larghezza: Valutazione della persistenza dell'equilibrio correlato alla profondità in modelli più grandi
Integrazione di teoria e pratica: Combinazione organica della teoria classica di propagazione della varianza con il comportamento dei Transformer moderni
Progettazione sperimentale sistematica: Verifica progressiva da semplici MLP a Transformer complessi
Alto valore pratico: Fornisce raccomandazioni specifiche di inizializzazione e metodi diagnostici
Rigore statistico: Utilizzo di metodi statistici come il test t accoppiato per verificare la significatività dei risultati
Profondità limitata dell'analisi teorica: Manca una spiegazione teorica più profonda dei fenomeni correlati alla profondità
Vincoli della scala sperimentale: Limitato dalle risorse computazionali, non verificato su modelli veramente su larga scala
Problemi di generalizzazione: I risultati si basano principalmente su architetture e compiti specifici, la capacità di generalizzazione richiede ulteriore verifica
L'articolo cita lavori chiave nel campo dell'inizializzazione, incluse ricerche fondamentali di LeCun, Glorot, He e altri, nonché progressi recenti nell'ottimizzazione dei Transformer, fornendo una base teorica solida per questa ricerca.