2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han

Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.

academic

Inizializzazione dei Pesi e Dinamica della Varianza nelle Reti Neurali Profonde e nei Modelli di Linguaggio di Grandi Dimensioni

Informazioni Fondamentali

ID Articolo: 2510.09423
Titolo: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Autore: Yankun Han (University of Florida)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09423

Riassunto

L'inizializzazione dei pesi controlla la propagazione del segnale e il flusso dei gradienti all'inizio dell'addestramento. Questo articolo fornisce uno studio teoricamente fondato e verificato empiricamente, che copre due domini: i percettroni multistrato ReLU compatti e i Transformer nello stile di GPT-2. In primo luogo, attraverso una scansione logaritmica della deviazione standard iniziale, vengono mappate le regioni di scomparsa e esplosione dei gradienti, identificando una vasta banda di stabilità con deviazione standard tra 1e-2 e 1e-1. In secondo luogo, i confronti controllati mostrano che con la funzione di attivazione ReLU, l'inizializzazione Kaiming (fan-in) converge più rapidamente e stabilmente rispetto all'inizializzazione Xavier, coerentemente con la teoria della conservazione della varianza. In terzo luogo, in un modello Transformer nello stile di GPT-2 a 12 strati costruito da zero, l'articolo traccia i cambiamenti della varianza dei pesi Q/K/V in ogni strato durante il preaddestramento, osservando un fenomeno di equilibrio correlato alla profondità: gli strati superficiali si espandono rapidamente, mentre gli strati profondi cambiano in modo più graduale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale che questa ricerca affronta è l'impatto dell'inizializzazione dei pesi sulla stabilità dell'addestramento e sulla convergenza nelle reti neurali profonde e nei modelli di linguaggio di grandi dimensioni. Nello specifico include:

Sensibilità della scala di inizializzazione: Come diverse deviazioni standard iniziali influenzano la stabilità dell'addestramento
Specificità della funzione di attivazione: Se le funzioni di attivazione come ReLU e GELU richiedono strategie di inizializzazione specifiche
Dinamica della varianza nei Transformer moderni: Se la stabilizzazione della varianza persiste nei modelli Transformer di grandi dimensioni

Importanza

L'inizializzazione dei pesi è un fattore critico per il successo dell'addestramento nell'apprendimento profondo, e un'inizializzazione inadeguata può portare a:

Scomparsa del gradiente: Il segnale si attenua strato dopo strato nelle reti profonde
Esplosione del gradiente: Il segnale cresce esponenzialmente durante la propagazione
Instabilità dell'addestramento: Oscillazioni e divergenza nel processo di ottimizzazione

Limitazioni dei Metodi Esistenti

Sebbene i metodi di inizializzazione classici (LeCun, Xavier/Glorot, He/Kaiming) abbiano intuizioni teoriche sulla conservazione della varianza, presentano ancora i seguenti problemi nelle applicazioni pratiche:

La sensibilità alle deviazioni dalla scala ideale non è stata sufficientemente quantificata
I meccanismi di influenza di funzioni di attivazione specifiche (come ReLU, GELU) non sono chiari
Le prestazioni nei Transformer di grandi dimensioni mancano di ricerca sistematica

Contributi Principali

Framework di analisi della varianza unificato: Derivazione delle condizioni di propagazione della varianza in avanti e all'indietro per funzioni di attivazione comuni (ReLU, GELU), spiegando come il ridimensionamento fan-in conserva l'ampiezza del segnale e l'origine del fattore 2 in ReLU
Quantificazione della sensibilità della scala: Attraverso una scansione logaritmica di 25 valori di deviazione standard, vengono mappate le regioni di scomparsa/esplosione dei gradienti, identificando la banda di addestramento stabile σ ∈ 10⁻², 10⁻¹
Verifica dell'inizializzazione consapevole della funzione di attivazione: Nell'addestramento controllato di MLP ReLU, viene confermato che Kaiming normal (fan-in) converge più rapidamente e con minore varianza di perdita rispetto a Xavier normal
Analisi della dinamica della varianza del Transformer: In un modello Transformer nello stile di GPT-2 a 12 strati costruito da zero, viene scoperto un chiaro pattern correlato alla profondità: la deviazione standard dei pesi negli strati superficiali si espande rapidamente, mentre negli strati profondi è più graduale, stabilizzandosi infine in una banda di varianza ristretta

Dettagli Metodologici

Framework Teorico

Analisi della Varianza nella Propagazione in Avanti

Per una mappatura lineare:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Dopo l'attivazione non lineare:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

dove c_φ = E[φ(z)²]/Var[z] è una costante correlata alla funzione di attivazione.

Per evitare la scomparsa o l'esplosione dei valori di attivazione, si sceglie σ²_W ≈ 1/(c_φ n_in):

ReLU: c_φ ≈ 1/2, quindi σ²_W ≈ 2/n_in (He/Kaiming)
GELU: c_φ ≈ 0.45-0.5, leggermente inferiore a ReLU

Analisi della Varianza nella Retropropagazione

La retropropagazione fornisce:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

dove d_φ = E[φ'(z)²]. Per ReLU, d_φ = 1/2, e per bilanciare la varianza del gradiente è necessario σ²_W ≈ 2/n_out.

Compromesso e Scelta Pratica

Le condizioni di conservazione in avanti e all'indietro generalmente non possono essere soddisfatte simultaneamente, a meno che n_in ≈ n_out e c_φ ≈ d_φ. In pratica, mantenere stabile il segnale in avanti è generalmente più importante, il che spiega perché He/Kaiming fan-in converge più rapidamente di Xavier.

Progettazione Sperimentale

Esperimento E1: Scansione della Deviazione Standard

Architettura di rete: MLP ReLU 784→64→32→32→10
Dataset: MNIST
Intervallo di scansione: 25 valori di deviazione standard, da 10⁻⁴ a 10, con spaziatura logaritmica
Metriche di valutazione: Traiettoria della perdita, accuratezza della classificazione

Esperimento E2: Confronto Xavier vs Kaiming

Architettura di rete: Rete ReLU 11→16→32→32→1
Dataset: Compito di classificazione binaria UCI Wine
Schemi di confronto: Xavier normal vs Kaiming uniform
Verifica statistica: 10 esecuzioni casuali, test t accoppiato

Esperimento E3: Dinamica della Varianza di GPT-2

Scala del modello: Transformer nello stile di GPT-2 a 12 strati
Inizializzazione: Configurazione standard (std=0.02 per la maggior parte dei moduli, xavier normal per i livelli di embedding)
Ottimizzatore: AdamW, tasso di apprendimento 1×10⁻⁴, dimensione batch 16
Obiettivi di tracciamento: Deviazione standard dei pesi di proiezione Q/K/V in tutti gli strati

Risultati Sperimentali

Risultati E1: Scansione della Deviazione Standard

Intervallo stabile: L'addestramento è fluido all'interno di σ ∈ 10⁻², 10⁻¹, i gradienti si comportano bene e l'accuratezza raggiunge il picco in questo intervallo
Scomparsa del gradiente: Scale estremamente piccole (σ ≲ 10⁻³) causano scomparsa degli aggiornamenti e diminuzione dell'accuratezza
Esplosione del gradiente: Scale estremamente grandi (σ ≳ 1) producono perdita instabile e occasionali divergenze

Risultati E2: Confronto dei Metodi di Inizializzazione

L'inizializzazione Kaiming supera costantemente Xavier su più dimensioni:

Velocità di convergenza: Mediana di iterazioni inferiore per raggiungere l'obiettivo, diminuzione della perdita più ripida nelle fasi iniziali
Accuratezza: L'accuratezza di validazione finale corrisponde o leggermente supera Xavier
Significatività statistica: Il test t accoppiato mostra differenze significative nella perdita e nell'accuratezza di addestramento (p < 0.05)

Risultati E3: Scoperte sulla Dinamica della Varianza del Transformer

Pattern correlato alla profondità: Gli strati superficiali mostrano un'espansione rapida e significativa della deviazione standard dei pesi durante l'addestramento iniziale, mentre gli strati profondi si espandono più lentamente e uniformemente
Equilibrio della varianza: Tutti gli strati si stabilizzano infine in una banda di varianza ristretta
Sparsificazione della distribuzione: Dopo l'addestramento, la distribuzione dei pesi diventa più sparsa, con molti elementi vicini a zero che rimangono invariati e pochi pesi di grande ampiezza che dominano

Intuizioni Teoriche e Significato Pratico

Meccanismo di Equilibrio della Varianza Correlato alla Profondità

L'articolo rivela un pattern di equilibrio progressivo nei Transformer:

Adattamento rapido degli strati superficiali: Gli strati vicini all'input hanno gradienti ad alto rapporto segnale-rumore, incoraggiando il ridimensionamento aggressivo iniziale
Regolazione graduale degli strati profondi: La lunghezza del percorso residuo e la pre-normalizzazione limitano la lunghezza del passo effettiva negli strati profondi
Vincoli impliciti: La saturazione del softmax di attenzione e il decadimento dei pesi in AdamW impediscono scale di parametri grandi

Principi Guida Pratici

MLP ReLU/GELU: Iniziare da He/Kaiming fan-in; se strati molto sbilanciati causano deriva del gradiente, spostarsi leggermente verso la scelta fan-average
Stack residuo profondo: Il ridimensionamento residuo (come 1/√L) o la normalizzazione aiutano a prevenire la deriva della varianza profonda
Proiezioni Transformer: Utilizzare l'inizializzazione con piccola deviazione standard (come 0.02), monitorare la deviazione standard di ogni strato e la norma del gradiente

Confronto con Lavori Correlati

Strategie di Inizializzazione Fondamentali

Metodo LeCun: Regola di conservazione della varianza per attivazioni lineari
Glorot/Xavier: Ridimensionamento basato su fan per tanh/sigmoid
He/Kaiming: Ridimensionamento consapevole dell'attivazione che compensa il dimezzamento del secondo momento sotto ReLU

Sviluppi Moderni

Inizializzazione Fixup: Rimuove la necessità di normalizzazione nelle reti estremamente profonde attraverso inizializzazione accuratamente scelta e ridimensionamento residuo
DeepNet: Propone regole di ridimensionamento profondo principiate che consentono l'addestramento di reti con migliaia di strati
Vantaggi della pre-normalizzazione: Rispetto alla post-normalizzazione, migliora la stabilità dell'ottimizzazione attraverso il flusso di gradiente più fluido

Conclusioni e Discussione

Conclusioni Principali

Esistenza di una banda di stabilità: Esiste una banda di stabilità ampia ma sensibile nell'intervallo σ ∈ 10⁻², 10⁻¹
Importanza della specificità della funzione di attivazione: L'inizializzazione Kaiming supera effettivamente Xavier nelle reti ReLU
Dinamica correlata alla profondità: I Transformer mostrano un equilibrio della varianza correlato alla profondità, con adattamento rapido degli strati superficiali e regolazione graduale degli strati profondi

Limitazioni

Scala sperimentale: L'esperimento GPT-2 è relativamente piccolo (12 strati), il comportamento dei modelli su larga scala potrebbe essere diverso
Copertura della funzione di attivazione: L'analisi si concentra principalmente su ReLU e GELU, con analisi limitata di altre funzioni di attivazione
Dipendenza dall'ottimizzatore: I risultati potrebbero essere sensibili a specifici ottimizzatori (AdamW) e impostazioni di iperparametri

Direzioni Future

Inizializzazione adattiva consapevole della profondità: Apprendimento della scala per ogni strato o testa, portando gli strati superficiali più vicini al livello di varianza finale
Accoppiamento tra ottimizzatore e pianificazione: Ottimizzazione congiunta della lunghezza del riscaldamento, decadimento dei pesi e ritaglio del gradiente
Ridimensionamento della profondità e della larghezza: Valutazione della persistenza dell'equilibrio correlato alla profondità in modelli più grandi

Valutazione Approfondita

Punti di Forza

Integrazione di teoria e pratica: Combinazione organica della teoria classica di propagazione della varianza con il comportamento dei Transformer moderni
Progettazione sperimentale sistematica: Verifica progressiva da semplici MLP a Transformer complessi
Alto valore pratico: Fornisce raccomandazioni specifiche di inizializzazione e metodi diagnostici
Rigore statistico: Utilizzo di metodi statistici come il test t accoppiato per verificare la significatività dei risultati

Insufficienze

Profondità limitata dell'analisi teorica: Manca una spiegazione teorica più profonda dei fenomeni correlati alla profondità
Vincoli della scala sperimentale: Limitato dalle risorse computazionali, non verificato su modelli veramente su larga scala
Problemi di generalizzazione: I risultati si basano principalmente su architetture e compiti specifici, la capacità di generalizzazione richiede ulteriore verifica

Valutazione dell'Impatto

Contributo accademico: Fornisce una prospettiva moderna alla teoria dell'inizializzazione, collegando la teoria classica con la pratica attuale
Valore pratico: Fornisce ai praticanti strategie di inizializzazione esplicite e strumenti diagnostici
Riproducibilità: La progettazione sperimentale è chiara, le impostazioni di codice e parametri sono dettagliate, facilitando la riproduzione

Scenari Applicabili

Addestramento di reti profonde: Particolarmente applicabile a reti profonde con attivazioni ReLU/GELU
Ottimizzazione di Transformer: Fornisce guida di inizializzazione per l'addestramento di modelli di linguaggio di grandi dimensioni
Strumento di ricerca: Fornisce ai ricercatori un framework metodologico per analizzare la dinamica dei pesi

Bibliografia

L'articolo cita lavori chiave nel campo dell'inizializzazione, incluse ricerche fondamentali di LeCun, Glorot, He e altri, nonché progressi recenti nell'ottimizzazione dei Transformer, fornendo una base teorica solida per questa ricerca.