2025-11-12T01:28:29.133817

Stability of Transformers under Layer Normalization

Kan, Li, Zhang et al.

Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.

academic

Stabilità dei Transformer sotto Layer Normalization

Informazioni Fondamentali

ID Articolo: 2510.09904
Titolo: Stability of Transformers under Layer Normalization
Autori: Kelvin Kan (UCLA), Xingjian Li (UT Austin), Benjamin J. Zhang (UNC Chapel Hill), Tuhin Sahai (SRI International), Stanley Osher (UCLA), Krishna Kumar (UT Austin), Markos A. Katsoulakis (UMass Amherst)
Classificazione: cs.LG, cs.AI, math.OC
Data di Pubblicazione: 10 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.09904

Riassunto

Sebbene i Transformer siano ampiamente utilizzati, l'addestramento di Transformer profondi può risultare instabile. La Layer Normalization (normalizzazione per strato) come componente standard migliora la stabilità dell'addestramento, ma la scelta della sua posizione è spesso empirica. Questo articolo conduce uno studio sistematico sulla stabilità in avanti (stati nascosti) e sulla stabilità all'indietro (gradienti) dei Transformer con diverse posizioni di layer normalization. L'analisi teorica rivela intuizioni critiche sulla dinamica dell'addestramento: se l'addestramento guida il Transformer verso soluzioni regolari o comportamenti patologici. Per la stabilità in avanti, vengono derivati limiti espliciti sulla crescita degli stati nascosti nei Transformer addestrati. Per la stabilità all'indietro, viene analizzato come la layer normalization influenzi la retropropagazione dei gradienti, spiegando così la dinamica dell'addestramento per ogni posizione di layer normalization. L'analisi fornisce inoltre indicazioni sul ridimensionamento del passo residuo nei blocchi Transformer, la cui scelta appropriata può migliorare ulteriormente la stabilità e le prestazioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: il meccanismo di influenza di diverse posizioni di layer normalization sulla stabilità dell'addestramento dei Transformer. Nello specifico include:

Problema di stabilità in avanti: controllo della crescita degli stati nascosti nelle reti profonde
Problema di stabilità all'indietro: stabilità dei gradienti durante la retropropagazione
Guida alla progettazione dell'architettura: come fornire indicazioni teoriche per nuove varianti di Transformer

Analisi dell'Importanza

Valore pratico: i Transformer sono fondamentali nell'apprendimento profondo moderno, e la loro stabilità di addestramento influisce direttamente sulle prestazioni del modello e sull'efficienza dell'addestramento
Lacuna teorica: la scelta della posizione della layer normalization si basa principalmente su considerazioni empiriche, mancando di fondamenti teorici
Esigenza industriale: con l'aumento continuo della dimensione dei modelli, i problemi di stabilità dell'addestramento diventano sempre più critici

Limitazioni dei Metodi Esistenti

Post-LN: richiede una pianificazione di ottimizzazione fine, con prestazioni spesso subottimali
Pre-LN: sebbene migliori la stabilità dell'addestramento iniziale, produce stati nascosti eccessivamente grandi, causando instabilità numerica
Peri-LN: sebbene mostri buone prestazioni nella pratica, le sue proprietà teoriche sono poco comprese

Motivazione della Ricerca

Gli autori adottano una nuova prospettiva basata su dinamiche in tempo continuo e teoria del controllo ottimale, modellando il problema dell'addestramento dei Transformer come un problema di controllo di campo medio, consentendo così di analizzare le proprietà del modello dopo la convergenza dell'addestramento, piuttosto che concentrarsi solo sul comportamento all'inizializzazione.

Contributi Principali

Innovazione del Framework Teorico: propone un nuovo framework basato sulla teoria del controllo ottimale per analizzare sistematicamente la stabilità dei Transformer con diverse posizioni di layer normalization
Analisi della Stabilità in Avanti: derivazione di limiti espliciti sulla crescita degli stati nascosti, provando che Pre-LN causa crescita illimitata mentre Peri-LN mantiene una crescita controllata
Analisi della Stabilità all'Indietro: rivelazione del meccanismo di influenza della layer normalization sulla retropropagazione dei gradienti
Ridimensionamento del Passo Residuo: proposta di un metodo di ridimensionamento del passo residuo per migliorare la stabilità e le prestazioni
Verifica Sperimentale: validazione dei risultati teorici su modelli della serie GPT-2

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio della stabilità dei Transformer con diverse posizioni di layer normalization, includendo:

Input: sequenza dopo embedding e codifica posizionale $X_0 \in \mathbb{R}^{d \times n}$
Output: stati nascosti dopo D blocchi Transformer $X_D$
Obiettivo: analizzare la stabilità della propagazione in avanti e all'indietro

Modellazione in Tempo Continuo

Rappresentazione in Tempo Continuo del Transformer

Interpretazione della struttura di connessione con salti del blocco Transformer standard come discretizzazione di Eulero della dinamica in tempo continuo:

$\frac{dX(t)}{dt} = \begin{cases} f_{attn}(X(t), t; \theta_{attn}(t)), & t \in [t_i, t_i + \Delta t) \\ f_{ffn}(X(t), t; \theta_{ffn}(t)), & t \in [t_i + \Delta t, t_{i+1}) \end{cases}$

dove $\Delta t = \frac{T}{2D}$ , $t_i = 2i\Delta t$ .

Modellazione del Problema di Controllo di Campo Medio

Formulazione del problema di addestramento come problema di controllo di campo medio in tempo continuo:

$\min_\theta \mathbb{E}_{(X_0,y)} G(X(T), y)$ $\text{s.t. } \frac{dX(t)}{dt} = f(X(t), t; \theta(t))$

dove $f \in \{f_{Pre}, f_{Peri}\}$ corrisponde a diverse posizioni di layer normalization.

Proprietà Geometriche della Layer Normalization

Lemma Chiave 1: l'output della layer normalization si trova su una superficie ellissoidale $\mathcal{E} = \{z \in \mathbb{R}^d : (z - \beta)^T\Gamma^{-2}(z - \beta) = d\}$ dove $\Gamma = \text{diag}(\gamma)$ .

Analisi della Stabilità in Avanti

Illimitatezza di Pre-LN

Teorema 2: la soluzione ottimale del problema di addestramento Pre-LN è illimitata in ampiezza.

Idea della Prova: attraverso l'analisi dell'equazione differenziale parziale Hamilton-Jacobi-Bellman (HJB), si prova che l'hamiltoniano corrispondente non esiste, causando la degenerazione del problema di addestramento.

Teorema 3: anche con decadimento dei pesi, gli stati nascosti del Transformer Pre-LN mostrano crescita esponenziale: $MA(X_D) \leq (1 + C(\lambda))^D \frac{\|X_0\|_F}{\sqrt{nd}} = O(e^D)$

Crescita Controllata di Peri-LN

Teorema 4: gli stati nascosti del Transformer Peri-LN mostrano crescita lineare: $MA(X_D) \leq \frac{\|X_0\|_F}{\sqrt{nd}} + 2D(\gamma_{max} + \beta_{max}) = O(D)$

La varianza mostra crescita quadratica: $\text{Var}(X_D) \leq \frac{(\|X_0\|_F + 2D\sqrt{nd}(\gamma_{max} + \beta_{max}))^2}{nd - 1} = O(D^2)$

Analisi della Stabilità all'Indietro

Formula di calcolo del gradiente: $\nabla_{\theta_i} G(X_D) = \nabla_{\theta_i} X_{i+1} \cdot J_{i:D} \cdot \nabla_{X_D} G(X_D)$

dove la matrice jacobiana: $J_{i:D} = \prod_{j=i+1}^D (I + \nabla_{X_{j-1}} f(X_{j-1}; \theta_{j-1}))$

Proposizione 7: sotto Pre-LN, la sensibilità $\nabla_{X_{j-1}} f_{Pre}$ cresce proporzionalmente ai valori di attivazione.

Proposizione 8: sotto Peri-LN, la sensibilità $\nabla_{X_{j-1}} f_{Peri}$ è invariante rispetto all'ampiezza dei valori di attivazione.

Configurazione Sperimentale

Dataset

Dataset OpenWebText: circa 9 miliardi di token di addestramento, 4 milioni di token di validazione
Preaddestramento utilizzando l'architettura della serie GPT-2

Configurazione del Modello

GPT-2 (124M parametri)
GPT-2 Large (774M parametri)
GPT-2 XL (1.5B parametri)

Metriche di Valutazione

Perplessità (Perplexity)
Punteggio ROUGE (Rouge1, Rouge2, RougeL)
Punteggio BERT (BertP, BertR, BertF1)
Stabilità dell'addestramento: conteggio delle esecuzioni divergenti

Dettagli di Implementazione

Utilizzo di iperparametri ottimizzati per Pre-LN, senza ottimizzazione separata per Peri-LN
Ridimensionamento del passo residuo: $\Delta t \in \{0.1, 1\}$
Hardware: GPU NVIDIA H200

Risultati Sperimentali

Confronto della Stabilità dell'Addestramento

Configurazione Layer Norm	Decadimento Pesi Attivo	Decadimento Pesi Disattivo
Pre-LN	1/5 diverge	3/5 diverge
Peri-LN	0/5 diverge	0/5 diverge
Nessun LN	5/5 diverge	—

Risultati del Confronto delle Prestazioni

Risultati del Modello GPT-2 (124M):

Pre-LN ( $\Delta t=1$ ): perdita di validazione 5.43, perplessità 247.52
Pre-LN ( $\Delta t=0.1$ ): perdita di validazione 3.13, perplessità 24.43
Peri-LN ( $\Delta t=1$ ): perdita di validazione 3.12, perplessità 24.17
Peri-LN ( $\Delta t=0.1$ ): perdita di validazione 3.10, perplessità 23.63

Analisi della Crescita degli Stati Nascosti

La sperimentazione valida le previsioni teoriche:

Pre-LN mostra rapida crescita con $\Delta t$ più grande
Peri-LN mantiene una crescita lineare più regolare
Il ridimensionamento del passo residuo controlla efficacemente il tasso di crescita

Effetto del Ridimensionamento del Passo Residuo

Miglioramento delle Prestazioni: Peri-LN + $\Delta t=0.1$ mostra le migliori prestazioni su tutti gli indicatori
Miglioramento della Stabilità: Pre-LN con $\Delta t=0.1$ passa da instabile a stabile
Controllo della Crescita: riduce efficacemente il tasso di crescita della media e della varianza degli stati nascosti

Lavori Correlati

Ricerca sulla Layer Normalization

Post-LN: progettazione Transformer più antica, richiede pianificazione fine
Pre-LN: migliora la stabilità dell'addestramento ma produce valori di attivazione grandi
Peri-LN: recentemente adottato in modelli su larga scala, come Gemma2, OLMo2

Metodi di Analisi Teorica

I lavori esistenti si concentrano principalmente sul comportamento all'inizializzazione o si basano su osservazioni empiriche
Questo articolo analizza innovativamente le proprietà del modello dopo la convergenza dell'addestramento
La prospettiva in tempo continuo fornisce nuovi strumenti per l'analisi dell'architettura

Conclusioni e Discussione

Conclusioni Principali

Difetto Teorico di Pre-LN: il problema di addestramento è intrinsecamente mal posto, portando a soluzioni illimitate
Vantaggi di Peri-LN: fornisce un problema di ottimizzazione ben definito e crescita controllata degli stati nascosti
Valore del Ridimensionamento Residuo: metodo semplice ed efficace per il miglioramento della stabilità

Limitazioni

Ipotesi Semplificate: l'analisi teorica si basa su approssimazione in tempo continuo
Dipendenza da Iperparametri: gli esperimenti utilizzano iperparametri ottimizzati per Pre-LN
Limitazione di Scala: gli esperimenti si concentrano principalmente su modelli di scala media

Direzioni Future

Framework di Selezione dell'Architettura: fornire criteri di screening teorici per nuove modifiche architettoniche
Validazione su Scala Maggiore: verificare i risultati teorici su modelli più grandi
Altri Metodi di Normalizzazione: estendere l'analisi a varianti come RMSNorm

Valutazione Approfondita

Punti di Forza

Forte Innovazione Teorica: primo utilizzo della teoria del controllo ottimale per analizzare il problema della posizione della layer normalization
Rigore Matematico: fornisce derivazioni teoriche complete e prove
Alto Valore Pratico: il metodo di ridimensionamento del passo residuo è semplice ed efficace
Progettazione Sperimentale Ragionevole: validazione teorica su più scale di modello

Insufficienze

Divario tra Teoria e Pratica: l'ipotesi di tempo continuo differisce dall'implementazione discreta effettiva
Ambito Sperimentale Limitato: validazione principalmente sulla serie GPT-2, mancanza di validazione su più architetture
Equità degli Iperparametri: mancanza di ottimizzazione iperparametrica dedicata per Peri-LN

Valutazione dell'Impatto

Contributo Accademico: fornisce un nuovo framework teorico per l'analisi della stabilità dei Transformer
Valore Pratico: guida la progettazione effettiva del modello e le strategie di addestramento
Riproducibilità: impegno a rendere pubblici il codice e i modelli

Scenari Applicabili

Addestramento di Transformer Profondi: particolarmente adatto per modelli profondi su larga scala
Guida alla Progettazione dell'Architettura: fornisce fondamenti teorici per nuove modifiche architettoniche
Miglioramento della Stabilità dell'Addestramento: migliora la stabilità dell'addestramento attraverso il ridimensionamento residuo

Bibliografia

L'articolo cita numerosi lavori importanti, includendo:

Ba et al. (2016): articolo originale sulla Layer Normalization
Xiong et al. (2020): studio comparativo Pre-LN vs Post-LN
Kim et al. (2025): ricerca empirica su Peri-LN
He et al. (2016): lavoro pioneristico sulle connessioni residue

Valutazione Complessiva: questo è un articolo di alta qualità che combina bene teoria e pratica, fornendo un nuovo framework matematico per l'analisi della stabilità dei Transformer, con importante valore accademico e pratico. L'analisi teorica è rigorosa e approfondita, la verifica sperimentale è sufficiente, e fornisce indicazioni preziose per la progettazione dell'architettura dell'apprendimento profondo.