2025-11-12T01:28:29.133817

Stability of Transformers under Layer Normalization

Kan, Li, Zhang et al.
Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.
academic

Stabilità dei Transformer sotto Layer Normalization

Informazioni Fondamentali

  • ID Articolo: 2510.09904
  • Titolo: Stability of Transformers under Layer Normalization
  • Autori: Kelvin Kan (UCLA), Xingjian Li (UT Austin), Benjamin J. Zhang (UNC Chapel Hill), Tuhin Sahai (SRI International), Stanley Osher (UCLA), Krishna Kumar (UT Austin), Markos A. Katsoulakis (UMass Amherst)
  • Classificazione: cs.LG, cs.AI, math.OC
  • Data di Pubblicazione: 10 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09904

Riassunto

Sebbene i Transformer siano ampiamente utilizzati, l'addestramento di Transformer profondi può risultare instabile. La Layer Normalization (normalizzazione per strato) come componente standard migliora la stabilità dell'addestramento, ma la scelta della sua posizione è spesso empirica. Questo articolo conduce uno studio sistematico sulla stabilità in avanti (stati nascosti) e sulla stabilità all'indietro (gradienti) dei Transformer con diverse posizioni di layer normalization. L'analisi teorica rivela intuizioni critiche sulla dinamica dell'addestramento: se l'addestramento guida il Transformer verso soluzioni regolari o comportamenti patologici. Per la stabilità in avanti, vengono derivati limiti espliciti sulla crescita degli stati nascosti nei Transformer addestrati. Per la stabilità all'indietro, viene analizzato come la layer normalization influenzi la retropropagazione dei gradienti, spiegando così la dinamica dell'addestramento per ogni posizione di layer normalization. L'analisi fornisce inoltre indicazioni sul ridimensionamento del passo residuo nei blocchi Transformer, la cui scelta appropriata può migliorare ulteriormente la stabilità e le prestazioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: il meccanismo di influenza di diverse posizioni di layer normalization sulla stabilità dell'addestramento dei Transformer. Nello specifico include:

  1. Problema di stabilità in avanti: controllo della crescita degli stati nascosti nelle reti profonde
  2. Problema di stabilità all'indietro: stabilità dei gradienti durante la retropropagazione
  3. Guida alla progettazione dell'architettura: come fornire indicazioni teoriche per nuove varianti di Transformer

Analisi dell'Importanza

  1. Valore pratico: i Transformer sono fondamentali nell'apprendimento profondo moderno, e la loro stabilità di addestramento influisce direttamente sulle prestazioni del modello e sull'efficienza dell'addestramento
  2. Lacuna teorica: la scelta della posizione della layer normalization si basa principalmente su considerazioni empiriche, mancando di fondamenti teorici
  3. Esigenza industriale: con l'aumento continuo della dimensione dei modelli, i problemi di stabilità dell'addestramento diventano sempre più critici

Limitazioni dei Metodi Esistenti

  1. Post-LN: richiede una pianificazione di ottimizzazione fine, con prestazioni spesso subottimali
  2. Pre-LN: sebbene migliori la stabilità dell'addestramento iniziale, produce stati nascosti eccessivamente grandi, causando instabilità numerica
  3. Peri-LN: sebbene mostri buone prestazioni nella pratica, le sue proprietà teoriche sono poco comprese

Motivazione della Ricerca

Gli autori adottano una nuova prospettiva basata su dinamiche in tempo continuo e teoria del controllo ottimale, modellando il problema dell'addestramento dei Transformer come un problema di controllo di campo medio, consentendo così di analizzare le proprietà del modello dopo la convergenza dell'addestramento, piuttosto che concentrarsi solo sul comportamento all'inizializzazione.

Contributi Principali

  1. Innovazione del Framework Teorico: propone un nuovo framework basato sulla teoria del controllo ottimale per analizzare sistematicamente la stabilità dei Transformer con diverse posizioni di layer normalization
  2. Analisi della Stabilità in Avanti: derivazione di limiti espliciti sulla crescita degli stati nascosti, provando che Pre-LN causa crescita illimitata mentre Peri-LN mantiene una crescita controllata
  3. Analisi della Stabilità all'Indietro: rivelazione del meccanismo di influenza della layer normalization sulla retropropagazione dei gradienti
  4. Ridimensionamento del Passo Residuo: proposta di un metodo di ridimensionamento del passo residuo per migliorare la stabilità e le prestazioni
  5. Verifica Sperimentale: validazione dei risultati teorici su modelli della serie GPT-2

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio della stabilità dei Transformer con diverse posizioni di layer normalization, includendo:

  • Input: sequenza dopo embedding e codifica posizionale X0Rd×nX_0 \in \mathbb{R}^{d \times n}
  • Output: stati nascosti dopo D blocchi Transformer XDX_D
  • Obiettivo: analizzare la stabilità della propagazione in avanti e all'indietro

Modellazione in Tempo Continuo

Rappresentazione in Tempo Continuo del Transformer

Interpretazione della struttura di connessione con salti del blocco Transformer standard come discretizzazione di Eulero della dinamica in tempo continuo:

dX(t)dt={fattn(X(t),t;θattn(t)),t[ti,ti+Δt)fffn(X(t),t;θffn(t)),t[ti+Δt,ti+1)\frac{dX(t)}{dt} = \begin{cases} f_{attn}(X(t), t; \theta_{attn}(t)), & t \in [t_i, t_i + \Delta t) \\ f_{ffn}(X(t), t; \theta_{ffn}(t)), & t \in [t_i + \Delta t, t_{i+1}) \end{cases}

dove Δt=T2D\Delta t = \frac{T}{2D}, ti=2iΔtt_i = 2i\Delta t.

Modellazione del Problema di Controllo di Campo Medio

Formulazione del problema di addestramento come problema di controllo di campo medio in tempo continuo:

minθE(X0,y)G(X(T),y)\min_\theta \mathbb{E}_{(X_0,y)} G(X(T), y)s.t. dX(t)dt=f(X(t),t;θ(t))\text{s.t. } \frac{dX(t)}{dt} = f(X(t), t; \theta(t))

dove f{fPre,fPeri}f \in \{f_{Pre}, f_{Peri}\} corrisponde a diverse posizioni di layer normalization.

Proprietà Geometriche della Layer Normalization

Lemma Chiave 1: l'output della layer normalization si trova su una superficie ellissoidale E={zRd:(zβ)TΓ2(zβ)=d}\mathcal{E} = \{z \in \mathbb{R}^d : (z - \beta)^T\Gamma^{-2}(z - \beta) = d\} dove Γ=diag(γ)\Gamma = \text{diag}(\gamma).

Analisi della Stabilità in Avanti

Illimitatezza di Pre-LN

Teorema 2: la soluzione ottimale del problema di addestramento Pre-LN è illimitata in ampiezza.

Idea della Prova: attraverso l'analisi dell'equazione differenziale parziale Hamilton-Jacobi-Bellman (HJB), si prova che l'hamiltoniano corrispondente non esiste, causando la degenerazione del problema di addestramento.

Teorema 3: anche con decadimento dei pesi, gli stati nascosti del Transformer Pre-LN mostrano crescita esponenziale: MA(XD)(1+C(λ))DX0Fnd=O(eD)MA(X_D) \leq (1 + C(\lambda))^D \frac{\|X_0\|_F}{\sqrt{nd}} = O(e^D)

Crescita Controllata di Peri-LN

Teorema 4: gli stati nascosti del Transformer Peri-LN mostrano crescita lineare: MA(XD)X0Fnd+2D(γmax+βmax)=O(D)MA(X_D) \leq \frac{\|X_0\|_F}{\sqrt{nd}} + 2D(\gamma_{max} + \beta_{max}) = O(D)

La varianza mostra crescita quadratica: Var(XD)(X0F+2Dnd(γmax+βmax))2nd1=O(D2)\text{Var}(X_D) \leq \frac{(\|X_0\|_F + 2D\sqrt{nd}(\gamma_{max} + \beta_{max}))^2}{nd - 1} = O(D^2)

Analisi della Stabilità all'Indietro

Formula di calcolo del gradiente: θiG(XD)=θiXi+1Ji:DXDG(XD)\nabla_{\theta_i} G(X_D) = \nabla_{\theta_i} X_{i+1} \cdot J_{i:D} \cdot \nabla_{X_D} G(X_D)

dove la matrice jacobiana: Ji:D=j=i+1D(I+Xj1f(Xj1;θj1))J_{i:D} = \prod_{j=i+1}^D (I + \nabla_{X_{j-1}} f(X_{j-1}; \theta_{j-1}))

Proposizione 7: sotto Pre-LN, la sensibilità Xj1fPre\nabla_{X_{j-1}} f_{Pre} cresce proporzionalmente ai valori di attivazione.

Proposizione 8: sotto Peri-LN, la sensibilità Xj1fPeri\nabla_{X_{j-1}} f_{Peri} è invariante rispetto all'ampiezza dei valori di attivazione.

Configurazione Sperimentale

Dataset

  • Dataset OpenWebText: circa 9 miliardi di token di addestramento, 4 milioni di token di validazione
  • Preaddestramento utilizzando l'architettura della serie GPT-2

Configurazione del Modello

  • GPT-2 (124M parametri)
  • GPT-2 Large (774M parametri)
  • GPT-2 XL (1.5B parametri)

Metriche di Valutazione

  • Perplessità (Perplexity)
  • Punteggio ROUGE (Rouge1, Rouge2, RougeL)
  • Punteggio BERT (BertP, BertR, BertF1)
  • Stabilità dell'addestramento: conteggio delle esecuzioni divergenti

Dettagli di Implementazione

  • Utilizzo di iperparametri ottimizzati per Pre-LN, senza ottimizzazione separata per Peri-LN
  • Ridimensionamento del passo residuo: Δt{0.1,1}\Delta t \in \{0.1, 1\}
  • Hardware: GPU NVIDIA H200

Risultati Sperimentali

Confronto della Stabilità dell'Addestramento

Configurazione Layer NormDecadimento Pesi AttivoDecadimento Pesi Disattivo
Pre-LN1/5 diverge3/5 diverge
Peri-LN0/5 diverge0/5 diverge
Nessun LN5/5 diverge

Risultati del Confronto delle Prestazioni

Risultati del Modello GPT-2 (124M):

  • Pre-LN (Δt=1\Delta t=1): perdita di validazione 5.43, perplessità 247.52
  • Pre-LN (Δt=0.1\Delta t=0.1): perdita di validazione 3.13, perplessità 24.43
  • Peri-LN (Δt=1\Delta t=1): perdita di validazione 3.12, perplessità 24.17
  • Peri-LN (Δt=0.1\Delta t=0.1): perdita di validazione 3.10, perplessità 23.63

Analisi della Crescita degli Stati Nascosti

La sperimentazione valida le previsioni teoriche:

  • Pre-LN mostra rapida crescita con Δt\Delta t più grande
  • Peri-LN mantiene una crescita lineare più regolare
  • Il ridimensionamento del passo residuo controlla efficacemente il tasso di crescita

Effetto del Ridimensionamento del Passo Residuo

  1. Miglioramento delle Prestazioni: Peri-LN + Δt=0.1\Delta t=0.1 mostra le migliori prestazioni su tutti gli indicatori
  2. Miglioramento della Stabilità: Pre-LN con Δt=0.1\Delta t=0.1 passa da instabile a stabile
  3. Controllo della Crescita: riduce efficacemente il tasso di crescita della media e della varianza degli stati nascosti

Lavori Correlati

Ricerca sulla Layer Normalization

  • Post-LN: progettazione Transformer più antica, richiede pianificazione fine
  • Pre-LN: migliora la stabilità dell'addestramento ma produce valori di attivazione grandi
  • Peri-LN: recentemente adottato in modelli su larga scala, come Gemma2, OLMo2

Metodi di Analisi Teorica

  • I lavori esistenti si concentrano principalmente sul comportamento all'inizializzazione o si basano su osservazioni empiriche
  • Questo articolo analizza innovativamente le proprietà del modello dopo la convergenza dell'addestramento
  • La prospettiva in tempo continuo fornisce nuovi strumenti per l'analisi dell'architettura

Conclusioni e Discussione

Conclusioni Principali

  1. Difetto Teorico di Pre-LN: il problema di addestramento è intrinsecamente mal posto, portando a soluzioni illimitate
  2. Vantaggi di Peri-LN: fornisce un problema di ottimizzazione ben definito e crescita controllata degli stati nascosti
  3. Valore del Ridimensionamento Residuo: metodo semplice ed efficace per il miglioramento della stabilità

Limitazioni

  1. Ipotesi Semplificate: l'analisi teorica si basa su approssimazione in tempo continuo
  2. Dipendenza da Iperparametri: gli esperimenti utilizzano iperparametri ottimizzati per Pre-LN
  3. Limitazione di Scala: gli esperimenti si concentrano principalmente su modelli di scala media

Direzioni Future

  1. Framework di Selezione dell'Architettura: fornire criteri di screening teorici per nuove modifiche architettoniche
  2. Validazione su Scala Maggiore: verificare i risultati teorici su modelli più grandi
  3. Altri Metodi di Normalizzazione: estendere l'analisi a varianti come RMSNorm

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione Teorica: primo utilizzo della teoria del controllo ottimale per analizzare il problema della posizione della layer normalization
  2. Rigore Matematico: fornisce derivazioni teoriche complete e prove
  3. Alto Valore Pratico: il metodo di ridimensionamento del passo residuo è semplice ed efficace
  4. Progettazione Sperimentale Ragionevole: validazione teorica su più scale di modello

Insufficienze

  1. Divario tra Teoria e Pratica: l'ipotesi di tempo continuo differisce dall'implementazione discreta effettiva
  2. Ambito Sperimentale Limitato: validazione principalmente sulla serie GPT-2, mancanza di validazione su più architetture
  3. Equità degli Iperparametri: mancanza di ottimizzazione iperparametrica dedicata per Peri-LN

Valutazione dell'Impatto

  1. Contributo Accademico: fornisce un nuovo framework teorico per l'analisi della stabilità dei Transformer
  2. Valore Pratico: guida la progettazione effettiva del modello e le strategie di addestramento
  3. Riproducibilità: impegno a rendere pubblici il codice e i modelli

Scenari Applicabili

  1. Addestramento di Transformer Profondi: particolarmente adatto per modelli profondi su larga scala
  2. Guida alla Progettazione dell'Architettura: fornisce fondamenti teorici per nuove modifiche architettoniche
  3. Miglioramento della Stabilità dell'Addestramento: migliora la stabilità dell'addestramento attraverso il ridimensionamento residuo

Bibliografia

L'articolo cita numerosi lavori importanti, includendo:

  • Ba et al. (2016): articolo originale sulla Layer Normalization
  • Xiong et al. (2020): studio comparativo Pre-LN vs Post-LN
  • Kim et al. (2025): ricerca empirica su Peri-LN
  • He et al. (2016): lavoro pioneristico sulle connessioni residue

Valutazione Complessiva: questo è un articolo di alta qualità che combina bene teoria e pratica, fornendo un nuovo framework matematico per l'analisi della stabilità dei Transformer, con importante valore accademico e pratico. L'analisi teorica è rigorosa e approfondita, la verifica sperimentale è sufficiente, e fornisce indicazioni preziose per la progettazione dell'architettura dell'apprendimento profondo.