Stability of Transformers under Layer Normalization
Kan, Li, Zhang et al.
Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.
academic
Stabilità dei Transformer sotto Layer Normalization
Titolo: Stability of Transformers under Layer Normalization
Autori: Kelvin Kan (UCLA), Xingjian Li (UT Austin), Benjamin J. Zhang (UNC Chapel Hill), Tuhin Sahai (SRI International), Stanley Osher (UCLA), Krishna Kumar (UT Austin), Markos A. Katsoulakis (UMass Amherst)
Sebbene i Transformer siano ampiamente utilizzati, l'addestramento di Transformer profondi può risultare instabile. La Layer Normalization (normalizzazione per strato) come componente standard migliora la stabilità dell'addestramento, ma la scelta della sua posizione è spesso empirica. Questo articolo conduce uno studio sistematico sulla stabilità in avanti (stati nascosti) e sulla stabilità all'indietro (gradienti) dei Transformer con diverse posizioni di layer normalization. L'analisi teorica rivela intuizioni critiche sulla dinamica dell'addestramento: se l'addestramento guida il Transformer verso soluzioni regolari o comportamenti patologici. Per la stabilità in avanti, vengono derivati limiti espliciti sulla crescita degli stati nascosti nei Transformer addestrati. Per la stabilità all'indietro, viene analizzato come la layer normalization influenzi la retropropagazione dei gradienti, spiegando così la dinamica dell'addestramento per ogni posizione di layer normalization. L'analisi fornisce inoltre indicazioni sul ridimensionamento del passo residuo nei blocchi Transformer, la cui scelta appropriata può migliorare ulteriormente la stabilità e le prestazioni.
Il problema centrale affrontato da questa ricerca è: il meccanismo di influenza di diverse posizioni di layer normalization sulla stabilità dell'addestramento dei Transformer. Nello specifico include:
Problema di stabilità in avanti: controllo della crescita degli stati nascosti nelle reti profonde
Problema di stabilità all'indietro: stabilità dei gradienti durante la retropropagazione
Guida alla progettazione dell'architettura: come fornire indicazioni teoriche per nuove varianti di Transformer
Valore pratico: i Transformer sono fondamentali nell'apprendimento profondo moderno, e la loro stabilità di addestramento influisce direttamente sulle prestazioni del modello e sull'efficienza dell'addestramento
Lacuna teorica: la scelta della posizione della layer normalization si basa principalmente su considerazioni empiriche, mancando di fondamenti teorici
Esigenza industriale: con l'aumento continuo della dimensione dei modelli, i problemi di stabilità dell'addestramento diventano sempre più critici
Gli autori adottano una nuova prospettiva basata su dinamiche in tempo continuo e teoria del controllo ottimale, modellando il problema dell'addestramento dei Transformer come un problema di controllo di campo medio, consentendo così di analizzare le proprietà del modello dopo la convergenza dell'addestramento, piuttosto che concentrarsi solo sul comportamento all'inizializzazione.
Innovazione del Framework Teorico: propone un nuovo framework basato sulla teoria del controllo ottimale per analizzare sistematicamente la stabilità dei Transformer con diverse posizioni di layer normalization
Analisi della Stabilità in Avanti: derivazione di limiti espliciti sulla crescita degli stati nascosti, provando che Pre-LN causa crescita illimitata mentre Peri-LN mantiene una crescita controllata
Analisi della Stabilità all'Indietro: rivelazione del meccanismo di influenza della layer normalization sulla retropropagazione dei gradienti
Ridimensionamento del Passo Residuo: proposta di un metodo di ridimensionamento del passo residuo per migliorare la stabilità e le prestazioni
Verifica Sperimentale: validazione dei risultati teorici su modelli della serie GPT-2
Interpretazione della struttura di connessione con salti del blocco Transformer standard come discretizzazione di Eulero della dinamica in tempo continuo:
Teorema 2: la soluzione ottimale del problema di addestramento Pre-LN è illimitata in ampiezza.
Idea della Prova: attraverso l'analisi dell'equazione differenziale parziale Hamilton-Jacobi-Bellman (HJB), si prova che l'hamiltoniano corrispondente non esiste, causando la degenerazione del problema di addestramento.
Teorema 3: anche con decadimento dei pesi, gli stati nascosti del Transformer Pre-LN mostrano crescita esponenziale:
MA(XD)≤(1+C(λ))Dnd∥X0∥F=O(eD)
L'articolo cita numerosi lavori importanti, includendo:
Ba et al. (2016): articolo originale sulla Layer Normalization
Xiong et al. (2020): studio comparativo Pre-LN vs Post-LN
Kim et al. (2025): ricerca empirica su Peri-LN
He et al. (2016): lavoro pioneristico sulle connessioni residue
Valutazione Complessiva: questo è un articolo di alta qualità che combina bene teoria e pratica, fornendo un nuovo framework matematico per l'analisi della stabilità dei Transformer, con importante valore accademico e pratico. L'analisi teorica è rigorosa e approfondita, la verifica sperimentale è sufficiente, e fornisce indicazioni preziose per la progettazione dell'architettura dell'apprendimento profondo.