2025-11-12T01:28:29.133817

Stability of Transformers under Layer Normalization

Kan, Li, Zhang et al.
Despite their widespread use, training deep Transformers can be unstable. Layer normalization, a standard component, improves training stability, but its placement has often been ad-hoc. In this paper, we conduct a principled study on the forward (hidden states) and backward (gradient) stability of Transformers under different layer normalization placements. Our theory provides key insights into the training dynamics: whether training drives Transformers toward regular solutions or pathological behaviors. For forward stability, we derive explicit bounds on the growth of hidden states in trained Transformers. For backward stability, we analyze how layer normalization affects the backpropagation of gradients, thereby explaining the training dynamics of each layer normalization placement. Our analysis also guides the scaling of residual steps in Transformer blocks, where appropriate choices can further improve stability and performance. Our numerical results corroborate our theoretical findings. Beyond these results, our framework provides a principled way to sanity-check the stability of Transformers under new architectural modifications, offering guidance for future designs.
academic

Stabilité des Transformers sous Normalisation de Couche

Informations Fondamentales

  • ID de l'article: 2510.09904
  • Titre: Stability of Transformers under Layer Normalization
  • Auteurs: Kelvin Kan (UCLA), Xingjian Li (UT Austin), Benjamin J. Zhang (UNC Chapel Hill), Tuhin Sahai (SRI International), Stanley Osher (UCLA), Krishna Kumar (UT Austin), Markos A. Katsoulakis (UMass Amherst)
  • Classification: cs.LG, cs.AI, math.OC
  • Date de publication: 10 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.09904

Résumé

Bien que les Transformers soient largement utilisés, l'entraînement de Transformers profonds peut s'avérer instable. La normalisation de couche (Layer Normalization) en tant que composant standard améliore la stabilité de l'entraînement, mais le positionnement de ses emplacements est souvent ad hoc. Cet article entreprend une étude systématique de la stabilité avant (états cachés) et arrière (gradients) des Transformers sous différents positionnements de normalisation de couche. L'analyse théorique révèle des intuitions clés sur la dynamique d'entraînement : si l'entraînement dirige le Transformer vers des solutions régulières ou des comportements pathologiques. Concernant la stabilité avant, nous dérivons des bornes explicites sur la croissance des états cachés dans les Transformers entraînés. Concernant la stabilité arrière, nous analysons comment la normalisation de couche affecte la rétropropagation des gradients, expliquant ainsi la dynamique d'entraînement pour chaque positionnement de normalisation de couche. L'analyse guide également l'ajustement de la taille du pas résiduel dans les blocs Transformer, dont le choix approprié améliore davantage la stabilité et les performances.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : le mécanisme d'influence des différents positionnements de normalisation de couche sur la stabilité de l'entraînement des Transformers. Cela comprend spécifiquement :

  1. Problème de stabilité avant: Contrôle de la croissance des états cachés dans les réseaux profonds
  2. Problème de stabilité arrière: Stabilité des gradients lors de la rétropropagation
  3. Orientation de la conception architecturale: Comment fournir des orientations théoriques pour les nouvelles variantes de Transformers

Analyse de l'Importance

  1. Valeur pratique: Les Transformers constituent la base de l'apprentissage profond moderne, et leur stabilité d'entraînement affecte directement les performances du modèle et l'efficacité de l'entraînement
  2. Lacune théorique: Le choix du positionnement de la normalisation de couche existant repose principalement sur l'expérience, manquant de fondement théorique
  3. Demande industrielle: Avec l'augmentation continue de la taille des modèles, les problèmes de stabilité d'entraînement deviennent de plus en plus aigus

Limitations des Méthodes Existantes

  1. Post-LN: Nécessite un calendrier d'optimisation fin, les performances sont souvent sous-optimales
  2. Pre-LN: Bien qu'améliorant la stabilité d'entraînement précoce, produit des états cachés excessivement grands, entraînant une instabilité numérique
  3. Peri-LN: Bien que performant en pratique, ses propriétés théoriques sont insuffisamment comprises

Motivation de la Recherche

Les auteurs adoptent une nouvelle perspective utilisant la dynamique en temps continu et la théorie du contrôle optimal, modélisant le problème d'entraînement des Transformers comme un problème de contrôle de champ moyen, permettant ainsi d'analyser les propriétés du modèle après convergence d'entraînement, plutôt que de se concentrer uniquement sur le comportement à l'initialisation.

Contributions Fondamentales

  1. Innovation du cadre théorique: Propose un nouveau cadre basé sur la théorie du contrôle optimal, analysant systématiquement la stabilité des Transformers sous différents positionnements de normalisation de couche
  2. Analyse de la stabilité avant: Dérive des bornes explicites sur la croissance des états cachés, prouvant que Pre-LN entraîne une croissance non bornée tandis que Peri-LN maintient une croissance contrôlée
  3. Analyse de la stabilité arrière: Révèle le mécanisme d'influence de la normalisation de couche sur la rétropropagation des gradients
  4. Ajustement de la taille du pas résiduel: Propose une méthode d'ajustement de la taille du pas résiduel pour améliorer la stabilité et les performances
  5. Validation expérimentale: Valide les découvertes théoriques sur les modèles de la série GPT-2

Explication Détaillée de la Méthode

Définition de la Tâche

Étudier la stabilité des Transformers sous différents positionnements de normalisation de couche, incluant :

  • Entrée: Séquence après plongement et codage positionnel X0Rd×nX_0 \in \mathbb{R}^{d \times n}
  • Sortie: États cachés après D blocs Transformer XDX_D
  • Objectif: Analyser la stabilité de la propagation avant et arrière

Modélisation en Temps Continu

Représentation en Temps Continu du Transformer

Interpréter la structure de connexion par saut du bloc Transformer standard comme une discrétisation d'Euler de la dynamique en temps continu :

undefined