2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

Initialisation des Poids et Dynamiques de Variance dans les Réseaux de Neurones Profonds et les Grands Modèles de Langage

Informations Fondamentales

  • ID de l'article: 2510.09423
  • Titre: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • Auteur: Yankun Han (University of Florida)
  • Classification: cs.LG (Apprentissage Automatique)
  • Date de publication: 10 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.09423

Résumé

L'initialisation des poids contrôle la propagation du signal et le flux de gradient au début de l'entraînement. Cet article fournit une étude théoriquement fondée et validée empiriquement, couvrant deux domaines : les perceptrons multicouches compacts avec ReLU et les Transformers de style GPT-2. Premièrement, par un balayage logarithmique de l'écart-type initial, nous cartographions les régions de disparition et d'explosion des gradients, identifiant une large bande de stabilité avec un écart-type entre 1e-2 et 1e-1. Deuxièmement, les comparaisons contrôlées montrent que sous l'activation ReLU, l'initialisation Kaiming (fan-in) converge plus rapidement et de manière plus stable que l'initialisation Xavier, ce qui est cohérent avec la théorie de préservation de la variance. Troisièmement, dans un modèle GPT-2 de style 12 couches construit à partir de zéro, nous traçons les variations de variance des poids Q/K/V à travers les couches pendant la préentraînement, observant un phénomène d'équilibre dépendant de la profondeur : les couches peu profondes se développent rapidement, tandis que les couches profondes changent de manière plus progressive.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche vise à résoudre est l'impact de l'initialisation des poids sur la stabilité et la convergence de l'entraînement dans les réseaux de neurones profonds et les grands modèles de langage. Cela comprend spécifiquement :

  1. Sensibilité à l'échelle d'initialisation : Comment différents écarts-types d'initialisation affectent la stabilité de l'entraînement
  2. Spécificité de la fonction d'activation : Les fonctions d'activation telles que ReLU et GELU nécessitent-elles des stratégies d'initialisation spécifiques
  3. Dynamiques de variance des Transformers modernes : La stabilisation de la variance persiste-t-elle dans les grands modèles Transformer

Importance

L'initialisation des poids est un facteur clé du succès de l'entraînement en apprentissage profond. Une initialisation inadéquate peut entraîner :

  • Disparition des gradients : L'atténuation du signal à travers les couches profondes du réseau
  • Explosion des gradients : La croissance exponentielle du signal lors de la propagation
  • Instabilité de l'entraînement : Les oscillations et divergences dans le processus d'optimisation

Limitations des Méthodes Existantes

Bien que les méthodes d'initialisation classiques (LeCun, Xavier/Glorot, He/Kaiming) possèdent une intuition théorique de préservation de la variance, elles présentent toujours les problèmes suivants en application pratique :

  1. La sensibilité aux écarts d'échelle idéale n'a pas été suffisamment quantifiée
  2. Les mécanismes d'impact des fonctions d'activation spécifiques (telles que ReLU, GELU) ne sont pas clairs
  3. Les performances dans les grands Transformers manquent d'études systématiques

Contributions Principales

  1. Cadre d'analyse de variance unifié : Dérivation des conditions de propagation de variance avant et arrière pour les fonctions d'activation courantes (ReLU, GELU), expliquant comment la mise à l'échelle fan-in préserve l'amplitude du signal et l'origine du facteur 2 dans ReLU
  2. Quantification de la sensibilité à l'échelle : Par balayage logarithmique de 25 valeurs d'écart-type, cartographie des régions de disparition/explosion des gradients, identification de la bande de stabilité pour l'entraînement σ ∈ 10⁻², 10⁻¹
  3. Vérification de l'initialisation sensible à la fonction d'activation : Dans l'entraînement contrôlé du MLP ReLU, confirmation que Kaiming normal (fan-in) converge plus rapidement et avec une variance de perte plus faible que Xavier normal
  4. Analyse de la dynamique de variance du Transformer : Dans un modèle GPT-2 de style 12 couches construit à partir de zéro, découverte de motifs clairement dépendants de la profondeur : l'écart-type des poids des couches peu profondes se développe rapidement, celui des couches profondes plus progressivement, se stabilisant finalement dans une bande de variance étroite

Détails de la Méthodologie

Cadre Théorique

Analyse de Variance de la Propagation Avant

Pour une application linéaire :

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Après passage par l'activation non-linéaire :

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

c_φ = E[φ(z)²]/Var[z] est une constante liée à la fonction d'activation.

Pour éviter la disparition ou l'explosion des valeurs d'activation, on choisit σ²_W ≈ 1/(c_φ n_in) :

  • ReLU : c_φ ≈ 1/2, donc σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU : c_φ ≈ 0.45-0.5, légèrement inférieur à ReLU

Analyse de Variance de la Rétropropagation

La rétropropagation donne :

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

d_φ = E[φ'(z)²]. Pour ReLU, d_φ = 1/2, l'équilibre de la variance du gradient nécessite σ²_W ≈ 2/n_out.

Compromis et Choix Pratiques

Les conditions de préservation avant et arrière ne peuvent généralement pas être satisfaites simultanément, sauf si n_in ≈ n_out et c_φ ≈ d_φ. En pratique, maintenir la stabilité du signal avant est généralement plus important, ce qui explique pourquoi He/Kaiming fan-in converge plus rapidement que Xavier.

Conception Expérimentale

Expérience E1 : Balayage d'Écart-Type

  • Architecture du réseau : MLP ReLU 784→64→32→32→10
  • Ensemble de données : MNIST
  • Plage de balayage : 25 valeurs d'écart-type, de 10⁻⁴ à 10, espacées logarithmiquement
  • Métriques d'évaluation : Trajectoires de perte, précision de classification

Expérience E2 : Comparaison Xavier vs Kaiming

  • Architecture du réseau : Réseau ReLU 11→16→32→32→1
  • Ensemble de données : Tâche de classification binaire Wine UCI
  • Schémas de comparaison : Xavier normal vs Kaiming uniform
  • Validation statistique : 10 exécutions aléatoires, test t apparié

Expérience E3 : Dynamique de Variance GPT-2

  • Échelle du modèle : Transformer de style GPT-2 à 12 couches
  • Initialisation : Configuration standard (std=0.02 pour la plupart des modules, couche d'intégration xavier normal)
  • Optimiseur : AdamW, taux d'apprentissage 1×10⁻⁴, taille de lot 16
  • Cibles de suivi : Écart-type des poids de projection Q/K/V pour toutes les couches

Résultats Expérimentaux

Résultats du Balayage d'Écart-Type E1

  • Intervalle de stabilité : L'entraînement est lisse dans σ ∈ 10⁻², 10⁻¹, les gradients se comportent bien, la précision atteint son pic dans cet intervalle
  • Disparition des gradients : Les très petites échelles (σ ≲ 10⁻³) entraînent la disparition des mises à jour et une baisse de précision
  • Explosion des gradients : Les très grandes échelles (σ ≳ 1) produisent une perte instable et des divergences occasionnelles

Comparaison des Méthodes d'Initialisation E2

L'initialisation Kaiming surpasse continuellement Xavier sur plusieurs dimensions :

  • Vitesse de convergence : Nombre médian d'itérations pour atteindre l'objectif plus faible, baisse de perte plus raide en début d'entraînement
  • Précision : La précision de validation finale correspond ou dépasse légèrement Xavier
  • Signification statistique : Le test t apparié montre des différences significatives dans la perte et la précision d'entraînement (p < 0.05)

Découvertes de la Dynamique de Variance du Transformer E3

  • Motif dépendant de la profondeur : Les couches peu profondes montrent une expansion rapide et significative de l'écart-type des poids en début d'entraînement, l'expansion des couches profondes étant plus lente et lisse
  • Équilibre de variance : Toutes les couches se stabilisent finalement dans une bande de variance étroite
  • Parcimonie de distribution : Après l'entraînement, la distribution des poids devient plus parcimonieuse, de nombreuses entrées proches de zéro restant inchangées, quelques poids importants dominant

Perspectives Théoriques et Implications Pratiques

Mécanisme d'Équilibre de Variance Dépendant de la Profondeur

L'article révèle un motif d'équilibre progressif dans les Transformers :

  1. Adaptation rapide des couches peu profondes : Les couches proches de l'entrée possèdent des gradients à rapport signal-bruit élevé, encourageant une mise à l'échelle précoce agressive
  2. Ajustement progressif des couches profondes : La longueur du chemin résiduel et la normalisation pré-couche limitent la taille de pas effective des couches profondes
  3. Contraintes implicites : La saturation du softmax d'attention et la décroissance des poids dans AdamW empêchent les grandes échelles de paramètres

Principes Directeurs Pratiques

  1. MLP ReLU/GELU : Commencer par He/Kaiming fan-in ; si des couches très déséquilibrées causent une dérive de gradient, se déplacer légèrement vers le choix fan-average
  2. Piles résiduelles profondes : La mise à l'échelle résiduelle (par exemple 1/√L) ou la normalisation aide à prévenir la dérive de variance en profondeur
  3. Projections Transformer : Utiliser une initialisation à petit écart-type (par exemple 0.02), surveiller l'écart-type par couche et les normes de gradient

Comparaison avec les Travaux Connexes

Stratégies d'Initialisation Fondamentales

  • Méthode LeCun : Règles de préservation de variance pour les activations linéaires
  • Glorot/Xavier : Mise à l'échelle basée sur fan pour tanh/sigmoid
  • He/Kaiming : Mise à l'échelle sensible à l'activation compensant le second moment réduit de moitié sous ReLU

Développements Modernes

  • Initialisation Fixup : Suppression du besoin de normalisation dans les réseaux extrêmement profonds par initialisation soigneusement choisie et mise à l'échelle résiduelle
  • DeepNet : Proposition de règles de mise à l'échelle en profondeur principielles permettant l'entraînement de réseaux à l'échelle des milliers de couches
  • Avantages de la normalisation pré-couche : Amélioration de la stabilité d'optimisation par rapport à la normalisation post-couche en lissant le flux de gradient

Conclusions et Discussion

Conclusions Principales

  1. Existence d'une bande de stabilité : Une bande de stabilité large mais sensible existe dans la plage σ ∈ 10⁻², 10⁻¹
  2. Importance de la spécificité de la fonction d'activation : L'initialisation Kaiming surpasse réellement Xavier dans les réseaux ReLU
  3. Dynamiques dépendantes de la profondeur : Les Transformers présentent un équilibre de variance dépendant de la profondeur, avec adaptation rapide des couches peu profondes et ajustement progressif des couches profondes

Limitations

  1. Échelle expérimentale : L'expérience GPT-2 est relativement petite (12 couches), le comportement des modèles à grande échelle peut différer
  2. Couverture des fonctions d'activation : Analyse principalement centrée sur ReLU et GELU, analyse limitée des autres fonctions d'activation
  3. Dépendance à l'optimiseur : Les résultats peuvent être sensibles à l'optimiseur spécifique (AdamW) et aux paramètres de configuration

Directions Futures

  1. Initialisation adaptative sensible à la profondeur : Apprentissage de l'échelle par couche ou par tête, rapprochant les couches peu profondes du niveau de variance final
  2. Couplage optimiseur et calendrier : Optimisation conjointe de la longueur de préchauffage, de la décroissance des poids et de l'écrêtage des gradients
  3. Mise à l'échelle en profondeur et largeur : Évaluation de la persistance de l'équilibre dépendant de la profondeur dans les modèles plus grands

Évaluation Approfondie

Points Forts

  1. Intégration théorie et pratique : Combinaison organique de la théorie classique de propagation de variance avec le comportement des Transformers modernes
  2. Conception expérimentale systématique : Vérification progressive du MLP simple au Transformer complexe
  3. Valeur pratique élevée : Fourniture de recommandations d'initialisation concrètes et de méthodes de diagnostic
  4. Rigueur statistique : Utilisation de méthodes statistiques telles que le test t apparié pour vérifier la signification des résultats

Insuffisances

  1. Profondeur limitée de l'analyse théorique : Manque d'explication théorique plus profonde des phénomènes dépendants de la profondeur
  2. Contraintes d'échelle expérimentale : Limitations de ressources informatiques, incapacité à valider sur des modèles véritablement à grande échelle
  3. Problèmes de généralisation : Les résultats sont principalement basés sur des architectures et tâches spécifiques, la capacité de généralisation nécessite une vérification supplémentaire

Évaluation de l'Impact

  1. Contribution académique : Fourniture d'une perspective moderne à la théorie d'initialisation, connexion entre théorie classique et pratique actuelle
  2. Valeur pratique : Fourniture aux praticiens de stratégies d'initialisation claires et d'outils de diagnostic
  3. Reproductibilité : Conception expérimentale claire, paramètres et configuration du code détaillés, facilitant la reproduction

Scénarios Applicables

  1. Entraînement de réseaux profonds : Particulièrement applicable aux réseaux profonds avec activations ReLU/GELU
  2. Optimisation Transformer : Fourniture de conseils d'initialisation pour l'entraînement de grands modèles de langage
  3. Outil de recherche : Fourniture aux chercheurs d'un cadre méthodologique pour analyser la dynamique des poids

Références

L'article cite les travaux clés dans le domaine de l'initialisation, incluant les recherches fondatrices de LeCun, Glorot, He et autres, ainsi que les progrès récents en optimisation des Transformers, fournissant une base théorique solide pour cette recherche.