Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
Initialisation des Poids et Dynamiques de Variance dans les Réseaux de Neurones Profonds et les Grands Modèles de Langage
L'initialisation des poids contrôle la propagation du signal et le flux de gradient au début de l'entraînement. Cet article fournit une étude théoriquement fondée et validée empiriquement, couvrant deux domaines : les perceptrons multicouches compacts avec ReLU et les Transformers de style GPT-2. Premièrement, par un balayage logarithmique de l'écart-type initial, nous cartographions les régions de disparition et d'explosion des gradients, identifiant une large bande de stabilité avec un écart-type entre 1e-2 et 1e-1. Deuxièmement, les comparaisons contrôlées montrent que sous l'activation ReLU, l'initialisation Kaiming (fan-in) converge plus rapidement et de manière plus stable que l'initialisation Xavier, ce qui est cohérent avec la théorie de préservation de la variance. Troisièmement, dans un modèle GPT-2 de style 12 couches construit à partir de zéro, nous traçons les variations de variance des poids Q/K/V à travers les couches pendant la préentraînement, observant un phénomène d'équilibre dépendant de la profondeur : les couches peu profondes se développent rapidement, tandis que les couches profondes changent de manière plus progressive.
La question centrale que cette recherche vise à résoudre est l'impact de l'initialisation des poids sur la stabilité et la convergence de l'entraînement dans les réseaux de neurones profonds et les grands modèles de langage. Cela comprend spécifiquement :
Sensibilité à l'échelle d'initialisation : Comment différents écarts-types d'initialisation affectent la stabilité de l'entraînement
Spécificité de la fonction d'activation : Les fonctions d'activation telles que ReLU et GELU nécessitent-elles des stratégies d'initialisation spécifiques
Dynamiques de variance des Transformers modernes : La stabilisation de la variance persiste-t-elle dans les grands modèles Transformer
Bien que les méthodes d'initialisation classiques (LeCun, Xavier/Glorot, He/Kaiming) possèdent une intuition théorique de préservation de la variance, elles présentent toujours les problèmes suivants en application pratique :
La sensibilité aux écarts d'échelle idéale n'a pas été suffisamment quantifiée
Les mécanismes d'impact des fonctions d'activation spécifiques (telles que ReLU, GELU) ne sont pas clairs
Les performances dans les grands Transformers manquent d'études systématiques
Cadre d'analyse de variance unifié : Dérivation des conditions de propagation de variance avant et arrière pour les fonctions d'activation courantes (ReLU, GELU), expliquant comment la mise à l'échelle fan-in préserve l'amplitude du signal et l'origine du facteur 2 dans ReLU
Quantification de la sensibilité à l'échelle : Par balayage logarithmique de 25 valeurs d'écart-type, cartographie des régions de disparition/explosion des gradients, identification de la bande de stabilité pour l'entraînement σ ∈ 10⁻², 10⁻¹
Vérification de l'initialisation sensible à la fonction d'activation : Dans l'entraînement contrôlé du MLP ReLU, confirmation que Kaiming normal (fan-in) converge plus rapidement et avec une variance de perte plus faible que Xavier normal
Analyse de la dynamique de variance du Transformer : Dans un modèle GPT-2 de style 12 couches construit à partir de zéro, découverte de motifs clairement dépendants de la profondeur : l'écart-type des poids des couches peu profondes se développe rapidement, celui des couches profondes plus progressivement, se stabilisant finalement dans une bande de variance étroite
Les conditions de préservation avant et arrière ne peuvent généralement pas être satisfaites simultanément, sauf si n_in ≈ n_out et c_φ ≈ d_φ. En pratique, maintenir la stabilité du signal avant est généralement plus important, ce qui explique pourquoi He/Kaiming fan-in converge plus rapidement que Xavier.
Intervalle de stabilité : L'entraînement est lisse dans σ ∈ 10⁻², 10⁻¹, les gradients se comportent bien, la précision atteint son pic dans cet intervalle
Disparition des gradients : Les très petites échelles (σ ≲ 10⁻³) entraînent la disparition des mises à jour et une baisse de précision
Explosion des gradients : Les très grandes échelles (σ ≳ 1) produisent une perte instable et des divergences occasionnelles
Motif dépendant de la profondeur : Les couches peu profondes montrent une expansion rapide et significative de l'écart-type des poids en début d'entraînement, l'expansion des couches profondes étant plus lente et lisse
Équilibre de variance : Toutes les couches se stabilisent finalement dans une bande de variance étroite
Parcimonie de distribution : Après l'entraînement, la distribution des poids devient plus parcimonieuse, de nombreuses entrées proches de zéro restant inchangées, quelques poids importants dominant
L'article révèle un motif d'équilibre progressif dans les Transformers :
Adaptation rapide des couches peu profondes : Les couches proches de l'entrée possèdent des gradients à rapport signal-bruit élevé, encourageant une mise à l'échelle précoce agressive
Ajustement progressif des couches profondes : La longueur du chemin résiduel et la normalisation pré-couche limitent la taille de pas effective des couches profondes
Contraintes implicites : La saturation du softmax d'attention et la décroissance des poids dans AdamW empêchent les grandes échelles de paramètres
MLP ReLU/GELU : Commencer par He/Kaiming fan-in ; si des couches très déséquilibrées causent une dérive de gradient, se déplacer légèrement vers le choix fan-average
Piles résiduelles profondes : La mise à l'échelle résiduelle (par exemple 1/√L) ou la normalisation aide à prévenir la dérive de variance en profondeur
Projections Transformer : Utiliser une initialisation à petit écart-type (par exemple 0.02), surveiller l'écart-type par couche et les normes de gradient
Initialisation Fixup : Suppression du besoin de normalisation dans les réseaux extrêmement profonds par initialisation soigneusement choisie et mise à l'échelle résiduelle
DeepNet : Proposition de règles de mise à l'échelle en profondeur principielles permettant l'entraînement de réseaux à l'échelle des milliers de couches
Avantages de la normalisation pré-couche : Amélioration de la stabilité d'optimisation par rapport à la normalisation post-couche en lissant le flux de gradient
Existence d'une bande de stabilité : Une bande de stabilité large mais sensible existe dans la plage σ ∈ 10⁻², 10⁻¹
Importance de la spécificité de la fonction d'activation : L'initialisation Kaiming surpasse réellement Xavier dans les réseaux ReLU
Dynamiques dépendantes de la profondeur : Les Transformers présentent un équilibre de variance dépendant de la profondeur, avec adaptation rapide des couches peu profondes et ajustement progressif des couches profondes
Initialisation adaptative sensible à la profondeur : Apprentissage de l'échelle par couche ou par tête, rapprochant les couches peu profondes du niveau de variance final
Couplage optimiseur et calendrier : Optimisation conjointe de la longueur de préchauffage, de la décroissance des poids et de l'écrêtage des gradients
Mise à l'échelle en profondeur et largeur : Évaluation de la persistance de l'équilibre dépendant de la profondeur dans les modèles plus grands
Intégration théorie et pratique : Combinaison organique de la théorie classique de propagation de variance avec le comportement des Transformers modernes
Conception expérimentale systématique : Vérification progressive du MLP simple au Transformer complexe
Valeur pratique élevée : Fourniture de recommandations d'initialisation concrètes et de méthodes de diagnostic
Rigueur statistique : Utilisation de méthodes statistiques telles que le test t apparié pour vérifier la signification des résultats
Profondeur limitée de l'analyse théorique : Manque d'explication théorique plus profonde des phénomènes dépendants de la profondeur
Contraintes d'échelle expérimentale : Limitations de ressources informatiques, incapacité à valider sur des modèles véritablement à grande échelle
Problèmes de généralisation : Les résultats sont principalement basés sur des architectures et tâches spécifiques, la capacité de généralisation nécessite une vérification supplémentaire
L'article cite les travaux clés dans le domaine de l'initialisation, incluant les recherches fondatrices de LeCun, Glorot, He et autres, ainsi que les progrès récents en optimisation des Transformers, fournissant une base théorique solide pour cette recherche.