2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han

Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.

academic

Initialisation des Poids et Dynamiques de Variance dans les Réseaux de Neurones Profonds et les Grands Modèles de Langage

Informations Fondamentales

ID de l'article: 2510.09423
Titre: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Auteur: Yankun Han (University of Florida)
Classification: cs.LG (Apprentissage Automatique)
Date de publication: 10 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09423

Résumé

L'initialisation des poids contrôle la propagation du signal et le flux de gradient au début de l'entraînement. Cet article fournit une étude théoriquement fondée et validée empiriquement, couvrant deux domaines : les perceptrons multicouches compacts avec ReLU et les Transformers de style GPT-2. Premièrement, par un balayage logarithmique de l'écart-type initial, nous cartographions les régions de disparition et d'explosion des gradients, identifiant une large bande de stabilité avec un écart-type entre 1e-2 et 1e-1. Deuxièmement, les comparaisons contrôlées montrent que sous l'activation ReLU, l'initialisation Kaiming (fan-in) converge plus rapidement et de manière plus stable que l'initialisation Xavier, ce qui est cohérent avec la théorie de préservation de la variance. Troisièmement, dans un modèle GPT-2 de style 12 couches construit à partir de zéro, nous traçons les variations de variance des poids Q/K/V à travers les couches pendant la préentraînement, observant un phénomène d'équilibre dépendant de la profondeur : les couches peu profondes se développent rapidement, tandis que les couches profondes changent de manière plus progressive.

Contexte et Motivation de la Recherche

Définition du Problème

La question centrale que cette recherche vise à résoudre est l'impact de l'initialisation des poids sur la stabilité et la convergence de l'entraînement dans les réseaux de neurones profonds et les grands modèles de langage. Cela comprend spécifiquement :

Sensibilité à l'échelle d'initialisation : Comment différents écarts-types d'initialisation affectent la stabilité de l'entraînement
Spécificité de la fonction d'activation : Les fonctions d'activation telles que ReLU et GELU nécessitent-elles des stratégies d'initialisation spécifiques
Dynamiques de variance des Transformers modernes : La stabilisation de la variance persiste-t-elle dans les grands modèles Transformer

Importance

L'initialisation des poids est un facteur clé du succès de l'entraînement en apprentissage profond. Une initialisation inadéquate peut entraîner :

Disparition des gradients : L'atténuation du signal à travers les couches profondes du réseau
Explosion des gradients : La croissance exponentielle du signal lors de la propagation
Instabilité de l'entraînement : Les oscillations et divergences dans le processus d'optimisation

Limitations des Méthodes Existantes

Bien que les méthodes d'initialisation classiques (LeCun, Xavier/Glorot, He/Kaiming) possèdent une intuition théorique de préservation de la variance, elles présentent toujours les problèmes suivants en application pratique :

La sensibilité aux écarts d'échelle idéale n'a pas été suffisamment quantifiée
Les mécanismes d'impact des fonctions d'activation spécifiques (telles que ReLU, GELU) ne sont pas clairs
Les performances dans les grands Transformers manquent d'études systématiques

Contributions Principales

Cadre d'analyse de variance unifié : Dérivation des conditions de propagation de variance avant et arrière pour les fonctions d'activation courantes (ReLU, GELU), expliquant comment la mise à l'échelle fan-in préserve l'amplitude du signal et l'origine du facteur 2 dans ReLU
Quantification de la sensibilité à l'échelle : Par balayage logarithmique de 25 valeurs d'écart-type, cartographie des régions de disparition/explosion des gradients, identification de la bande de stabilité pour l'entraînement σ ∈ 10⁻², 10⁻¹
Vérification de l'initialisation sensible à la fonction d'activation : Dans l'entraînement contrôlé du MLP ReLU, confirmation que Kaiming normal (fan-in) converge plus rapidement et avec une variance de perte plus faible que Xavier normal
Analyse de la dynamique de variance du Transformer : Dans un modèle GPT-2 de style 12 couches construit à partir de zéro, découverte de motifs clairement dépendants de la profondeur : l'écart-type des poids des couches peu profondes se développe rapidement, celui des couches profondes plus progressivement, se stabilisant finalement dans une bande de variance étroite

Détails de la Méthodologie

Cadre Théorique

Analyse de Variance de la Propagation Avant

Pour une application linéaire :

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Après passage par l'activation non-linéaire :

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

où c_φ = E[φ(z)²]/Var[z] est une constante liée à la fonction d'activation.

Pour éviter la disparition ou l'explosion des valeurs d'activation, on choisit σ²_W ≈ 1/(c_φ n_in) :

ReLU : c_φ ≈ 1/2, donc σ²_W ≈ 2/n_in (He/Kaiming)
GELU : c_φ ≈ 0.45-0.5, légèrement inférieur à ReLU

Analyse de Variance de la Rétropropagation

La rétropropagation donne :

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

où d_φ = E[φ'(z)²]. Pour ReLU, d_φ = 1/2, l'équilibre de la variance du gradient nécessite σ²_W ≈ 2/n_out.

Compromis et Choix Pratiques

Les conditions de préservation avant et arrière ne peuvent généralement pas être satisfaites simultanément, sauf si n_in ≈ n_out et c_φ ≈ d_φ. En pratique, maintenir la stabilité du signal avant est généralement plus important, ce qui explique pourquoi He/Kaiming fan-in converge plus rapidement que Xavier.

Conception Expérimentale

Expérience E1 : Balayage d'Écart-Type

Architecture du réseau : MLP ReLU 784→64→32→32→10
Ensemble de données : MNIST
Plage de balayage : 25 valeurs d'écart-type, de 10⁻⁴ à 10, espacées logarithmiquement
Métriques d'évaluation : Trajectoires de perte, précision de classification

Expérience E2 : Comparaison Xavier vs Kaiming

Architecture du réseau : Réseau ReLU 11→16→32→32→1
Ensemble de données : Tâche de classification binaire Wine UCI
Schémas de comparaison : Xavier normal vs Kaiming uniform
Validation statistique : 10 exécutions aléatoires, test t apparié

Expérience E3 : Dynamique de Variance GPT-2

Échelle du modèle : Transformer de style GPT-2 à 12 couches
Initialisation : Configuration standard (std=0.02 pour la plupart des modules, couche d'intégration xavier normal)
Optimiseur : AdamW, taux d'apprentissage 1×10⁻⁴, taille de lot 16
Cibles de suivi : Écart-type des poids de projection Q/K/V pour toutes les couches

Résultats Expérimentaux

Résultats du Balayage d'Écart-Type E1

Intervalle de stabilité : L'entraînement est lisse dans σ ∈ 10⁻², 10⁻¹, les gradients se comportent bien, la précision atteint son pic dans cet intervalle
Disparition des gradients : Les très petites échelles (σ ≲ 10⁻³) entraînent la disparition des mises à jour et une baisse de précision
Explosion des gradients : Les très grandes échelles (σ ≳ 1) produisent une perte instable et des divergences occasionnelles

Comparaison des Méthodes d'Initialisation E2

L'initialisation Kaiming surpasse continuellement Xavier sur plusieurs dimensions :

Vitesse de convergence : Nombre médian d'itérations pour atteindre l'objectif plus faible, baisse de perte plus raide en début d'entraînement
Précision : La précision de validation finale correspond ou dépasse légèrement Xavier
Signification statistique : Le test t apparié montre des différences significatives dans la perte et la précision d'entraînement (p < 0.05)

Découvertes de la Dynamique de Variance du Transformer E3

Motif dépendant de la profondeur : Les couches peu profondes montrent une expansion rapide et significative de l'écart-type des poids en début d'entraînement, l'expansion des couches profondes étant plus lente et lisse
Équilibre de variance : Toutes les couches se stabilisent finalement dans une bande de variance étroite
Parcimonie de distribution : Après l'entraînement, la distribution des poids devient plus parcimonieuse, de nombreuses entrées proches de zéro restant inchangées, quelques poids importants dominant

Perspectives Théoriques et Implications Pratiques

Mécanisme d'Équilibre de Variance Dépendant de la Profondeur

L'article révèle un motif d'équilibre progressif dans les Transformers :

Adaptation rapide des couches peu profondes : Les couches proches de l'entrée possèdent des gradients à rapport signal-bruit élevé, encourageant une mise à l'échelle précoce agressive
Ajustement progressif des couches profondes : La longueur du chemin résiduel et la normalisation pré-couche limitent la taille de pas effective des couches profondes
Contraintes implicites : La saturation du softmax d'attention et la décroissance des poids dans AdamW empêchent les grandes échelles de paramètres

Principes Directeurs Pratiques

MLP ReLU/GELU : Commencer par He/Kaiming fan-in ; si des couches très déséquilibrées causent une dérive de gradient, se déplacer légèrement vers le choix fan-average
Piles résiduelles profondes : La mise à l'échelle résiduelle (par exemple 1/√L) ou la normalisation aide à prévenir la dérive de variance en profondeur
Projections Transformer : Utiliser une initialisation à petit écart-type (par exemple 0.02), surveiller l'écart-type par couche et les normes de gradient

Comparaison avec les Travaux Connexes

Stratégies d'Initialisation Fondamentales

Méthode LeCun : Règles de préservation de variance pour les activations linéaires
Glorot/Xavier : Mise à l'échelle basée sur fan pour tanh/sigmoid
He/Kaiming : Mise à l'échelle sensible à l'activation compensant le second moment réduit de moitié sous ReLU

Développements Modernes

Initialisation Fixup : Suppression du besoin de normalisation dans les réseaux extrêmement profonds par initialisation soigneusement choisie et mise à l'échelle résiduelle
DeepNet : Proposition de règles de mise à l'échelle en profondeur principielles permettant l'entraînement de réseaux à l'échelle des milliers de couches
Avantages de la normalisation pré-couche : Amélioration de la stabilité d'optimisation par rapport à la normalisation post-couche en lissant le flux de gradient

Conclusions et Discussion

Conclusions Principales

Existence d'une bande de stabilité : Une bande de stabilité large mais sensible existe dans la plage σ ∈ 10⁻², 10⁻¹
Importance de la spécificité de la fonction d'activation : L'initialisation Kaiming surpasse réellement Xavier dans les réseaux ReLU
Dynamiques dépendantes de la profondeur : Les Transformers présentent un équilibre de variance dépendant de la profondeur, avec adaptation rapide des couches peu profondes et ajustement progressif des couches profondes

Limitations

Échelle expérimentale : L'expérience GPT-2 est relativement petite (12 couches), le comportement des modèles à grande échelle peut différer
Couverture des fonctions d'activation : Analyse principalement centrée sur ReLU et GELU, analyse limitée des autres fonctions d'activation
Dépendance à l'optimiseur : Les résultats peuvent être sensibles à l'optimiseur spécifique (AdamW) et aux paramètres de configuration

Directions Futures

Initialisation adaptative sensible à la profondeur : Apprentissage de l'échelle par couche ou par tête, rapprochant les couches peu profondes du niveau de variance final
Couplage optimiseur et calendrier : Optimisation conjointe de la longueur de préchauffage, de la décroissance des poids et de l'écrêtage des gradients
Mise à l'échelle en profondeur et largeur : Évaluation de la persistance de l'équilibre dépendant de la profondeur dans les modèles plus grands

Évaluation Approfondie

Points Forts

Intégration théorie et pratique : Combinaison organique de la théorie classique de propagation de variance avec le comportement des Transformers modernes
Conception expérimentale systématique : Vérification progressive du MLP simple au Transformer complexe
Valeur pratique élevée : Fourniture de recommandations d'initialisation concrètes et de méthodes de diagnostic
Rigueur statistique : Utilisation de méthodes statistiques telles que le test t apparié pour vérifier la signification des résultats

Insuffisances

Profondeur limitée de l'analyse théorique : Manque d'explication théorique plus profonde des phénomènes dépendants de la profondeur
Contraintes d'échelle expérimentale : Limitations de ressources informatiques, incapacité à valider sur des modèles véritablement à grande échelle
Problèmes de généralisation : Les résultats sont principalement basés sur des architectures et tâches spécifiques, la capacité de généralisation nécessite une vérification supplémentaire

Évaluation de l'Impact

Contribution académique : Fourniture d'une perspective moderne à la théorie d'initialisation, connexion entre théorie classique et pratique actuelle
Valeur pratique : Fourniture aux praticiens de stratégies d'initialisation claires et d'outils de diagnostic
Reproductibilité : Conception expérimentale claire, paramètres et configuration du code détaillés, facilitant la reproduction

Scénarios Applicables

Entraînement de réseaux profonds : Particulièrement applicable aux réseaux profonds avec activations ReLU/GELU
Optimisation Transformer : Fourniture de conseils d'initialisation pour l'entraînement de grands modèles de langage
Outil de recherche : Fourniture aux chercheurs d'un cadre méthodologique pour analyser la dynamique des poids

Références

L'article cite les travaux clés dans le domaine de l'initialisation, incluant les recherches fondatrices de LeCun, Glorot, He et autres, ainsi que les progrès récents en optimisation des Transformers, fournissant une base théorique solide pour cette recherche.