2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

Inicialización de Pesos y Dinámicas de Varianza en Redes Neuronales Profundas y Modelos de Lenguaje Grande

Información Básica

  • ID del Artículo: 2510.09423
  • Título: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • Autor: Yankun Han (Universidad de Florida)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09423

Resumen

La inicialización de pesos controla la propagación de señales y el flujo de gradientes al inicio del entrenamiento. Este artículo proporciona una investigación teóricamente fundamentada y verificada empíricamente que abarca dos dominios: perceptrones multicapa ReLU compactos y Transformers al estilo GPT-2. En primer lugar, mediante un barrido logarítmico de la desviación estándar inicial, se mapean las regiones de desvanecimiento y explosión de gradientes, identificando una amplia banda de estabilidad con desviación estándar entre 1e-2 y 1e-1. En segundo lugar, comparaciones controladas muestran que bajo la función de activación ReLU, la inicialización Kaiming (fan-in) converge más rápido y es más estable que la inicialización Xavier, lo que es consistente con la teoría de preservación de varianza. En tercer lugar, en un modelo GPT-2 de 12 capas construido desde cero, se rastrea el cambio de varianza de pesos Q/K/V en todas las capas durante el preentrenamiento, observando un fenómeno de equilibrio dependiente de la profundidad: las capas superficiales se expanden rápidamente, mientras que las capas profundas cambian de manera más progresiva.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es el impacto de la inicialización de pesos en la estabilidad del entrenamiento y la convergencia en redes neuronales profundas y modelos de lenguaje grande. Esto incluye específicamente:

  1. Sensibilidad de Escala de Inicialización: Cómo diferentes desviaciones estándar iniciales afectan la estabilidad del entrenamiento
  2. Especificidad de Función de Activación: Si funciones de activación como ReLU y GELU requieren estrategias de inicialización específicas
  3. Dinámicas de Varianza en Transformers Modernos: Si la estabilización de varianza persiste en modelos Transformer grandes

Importancia

La inicialización de pesos es un factor crítico para el éxito del entrenamiento en aprendizaje profundo. Una inicialización inadecuada puede conducir a:

  • Desvanecimiento de Gradientes: La señal se atenúa capa a capa en redes profundas
  • Explosión de Gradientes: La señal crece exponencialmente durante la propagación
  • Inestabilidad del Entrenamiento: Oscilaciones y divergencia en el proceso de optimización

Limitaciones de Métodos Existentes

Aunque los métodos de inicialización clásicos (LeCun, Xavier/Glorot, He/Kaiming) tienen intuición teórica sobre preservación de varianza, en aplicaciones prácticas persisten los siguientes problemas:

  1. La sensibilidad a desviaciones de escala ideal no ha sido cuantificada suficientemente
  2. Los mecanismos de influencia de funciones de activación específicas (como ReLU, GELU) no están claros
  3. Falta investigación sistemática sobre el desempeño en Transformers grandes

Contribuciones Principales

  1. Marco Unificado de Análisis de Varianza: Se derivan condiciones de propagación de varianza hacia adelante y hacia atrás para funciones de activación comunes (ReLU, GELU), explicando cómo el escalado fan-in preserva la amplitud de señal y el origen del factor 2 en ReLU
  2. Cuantificación de Sensibilidad de Escala: Mediante un barrido logarítmico de 25 valores de desviación estándar, se mapean regiones de desvanecimiento/explosión de gradientes, identificando una banda de entrenamiento estable σ ∈ 10⁻², 10⁻¹
  3. Verificación de Inicialización Consciente de Función de Activación: En entrenamiento controlado de MLP ReLU, se confirma que Kaiming normal (fan-in) converge más rápido y tiene menor varianza de pérdida que Xavier normal
  4. Análisis de Dinámicas de Varianza en Transformer: En un modelo GPT-2 de 12 capas construido desde cero, se descubre un patrón claro dependiente de la profundidad: la desviación estándar de pesos en capas superficiales se expande rápidamente, mientras que en capas profundas es más progresiva, estabilizándose finalmente en una banda de varianza estrecha

Detalle de Métodos

Marco Teórico

Análisis de Varianza en Propagación Hacia Adelante

Para un mapeo lineal:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

Después de la activación no lineal:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

donde c_φ = E[φ(z)²]/Var[z] es una constante relacionada con la función de activación.

Para evitar desvanecimiento o explosión de valores de activación, se elige σ²_W ≈ 1/(c_φ n_in):

  • ReLU: c_φ ≈ 1/2, por lo tanto σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5, ligeramente menor que ReLU

Análisis de Varianza en Propagación Hacia Atrás

La retropropagación da:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

donde d_φ = E[φ'(z)²]. Para ReLU, d_φ = 1/2, y equilibrar la varianza de gradientes requiere σ²_W ≈ 2/n_out.

Compensación y Selección Práctica

Las condiciones de preservación hacia adelante y hacia atrás generalmente no pueden satisfacerse simultáneamente, a menos que n_in ≈ n_out y c_φ ≈ d_φ. En la práctica, mantener la estabilidad de la señal hacia adelante es generalmente más importante, lo que explica por qué He/Kaiming fan-in converge más rápido que Xavier.

Diseño Experimental

Experimento E1: Barrido de Desviación Estándar

  • Arquitectura de Red: MLP ReLU 784→64→32→32→10
  • Conjunto de Datos: MNIST
  • Rango de Barrido: 25 valores de desviación estándar, de 10⁻⁴ a 10, espaciados logarítmicamente
  • Métricas de Evaluación: Trayectoria de pérdida, precisión de clasificación

Experimento E2: Comparación Xavier vs Kaiming

  • Arquitectura de Red: Red ReLU 11→16→32→32→1
  • Conjunto de Datos: Tarea de clasificación binaria UCI Wine
  • Esquemas de Comparación: Xavier normal vs Kaiming uniform
  • Validación Estadística: 10 ejecuciones aleatorias, prueba t pareada

Experimento E3: Dinámicas de Varianza GPT-2

  • Escala del Modelo: Transformer al estilo GPT-2 de 12 capas
  • Inicialización: Configuración estándar (mayoría de módulos std=0.02, capas de incrustación xavier normal)
  • Optimizador: AdamW, tasa de aprendizaje 1×10⁻⁴, tamaño de lote 16
  • Objetivos de Rastreo: Desviación estándar de pesos de proyección Q/K/V en todas las capas

Resultados Experimentales

Resultados de E1: Barrido de Desviación Estándar

  • Intervalo Estable: El entrenamiento es suave dentro de σ ∈ 10⁻², 10⁻¹, el desempeño de gradientes es bueno, y la precisión alcanza su máximo dentro de este intervalo
  • Desvanecimiento de Gradientes: Escalas extremadamente pequeñas (σ ≲ 10⁻³) conducen a desvanecimiento de actualizaciones y disminución de precisión
  • Explosión de Gradientes: Escalas extremadamente grandes (σ ≳ 1) producen pérdida inestable y divergencia ocasional

Resultados de E2: Comparación de Métodos de Inicialización

La inicialización Kaiming supera consistentemente a Xavier en múltiples dimensiones:

  • Velocidad de Convergencia: Menos épocas medianas para alcanzar el objetivo, caída de pérdida más pronunciada en etapas tempranas
  • Precisión: Precisión de validación final coincide o ligeramente superior a Xavier
  • Significancia Estadística: La prueba t pareada muestra diferencias significativas en pérdida y precisión de entrenamiento (p < 0.05)

Hallazgos de E3: Dinámicas de Varianza en Transformer

  • Patrón Dependiente de Profundidad: Las capas superficiales muestran expansión rápida y significativa de desviación estándar de pesos en el entrenamiento temprano, mientras que las capas profundas se expanden más lentamente y suavemente
  • Equilibrio de Varianza: Todas las capas finalmente se estabilizan en una banda de varianza estrecha
  • Dispersión de Distribución: Después del entrenamiento, la distribución de pesos se vuelve más dispersa, con muchas entradas cercanas a cero permaneciendo sin cambios, mientras que pocos pesos grandes dominan

Perspectivas Teóricas e Implicaciones Prácticas

Mecanismo de Equilibrio de Varianza Dependiente de Profundidad

El artículo revela un patrón de equilibrio progresivo en Transformers:

  1. Adaptación Rápida en Capas Superficiales: Las capas cercanas a la entrada tienen gradientes de alta relación señal-ruido, alentando escalado agresivo temprano
  2. Ajuste Progresivo en Capas Profundas: La longitud de la ruta residual y la normalización previa limitan el tamaño de paso efectivo en capas profundas
  3. Restricciones Implícitas: La saturación de softmax de atención y la decadencia de pesos en AdamW previenen escalas de parámetros grandes

Principios de Guía Práctica

  1. MLP ReLU/GELU: Comenzar desde He/Kaiming fan-in; si capas muy desequilibradas causan deriva de gradientes, moverse ligeramente hacia la selección fan-average
  2. Pilas Residuales Profundas: El escalado residual (como 1/√L) o normalización ayuda a prevenir deriva de varianza profunda
  3. Proyecciones de Transformer: Usar inicialización de desviación estándar pequeña (como 0.02), monitorear desviación estándar por capa y normas de gradientes

Comparación con Trabajo Relacionado

Estrategias de Inicialización Fundamental

  • Método LeCun: Regla de preservación de varianza para activaciones lineales
  • Glorot/Xavier: Escalado basado en fan para tanh/sigmoid
  • He/Kaiming: Escalado consciente de activación que compensa el segundo momento reducido a la mitad bajo ReLU

Desarrollos Modernos

  • Inicialización Fixup: Elimina la necesidad de normalización en redes extremadamente profundas mediante inicialización cuidadosamente elegida y escalado residual
  • DeepNet: Propone reglas de escalado profundo principistas que permiten entrenar redes de miles de capas
  • Ventajas de Normalización Previa: Mejora la estabilidad de optimización mediante suavizado del flujo de gradientes en comparación con normalización posterior

Conclusiones y Discusión

Conclusiones Principales

  1. Existencia de Banda de Estabilidad: Existe una banda de estabilidad amplia pero sensible en el rango σ ∈ 10⁻², 10⁻¹
  2. Importancia de Especificidad de Función de Activación: La inicialización Kaiming realmente supera a Xavier en redes ReLU
  3. Dinámicas Dependientes de Profundidad: Los Transformers exhiben equilibrio de varianza dependiente de profundidad, con adaptación rápida en capas superficiales y ajuste progresivo en capas profundas

Limitaciones

  1. Escala Experimental: Los experimentos GPT-2 son relativamente pequeños (12 capas), el comportamiento de modelos a mayor escala puede diferir
  2. Cobertura de Función de Activación: Se enfoca principalmente en ReLU y GELU, análisis limitado de otras funciones de activación
  3. Dependencia del Optimizador: Los resultados pueden ser sensibles al optimizador específico (AdamW) y configuración de hiperparámetros

Direcciones Futuras

  1. Inicialización Adaptativa Consciente de Profundidad: Aprender escalas por capa o por cabeza, permitiendo que capas superficiales se acerquen más a niveles de varianza finales
  2. Acoplamiento de Optimizador y Programación: Optimización conjunta de duración de precalentamiento, decadencia de pesos y recorte de gradientes
  3. Escalado de Profundidad y Ancho: Evaluar la persistencia del equilibrio dependiente de profundidad en modelos más grandes

Evaluación Profunda

Fortalezas

  1. Integración de Teoría y Práctica: Combina orgánicamente la teoría clásica de propagación de varianza con el comportamiento moderno de Transformers
  2. Diseño Experimental Sistemático: Verificación progresiva de MLP simple a Transformer complejo
  3. Alto Valor Práctico: Proporciona recomendaciones de inicialización específicas y métodos de diagnóstico
  4. Rigor Estadístico: Utiliza métodos estadísticos como prueba t pareada para verificar significancia de resultados

Insuficiencias

  1. Profundidad Limitada de Análisis Teórico: Falta explicación teórica más profunda de fenómenos dependientes de profundidad
  2. Restricciones de Escala Experimental: Limitado por recursos computacionales, no verifica en modelos verdaderamente a gran escala
  3. Problemas de Generalización: Los resultados se basan principalmente en arquitecturas y tareas específicas, la capacidad de generalización requiere verificación adicional

Evaluación de Impacto

  1. Contribución Académica: Proporciona perspectiva moderna a la teoría de inicialización, conectando teoría clásica con práctica actual
  2. Valor Práctico: Proporciona a profesionales estrategias de inicialización claras y herramientas de diagnóstico
  3. Reproducibilidad: Diseño experimental claro, configuración de código y parámetros detallados, facilitando reproducción

Escenarios Aplicables

  1. Entrenamiento de Redes Profundas: Particularmente aplicable a redes profundas con activaciones ReLU/GELU
  2. Optimización de Transformer: Proporciona guía de inicialización para entrenamiento de modelos de lenguaje grande
  3. Herramienta de Investigación: Proporciona marco metodológico para investigadores que analizan dinámicas de pesos

Referencias

El artículo cita trabajos clave en el campo de inicialización, incluyendo investigaciones fundamentales de LeCun, Glorot, He y otros, así como avances recientes en optimización de Transformers, proporcionando una base teórica sólida para esta investigación.