Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic
Inicialización de Pesos y Dinámicas de Varianza en Redes Neuronales Profundas y Modelos de Lenguaje Grande
La inicialización de pesos controla la propagación de señales y el flujo de gradientes al inicio del entrenamiento. Este artículo proporciona una investigación teóricamente fundamentada y verificada empíricamente que abarca dos dominios: perceptrones multicapa ReLU compactos y Transformers al estilo GPT-2. En primer lugar, mediante un barrido logarítmico de la desviación estándar inicial, se mapean las regiones de desvanecimiento y explosión de gradientes, identificando una amplia banda de estabilidad con desviación estándar entre 1e-2 y 1e-1. En segundo lugar, comparaciones controladas muestran que bajo la función de activación ReLU, la inicialización Kaiming (fan-in) converge más rápido y es más estable que la inicialización Xavier, lo que es consistente con la teoría de preservación de varianza. En tercer lugar, en un modelo GPT-2 de 12 capas construido desde cero, se rastrea el cambio de varianza de pesos Q/K/V en todas las capas durante el preentrenamiento, observando un fenómeno de equilibrio dependiente de la profundidad: las capas superficiales se expanden rápidamente, mientras que las capas profundas cambian de manera más progresiva.
El problema central que aborda esta investigación es el impacto de la inicialización de pesos en la estabilidad del entrenamiento y la convergencia en redes neuronales profundas y modelos de lenguaje grande. Esto incluye específicamente:
Sensibilidad de Escala de Inicialización: Cómo diferentes desviaciones estándar iniciales afectan la estabilidad del entrenamiento
Especificidad de Función de Activación: Si funciones de activación como ReLU y GELU requieren estrategias de inicialización específicas
Dinámicas de Varianza en Transformers Modernos: Si la estabilización de varianza persiste en modelos Transformer grandes
La inicialización de pesos es un factor crítico para el éxito del entrenamiento en aprendizaje profundo. Una inicialización inadecuada puede conducir a:
Desvanecimiento de Gradientes: La señal se atenúa capa a capa en redes profundas
Explosión de Gradientes: La señal crece exponencialmente durante la propagación
Inestabilidad del Entrenamiento: Oscilaciones y divergencia en el proceso de optimización
Aunque los métodos de inicialización clásicos (LeCun, Xavier/Glorot, He/Kaiming) tienen intuición teórica sobre preservación de varianza, en aplicaciones prácticas persisten los siguientes problemas:
La sensibilidad a desviaciones de escala ideal no ha sido cuantificada suficientemente
Los mecanismos de influencia de funciones de activación específicas (como ReLU, GELU) no están claros
Falta investigación sistemática sobre el desempeño en Transformers grandes
Marco Unificado de Análisis de Varianza: Se derivan condiciones de propagación de varianza hacia adelante y hacia atrás para funciones de activación comunes (ReLU, GELU), explicando cómo el escalado fan-in preserva la amplitud de señal y el origen del factor 2 en ReLU
Cuantificación de Sensibilidad de Escala: Mediante un barrido logarítmico de 25 valores de desviación estándar, se mapean regiones de desvanecimiento/explosión de gradientes, identificando una banda de entrenamiento estable σ ∈ 10⁻², 10⁻¹
Verificación de Inicialización Consciente de Función de Activación: En entrenamiento controlado de MLP ReLU, se confirma que Kaiming normal (fan-in) converge más rápido y tiene menor varianza de pérdida que Xavier normal
Análisis de Dinámicas de Varianza en Transformer: En un modelo GPT-2 de 12 capas construido desde cero, se descubre un patrón claro dependiente de la profundidad: la desviación estándar de pesos en capas superficiales se expande rápidamente, mientras que en capas profundas es más progresiva, estabilizándose finalmente en una banda de varianza estrecha
Las condiciones de preservación hacia adelante y hacia atrás generalmente no pueden satisfacerse simultáneamente, a menos que n_in ≈ n_out y c_φ ≈ d_φ. En la práctica, mantener la estabilidad de la señal hacia adelante es generalmente más importante, lo que explica por qué He/Kaiming fan-in converge más rápido que Xavier.
Intervalo Estable: El entrenamiento es suave dentro de σ ∈ 10⁻², 10⁻¹, el desempeño de gradientes es bueno, y la precisión alcanza su máximo dentro de este intervalo
Desvanecimiento de Gradientes: Escalas extremadamente pequeñas (σ ≲ 10⁻³) conducen a desvanecimiento de actualizaciones y disminución de precisión
Explosión de Gradientes: Escalas extremadamente grandes (σ ≳ 1) producen pérdida inestable y divergencia ocasional
Patrón Dependiente de Profundidad: Las capas superficiales muestran expansión rápida y significativa de desviación estándar de pesos en el entrenamiento temprano, mientras que las capas profundas se expanden más lentamente y suavemente
Equilibrio de Varianza: Todas las capas finalmente se estabilizan en una banda de varianza estrecha
Dispersión de Distribución: Después del entrenamiento, la distribución de pesos se vuelve más dispersa, con muchas entradas cercanas a cero permaneciendo sin cambios, mientras que pocos pesos grandes dominan
El artículo revela un patrón de equilibrio progresivo en Transformers:
Adaptación Rápida en Capas Superficiales: Las capas cercanas a la entrada tienen gradientes de alta relación señal-ruido, alentando escalado agresivo temprano
Ajuste Progresivo en Capas Profundas: La longitud de la ruta residual y la normalización previa limitan el tamaño de paso efectivo en capas profundas
Restricciones Implícitas: La saturación de softmax de atención y la decadencia de pesos en AdamW previenen escalas de parámetros grandes
MLP ReLU/GELU: Comenzar desde He/Kaiming fan-in; si capas muy desequilibradas causan deriva de gradientes, moverse ligeramente hacia la selección fan-average
Pilas Residuales Profundas: El escalado residual (como 1/√L) o normalización ayuda a prevenir deriva de varianza profunda
Proyecciones de Transformer: Usar inicialización de desviación estándar pequeña (como 0.02), monitorear desviación estándar por capa y normas de gradientes
Inicialización Fixup: Elimina la necesidad de normalización en redes extremadamente profundas mediante inicialización cuidadosamente elegida y escalado residual
DeepNet: Propone reglas de escalado profundo principistas que permiten entrenar redes de miles de capas
Ventajas de Normalización Previa: Mejora la estabilidad de optimización mediante suavizado del flujo de gradientes en comparación con normalización posterior
Existencia de Banda de Estabilidad: Existe una banda de estabilidad amplia pero sensible en el rango σ ∈ 10⁻², 10⁻¹
Importancia de Especificidad de Función de Activación: La inicialización Kaiming realmente supera a Xavier en redes ReLU
Dinámicas Dependientes de Profundidad: Los Transformers exhiben equilibrio de varianza dependiente de profundidad, con adaptación rápida en capas superficiales y ajuste progresivo en capas profundas
Inicialización Adaptativa Consciente de Profundidad: Aprender escalas por capa o por cabeza, permitiendo que capas superficiales se acerquen más a niveles de varianza finales
Acoplamiento de Optimizador y Programación: Optimización conjunta de duración de precalentamiento, decadencia de pesos y recorte de gradientes
Escalado de Profundidad y Ancho: Evaluar la persistencia del equilibrio dependiente de profundidad en modelos más grandes
Profundidad Limitada de Análisis Teórico: Falta explicación teórica más profunda de fenómenos dependientes de profundidad
Restricciones de Escala Experimental: Limitado por recursos computacionales, no verifica en modelos verdaderamente a gran escala
Problemas de Generalización: Los resultados se basan principalmente en arquitecturas y tareas específicas, la capacidad de generalización requiere verificación adicional
El artículo cita trabajos clave en el campo de inicialización, incluyendo investigaciones fundamentales de LeCun, Glorot, He y otros, así como avances recientes en optimización de Transformers, proporcionando una base teórica sólida para esta investigación.