The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
academic
El Potencial de la Optimización de Segundo Orden para LLMs: Un Estudio con Gauss-Newton Completo
Este artículo investiga cuánto rendimiento se pierde con las aproximaciones computacionalmente eficientes de los métodos de optimización de segundo orden existentes en el preentrenamiento de modelos de lenguaje grandes (LLMs). Los autores establecen límites superiores prácticos de complejidad iterativa aplicando el precondicionamiento completo de Gauss-Newton (GN) en un modelo Transformer de 150M parámetros. Los experimentos muestran que las actualizaciones completas de GN logran una reducción de 5.4 veces en las iteraciones de entrenamiento en comparación con líneas base sólidas como SOAP y Muon. Además, el precondicionador exacto de GN por capas, que ignora la información entre capas, alcanza casi el rendimiento del método GN completo.
Con el crecimiento continuo de los requisitos computacionales de los LLMs, la mejora de los métodos de optimización se ha convertido en una estrategia central para mejorar la eficiencia del entrenamiento. Aunque los métodos de primer orden tradicionales (como SGD y Adam) se utilizan ampliamente, los métodos de segundo orden poseen teóricamente velocidades de convergencia más rápidas y mejor escalabilidad en lotes grandes.
Limitaciones de los métodos de segundo orden existentes: Los optimizadores de segundo orden actuales (como Shampoo, SOAP, Muon) utilizan aproximaciones del Hessiano para mantener la viabilidad computacional, pero no está claro cuánto rendimiento se pierde con estas aproximaciones.
Brecha entre teoría y práctica: Aunque los métodos de segundo orden son superiores teóricamente, debido al alto costo de almacenamiento y cálculo del Hessiano completo, la práctica requiere el uso de métodos aproximados.
Pregunta central de investigación: "¿Cuál es el límite fundamental de rendimiento de la optimización de segundo orden en LLMs? ¿Qué propiedades estructurales del Hessiano son necesarias para alcanzar estos límites?"
Establecimiento de límites de rendimiento: Se establece un límite superior de rendimiento práctico para la optimización de segundo orden mediante el método completo de Gauss-Newton, logrando una mejora de 5.4 veces en complejidad iterativa en comparación con SOAP.
Revelación de estructuras clave: Se descubre que la estructura del Hessiano por capas contiene información suficiente para lograr la mayoría de las ganancias de rendimiento, con importancia limitada de la información de curvatura entre capas.
Perspectivas teóricas: Se demuestra que la aproximación de GN es altamente efectiva para el precondicionamiento, sugiriendo que los términos de pérdida de orden superior podrían no ser críticos para la velocidad de convergencia.
Escalabilidad del tamaño de lote: Se extiende significativamente el tamaño crítico de lote, demostrando rendimiento de escalabilidad casi óptimo.
Dado los parámetros del modelo θ, entrada x y etiqueta y, se define la función de pérdida L(f(θ,x), y). El objetivo es minimizar la pérdida esperada, enfocándose en la complejidad iterativa (número de pasos necesarios para alcanzar la pérdida objetivo).
Para evitar el almacenamiento explícito de la matriz Hessiana, se utilizan productos Jacobiano-vector (JVPs) para implementar un método funcionalmente equivalente. La idea central es optimizar la aproximación de Taylor de segundo orden de la función de pérdida L y la aproximación de Taylor de primer orden del modelo f.
Minimizar directamente la pérdida en el modelo linealizado: θ* = argminθ L̃θₜ(θ), utilizado para investigar el impacto de los términos de pérdida de orden superior.
Ambos métodos muestran rendimiento casi idéntico, indicando que los términos de pérdida de orden superior contribuyen limitadamente a la mejora de rendimiento.
El método por capas se aproxima al rendimiento de GN completo en la mayoría de configuraciones, demostrando que la importancia de la información de curvatura entre capas es limitada.
Este artículo cita trabajos importantes en el campo de la optimización, incluyendo:
Martens (2010): Trabajo pionero en optimización libre de Hessiano
Gupta et al. (2018): Optimizador Shampoo
Jordan et al. (2024): Optimizador Muon
Vyas et al. (2025): Optimizador SOAP
Evaluación General: Este es un artículo de investigación de alta calidad que establece rigurosamente los límites de rendimiento de la optimización de segundo orden en el entrenamiento de LLMs mediante experimentos rigurosos, proporcionando perspectivas teóricas importantes y orientación práctica para el campo. Aunque existen limitaciones en costo computacional y escala, su valor académico y significado orientador para investigaciones futuras son considerables.