The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
academic
Das Potenzial der Optimierung zweiter Ordnung für LLMs: Eine Studie mit vollständigem Gauss-Newton
Diese Arbeit untersucht, wie viel Leistung durch rechnerisch effiziente Approximationen bestehender Optimierungsmethoden zweiter Ordnung beim Vortraining großer Sprachmodelle (LLMs) verloren geht. Die Autoren etablieren praktische obere Grenzen der Iterationskomplexität durch Anwendung der vollständigen Gauss-Newton (GN) Vorkonditionierung auf ein Transformer-Modell mit 150M Parametern. Experimente zeigen, dass vollständige GN-Updates im Vergleich zu starken Baselines wie SOAP und Muon eine 5,4-fache Reduktion der Trainingsiterationen erreichen. Darüber hinaus erreicht die präzise schichtweise GN-Vorkonditionierung, die schichtübergreifende Informationen ignoriert, nahezu die Leistung der vollständigen GN-Methode.
Mit dem kontinuierlichen Wachstum der Rechenanforderungen von LLMs ist die Verbesserung von Optimierungsmethoden zu einer Kernstrategie zur Steigerung der Trainingseffizienz geworden. Obwohl traditionelle Methoden erster Ordnung (wie SGD und Adam) weit verbreitet sind, weisen Methoden zweiter Ordnung theoretisch schnellere Konvergenzgeschwindigkeit und bessere Skalierbarkeit bei großen Batch-Größen auf.
Einschränkungen bestehender Methoden zweiter Ordnung: Aktuelle Optimierer zweiter Ordnung (wie Shampoo, SOAP, Muon) verwenden Approximationen der Hessian-Matrix, um rechnerisch machbar zu bleiben, aber es ist unklar, wie viel Leistung durch diese Approximationen verloren geht.
Kluft zwischen Theorie und Praxis: Obwohl Methoden zweiter Ordnung theoretisch überlegen sind, müssen in der praktischen Anwendung aufgrund der hohen Speicher- und Rechenkosten der vollständigen Hessian-Matrix Approximationsmethoden verwendet werden.
Kernforschungsfrage: "Was sind die grundlegenden Leistungsgrenzen der Optimierung zweiter Ordnung bei LLMs? Welche strukturellen Eigenschaften der Hessian-Matrix sind notwendig, um diese Grenzen zu erreichen?"
Etablierung von Leistungsgrenzen: Durch die vollständige Gauss-Newton-Methode werden praktische Leistungsgrenzen für die Optimierung zweiter Ordnung etabliert, mit einer 5,4-fachen Verbesserung der Iterationskomplexität im Vergleich zu SOAP.
Offenlegung kritischer Strukturen: Es wird festgestellt, dass die schichtweise Hessian-Struktur ausreichende Informationen zur Realisierung der meisten Leistungssteigerungen enthält und die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.
Theoretische Einsichten: Es wird nachgewiesen, dass die GN-Approximation für die Vorkonditionierung hochgradig wirksam ist, was darauf hindeutet, dass höherordnige Verlustterme möglicherweise nicht kritisch für die Konvergenzgeschwindigkeit sind.
Skalierung der Batch-Größe: Die kritische Batch-Größe wird erheblich erweitert und zeigt nahezu optimale Skalierungsleistung.
Gegeben sind Modellparameter θ, Eingabe x und Label y, wobei die Verlustfunktion L(f(θ,x), y) definiert wird. Das Ziel ist die Minimierung des erwarteten Verlusts mit Fokus auf die Iterationskomplexität (Anzahl der Schritte zur Erreichung des Zielverlusts).
Um die explizite Speicherung der Hessian-Matrix zu vermeiden, werden Jacobian-Vektor-Produkte (JVPs) verwendet, um eine funktional äquivalente Methode zu implementieren. Die Kernidee besteht darin, die Taylorapproximation zweiter Ordnung der Verlustfunktion L und die Taylorapproximation erster Ordnung des Modells f zu optimieren.
Beide Methoden zeigen nahezu identische Leistung, was darauf hindeutet, dass höherordnige Verlustterme einen begrenzten Beitrag zur Leistungssteigerung leisten.
Die schichtweise Methode erreicht in den meisten Einstellungen nahezu die Leistung der vollständigen GN, was zeigt, dass die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.
Etablierung von Leistungsgrenzen: Die vollständige GN-Methode bietet ein klares Leistungsziel für die Optimierung zweiter Ordnung
Strukturelle Bedeutung: Die schichtweise Hessian-Struktur enthält ausreichende Informationen zur Realisierung der meisten Gewinne
Approximationseffektivität: Es besteht ein erheblicher Leistungsunterschied zwischen aktuellen Approximationsmethoden und idealisiertem schichtweisem Orakel
Diese Arbeit zitiert wichtige Arbeiten im Bereich der Optimierung, darunter:
Martens (2010): Bahnbrechende Arbeiten zur Hessian-freien Optimierung
Gupta et al. (2018): Shampoo-Optimierer
Jordan et al. (2024): Muon-Optimierer
Vyas et al. (2025): SOAP-Optimierer
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge Experimente die Leistungsgrenzen der Optimierung zweiter Ordnung beim LLM-Training etabliert und wichtige theoretische Einsichten sowie praktische Anleitung für das Feld bietet. Trotz Rechenkosten und Skalierungsbeschränkungen sind sein akademischer Wert und seine Orientierungsbedeutung für zukünftige Forschung erheblich.