2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.

Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.

academic

Das Potenzial der Optimierung zweiter Ordnung für LLMs: Eine Studie mit vollständigem Gauss-Newton

Grundlegende Informationen

Paper-ID: 2510.09378
Titel: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Autoren: Natalie Abreu (Harvard), Nikhil Vyas (Harvard/OpenAI), Sham Kakade (Harvard), Depen Morwani (Harvard)
Klassifizierung: cs.LG cs.AI
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.09378

Zusammenfassung

Diese Arbeit untersucht, wie viel Leistung durch rechnerisch effiziente Approximationen bestehender Optimierungsmethoden zweiter Ordnung beim Vortraining großer Sprachmodelle (LLMs) verloren geht. Die Autoren etablieren praktische obere Grenzen der Iterationskomplexität durch Anwendung der vollständigen Gauss-Newton (GN) Vorkonditionierung auf ein Transformer-Modell mit 150M Parametern. Experimente zeigen, dass vollständige GN-Updates im Vergleich zu starken Baselines wie SOAP und Muon eine 5,4-fache Reduktion der Trainingsiterationen erreichen. Darüber hinaus erreicht die präzise schichtweise GN-Vorkonditionierung, die schichtübergreifende Informationen ignoriert, nahezu die Leistung der vollständigen GN-Methode.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem kontinuierlichen Wachstum der Rechenanforderungen von LLMs ist die Verbesserung von Optimierungsmethoden zu einer Kernstrategie zur Steigerung der Trainingseffizienz geworden. Obwohl traditionelle Methoden erster Ordnung (wie SGD und Adam) weit verbreitet sind, weisen Methoden zweiter Ordnung theoretisch schnellere Konvergenzgeschwindigkeit und bessere Skalierbarkeit bei großen Batch-Größen auf.

Forschungsmotivation

Einschränkungen bestehender Methoden zweiter Ordnung: Aktuelle Optimierer zweiter Ordnung (wie Shampoo, SOAP, Muon) verwenden Approximationen der Hessian-Matrix, um rechnerisch machbar zu bleiben, aber es ist unklar, wie viel Leistung durch diese Approximationen verloren geht.
Kluft zwischen Theorie und Praxis: Obwohl Methoden zweiter Ordnung theoretisch überlegen sind, müssen in der praktischen Anwendung aufgrund der hohen Speicher- und Rechenkosten der vollständigen Hessian-Matrix Approximationsmethoden verwendet werden.
Kernforschungsfrage: "Was sind die grundlegenden Leistungsgrenzen der Optimierung zweiter Ordnung bei LLMs? Welche strukturellen Eigenschaften der Hessian-Matrix sind notwendig, um diese Grenzen zu erreichen?"

Kernbeiträge

Etablierung von Leistungsgrenzen: Durch die vollständige Gauss-Newton-Methode werden praktische Leistungsgrenzen für die Optimierung zweiter Ordnung etabliert, mit einer 5,4-fachen Verbesserung der Iterationskomplexität im Vergleich zu SOAP.
Offenlegung kritischer Strukturen: Es wird festgestellt, dass die schichtweise Hessian-Struktur ausreichende Informationen zur Realisierung der meisten Leistungssteigerungen enthält und die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.
Theoretische Einsichten: Es wird nachgewiesen, dass die GN-Approximation für die Vorkonditionierung hochgradig wirksam ist, was darauf hindeutet, dass höherordnige Verlustterme möglicherweise nicht kritisch für die Konvergenzgeschwindigkeit sind.
Skalierung der Batch-Größe: Die kritische Batch-Größe wird erheblich erweitert und zeigt nahezu optimale Skalierungsleistung.

Methodische Details

Aufgabendefinition

Gegeben sind Modellparameter θ, Eingabe x und Label y, wobei die Verlustfunktion L(f(θ,x), y) definiert wird. Das Ziel ist die Minimierung des erwarteten Verlusts mit Fokus auf die Iterationskomplexität (Anzahl der Schritte zur Erreichung des Zielverlusts).

Prinzipien der Gauss-Newton-Methode

Mathematische Grundlagen

Die vollständige Hessian-Matrix kann wie folgt zerlegt werden:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

wobei der erste Term die Gauss-Newton-Matrix G ist und der zweite Term die Krümmung des Modells darstellt.

Algorithmus-Implementierung

Algorithmus 1: Gauss-Newton-Methode

Durchführung einer Taylorentwicklung erster Ordnung des Modells: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
Konvexifizierung des Verlusts: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
Konstruktion einer Taylorapproximation zweiter Ordnung: L̃⁽²⁾θₜ(θ)
Lösung des Kleinste-Quadrate-Problems: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
Liniensuche: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

Speichereffiziente Implementierung

Um die explizite Speicherung der Hessian-Matrix zu vermeiden, werden Jacobian-Vektor-Produkte (JVPs) verwendet, um eine funktional äquivalente Methode zu implementieren. Die Kernidee besteht darin, die Taylorapproximation zweiter Ordnung der Verlustfunktion L und die Taylorapproximation erster Ordnung des Modells f zu optimieren.

Varianten-Methoden

GN-prox-linear-Methode

Direkte Minimierung des Verlusts auf dem linearisierten Modell: θ* = argminθ L̃θₜ(θ), um die Auswirkungen höherordniger Verlustterme zu untersuchen.

Schichtweise Gauss-Newton

Für jede Schicht l unabhängig:

Berechnung der Taylorentwicklung erster Ordnung dieser Schicht f⁽¹⁾θₗ,ₜ(θₗ)
Lösung: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
Zusammenführung aller Schicht-Updates und Anwendung der Liniensuche

Experimentelle Einrichtung

Datensätze und Modelle

Modelle: 45M und 150M Parameter LLaMA-Architektur
Datensatz: C4-Datensatz
Sequenzlänge: 1024

Baseline-Methoden

AdamW: Der am weitesten verbreitete LLM-Optimierer
Muon: Methode mit Newton-Schulz-Orthogonalisierung
SOAP: Neueste Variante von Shampoo

Experimentelle Konfiguration

Innerer Optimierer: Verwendung von Muon zur Lösung des Kleinste-Quadrate-Problems
Batch-Größe: Durch Gradient-Akkumulation gesteuert, bᵢₙₙₑᵣ = 32(45M) / 128(150M)
Lernrate-Planung: Drei Strategien: globale Kosinus-, globale+innere Kosinus- und konstante+innere Kosinus-Planung
Regularisierung: Gewichtsabfall, Liniensuche und mehrere andere Strategien

Experimentelle Ergebnisse

Hauptergebnisse

Iterationskomplexität

Im Experiment zur Erreichung eines Verlusts von 3,25:

Gauss-Newton: 54 Schritte
SOAP: 292 Schritte (5,4-facher Unterschied)
Muon: Etwa 16-facher Unterschied
Schichtweise GN: 78 Schritte (nur 1,4-facher Unterschied)

Skalierung der Batch-Größe

Bei festem Training mit 3B Token:

Gauss-Newton behält bei einer Batch-Größe von 120M gute Leistung bei (Verlust 3,45)
AdamW zeigt bei gleicher Batch-Größe schwerwiegende Leistungsverschlechterung (Verlust >4,4)
Kritische Batch-Größe wird erheblich erweitert und nähert sich dem optimalen Skalierungstrend

Ablationsstudien

GN vs. GN-prox-linear

Beide Methoden zeigen nahezu identische Leistung, was darauf hindeutet, dass höherordnige Verlustterme einen begrenzten Beitrag zur Leistungssteigerung leisten.

Vollständige GN vs. Schichtweise GN

Die schichtweise Methode erreicht in den meisten Einstellungen nahezu die Leistung der vollständigen GN, was zeigt, dass die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.

Wichtigste Erkenntnisse

Bedeutung der Lernrate-Planung: Die globale Kosinus-Planung zeigt bei mittleren bis kleinen Batch-Größen die beste Leistung
Notwendigkeit der Liniensuche: Kritisch für die stabile Konvergenz der GN-Methode
Wahl des inneren Optimierers: Muon übertrifft AdamW als innerer Optimierer

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Etablierung von Leistungsgrenzen: Die vollständige GN-Methode bietet ein klares Leistungsziel für die Optimierung zweiter Ordnung
Strukturelle Bedeutung: Die schichtweise Hessian-Struktur enthält ausreichende Informationen zur Realisierung der meisten Gewinne
Approximationseffektivität: Es besteht ein erheblicher Leistungsunterschied zwischen aktuellen Approximationsmethoden und idealisiertem schichtweisem Orakel

Einschränkungen

Rechnerische Kosten: Die aktuelle Implementierung ist 4-5 mal langsamer als das Standardtraining
Skalierungsbeschränkungen: Experimente sind auf Modelle mit 150M Parametern beschränkt
Praktikabilität: Dient hauptsächlich als Analysetool statt als direkter praktischer Optimierer

Zukünftige Richtungen

Effiziente Implementierung: Entwicklung rechnerisch effizienter exakter Methoden zweiter Ordnung
Bessere Approximationen: Verbesserung schichtweiser Hessian-Approximationsmethoden
Skalierungserweiterung: Validierung der Erkenntnisse auf größeren Modellen

Tiefgreifende Bewertung

Stärken

Theoretische Tiefe: Bietet wichtige theoretische Einsichten in die Leistungsgrenzen der Optimierung zweiter Ordnung
Experimentelle Strenge: Umfangreiche Hyperparameter-Suche und mehrere Regularisierungsstrategien
Praktischer Wert: Bietet klare Ziele zur Verbesserung bestehender Methoden zweiter Ordnung
Methodische Innovation: Geschickte Verwendung von JVPs zur Vermeidung expliziter Hessian-Speicherung

Mängel

Rechnerische Kosten: Hohe Rechenkosten begrenzen praktische Anwendungen
Skalierungsbeschränkungen: Nicht auf echten großen LLMs validiert
Theoretische Analyse: Mangelnde tiefgreifende theoretische Erklärung, warum schichtweise Approximationen so wirksam sind

Einflussfähigkeit

Akademischer Beitrag: Bietet wichtige Benchmarks für die Forschung zur Optimierung zweiter Ordnung
Praktische Anleitung: Zeigt Richtungen zur Verbesserung bestehender Methoden auf
Methodologischer Wert: Etabliert einen neuen Rahmen zur Bewertung von Methoden zweiter Ordnung

Anwendungsszenarien

Theoretische Analyse von Optimierungsmethoden zweiter Ordnung
Leistungs-Benchmarks für neue Optimierungsalgorithmen
Optimierungsauswahl für Szenarien mit großen Batch-Größen

Literaturverzeichnis

Diese Arbeit zitiert wichtige Arbeiten im Bereich der Optimierung, darunter:

Martens (2010): Bahnbrechende Arbeiten zur Hessian-freien Optimierung
Gupta et al. (2018): Shampoo-Optimierer
Jordan et al. (2024): Muon-Optimierer
Vyas et al. (2025): SOAP-Optimierer

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge Experimente die Leistungsgrenzen der Optimierung zweiter Ordnung beim LLM-Training etabliert und wichtige theoretische Einsichten sowie praktische Anleitung für das Feld bietet. Trotz Rechenkosten und Skalierungsbeschränkungen sind sein akademischer Wert und seine Orientierungsbedeutung für zukünftige Forschung erheblich.