2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
academic

Das Potenzial der Optimierung zweiter Ordnung für LLMs: Eine Studie mit vollständigem Gauss-Newton

Grundlegende Informationen

  • Paper-ID: 2510.09378
  • Titel: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
  • Autoren: Natalie Abreu (Harvard), Nikhil Vyas (Harvard/OpenAI), Sham Kakade (Harvard), Depen Morwani (Harvard)
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.09378

Zusammenfassung

Diese Arbeit untersucht, wie viel Leistung durch rechnerisch effiziente Approximationen bestehender Optimierungsmethoden zweiter Ordnung beim Vortraining großer Sprachmodelle (LLMs) verloren geht. Die Autoren etablieren praktische obere Grenzen der Iterationskomplexität durch Anwendung der vollständigen Gauss-Newton (GN) Vorkonditionierung auf ein Transformer-Modell mit 150M Parametern. Experimente zeigen, dass vollständige GN-Updates im Vergleich zu starken Baselines wie SOAP und Muon eine 5,4-fache Reduktion der Trainingsiterationen erreichen. Darüber hinaus erreicht die präzise schichtweise GN-Vorkonditionierung, die schichtübergreifende Informationen ignoriert, nahezu die Leistung der vollständigen GN-Methode.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem kontinuierlichen Wachstum der Rechenanforderungen von LLMs ist die Verbesserung von Optimierungsmethoden zu einer Kernstrategie zur Steigerung der Trainingseffizienz geworden. Obwohl traditionelle Methoden erster Ordnung (wie SGD und Adam) weit verbreitet sind, weisen Methoden zweiter Ordnung theoretisch schnellere Konvergenzgeschwindigkeit und bessere Skalierbarkeit bei großen Batch-Größen auf.

Forschungsmotivation

  1. Einschränkungen bestehender Methoden zweiter Ordnung: Aktuelle Optimierer zweiter Ordnung (wie Shampoo, SOAP, Muon) verwenden Approximationen der Hessian-Matrix, um rechnerisch machbar zu bleiben, aber es ist unklar, wie viel Leistung durch diese Approximationen verloren geht.
  2. Kluft zwischen Theorie und Praxis: Obwohl Methoden zweiter Ordnung theoretisch überlegen sind, müssen in der praktischen Anwendung aufgrund der hohen Speicher- und Rechenkosten der vollständigen Hessian-Matrix Approximationsmethoden verwendet werden.
  3. Kernforschungsfrage: "Was sind die grundlegenden Leistungsgrenzen der Optimierung zweiter Ordnung bei LLMs? Welche strukturellen Eigenschaften der Hessian-Matrix sind notwendig, um diese Grenzen zu erreichen?"

Kernbeiträge

  1. Etablierung von Leistungsgrenzen: Durch die vollständige Gauss-Newton-Methode werden praktische Leistungsgrenzen für die Optimierung zweiter Ordnung etabliert, mit einer 5,4-fachen Verbesserung der Iterationskomplexität im Vergleich zu SOAP.
  2. Offenlegung kritischer Strukturen: Es wird festgestellt, dass die schichtweise Hessian-Struktur ausreichende Informationen zur Realisierung der meisten Leistungssteigerungen enthält und die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.
  3. Theoretische Einsichten: Es wird nachgewiesen, dass die GN-Approximation für die Vorkonditionierung hochgradig wirksam ist, was darauf hindeutet, dass höherordnige Verlustterme möglicherweise nicht kritisch für die Konvergenzgeschwindigkeit sind.
  4. Skalierung der Batch-Größe: Die kritische Batch-Größe wird erheblich erweitert und zeigt nahezu optimale Skalierungsleistung.

Methodische Details

Aufgabendefinition

Gegeben sind Modellparameter θ, Eingabe x und Label y, wobei die Verlustfunktion L(f(θ,x), y) definiert wird. Das Ziel ist die Minimierung des erwarteten Verlusts mit Fokus auf die Iterationskomplexität (Anzahl der Schritte zur Erreichung des Zielverlusts).

Prinzipien der Gauss-Newton-Methode

Mathematische Grundlagen

Die vollständige Hessian-Matrix kann wie folgt zerlegt werden:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

wobei der erste Term die Gauss-Newton-Matrix G ist und der zweite Term die Krümmung des Modells darstellt.

Algorithmus-Implementierung

Algorithmus 1: Gauss-Newton-Methode

  1. Durchführung einer Taylorentwicklung erster Ordnung des Modells: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
  2. Konvexifizierung des Verlusts: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
  3. Konstruktion einer Taylorapproximation zweiter Ordnung: L̃⁽²⁾θₜ(θ)
  4. Lösung des Kleinste-Quadrate-Problems: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
  5. Liniensuche: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

Speichereffiziente Implementierung

Um die explizite Speicherung der Hessian-Matrix zu vermeiden, werden Jacobian-Vektor-Produkte (JVPs) verwendet, um eine funktional äquivalente Methode zu implementieren. Die Kernidee besteht darin, die Taylorapproximation zweiter Ordnung der Verlustfunktion L und die Taylorapproximation erster Ordnung des Modells f zu optimieren.

Varianten-Methoden

GN-prox-linear-Methode

Direkte Minimierung des Verlusts auf dem linearisierten Modell: θ* = argminθ L̃θₜ(θ), um die Auswirkungen höherordniger Verlustterme zu untersuchen.

Schichtweise Gauss-Newton

Für jede Schicht l unabhängig:

  1. Berechnung der Taylorentwicklung erster Ordnung dieser Schicht f⁽¹⁾θₗ,ₜ(θₗ)
  2. Lösung: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
  3. Zusammenführung aller Schicht-Updates und Anwendung der Liniensuche

Experimentelle Einrichtung

Datensätze und Modelle

  • Modelle: 45M und 150M Parameter LLaMA-Architektur
  • Datensatz: C4-Datensatz
  • Sequenzlänge: 1024

Baseline-Methoden

  • AdamW: Der am weitesten verbreitete LLM-Optimierer
  • Muon: Methode mit Newton-Schulz-Orthogonalisierung
  • SOAP: Neueste Variante von Shampoo

Experimentelle Konfiguration

  • Innerer Optimierer: Verwendung von Muon zur Lösung des Kleinste-Quadrate-Problems
  • Batch-Größe: Durch Gradient-Akkumulation gesteuert, bᵢₙₙₑᵣ = 32(45M) / 128(150M)
  • Lernrate-Planung: Drei Strategien: globale Kosinus-, globale+innere Kosinus- und konstante+innere Kosinus-Planung
  • Regularisierung: Gewichtsabfall, Liniensuche und mehrere andere Strategien

Experimentelle Ergebnisse

Hauptergebnisse

Iterationskomplexität

Im Experiment zur Erreichung eines Verlusts von 3,25:

  • Gauss-Newton: 54 Schritte
  • SOAP: 292 Schritte (5,4-facher Unterschied)
  • Muon: Etwa 16-facher Unterschied
  • Schichtweise GN: 78 Schritte (nur 1,4-facher Unterschied)

Skalierung der Batch-Größe

Bei festem Training mit 3B Token:

  • Gauss-Newton behält bei einer Batch-Größe von 120M gute Leistung bei (Verlust 3,45)
  • AdamW zeigt bei gleicher Batch-Größe schwerwiegende Leistungsverschlechterung (Verlust >4,4)
  • Kritische Batch-Größe wird erheblich erweitert und nähert sich dem optimalen Skalierungstrend

Ablationsstudien

GN vs. GN-prox-linear

Beide Methoden zeigen nahezu identische Leistung, was darauf hindeutet, dass höherordnige Verlustterme einen begrenzten Beitrag zur Leistungssteigerung leisten.

Vollständige GN vs. Schichtweise GN

Die schichtweise Methode erreicht in den meisten Einstellungen nahezu die Leistung der vollständigen GN, was zeigt, dass die Bedeutung schichtübergreifender Krümmungsinformationen begrenzt ist.

Wichtigste Erkenntnisse

  1. Bedeutung der Lernrate-Planung: Die globale Kosinus-Planung zeigt bei mittleren bis kleinen Batch-Größen die beste Leistung
  2. Notwendigkeit der Liniensuche: Kritisch für die stabile Konvergenz der GN-Methode
  3. Wahl des inneren Optimierers: Muon übertrifft AdamW als innerer Optimierer

Verwandte Arbeiten

Optimierungsmethoden zweiter Ordnung

  • Hessian-freie Optimierung: Von Martens (2010) vorgeschlagene Konjugiert-Gradienten-Methode
  • Diagonale Hessian-Approximationen: Leichte Methoden wie AdaHessian und Sophia
  • Schichtweise Approximationen: Kernidee der Shampoo-Methodenfamilie

Entwicklung von LLM-Optimierern

  • Traditionelle Methoden: SGD, Adam-Familie
  • Moderne Methoden zweiter Ordnung: Shampoo gewann im AlgoPerf-Wettbewerb mit 28% Vorsprung
  • Spezialisierte Methoden: Für LLMs entwickelte Methoden wie Muon und SOAP

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Etablierung von Leistungsgrenzen: Die vollständige GN-Methode bietet ein klares Leistungsziel für die Optimierung zweiter Ordnung
  2. Strukturelle Bedeutung: Die schichtweise Hessian-Struktur enthält ausreichende Informationen zur Realisierung der meisten Gewinne
  3. Approximationseffektivität: Es besteht ein erheblicher Leistungsunterschied zwischen aktuellen Approximationsmethoden und idealisiertem schichtweisem Orakel

Einschränkungen

  1. Rechnerische Kosten: Die aktuelle Implementierung ist 4-5 mal langsamer als das Standardtraining
  2. Skalierungsbeschränkungen: Experimente sind auf Modelle mit 150M Parametern beschränkt
  3. Praktikabilität: Dient hauptsächlich als Analysetool statt als direkter praktischer Optimierer

Zukünftige Richtungen

  1. Effiziente Implementierung: Entwicklung rechnerisch effizienter exakter Methoden zweiter Ordnung
  2. Bessere Approximationen: Verbesserung schichtweiser Hessian-Approximationsmethoden
  3. Skalierungserweiterung: Validierung der Erkenntnisse auf größeren Modellen

Tiefgreifende Bewertung

Stärken

  1. Theoretische Tiefe: Bietet wichtige theoretische Einsichten in die Leistungsgrenzen der Optimierung zweiter Ordnung
  2. Experimentelle Strenge: Umfangreiche Hyperparameter-Suche und mehrere Regularisierungsstrategien
  3. Praktischer Wert: Bietet klare Ziele zur Verbesserung bestehender Methoden zweiter Ordnung
  4. Methodische Innovation: Geschickte Verwendung von JVPs zur Vermeidung expliziter Hessian-Speicherung

Mängel

  1. Rechnerische Kosten: Hohe Rechenkosten begrenzen praktische Anwendungen
  2. Skalierungsbeschränkungen: Nicht auf echten großen LLMs validiert
  3. Theoretische Analyse: Mangelnde tiefgreifende theoretische Erklärung, warum schichtweise Approximationen so wirksam sind

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet wichtige Benchmarks für die Forschung zur Optimierung zweiter Ordnung
  2. Praktische Anleitung: Zeigt Richtungen zur Verbesserung bestehender Methoden auf
  3. Methodologischer Wert: Etabliert einen neuen Rahmen zur Bewertung von Methoden zweiter Ordnung

Anwendungsszenarien

  • Theoretische Analyse von Optimierungsmethoden zweiter Ordnung
  • Leistungs-Benchmarks für neue Optimierungsalgorithmen
  • Optimierungsauswahl für Szenarien mit großen Batch-Größen

Literaturverzeichnis

Diese Arbeit zitiert wichtige Arbeiten im Bereich der Optimierung, darunter:

  • Martens (2010): Bahnbrechende Arbeiten zur Hessian-freien Optimierung
  • Gupta et al. (2018): Shampoo-Optimierer
  • Jordan et al. (2024): Muon-Optimierer
  • Vyas et al. (2025): SOAP-Optimierer

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das durch strenge Experimente die Leistungsgrenzen der Optimierung zweiter Ordnung beim LLM-Training etabliert und wichtige theoretische Einsichten sowie praktische Anleitung für das Feld bietet. Trotz Rechenkosten und Skalierungsbeschränkungen sind sein akademischer Wert und seine Orientierungsbedeutung für zukünftige Forschung erheblich.