2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
academic

Il Potenziale dell'Ottimizzazione del Secondo Ordine per gli LLM: Uno Studio con Gauss-Newton Completo

Informazioni Fondamentali

  • ID Articolo: 2510.09378
  • Titolo: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
  • Autori: Natalie Abreu (Harvard), Nikhil Vyas (Harvard/OpenAI), Sham Kakade (Harvard), Depen Morwani (Harvard)
  • Classificazione: cs.LG cs.AI
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.09378

Riassunto

Questo articolo esamina quanto le approssimazioni computazionalmente efficienti dei metodi di ottimizzazione del secondo ordine esistenti perdano in termini di prestazioni durante il preaddestramento dei modelli di linguaggio di grandi dimensioni (LLM). Gli autori stabiliscono limiti superiori pratici sulla complessità iterativa applicando il precondizionamento Gauss-Newton (GN) completo su un modello Transformer con 150M parametri. Gli esperimenti dimostrano che gli aggiornamenti GN completi raggiungono una riduzione di 5,4 volte nelle iterazioni di addestramento rispetto a forti baseline come SOAP e Muon. Inoltre, il precondizionatore GN esatto per strato, che ignora le informazioni tra strati, raggiunge prestazioni quasi equivalenti al metodo GN completo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con la crescente domanda computazionale degli LLM, il miglioramento dei metodi di ottimizzazione è diventato una strategia centrale per aumentare l'efficienza dell'addestramento. Sebbene i metodi del primo ordine (come SGD e Adam) siano ampiamente utilizzati, i metodi del secondo ordine possiedono teoricamente velocità di convergenza più rapide e migliore scalabilità con batch di grandi dimensioni.

Motivazione della Ricerca

  1. Limitazioni dei metodi del secondo ordine esistenti: Gli ottimizzatori del secondo ordine attuali (come Shampoo, SOAP, Muon) utilizzano approssimazioni dell'Hessiano per mantenere la fattibilità computazionale, ma rimane poco chiaro quanto queste approssimazioni degradino le prestazioni.
  2. Divario tra teoria e pratica: Sebbene i metodi del secondo ordine siano teoricamente superiori, l'elevato costo di archiviazione e calcolo dell'Hessiano completo rende necessario l'uso di metodi approssimati nelle applicazioni pratiche.
  3. Domanda di ricerca centrale: "Quali sono i limiti fondamentali di prestazione dell'ottimizzazione del secondo ordine negli LLM? Quali proprietà strutturali dell'Hessiano sono necessarie per raggiungere questi limiti?"

Contributi Principali

  1. Stabilimento di limiti di prestazione: Attraverso il metodo Gauss-Newton completo, viene stabilito un limite superiore pratico per l'ottimizzazione del secondo ordine, raggiungendo un miglioramento di 5,4 volte nella complessità iterativa rispetto a SOAP.
  2. Rivelazione di strutture critiche: Si scopre che la struttura Hessiana per strato contiene informazioni sufficienti per realizzare la maggior parte dei guadagni di prestazione, con importanza limitata delle informazioni di curvatura tra strati.
  3. Intuizioni teoriche: Si dimostra che l'approssimazione GN è altamente efficace per il precondizionamento, suggerendo che i termini di perdita di ordine superiore potrebbero non essere critici per la velocità di convergenza.
  4. Scalabilità della dimensione del batch: Estende significativamente la dimensione critica del batch, dimostrando prestazioni di scalabilità quasi ottimali.

Dettagli del Metodo

Definizione del Compito

Dato il parametro del modello θ, l'input x e l'etichetta y, si definisce la funzione di perdita L(f(θ,x), y). L'obiettivo è minimizzare la perdita attesa, con focus sulla complessità iterativa (numero di passi necessari per raggiungere la perdita target).

Principi del Metodo Gauss-Newton

Fondamenti Matematici

La matrice Hessiana completa può essere decomposta come:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

dove il primo termine è la matrice Gauss-Newton G e il secondo termine rappresenta la curvatura del modello.

Implementazione dell'Algoritmo

Algoritmo 1: Metodo Gauss-Newton

  1. Eseguire l'espansione di Taylor del primo ordine del modello: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
  2. Convessificare la perdita: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
  3. Costruire l'approssimazione di Taylor del secondo ordine: L̃⁽²⁾θₜ(θ)
  4. Risolvere il problema dei minimi quadrati: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
  5. Ricerca lineare: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

Implementazione Fattibile in Memoria

Per evitare l'archiviazione esplicita della matrice Hessiana, si utilizzano prodotti Jacobiano-vettore (JVP) per implementare un metodo funzionalmente equivalente. L'idea centrale è ottimizzare l'approssimazione di Taylor del secondo ordine della perdita L e l'approssimazione di Taylor del primo ordine del modello f.

Metodi Varianti

Metodo GN-prox-linear

Minimizzare direttamente la perdita sul modello linearizzato: θ* = argminθ L̃θₜ(θ), utilizzato per studiare l'impatto dei termini di perdita di ordine superiore.

Gauss-Newton per Strato

Per ogni strato l indipendentemente:

  1. Calcolare l'espansione di Taylor del primo ordine per quello strato f⁽¹⁾θₗ,ₜ(θₗ)
  2. Risolvere: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
  3. Combinare gli aggiornamenti di tutti gli strati e applicare la ricerca lineare

Configurazione Sperimentale

Dataset e Modelli

  • Modelli: Architettura LLaMA con 45M e 150M parametri
  • Dataset: Dataset C4
  • Lunghezza della sequenza: 1024

Metodi di Base

  • AdamW: L'ottimizzatore più ampiamente utilizzato per gli LLM
  • Muon: Metodo che utilizza l'ortogonalizzazione Newton-Schulz
  • SOAP: Variante più recente di Shampoo

Configurazione Sperimentale

  • Ottimizzatore interno: Utilizzo di Muon per risolvere il problema dei minimi quadrati
  • Dimensione del batch: Controllata tramite accumulo di gradienti, bᵢₙₜₑᵣₙₒ = 32(45M) / 128(150M)
  • Pianificazione del tasso di apprendimento: Tre strategie - coseno globale, coseno globale + interno, coseno costante + interno
  • Regolarizzazione: Decadimento dei pesi, ricerca lineare e altre strategie multiple

Risultati Sperimentali

Risultati Principali

Complessità Iterativa

Nell'esperimento per raggiungere una perdita di 3,25:

  • Gauss-Newton: 54 passi
  • SOAP: 292 passi (differenza di 5,4 volte)
  • Muon: circa 16 volte di differenza
  • GN per strato: 78 passi (differenza di soli 1,4 volte)

Scalabilità della Dimensione del Batch

Nell'addestramento con 3B token fissi:

  • Gauss-Newton mantiene buone prestazioni anche con dimensione batch di 120M (perdita 3,45)
  • AdamW mostra grave degradazione delle prestazioni alla stessa dimensione batch (perdita >4,4)
  • La dimensione critica del batch è significativamente estesa, seguendo un andamento di scalabilità quasi ottimale

Esperimenti di Ablazione

GN vs GN-prox-linear

I due metodi mostrano prestazioni quasi identiche, indicando che i termini di perdita di ordine superiore contribuiscono in modo limitato al miglioramento delle prestazioni.

GN Completo vs GN per Strato

Il metodo per strato raggiunge prestazioni vicine al GN completo nella maggior parte delle configurazioni, suggerendo che l'importanza delle informazioni di curvatura tra strati è limitata.

Scoperte Chiave

  1. Importanza della pianificazione del tasso di apprendimento: La pianificazione coseno globale mostra le migliori prestazioni con batch di piccole e medie dimensioni
  2. Necessità della ricerca lineare: Critica per la convergenza stabile del metodo GN
  3. Scelta dell'ottimizzatore interno: Muon supera AdamW come ottimizzatore interno

Lavori Correlati

Metodi di Ottimizzazione del Secondo Ordine

  • Ottimizzazione Hessian-free: Metodo del gradiente coniugato proposto da Martens (2010)
  • Approssimazioni Hessiane diagonali: Metodi leggeri come AdaHessian e Sophia
  • Approssimazioni per strato: Idea centrale della serie di metodi Shampoo

Sviluppo degli Ottimizzatori per LLM

  • Metodi tradizionali: SGD, serie Adam
  • Metodi moderni del secondo ordine: Shampoo ha vinto nella competizione AlgoPerf con il 28% di miglioramento
  • Metodi specializzati: Muon e SOAP progettati specificamente per gli LLM

Conclusioni e Discussione

Conclusioni Principali

  1. Stabilimento di limiti di prestazione: Il metodo GN completo fornisce un obiettivo di prestazione chiaro per l'ottimizzazione del secondo ordine
  2. Importanza della struttura: La struttura Hessiana per strato contiene informazioni sufficienti per realizzare la maggior parte dei guadagni
  3. Efficacia dell'approssimazione: Esiste un divario di prestazione significativo tra i metodi approssimati attuali e l'oracolo per strato idealizzato

Limitazioni

  1. Costo computazionale: L'implementazione attuale è 4-5 volte più lenta dell'addestramento standard
  2. Limitazioni di scala: Gli esperimenti sono limitati a modelli con 150M parametri
  3. Praticità: Principalmente uno strumento di analisi piuttosto che un ottimizzatore direttamente pratico

Direzioni Future

  1. Implementazione efficiente: Sviluppare metodi del secondo ordine esatti computazionalmente efficienti
  2. Approssimazioni migliori: Migliorare i metodi di approssimazione Hessiana per strato
  3. Scalabilità: Verificare le scoperte su modelli più grandi

Valutazione Approfondita

Punti di Forza

  1. Profondità teorica: Fornisce importanti intuizioni teoriche sui limiti di prestazione dell'ottimizzazione del secondo ordine
  2. Rigore sperimentale: Ricerca estesa di iperparametri e strategie di regolarizzazione multiple
  3. Valore pratico: Fornisce obiettivi chiari per il miglioramento dei metodi del secondo ordine esistenti
  4. Innovazione metodologica: Utilizzo intelligente dei JVP per evitare l'archiviazione esplicita dell'Hessiano

Insufficienze

  1. Costo computazionale: L'elevato costo computazionale limita l'applicazione pratica
  2. Limitazioni di scala: Non verificato su veri LLM di grande scala
  3. Analisi teorica: Manca una spiegazione teorica approfondita del perché l'approssimazione per strato sia così efficace

Impatto

  1. Contributo accademico: Fornisce un benchmark importante per la ricerca sull'ottimizzazione del secondo ordine
  2. Guida pratica: Indica chiaramente le direzioni per il miglioramento dei metodi esistenti
  3. Valore metodologico: Stabilisce un nuovo framework per la valutazione dei metodi del secondo ordine

Scenari Applicabili

  • Analisi teorica dei metodi di ottimizzazione del secondo ordine
  • Benchmark di prestazione per nuovi algoritmi di ottimizzazione
  • Scelte di ottimizzazione per scenari di addestramento con batch di grandi dimensioni

Bibliografia

Questo articolo cita importanti lavori nel campo dell'ottimizzazione, inclusi:

  • Martens (2010): Lavoro pioneristico sull'ottimizzazione Hessian-free
  • Gupta et al. (2018): Ottimizzatore Shampoo
  • Jordan et al. (2024): Ottimizzatore Muon
  • Vyas et al. (2025): Ottimizzatore SOAP

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che, attraverso esperimenti rigorosi, stabilisce i limiti di prestazione dell'ottimizzazione del secondo ordine nell'addestramento degli LLM, fornendo importanti intuizioni teoriche e guida pratica al campo. Nonostante i costi computazionali e le limitazioni di scala, il suo valore accademico e il significato orientativo per la ricerca futura sono considerevoli.