2025-11-16T03:28:12.300331

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Abreu, Vyas, Kakade et al.

Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.

academic

Il Potenziale dell'Ottimizzazione del Secondo Ordine per gli LLM: Uno Studio con Gauss-Newton Completo

Informazioni Fondamentali

ID Articolo: 2510.09378
Titolo: The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Autori: Natalie Abreu (Harvard), Nikhil Vyas (Harvard/OpenAI), Sham Kakade (Harvard), Depen Morwani (Harvard)
Classificazione: cs.LG cs.AI
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.09378

Riassunto

Questo articolo esamina quanto le approssimazioni computazionalmente efficienti dei metodi di ottimizzazione del secondo ordine esistenti perdano in termini di prestazioni durante il preaddestramento dei modelli di linguaggio di grandi dimensioni (LLM). Gli autori stabiliscono limiti superiori pratici sulla complessità iterativa applicando il precondizionamento Gauss-Newton (GN) completo su un modello Transformer con 150M parametri. Gli esperimenti dimostrano che gli aggiornamenti GN completi raggiungono una riduzione di 5,4 volte nelle iterazioni di addestramento rispetto a forti baseline come SOAP e Muon. Inoltre, il precondizionatore GN esatto per strato, che ignora le informazioni tra strati, raggiunge prestazioni quasi equivalenti al metodo GN completo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con la crescente domanda computazionale degli LLM, il miglioramento dei metodi di ottimizzazione è diventato una strategia centrale per aumentare l'efficienza dell'addestramento. Sebbene i metodi del primo ordine (come SGD e Adam) siano ampiamente utilizzati, i metodi del secondo ordine possiedono teoricamente velocità di convergenza più rapide e migliore scalabilità con batch di grandi dimensioni.

Motivazione della Ricerca

Limitazioni dei metodi del secondo ordine esistenti: Gli ottimizzatori del secondo ordine attuali (come Shampoo, SOAP, Muon) utilizzano approssimazioni dell'Hessiano per mantenere la fattibilità computazionale, ma rimane poco chiaro quanto queste approssimazioni degradino le prestazioni.
Divario tra teoria e pratica: Sebbene i metodi del secondo ordine siano teoricamente superiori, l'elevato costo di archiviazione e calcolo dell'Hessiano completo rende necessario l'uso di metodi approssimati nelle applicazioni pratiche.
Domanda di ricerca centrale: "Quali sono i limiti fondamentali di prestazione dell'ottimizzazione del secondo ordine negli LLM? Quali proprietà strutturali dell'Hessiano sono necessarie per raggiungere questi limiti?"

Contributi Principali

Stabilimento di limiti di prestazione: Attraverso il metodo Gauss-Newton completo, viene stabilito un limite superiore pratico per l'ottimizzazione del secondo ordine, raggiungendo un miglioramento di 5,4 volte nella complessità iterativa rispetto a SOAP.
Rivelazione di strutture critiche: Si scopre che la struttura Hessiana per strato contiene informazioni sufficienti per realizzare la maggior parte dei guadagni di prestazione, con importanza limitata delle informazioni di curvatura tra strati.
Intuizioni teoriche: Si dimostra che l'approssimazione GN è altamente efficace per il precondizionamento, suggerendo che i termini di perdita di ordine superiore potrebbero non essere critici per la velocità di convergenza.
Scalabilità della dimensione del batch: Estende significativamente la dimensione critica del batch, dimostrando prestazioni di scalabilità quasi ottimali.

Dettagli del Metodo

Definizione del Compito

Dato il parametro del modello θ, l'input x e l'etichetta y, si definisce la funzione di perdita L(f(θ,x), y). L'obiettivo è minimizzare la perdita attesa, con focus sulla complessità iterativa (numero di passi necessari per raggiungere la perdita target).

Principi del Metodo Gauss-Newton

Fondamenti Matematici

La matrice Hessiana completa può essere decomposta come:

∇²θL(θ) = ∇θf(θ)ᵀ∇²zL(θ)∇θf(θ) + Σₐ(δL/δzₐ)∇²θ[f(θ)]ₐ

dove il primo termine è la matrice Gauss-Newton G e il secondo termine rappresenta la curvatura del modello.

Implementazione dell'Algoritmo

Algoritmo 1: Metodo Gauss-Newton

Eseguire l'espansione di Taylor del primo ordine del modello: f⁽¹⁾θₜ(θ,x) := f(θₜ,x) + ∇f(θₜ,x)ᵀ(θ-θₜ)
Convessificare la perdita: L̃θₜ(θ) := (1/b)Σ₍ₓ,ᵧ₎∈B ℓ(f⁽¹⁾θₜ(θ,x), y)
Costruire l'approssimazione di Taylor del secondo ordine: L̃⁽²⁾θₜ(θ)
Risolvere il problema dei minimi quadrati: θ̂ = argminθ L̃⁽²⁾θₜ(θ)
Ricerca lineare: θₜ₊₁ ← θₜ + α*(θ̂ - θₜ)

Implementazione Fattibile in Memoria

Per evitare l'archiviazione esplicita della matrice Hessiana, si utilizzano prodotti Jacobiano-vettore (JVP) per implementare un metodo funzionalmente equivalente. L'idea centrale è ottimizzare l'approssimazione di Taylor del secondo ordine della perdita L e l'approssimazione di Taylor del primo ordine del modello f.

Metodi Varianti

Metodo GN-prox-linear

Minimizzare direttamente la perdita sul modello linearizzato: θ* = argminθ L̃θₜ(θ), utilizzato per studiare l'impatto dei termini di perdita di ordine superiore.

Gauss-Newton per Strato

Per ogni strato l indipendentemente:

Calcolare l'espansione di Taylor del primo ordine per quello strato f⁽¹⁾θₗ,ₜ(θₗ)
Risolvere: θₗ,ₜ₊₁ = argminθₗ L̃⁽²⁾θₗ,ₜ(θₗ)
Combinare gli aggiornamenti di tutti gli strati e applicare la ricerca lineare

Configurazione Sperimentale

Dataset e Modelli

Modelli: Architettura LLaMA con 45M e 150M parametri
Dataset: Dataset C4
Lunghezza della sequenza: 1024

Metodi di Base

AdamW: L'ottimizzatore più ampiamente utilizzato per gli LLM
Muon: Metodo che utilizza l'ortogonalizzazione Newton-Schulz
SOAP: Variante più recente di Shampoo

Configurazione Sperimentale

Ottimizzatore interno: Utilizzo di Muon per risolvere il problema dei minimi quadrati
Dimensione del batch: Controllata tramite accumulo di gradienti, bᵢₙₜₑᵣₙₒ = 32(45M) / 128(150M)
Pianificazione del tasso di apprendimento: Tre strategie - coseno globale, coseno globale + interno, coseno costante + interno
Regolarizzazione: Decadimento dei pesi, ricerca lineare e altre strategie multiple

Risultati Sperimentali

Risultati Principali

Complessità Iterativa

Nell'esperimento per raggiungere una perdita di 3,25:

Gauss-Newton: 54 passi
SOAP: 292 passi (differenza di 5,4 volte)
Muon: circa 16 volte di differenza
GN per strato: 78 passi (differenza di soli 1,4 volte)

Scalabilità della Dimensione del Batch

Nell'addestramento con 3B token fissi:

Gauss-Newton mantiene buone prestazioni anche con dimensione batch di 120M (perdita 3,45)
AdamW mostra grave degradazione delle prestazioni alla stessa dimensione batch (perdita >4,4)
La dimensione critica del batch è significativamente estesa, seguendo un andamento di scalabilità quasi ottimale

Esperimenti di Ablazione

GN vs GN-prox-linear

I due metodi mostrano prestazioni quasi identiche, indicando che i termini di perdita di ordine superiore contribuiscono in modo limitato al miglioramento delle prestazioni.

GN Completo vs GN per Strato

Il metodo per strato raggiunge prestazioni vicine al GN completo nella maggior parte delle configurazioni, suggerendo che l'importanza delle informazioni di curvatura tra strati è limitata.

Scoperte Chiave

Importanza della pianificazione del tasso di apprendimento: La pianificazione coseno globale mostra le migliori prestazioni con batch di piccole e medie dimensioni
Necessità della ricerca lineare: Critica per la convergenza stabile del metodo GN
Scelta dell'ottimizzatore interno: Muon supera AdamW come ottimizzatore interno

Lavori Correlati

Metodi di Ottimizzazione del Secondo Ordine

Ottimizzazione Hessian-free: Metodo del gradiente coniugato proposto da Martens (2010)
Approssimazioni Hessiane diagonali: Metodi leggeri come AdaHessian e Sophia
Approssimazioni per strato: Idea centrale della serie di metodi Shampoo

Sviluppo degli Ottimizzatori per LLM

Metodi tradizionali: SGD, serie Adam
Metodi moderni del secondo ordine: Shampoo ha vinto nella competizione AlgoPerf con il 28% di miglioramento
Metodi specializzati: Muon e SOAP progettati specificamente per gli LLM

Conclusioni e Discussione

Conclusioni Principali

Stabilimento di limiti di prestazione: Il metodo GN completo fornisce un obiettivo di prestazione chiaro per l'ottimizzazione del secondo ordine
Importanza della struttura: La struttura Hessiana per strato contiene informazioni sufficienti per realizzare la maggior parte dei guadagni
Efficacia dell'approssimazione: Esiste un divario di prestazione significativo tra i metodi approssimati attuali e l'oracolo per strato idealizzato

Limitazioni

Costo computazionale: L'implementazione attuale è 4-5 volte più lenta dell'addestramento standard
Limitazioni di scala: Gli esperimenti sono limitati a modelli con 150M parametri
Praticità: Principalmente uno strumento di analisi piuttosto che un ottimizzatore direttamente pratico

Direzioni Future

Implementazione efficiente: Sviluppare metodi del secondo ordine esatti computazionalmente efficienti
Approssimazioni migliori: Migliorare i metodi di approssimazione Hessiana per strato
Scalabilità: Verificare le scoperte su modelli più grandi

Valutazione Approfondita

Punti di Forza

Profondità teorica: Fornisce importanti intuizioni teoriche sui limiti di prestazione dell'ottimizzazione del secondo ordine
Rigore sperimentale: Ricerca estesa di iperparametri e strategie di regolarizzazione multiple
Valore pratico: Fornisce obiettivi chiari per il miglioramento dei metodi del secondo ordine esistenti
Innovazione metodologica: Utilizzo intelligente dei JVP per evitare l'archiviazione esplicita dell'Hessiano

Insufficienze

Costo computazionale: L'elevato costo computazionale limita l'applicazione pratica
Limitazioni di scala: Non verificato su veri LLM di grande scala
Analisi teorica: Manca una spiegazione teorica approfondita del perché l'approssimazione per strato sia così efficace

Impatto

Contributo accademico: Fornisce un benchmark importante per la ricerca sull'ottimizzazione del secondo ordine
Guida pratica: Indica chiaramente le direzioni per il miglioramento dei metodi esistenti
Valore metodologico: Stabilisce un nuovo framework per la valutazione dei metodi del secondo ordine

Scenari Applicabili

Analisi teorica dei metodi di ottimizzazione del secondo ordine
Benchmark di prestazione per nuovi algoritmi di ottimizzazione
Scelte di ottimizzazione per scenari di addestramento con batch di grandi dimensioni

Bibliografia

Questo articolo cita importanti lavori nel campo dell'ottimizzazione, inclusi:

Martens (2010): Lavoro pioneristico sull'ottimizzazione Hessian-free
Gupta et al. (2018): Ottimizzatore Shampoo
Jordan et al. (2024): Ottimizzatore Muon
Vyas et al. (2025): Ottimizzatore SOAP

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che, attraverso esperimenti rigorosi, stabilisce i limiti di prestazione dell'ottimizzazione del secondo ordine nell'addestramento degli LLM, fornendo importanti intuizioni teoriche e guida pratica al campo. Nonostante i costi computazionali e le limitazioni di scala, il suo valore accademico e il significato orientativo per la ricerca futura sono considerevoli.