The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
academic
Il Potenziale dell'Ottimizzazione del Secondo Ordine per gli LLM: Uno Studio con Gauss-Newton Completo
Questo articolo esamina quanto le approssimazioni computazionalmente efficienti dei metodi di ottimizzazione del secondo ordine esistenti perdano in termini di prestazioni durante il preaddestramento dei modelli di linguaggio di grandi dimensioni (LLM). Gli autori stabiliscono limiti superiori pratici sulla complessità iterativa applicando il precondizionamento Gauss-Newton (GN) completo su un modello Transformer con 150M parametri. Gli esperimenti dimostrano che gli aggiornamenti GN completi raggiungono una riduzione di 5,4 volte nelle iterazioni di addestramento rispetto a forti baseline come SOAP e Muon. Inoltre, il precondizionatore GN esatto per strato, che ignora le informazioni tra strati, raggiunge prestazioni quasi equivalenti al metodo GN completo.
Con la crescente domanda computazionale degli LLM, il miglioramento dei metodi di ottimizzazione è diventato una strategia centrale per aumentare l'efficienza dell'addestramento. Sebbene i metodi del primo ordine (come SGD e Adam) siano ampiamente utilizzati, i metodi del secondo ordine possiedono teoricamente velocità di convergenza più rapide e migliore scalabilità con batch di grandi dimensioni.
Limitazioni dei metodi del secondo ordine esistenti: Gli ottimizzatori del secondo ordine attuali (come Shampoo, SOAP, Muon) utilizzano approssimazioni dell'Hessiano per mantenere la fattibilità computazionale, ma rimane poco chiaro quanto queste approssimazioni degradino le prestazioni.
Divario tra teoria e pratica: Sebbene i metodi del secondo ordine siano teoricamente superiori, l'elevato costo di archiviazione e calcolo dell'Hessiano completo rende necessario l'uso di metodi approssimati nelle applicazioni pratiche.
Domanda di ricerca centrale: "Quali sono i limiti fondamentali di prestazione dell'ottimizzazione del secondo ordine negli LLM? Quali proprietà strutturali dell'Hessiano sono necessarie per raggiungere questi limiti?"
Stabilimento di limiti di prestazione: Attraverso il metodo Gauss-Newton completo, viene stabilito un limite superiore pratico per l'ottimizzazione del secondo ordine, raggiungendo un miglioramento di 5,4 volte nella complessità iterativa rispetto a SOAP.
Rivelazione di strutture critiche: Si scopre che la struttura Hessiana per strato contiene informazioni sufficienti per realizzare la maggior parte dei guadagni di prestazione, con importanza limitata delle informazioni di curvatura tra strati.
Intuizioni teoriche: Si dimostra che l'approssimazione GN è altamente efficace per il precondizionamento, suggerendo che i termini di perdita di ordine superiore potrebbero non essere critici per la velocità di convergenza.
Scalabilità della dimensione del batch: Estende significativamente la dimensione critica del batch, dimostrando prestazioni di scalabilità quasi ottimali.
Dato il parametro del modello θ, l'input x e l'etichetta y, si definisce la funzione di perdita L(f(θ,x), y). L'obiettivo è minimizzare la perdita attesa, con focus sulla complessità iterativa (numero di passi necessari per raggiungere la perdita target).
Per evitare l'archiviazione esplicita della matrice Hessiana, si utilizzano prodotti Jacobiano-vettore (JVP) per implementare un metodo funzionalmente equivalente. L'idea centrale è ottimizzare l'approssimazione di Taylor del secondo ordine della perdita L e l'approssimazione di Taylor del primo ordine del modello f.
Minimizzare direttamente la perdita sul modello linearizzato: θ* = argminθ L̃θₜ(θ), utilizzato per studiare l'impatto dei termini di perdita di ordine superiore.
I due metodi mostrano prestazioni quasi identiche, indicando che i termini di perdita di ordine superiore contribuiscono in modo limitato al miglioramento delle prestazioni.
Il metodo per strato raggiunge prestazioni vicine al GN completo nella maggior parte delle configurazioni, suggerendo che l'importanza delle informazioni di curvatura tra strati è limitata.
Importanza della pianificazione del tasso di apprendimento: La pianificazione coseno globale mostra le migliori prestazioni con batch di piccole e medie dimensioni
Necessità della ricerca lineare: Critica per la convergenza stabile del metodo GN
Scelta dell'ottimizzatore interno: Muon supera AdamW come ottimizzatore interno
Questo articolo cita importanti lavori nel campo dell'ottimizzazione, inclusi:
Martens (2010): Lavoro pioneristico sull'ottimizzazione Hessian-free
Gupta et al. (2018): Ottimizzatore Shampoo
Jordan et al. (2024): Ottimizzatore Muon
Vyas et al. (2025): Ottimizzatore SOAP
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che, attraverso esperimenti rigorosi, stabilisce i limiti di prestazione dell'ottimizzazione del secondo ordine nell'addestramento degli LLM, fornendo importanti intuizioni teoriche e guida pratica al campo. Nonostante i costi computazionali e le limitazioni di scala, il suo valore accademico e il significato orientativo per la ricerca futura sono considerevoli.