The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton
Abreu, Vyas, Kakade et al.
Recent efforts to accelerate LLM pretraining have focused on computationally-efficient approximations that exploit second-order structure. This raises a key question for large-scale training: how much performance is forfeited by these approximations? To probe this question, we establish a practical upper bound on iteration complexity by applying full Gauss-Newton (GN) preconditioning to transformer models of up to 150M parameters. Our experiments show that full GN updates yield substantial gains over existing optimizers, achieving a 5.4x reduction in training iterations compared to strong baselines like SOAP and Muon. Furthermore, we find that a precise layerwise GN preconditioner, which ignores cross-layer information, nearly matches the performance of the full GN method. Collectively, our results suggest: (1) the GN approximation is highly effective for preconditioning, implying higher-order loss terms may not be critical for convergence speed; (2) the layerwise Hessian structure contains sufficient information to achieve most of these potential gains; and (3) a significant performance gap exists between current approximate methods and an idealized layerwise oracle.
본 논문은 대규모 언어 모델(LLM) 사전학습에서 기존 이계 최적화 방법의 계산 효율적 근사가 얼마나 많은 성능을 손실하는지 연구했습니다. 저자들은 150M 매개변수의 Transformer 모델에 완전 가우스-뉴턴(GN) 전조건화를 적용하여 반복 복잡도의 실용적 상한을 확립했습니다. 실험 결과, 완전 GN 업데이트는 SOAP 및 Muon 등의 강력한 기준선 대비 5.4배의 훈련 반복 감소를 달성했습니다. 또한 계층 간 정보를 무시하는 정확한 계층별 GN 전조건화기는 완전 GN 방법의 성능에 거의 근접했습니다.
LLM의 계산 요구량이 지속적으로 증가함에 따라, 최적화 방법의 개선이 훈련 효율성 향상의 핵심 전략이 되었습니다. 전통적인 일계 방법(SGD 및 Adam 등)은 광범위하게 사용되지만, 이계 방법은 이론적으로 더 빠른 수렴 속도와 더 나은 대규모 배치 확장성을 제공합니다.
종합 평가: 이는 엄밀한 실험을 통해 LLM 훈련에서 이계 최적화의 성능 상한을 확립하고 해당 분야에 중요한 이론적 통찰과 실제 지침을 제공하는 고품질 연구 논문입니다. 계산 비용과 규모 제한이 있음에도 불구하고, 학술적 가치와 향후 연구에 대한 지도 의의는 상당합니다.