Convergence of optimizers implies eigenvalues filtering at equilibrium
Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
심층 신경망 훈련의 광범위한 경험적 증거는 다양한 최적화기가 전역 최적해에 가까운 해를 찾는 경향이 있음을 시사합니다. 본 논문은 역방향 관점을 채택하여 수렴성을 증명하는 대신 임의의 점으로의 수렴을 가정하고, 이 가정의 결과에 초점을 맞춥니다. 이 관점에서 출발하여 한계 안정성 현상의 최근 진전과 결합하면서, 저자들은 서로 다른 최적화기가 실제로 초매개변수에 의해 결정되는 고유값 필터로 작용함을 주장합니다. 구체적으로, 표준 경사 하강법은 본질적으로 가장 급격한 최솟값을 회피하며, 예리도 인식 최소화(SAM) 알고리즘은 더욱 적극적으로 더 넓은 분지를 선호합니다. 이러한 통찰을 바탕으로 저자들은 향상된 고유값 필터링 능력을 보여주는 두 가지 새로운 알고리즘을 제안하여 더 넓은 최솟값을 효과적으로 촉진합니다. 이론적 분석은 추가적인 비퇴화 조건이나 전역 립시츠 경계 가정 없이 일반 반대수적 C² 함수에 적용 가능한 일반화된 Hadamard-Perron 안정 다양체 정리를 활용합니다.
본 연구가 해결하는 핵심 문제는 심층학습에서 최적화 알고리즘의 수렴 행동을 이해하는 것이며, 특히 손실 함수의 복잡한 경관에서 특정 최솟값을 어떻게 선택하는지입니다. 기존 연구는 수렴성 증명에 초점을 맞춘 반면, 본 논문은 "역방향" 관점을 채택합니다: 수렴이 이미 발생했다고 가정하고, 이러한 수렴이 도달한 점의 기하학적 성질(특히 Hessian 고유값)에 미치는 제약을 분석합니다.
정리 1.1: D∈Rm×m를 가역 행렬, g:Rm→Rm를 C1 반대수적 사상이라 하면, 거의 모든 x0∈Rm과 α>0에 대해, 수열 (xk)k∈N이 어떤 점 xˉ로 수렴하면, D−αg의 xˉ에서의 야코비안의 스펙트럼 반경은 최대 1입니다:
ρ(JacGα(xˉ))≤1
종합 평가: 이것은 이론적 깊이와 실용적 가치를 모두 갖춘 우수한 논문으로, 심층학습의 최적화 현상을 이해하기 위한 새로운 이론적 도구를 제공하며, 이론이 알고리즘 설계를 지도하는 성공적인 사례를 보여줍니다. 대규모 실험 검증 측면에서 개선의 여지가 있지만, 이론적 기여와 혁신적 관점으로 인해 최적화 이론 분야의 중요한 진전이 됩니다.