2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

최적화기의 수렴이 평형점에서의 고유값 필터링을 의미함

기본 정보

논문 ID: 2510.09034
제목: Convergence of optimizers implies eigenvalues filtering at equilibrium
저자: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
분류: cs.LG math.DS math.OC
발표 시간: 2025년 10월 13일
논문 링크: https://arxiv.org/abs/2510.09034

초록

심층 신경망 훈련의 광범위한 경험적 증거는 다양한 최적화기가 전역 최적해에 가까운 해를 찾는 경향이 있음을 시사합니다. 본 논문은 역방향 관점을 채택하여 수렴성을 증명하는 대신 임의의 점으로의 수렴을 가정하고, 이 가정의 결과에 초점을 맞춥니다. 이 관점에서 출발하여 한계 안정성 현상의 최근 진전과 결합하면서, 저자들은 서로 다른 최적화기가 실제로 초매개변수에 의해 결정되는 고유값 필터로 작용함을 주장합니다. 구체적으로, 표준 경사 하강법은 본질적으로 가장 급격한 최솟값을 회피하며, 예리도 인식 최소화(SAM) 알고리즘은 더욱 적극적으로 더 넓은 분지를 선호합니다. 이러한 통찰을 바탕으로 저자들은 향상된 고유값 필터링 능력을 보여주는 두 가지 새로운 알고리즘을 제안하여 더 넓은 최솟값을 효과적으로 촉진합니다. 이론적 분석은 추가적인 비퇴화 조건이나 전역 립시츠 경계 가정 없이 일반 반대수적 C² 함수에 적용 가능한 일반화된 Hadamard-Perron 안정 다양체 정리를 활용합니다.

연구 배경 및 동기

핵심 문제

본 연구가 해결하는 핵심 문제는 심층학습에서 최적화 알고리즘의 수렴 행동을 이해하는 것이며, 특히 손실 함수의 복잡한 경관에서 특정 최솟값을 어떻게 선택하는지입니다. 기존 연구는 수렴성 증명에 초점을 맞춘 반면, 본 논문은 "역방향" 관점을 채택합니다: 수렴이 이미 발생했다고 가정하고, 이러한 수렴이 도달한 점의 기하학적 성질(특히 Hessian 고유값)에 미치는 제약을 분석합니다.

중요성

안정성과 일반화의 연결: 안정적인 훈련은 넓은 흡인 분지 및 평탄한 최솟값과 관련이 있으며, 이러한 특성은 일반화 성능과 밀접한 관련이 있습니다.
한계 안정성 현상: 경험적 관찰에 따르면 표준 훈련은 일반적으로 안정성 경계 근처에서 작동합니다.
실용적 의의: 최적화기의 암묵적 선호도를 이해하면 더 나은 훈련 알고리즘 설계에 도움이 됩니다.

기존 방법의 한계

기존 이론은 일반적으로 엄격한 가정 조건(예: 전역 립시츠 경계, 비퇴화 조건)을 필요로 합니다.
서로 다른 최적화기의 고유값 필터링 행동을 이해하기 위한 통일된 프레임워크가 부족합니다.
SAM 유형 알고리즘에 대한 이론적 이해가 제한적입니다.

연구 동기

지난 10년간 심층학습 실무에서 성공적인 훈련이 거의 표준이 되면서, 연구 관점이 "언제 수렴하는가"에서 "왜 성공적으로 수렴하며 초매개변수가 어떻게 이를 가능하게 하는가"로 전환되도록 촉발했습니다.

핵심 기여

통일된 이론 프레임워크: 광범위한 최적화 알고리즘 범주에 적용 가능한 일반화된 Hadamard-Perron 안정 다양체 정리를 기반으로 한 통일된 분석 프레임워크 제안
고유값 필터링 이론: 성공적으로 수렴하는 최적화기가 필연적으로 도달한 점의 Hessian 고유값에 제약을 가하여 "고유값 필터링" 효과를 형성함을 증명
알고리즘 분석: 경사 하강법, 중량 볼 방법, Nesterov 가속 경사법 및 USAM의 고유값 필터링 특성을 체계적으로 분석
새로운 알고리즘 제안: 더 강한 고유값 필터링 능력을 보여주는 Two-step USAM과 Hessian USAM 두 가지 새로운 알고리즘 설계
이론 확장: 기존 결과를 더 일반적인 반대수적 함수 클래스로 확장하여 추상적인 비퇴화 가정 제거

방법론 상세 설명

작업 정의

일반적 형태의 반복 최적화 알고리즘을 고려합니다: $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

여기서:

$D \in \mathbb{R}^{m \times m}$ 는 가역 행렬
$g: \mathbb{R}^m \to \mathbb{R}^m$ 는 $C^1$ 연속 미분 가능한 반대수적 사상
$\alpha > 0$ 는 스텝 크기 매개변수

핵심 이론 결과

주요 정리 (고유값 필터링)

정리 1.1: $D \in \mathbb{R}^{m \times m}$ 를 가역 행렬, $g: \mathbb{R}^m \to \mathbb{R}^m$ 를 $C^1$ 반대수적 사상이라 하면, 거의 모든 $x_0 \in \mathbb{R}^m$ 과 $\alpha > 0$ 에 대해, 수열 $(x_k)_{k \in \mathbb{N}}$ 이 어떤 점 $\bar{x}$ 로 수렴하면, $D - \alpha g$ 의 $\bar{x}$ 에서의 야코비안의 스펙트럼 반경은 최대 1입니다: $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

안정 다양체 정리 확장

정리 2.1: $\Lambda \subset \mathbb{R}_+$ 가 존재하여 그 여집합이 유한 집합이고, 임의의 $\alpha \in \Lambda$ 에 대해, 집합 $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ 는 최대 $m-1$ 차원의 $C^1$ 부분다양체의 가산 합에 포함됩니다.

기술적 혁신점

반대수적 가정: 반대수적 함수 클래스를 충분 조건으로 사용하여 심층학습의 거의 모든 일반적인 함수를 포함합니다.
전역 조건 불필요: 전역 립시츠 경계나 비퇴화 가정이 필요하지 않습니다.
통일된 분석 프레임워크: 통일된 행렬 형태 $D$ 와 사상 $g$ 를 통해 다양한 최적화 알고리즘을 포괄합니다.

구체적 알고리즘 분석

경사 하강법

명제 3.1: 경사 하강법 $x_{k+1} = x_k - \alpha \nabla f(x_k)$ 에 대해, $\bar{x}$ 로 수렴하면, $\nabla^2f(\bar{x})$ 의 모든 고유값 $\lambda$ 는 다음을 만족합니다: $0 \leq \lambda \leq \frac{2}{\alpha}$

중량 볼 방법

명제 3.2: 중량 볼 방법의 경우, 고유값 제약은: $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

USAM 알고리즘

명제 3.4: USAM 알고리즘 $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ 에 대해, 고유값 $\lambda$ 는 다음을 만족합니다: $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

동등하게: $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

새로운 알고리즘 설계

Two-step USAM

업데이트 규칙: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

고유값 제약: $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

업데이트 규칙: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

고유값 제약: $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

실험 설정

데이터셋

MNIST + MLP: 은닉층 차원 {128, 64, 10, 10}, ReLU 활성화, 교차 엔트로피 손실
Fashion-MNIST + MLP: 동일한 설정
CIFAR10 + WideResNet-16-8: 배치 정규화 계층이 없는 WideResNet 아키텍처

실험 구성

배치 크기: 128
학습률: $\alpha = 0.01$
가중치 감소: $5 \times 10^{-4}$
모멘텀: $\beta \in \{0, 0.9\}$
SAM 매개변수: $\rho$ 는 그리드 탐색으로 선택

평가 지표

테스트 정확도
Hessian 행렬의 상위 3개 최대 고유값

실험 결과

주요 발견

고유값 필터링 검증: 실험 결과는 이론 예측과 높은 일치도를 보이며, USAM, Two-step USAM 및 Hessian USAM은 실제로 더 평탄한 최솟값을 찾습니다.
알고리즘 비교:
- 표준 경사 하강법: 기준선 성능
- USAM: Hessian 고유값의 현저한 감소
- Two-step USAM: 고유값 필터링의 추가 개선
- Hessian USAM: 유사한 개선 효과
아키텍처 의존성:
- MLP 아키텍처: 이론 예측과 실험 결과의 높은 일치
- WideResNet: 차이가 작음, 훈련 난이도 증가로 인한 것으로 추정

실험 관찰

안정성 요구사항: Two-step USAM과 Hessian USAM은 훈련 실패를 피하기 위해 더 작은 $\rho$ 값이 필요하며, 이는 이론 예측의 더 엄격한 곡률 제약과 일치합니다.
배치 정규화의 영향: 배치 정규화를 사용하는 아키텍처에서 SAM 유형 알고리즘의 평탄화 효과는 명확하지 않으며, 이는 배치 정규화가 알고리즘 동역학을 변경하기 때문에 이론과 모순되지 않습니다.

결론 및 논의

주요 결론

통일된 관점: 성공적인 최적화기 훈련은 본질적으로 고유값 필터링 과정이며, 서로 다른 알고리즘은 초매개변수를 통해 서로 다른 수준의 필터링을 구현합니다.
이론 확장: 일반화된 안정 다양체 정리는 최적화 알고리즘을 이해하기 위한 강력한 이론적 도구를 제공합니다.
실용적 지침: 이론 결과는 새로운 최적화 알고리즘 설계에 원칙적 지침을 제공합니다.

한계

반대수적 가정: 광범위하지만 여전히 일정한 제한이 있습니다.
새 알고리즘의 계산 비용: Two-step USAM과 Hessian USAM의 단일 반복 비용이 더 높습니다.
배치 정규화 호환성: 이론 프레임워크는 아직 배치 정규화 작업을 포함하지 않습니다.

향후 방향

더 일반적인 함수 클래스로 확장: 반대수적 가정 없이 이론 확장 탐색
배치 정규화 이론: 배치 정규화를 포함하는 아키텍처로 이론 프레임워크 확장
실용적 알고리즘 최적화: 이론적 장점을 유지하면서 새 알고리즘의 계산 비용 감소

심층 평가

장점

이론적 혁신: 최적화 알고리즘을 이해하기 위한 완전히 새로운 관점을 제공하며, "수렴성 증명"에서 "수렴 후 결과 분석"으로 전환합니다.
통일된 프레임워크: 다양한 최적화 알고리즘의 고유값 필터링 행동을 분석하기 위한 통일된 이론 프레임워크를 처음으로 제공합니다.
실용적 가치: 이론 결과는 새 알고리즘 설계를 직접 지도하며 실험으로 검증됩니다.
기술적 엄밀성: 수학적 유도가 엄밀하고 가정 조건이 명확하며 합리적입니다.

부족한 점

제한된 실험 규모: 실험은 주로 상대적으로 단순한 아키텍처 및 데이터셋에서 수행되며, 대규모 실험 검증이 부족합니다.
새 알고리즘 평가: Two-step USAM과 Hessian USAM의 포괄적 성능 평가(일반화 능력 포함)는 여전히 더 많은 작업이 필요합니다.
이론적 간격: SAM 알고리즘의 실제 성능과 이론 예측 사이에 일정한 차이가 있습니다(예: 엄격한 안장점 문제).

영향력

이론적 기여: 최적화 이론에 새로운 분석 도구와 관점을 제공합니다.
실용적 가치: 최적화 알고리즘 설계에 원칙적 지침을 제공합니다.
학제간 의의: 동역학계 이론과 기계학습 실무를 연결합니다.

적용 시나리오

심층학습 최적화: 특히 신경망 훈련 알고리즘 이해 및 개선에 적합합니다.
비볼록 최적화: 일반 비볼록 최적화 문제에 새로운 분석 도구를 제공합니다.
알고리즘 설계: 새로운 유형의 최적화 알고리즘 설계 및 분석을 지도합니다.

참고 문헌

본 논문은 광범위한 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

고전 동역학계 이론 문헌
현대 최적화 이론 진전
심층학습의 안정성 및 일반화 연구
예리도 인식 최소화 관련 연구
한계 안정성 현상의 이론 및 실험 연구

종합 평가: 이것은 이론적 깊이와 실용적 가치를 모두 갖춘 우수한 논문으로, 심층학습의 최적화 현상을 이해하기 위한 새로운 이론적 도구를 제공하며, 이론이 알고리즘 설계를 지도하는 성공적인 사례를 보여줍니다. 대규모 실험 검증 측면에서 개선의 여지가 있지만, 이론적 기여와 혁신적 관점으로 인해 최적화 이론 분야의 중요한 진전이 됩니다.