2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh

Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.

academic

부정확한 Oracle 하에서의 절대 오차 한계를 갖는 가속화 방법의 비점근 분석

기본 정보

논문 ID: 2408.00720
제목: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
저자: Yin Liu (베이징 대학교), Sam Davanloo Tajbakhsh (오하이오 주립 대학교)
분류: math.OC (최적화 및 제어)
발표 시간: 2025년 10월 15일
논문 링크: https://arxiv.org/abs/2408.00720

초록

본 논문은 부정확한 기울기 oracle 하에서 가속화된 1차 방법의 비점근 수렴 한계를 연구한다. 많은 신흥 응용 분야에서 정확한 기울기를 획득하는 것이 불가능하거나 계산 비용이 많이 들기 때문에, 부정확한 oracle 하에서의 1차 알고리즘 성능 분석이 광범위한 관심을 받고 있다. 선행 연구에 따르면 가속화된 1차 방법은 비가속화 방법에 비해 기울기 오차에 더욱 민감하다. 본 논문은 성능 추정 문제(PEP)를 주요 분석 도구로 사용하여 PEP의 해석적 해를 찾음으로써, 절대 오차 한계 하에서 일반화된 최적화 기울기 방법(GOGM)과 일반화된 빠른 기울기 방법(GFGM)에 대한 새로운 수렴 한계를 도출했다.

연구 배경 및 동기

문제 정의

본 논문은 다음 최적화 문제를 고려한다:

min_{x∈R^d} f(x)

여기서 f는 볼록 함수이며 Lipschitz 연속 기울기를 갖는다. 실제 응용에서는 부정확한 기울기 추정만 획득할 수 있다:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

연구 동기

실제 필요성: 이층 최적화, 조합 최적화, 영차 최적화 등의 응용에서 정확한 기울기 획득이 어렵거나 비용이 많이 든다
이론적 결함: 기존 분석은 강한 가정 조건(예: 유계 실행 가능 영역)에 의존하거나 정량화할 수 없는 항을 포함한다
방법의 한계: 가속화 방법은 기울기 오차에 더욱 민감하므로 더 정교한 분석이 필요하다

응용 분야

이층 최적화: 하층 문제를 차선의 해까지만 풀 수 있는 경우
조합 최적화: 소규모 배치 샘플링을 통한 기댓값 추정
영차 최적화: 유한 차분 또는 가우스 평활을 통한 기울기 추정

핵심 기여

이론적 돌파: 절대 오차(AE) 조건 하에서 iGOGM과 iGFGM의 정량화된 수렴 한계를 도출하여 미지 매개변수에 대한 의존성을 제거했다
방법론적 혁신: PEP 기술을 통해 해석적 실행 가능 해를 찾아 초기 조건과 무관한 누적 오차 항을 제공했다
실용적 지침: 수렴율과 누적 오차 간의 트레이드오프를 분석하여 최적 스텝 크기 선택 전략을 제공했다
최적 스케줄링: 기울기 부정확도의 최적 설정 전략을 결정하여 총 계산 비용을 최소화했다

방법론 상세 설명

작업 정의

절대 오차 조건 하에서 가속화 기울기 방법의 수렴성을 연구한다:

입력: 부정확한 기울기 oracle이 ||∇̃f(x) - ∇f(x)|| ≤ b_x를 만족
출력: 수렴 한계 f(x_K) - f*의 상한
제약: f ∈ F_{0,L} (볼록성 및 L-평활성만 요구)

핵심 알고리즘

iGOGM 알고리즘 (Algorithm 2)

입력: z_0 = x_0, A_0 = α_0 = 1, 스텝 크기 매개변수{λ_k}
for k = 0 to K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # 핵심: 계수가 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

iGFGM 알고리즘 (Algorithm 1)

iGOGM과 유사하지만 3단계의 계수가 2가 아닌 1이다.

기술적 혁신점

1. PEP 해석적 해

성능 추정 문제의 쌍대 형식을 통해 해석적 실행 가능 해를 찾는다:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. 행렬 분해 기법

Schur 여인수와 대각 우위 행렬의 성질을 활용하여 반정부호 제약을 보장한다:

Gram 행렬 G = X^T X 구성
블록 행렬 분해를 통한 PSD 제약 처리
u_i가 제공하는 해가 실행 가능성 조건을 만족함을 증명

주요 이론적 결과

정리 2.2 (iGOGM 수렴 한계)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

정리 2.4 (iGFGM 수렴 한계)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

주요 특성:

누적 오차 항이 초기 조건 ||x_0 - x*||과 무관하다
반복에 따라 변하는 오차 수준 b_k를 허용한다
계수 u_k를 명시적으로 계산할 수 있다

실험 설정 및 결과

수치 검증

해의 검증: 수치 해석을 통해 해석적 해의 정확성을 검증하며, 상대 오차 < 10^{-3}
트레이드오프 분석: OGM-a (α_i = (i+a)/a)에 대해 수렴율과 누적 오차의 트레이드오프를 분석
최적 스케줄링: 고정 오차 대 최적 변화 오차의 총 복잡도 비교

주요 발견

a=4일 때 누적 오차는 O(b²K³/L) 수준이다
a를 증가시키면 누적 오차를 줄일 수 있지만 수렴율이 감소한다
최적 오차 스케줄링은 총 η-복잡도를 현저히 감소시킬 수 있다

오차 조건	변화 오차 허용?	반복 복잡도	제한 조건
BIE 8	×	O(1/A_K + δ)	유계 실행 가능 집합
IFO 12	✓	O(1/A_K + Σδ_i/A_K)	유계 실행 가능 집합
IFO-q 41	×	O(1/K² + δ/K^{3q/2-1})	부분 기울기 조건
AE 58	×	O(1/K² + R̃_Kδ + Kδ²)	미지 R̃_K
본 논문	✓	O(1/A_K + Σu_kb_k²)	추가 가정 없음

최적 오차 스케줄링

최적화 문제

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.t. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

멱법칙 감소의 경우

h(η) = c₁η^{-c₂}에 대해 최적 해는:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

지수 감소의 경우

h(η) = q₁q₂^{-η}에 대해 최적 해는:

b_k* = √(LR²/(4KA_Ku_k))

결론 및 논의

주요 결론

절대 오차 조건 하에서 가속화 방법에 대해 처음으로 정량화되고 미지 매개변수와 무관한 수렴 한계를 제공했다
누적 오차 항이 초기 조건과 무관하며 Lipschitz 상수와 스텝 크기에만 의존한다
최적 오차 스케줄링은 총 계산 복잡도를 현저히 감소시킬 수 있다

한계

이론적 결과는 α_k² < A_k (엄격한 부등식)를 요구하여 표준 FGM의 α_k² = A_k 경우를 배제한다
최적 알고리즘의 스텝 크기는 재귀적 구조가 부족하여 실제 구현이 어렵다
분석은 주로 결정론적 설정에 초점을 맞추고 있으며 확률적 경우는 추가 연구가 필요하다

향후 방향

강볼록성과 확률적 설정으로의 확장
더 일반적인 오차 조건 연구
실용적인 자적응 오차 제어 전략 개발

심층 평가

장점

이론적 기여가 현저함: 절대 오차 조건 하에서 가속화 방법 분석의 공백을 채웠다
기술 수단이 선진적: PEP 기술의 응용이 혁신적이다
결과의 실용성이 강함: 계산 가능한 오차 한계와 최적 스케줄링 전략을 제공한다
분석이 깊이 있고 포괄적: 이론적 증명과 수치 검증을 모두 포함한다

부족한 점

실용성의 제한: 최적 알고리즘의 비재귀적 성질이 실제 응용을 제한한다
조건의 제약: 엄격한 α_k² < A_k 조건이 일부 중요한 경우를 배제한다
실험 부족: 실제 최적화 문제에 대한 수치 실험이 부족하다

영향력

본 논문은 부정확한 oracle 하에서의 가속화 최적화에 대한 중요한 이론적 기초를 제공하며, 이층 최적화, 조합 최적화 등 응용 분야에 지도적 의미를 갖는다. PEP 기술의 응용은 관련 분석에 새로운 방법론을 제공한다.

적용 분야

기울기 계산 비용이 많이 드는 대규모 최적화 문제
이층 최적화 및 조합 최적화 문제
계산 정확도와 반복 횟수 간 트레이드오프가 필요한 응용
영차 최적화 방법의 이론적 분석

참고 문헌

주요 참고 문헌에는 Drori & Teboulle의 PEP 이론 기초18, Kim & Fessler의 OGM 방법32,33, 그리고 Devolder 등의 부정확한 oracle 분석12이 포함된다.