Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
- 논문 ID: 2504.06042
- 제목: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
- 저자: Xu Shi, Rufeng Xiao, Rujun Jiang (푸단대학교 데이터과학학원)
- 분류: math.OC (최적화 및 제어)
- 발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
- 논문 링크: https://arxiv.org/abs/2504.06042
리만 이층 최적화(RBO) 문제를 해결하는 기존 방법들은 단계 크기를 결정하기 위해 문제의 1차, 2차 정보 및 리만 다양체의 곡률 매개변수를 미리 알아야 하며, 이는 매개변수가 미지수이거나 계산이 불가능할 때 실질적인 제약을 초래한다. 본 논문은 RBO 문제를 해결하기 위해 적응형 리만 초梯度 하강법(AdaRHD) 알고리즘을 제안한다. 우리가 아는 한, AdaRHD는 RBO에서 완전히 적응형 단계 크기 전략을 채택한 첫 번째 방법으로, 문제 특정 매개변수에 대한 필요성을 제거한다. AdaRHD가 ε-정상점을 찾기 위해 O(1/ε) 반복 복잡도를 달성함을 증명하며, 이는 기존 비적응형 방법의 복잡도와 일치한다. 더욱이, 지수 사상을 축약 사상으로 대체해도 동일한 복잡도 경계가 유지됨을 증명한다. 실험은 AdaRHD가 기존 비적응형 방법과 비교 가능한 성능을 달성하면서 더욱 강력한 견고성을 나타냄을 보여준다.
이층 최적화 문제는 강화학습, 메타학습, 초매개변수 최적화, 적대적 학습 등을 포함하여 기계학습 분야에서 광범위한 응용을 가진다. 리만 이층 최적화(RBO)는 리만 다양체 위의 이층 최적화 확장으로, 일반적 형태는 다음과 같다:
minx∈MxF(x):=f(x,y∗(x))s.t. y∗(x)=argminy∈Myg(x,y)
여기서 Mx,My는 리만 다양체이고, f,g는 매끄러운 함수이며, g(x,y)는 y에 대해 측지 강볼록이다.
- 매개변수 의존성: 기존 RBO 방법(RHGD, RieBO 등)은 단계 크기를 결정하기 위해 강볼록성 매개변수, 립시츠 상수, 곡률 매개변수 등을 미리 알아야 함
- 실용성 제약: 이러한 매개변수는 실제 응용에서 추정하기 어렵거나 계산 비용이 과도함
- 견고성 부족: 고정 단계 크기 전략은 초기화 및 문제 조건에 민감함
본 논문의 핵심 동기는 다음을 수행할 수 있는 완전히 적응형 RBO 알고리즘을 설계하는 것이다:
- 문제 특정 매개변수를 미리 알 필요 없음
- 문제 특성에 맞게 단계 크기를 자동으로 조정
- 비적응형 방법과 비교 가능한 이론적 복잡도 유지
- 더욱 강력한 실용적 견고성 제공
- 첫 번째 적응형 RBO 알고리즘: 완전히 적응형 단계 크기 전략을 채택한 첫 번째 리만 이층 최적화 알고리즘인 AdaRHD를 제안하며, 강볼록성, 립시츠 상수 및 곡률 매개변수에 대한 의존성 제거
- 이론적 복잡도 일치: AdaRHD가 ε-정상점을 찾기 위해 O(1/ε) 반복 복잡도를 달성함을 증명하며, 기존 비적응형 방법의 복잡도와 일치
- 축약 사상 확장: 계산 효율이 더 높은 축약 사상으로 지수 사상을 대체해도 동일한 복잡도 보장이 유지됨을 증명
- 실험 검증: 리만 초표현 학습 및 견고한 최적화 문제를 포함한 여러 RBO 문제에서 알고리즘의 유효성 및 견고성 검증
리만 이층 최적화 문제를 고려:
- 상층 문제: 다양체 Mx 위에서 F(x)=f(x,y∗(x)) 최소화
- 하층 문제: 주어진 x에 대해, 다양체 My 위에서 y∗(x)=argminyg(x,y) 해결
- 제약: g(x,y)는 y에 대해 측지 강볼록, f는 볼록성 요구 없음
리만 초梯度는 다음과 같이 정의됨:
GF(x)=Gxf(x,y∗(x))−Gxy2g(x,y∗(x))[Hy−1g(x,y∗(x))[Gyf(x,y∗(x))]]
정확한 계산의 어려움으로 인해 근사 리만 초梯度 사용:
G^F(x,y^,v^)=Gxf(x,y^)−Gxy2g(x,y^)[v^]
여기서 y^는 하층 문제의 근사해이고, v^는 선형 시스템의 근사해이다.
알고리즘 1: AdaRHD 주요 단계
- 하층 문제 해결: 적응형 梯度 하강법 사용
- 단계 크기 업데이트: bk+12=bk2+∥Gyg(xt,ytk)∥2
- 반복 업데이트: ytk+1=Expytk(−bk+11Gyg(xt,ytk))
- 선형 시스템 해결: 두 가지 전략
- 梯度 하강법: 하층 문제와 유사한 적응형 단계 크기
- 켤레 梯도법: 접공간 켤레 梯도법 사용
- 상층 업데이트: 적응형 초梯도 하강법
- 단계 크기 업데이트: at+12=at2+∥G^F(xt,ytKt,vtNt)∥2
- 반복 업데이트: xt+1=Expxt(−at+11G^F(xt,ytKt,vtNt))
- 누적 梯도 범위 전략: "누적 리만 梯도 범위의 역수"를 적응형 단계 크기로 채택하여 문제 매개변수 사전 지식 불필요
- 삼층 적응형: 상층, 하층 및 선형 시스템 모두에 적응형 단계 크기를 적용하여 완전한 적응형 프레임워크 형성
- 축약 사상 최적화: 지수 사상을 축약 사상으로 대체하는 버전 제공하여 계산 복잡도 감소
- 이론적 보장: 리만 다양체의 기하학적 구조로 인한 기술적 도전을 처리하는 엄격한 수렴 분석
- 단순 행렬 유사성 문제: Stiefel 다양체 및 SPD 다양체 위의 최적화
- 데이터 규모: n=100 및 n=1000
- 매개변수 설정: d=50, r=20, λ=0.01
- 심층 초표현 학습: AFEW 감정 인식 데이터셋
- 3층 SPD 네트워크 구조
- 7개 감정 클래스, 1747개 훈련 샘플
- 불균형 클래스 분포
- 견고한 최적화 문제:
- 견고한 Karcher 평균 문제
- 견고한 최대 우도 추정 문제
- RHGD-20/50: 리만 초梯도 하강법, 하층 문제 최대 반복 수 20/50
- AdaRHD-GD: 선형 시스템 해결을 위해 梯도 하강법을 사용하는 AdaRHD
- AdaRHD-CG: 선형 시스템 해결을 위해 켤레 梯도법을 사용하는 AdaRHD
- 상층 목적 함수값
- 초梯도 추정 오차
- 검증 정확도
- 수렴 시간 및 반복 횟수
단순 문제 실험:
- AdaRHD는 두 데이터 규모 모두에서 더 빠른 수렴 속도 표시
- 특히 AdaRHD-CG의 초梯도 추정 오차가 더 낮음
- 계산 시간에서 우위, 특히 대규모 문제에서
견고성 분석:
- 다양한 초기 단계 크기 설정에서 AdaRHD는 현저한 견고성 표시
- RHGD는 큰 단계 크기(5, 1, 0.5)에서 실패하지만 AdaRHD는 여전히 안정적으로 수렴
- AdaRHD-CG는 85% 검증 정확도 달성에서 가장 빠름
- 견고성 우위: AdaRHD는 초기 단계 크기 선택에 민감하지 않으며, RHGD는 부적절한 단계 크기에서 완전히 실패
- 효율성 향상: AdaRHD는 더 많은 외층 반복이 필요하지만, 적응형 전략으로 인해 전체 계산 시간은 여전히 경쟁력 있음
- 방법 선택: AdaRHD-CG는 정확도 및 견고성 측면에서 AdaRHD-GD보다 우수하지만, 후자는 초기 수렴에서 더 빠름
정리 3.1: 표준 가정 하에서, AdaRHD는 다음을 만족:
T1∑t=0T−1∥GF(xt)∥xt2≤TC=O(T1)
추론 3.1: ε-정상점 달성의 복잡도:
- 총 반복 수: T = O(1/ε)
- 梯도 복잡도: Gf=O(1/ε), Gg=O(1/ε2)
- Hessian-벡터 곱 복잡도: AdaRHD-GD는 O(1/ε²), AdaRHD-CG는 Õ(1/ε)
- 기하학적 구조: 리만 다양체의 곡률이 추가 분석 복잡성 도입
- 삼각형 거리 경계: 유클리드 대응물 대신 리만 다양체 특유의 삼각형 거리 경계 사용 필요
- 적응형 단계 크기 분석: 적응형 전략은 초기에 발산 행동을 초래할 수 있으며, 엄격한 이론적 처리 필요
- 유클리드 이층 최적화: AID, ITD, Neumann 급수, 켤레 梯도법 등
- 최근 적응형 방법: D-TFBO 등
- 고전적 방법: 리만 梯도 하강법, 비선형 켤레 梯도법, 분산 감소 확률적 梯도 등
- 적응형 방법: RASA, RAMSGrad, Riemannian SAM 등
- RieBO/RieSBO: 결정론적 및 확률적 리만 이층 최적화
- RHGD: 리만 초梯도 하강법 프레임워크
- RF2SA: 완전 확률적 1차 방법
- AdaRHD는 첫 번째 완전히 적응형 리만 이층 최적화 알고리즘으로, 문제 특정 매개변수에 대한 의존성 제거
- 이론적으로 비적응형 방법과 동일한 O(1/ε) 복잡도 달성
- 실험은 알고리즘의 유효성 및 현저한 견고성 우위 검증
- 복잡도 차이: 梯도 및 Hessian-벡터 곱 복잡도에서 비적응형 방법보다 1/ε배 높음
- 가정 조건: 여전히 하층 문제의 측지 강볼록성 필요
- 단환 vs 이환: 현재 이환 알고리즘만 고려
- 단환 알고리즘: 적응형 단환 리만 이층 최적화 알고리즘 설계
- 확률적 설정: 확률적 리만 이층 최적화로 확장
- 약한 볼록성: 측지 볼록(비강볼록) 하층 목적 처리
- 복잡도 최적화: 1/ε 차이 제거 적응형 전략 탐색
- 이론적 혁신: RBO에서 처음으로 완전 적응형 구현, 엄격한 이론 분석
- 실용적 가치: 알고리즘의 견고성 및 사용 용이성 현저히 향상
- 기술적 깊이: 리만 기하학이 초래하는 기술적 도전 성공적 처리
- 충분한 실험: 다양한 응용 시나리오의 포괄적 검증
- 복잡도 비용: 적응형성이 추가 계산 복잡도로 대가
- 가정 제한: 여전히 강한 가정 조건 필요
- 응용 범위: 주로 특정 리만 다양체에 집중
- 학술 기여: 리만 최적화 및 이층 최적화 교차 분야에 중요한 진전 제공
- 실용적 가치: 실제 응용에서 리만 이층 최적화를 위한 더욱 견고한 도구 제공
- 후속 연구: 추가 적응형 리만 최적화 연구의 기초 마련
- 리만 메타학습 및 신경 구조 탐색
- 이미지 분할 및 저순위 적응
- 견고한 통계 및 기하학적 기계학습
- 다양체 제약 하에서 이층 최적화가 필요한 모든 응용
본 논문은 리만 이층 최적화 분야에서 중요한 기여를 하였으며, 처음으로 완전히 적응형 알고리즘 설계를 구현하여 이론적 복잡도를 유지하면서 실용성 및 견고성을 현저히 향상시켰다. 일정한 복잡도 비용이 존재하지만, 이론적 혁신 및 실용적 가치는 이를 해당 분야의 중요한 진전으로 만든다.