2025-11-21T05:43:14.438076

An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds

Shi, Xiao, Jiang
Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
academic

リーマン多様体上の二段階最適化のための適応的アルゴリズム

基本情報

  • 論文ID: 2504.06042
  • タイトル: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
  • 著者: Xu Shi, Rufeng Xiao, Rujun Jiang (復旦大学データサイエンス学院)
  • 分類: math.OC (最適化と制御)
  • 発表会議: NeurIPS 2025 (第39回ニューラル情報処理システム会議)
  • 論文リンク: https://arxiv.org/abs/2504.06042

要約

リーマン二段階最適化(RBO)問題を解くための既存の方法は、ステップサイズを決定するために問題の一階情報、二階情報、およびリーマン多様体の曲率パラメータを事前に知る必要があり、これらのパラメータが未知または計算不可能な場合に実用的な制限をもたらします。本論文では、RBO問題を解くための適応的リーマン超勾配降下法(AdaRHD)アルゴリズムを提案します。我々の知る限り、AdaRHDはRBOにおいて完全に適応的なステップサイズ戦略を採用した最初の方法であり、問題固有のパラメータへの依存性を排除しています。AdaRHDがε-定常点を見つけるためのO(1/ε)反復複雑度を達成することを証明し、これは既存の非適応的方法の複雑度と一致しています。さらに、指数写像を収縮写像で置き換えても同じ複雑度界が保たれることを証明しています。実験により、AdaRHDが既存の非適応的方法と同等の性能を得ながら、より強い堅牢性を示すことが示されました。

研究背景と動機

問題背景

二段階最適化問題は機械学習分野で広く応用されており、強化学習、メタラーニング、ハイパーパラメータ最適化、敵対的学習などが含まれます。リーマン二段階最適化(RBO)は、二段階最適化をリーマン多様体に拡張したもので、一般的な形式は以下の通りです:

minxMxF(x):=f(x,y(x))\min_{x \in \mathcal{M}_x} F(x) := f(x, y^*(x))s.t. y(x)=argminyMyg(x,y)\text{s.t. } y^*(x) = \arg\min_{y \in \mathcal{M}_y} g(x,y)

ここでMx,My\mathcal{M}_x, \mathcal{M}_yはリーマン多様体、f,gf,gは滑らかな関数、g(x,y)g(x,y)yyに関して測地強凸です。

既存方法の限界

  1. パラメータ依存性:既存のRBO方法(RHGD、RieBO等)は、ステップサイズを決定するために強凸パラメータ、リプシッツ定数、曲率パラメータなどを事前に知る必要があります
  2. 実用性の制限:これらのパラメータは実際の応用では推定が困難であるか、計算コストが高すぎます
  3. 堅牢性の不足:固定ステップサイズ戦略は初期化と問題の条件数に敏感です

研究動機

本論文の核心的な動機は、以下を実現できる完全に適応的なRBOアルゴリズムを設計することです:

  • 問題固有のパラメータを事前に知る必要がない
  • ステップサイズを自動的に調整して問題特性に適応する
  • 非適応的方法と同等の理論的複雑度を保つ
  • より強い実用的堅牢性を提供する

核心的貢献

  1. 最初の適応的RBOアルゴリズム:AdaRHDを提案。これはリーマン二段階最適化において完全に適応的なステップサイズ戦略を採用した最初のアルゴリズムであり、強凸性、リプシッツ定数、曲率パラメータへの依存性を排除しています
  2. 理論的複雑度の一致:AdaRHDがε-定常点を見つけるためのO(1/ε)反復複雑度を達成することを証明し、既存の非適応的方法の複雑度と一致しています
  3. 収縮写像への拡張:計算効率がより高い収縮写像で指数写像を置き換えても同じ複雑度保証が保たれることを証明しています
  4. 実験検証:複数のRBO問題上でアルゴリズムの有効性と堅牢性を検証。リーマン超表現学習と堅牢最適化問題を含みます

方法の詳細

タスク定義

リーマン二段階最適化問題を考えます:

  • 上層問題:多様体Mx\mathcal{M}_x上でF(x)=f(x,y(x))F(x) = f(x, y^*(x))を最小化
  • 下層問題:与えられたxxに対して、多様体My\mathcal{M}_y上でy(x)=argminyg(x,y)y^*(x) = \arg\min_y g(x,y)を求解
  • 制約g(x,y)g(x,y)yyに関して測地強凸、ffは凸性を要求しない

核心技術:リーマン超勾配

リーマン超勾配は以下のように定義されます: GF(x)=Gxf(x,y(x))Gxy2g(x,y(x))[Hy1g(x,y(x))[Gyf(x,y(x))]]G_F(x) = G_x f(x, y^*(x)) - G^2_{xy}g(x, y^*(x))[H^{-1}_y g(x, y^*(x))[G_y f(x, y^*(x))]]

正確な計算が困難なため、近似リーマン超勾配を使用します: G^F(x,y^,v^)=Gxf(x,y^)Gxy2g(x,y^)[v^]\hat{G}_F(x, \hat{y}, \hat{v}) = G_x f(x, \hat{y}) - G^2_{xy}g(x, \hat{y})[\hat{v}]

ここでy^\hat{y}は下層問題の近似解、v^\hat{v}は線形系の近似解です。

AdaRHDアルゴリズムの構造

アルゴリズム1:AdaRHDの主要ステップ

  1. 下層問題の求解:適応的勾配降下法を使用
    • ステップサイズ更新:bk+12=bk2+Gyg(xt,ytk)2b^2_{k+1} = b^2_k + \|G_y g(x_t, y^k_t)\|^2
    • 反復更新:ytk+1=Expytk(1bk+1Gyg(xt,ytk))y^{k+1}_t = \text{Exp}_{y^k_t}(-\frac{1}{b_{k+1}} G_y g(x_t, y^k_t))
  2. 線形系の求解:2つの戦略
    • 勾配降下法:下層問題と同様の適応的ステップサイズ
    • 共役勾配法:接空間共役勾配法を使用
  3. 上層更新:適応的超勾配降下法
    • ステップサイズ更新:at+12=at2+G^F(xt,ytKt,vtNt)2a^2_{t+1} = a^2_t + \|\hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t)\|^2
    • 反復更新:xt+1=Expxt(1at+1G^F(xt,ytKt,vtNt))x_{t+1} = \text{Exp}_{x_t}(-\frac{1}{a_{t+1}} \hat{G}_F(x_t, y^{K_t}_t, v^{N_t}_t))

技術的革新点

  1. 累積勾配ノルム戦略:「累積リーマン勾配ノルムの逆数」を適応的ステップサイズとして採用し、問題パラメータの事前知識を不要にします
  2. 三層適応性:上層、下層、線形系に対してすべて適応的ステップサイズを採用し、完全な適応的フレームワークを形成します
  3. 収縮写像の最適化:指数写像を収縮写像で置き換えるバージョンを提供し、計算複雑度を低減します
  4. 理論的保証:厳密な収束分析。リーマン多様体の幾何学的構造がもたらす技術的課題に対応しています

実験設定

データセットと問題

  1. 単純行列相似性問題:Stiefel多様体とSPD多様体上の最適化
    • データ規模:n=100およびn=1000
    • パラメータ設定:d=50, r=20, λ=0.01
  2. 深層超表現学習:AFEW感情認識データセット
    • 3層SPDネットワークアーキテクチャ
    • 7つの感情カテゴリ、1747個の訓練サンプル
    • 不均衡なクラス分布
  3. 堅牢最適化問題
    • 堅牢Karcher平均問題
    • 堅牢最尤推定問題

比較方法

  • RHGD-20/50:リーマン超勾配降下法、下層問題の最大反復数は20/50
  • AdaRHD-GD:勾配降下法で線形系を求解するAdaRHD
  • AdaRHD-CG:共役勾配法で線形系を求解するAdaRHD

評価指標

  • 上層目的関数値
  • 超勾配推定誤差
  • 検証精度
  • 収束時間と反復回数

実験結果

主要結果

単純問題実験

  • AdaRHDは両方のデータ規模でより高速な収束速度を示します
  • 超勾配推定誤差がより低く、特にAdaRHD-CG
  • 計算時間で優位性を持ち、特に大規模問題上で

堅牢性分析

  • 異なる初期ステップサイズ設定下で、AdaRHDは顕著な堅牢性を示します
  • RHGDは大きなステップサイズ(5, 1, 0.5)で失敗しますが、AdaRHDは安定して収束します
  • AdaRHD-CGは85%の検証精度達成において最速です

主要な発見

  1. 堅牢性の優位性:AdaRHDは初期ステップサイズの選択に対して不敏感ですが、RHGDは不適切なステップサイズで完全に失敗します
  2. 効率の向上:AdaRHDはより多くの外層反復を必要としますが、適応的戦略により総計算時間は依然として競争力があります
  3. 方法の選択:AdaRHD-CGは精度と堅牢性の点でAdaRHD-GDより優れていますが、後者は初期段階でより高速に収束します

理論分析

複雑度結果

定理3.1:標準的な仮定の下で、AdaRHDは以下を満たします: 1Tt=0T1GF(xt)xt2CT=O(1T)\frac{1}{T}\sum_{t=0}^{T-1} \|G_F(x_t)\|^2_{x_t} \leq \frac{C}{T} = O\left(\frac{1}{T}\right)

系3.1:ε-定常点に達する複雑度:

  • 総反復数:T = O(1/ε)
  • 勾配複雑度:Gf=O(1/ε)G_f = O(1/ε), Gg=O(1/ε2)G_g = O(1/ε^2)
  • ヘッシアン-ベクトル積複雑度:AdaRHD-GDではO(1/ε²)、AdaRHD-CGではÕ(1/ε)

技術的課題

  1. 幾何学的構造:リーマン多様体の曲率は追加の分析複雑性をもたらします
  2. 三角距離界:ユークリッド対応物ではなく、リーマン多様体固有の三角距離界を使用する必要があります
  3. 適応的ステップサイズ分析:適応的戦略は初期段階で発散行動をもたらす可能性があり、厳密な理論的処理が必要です

関連研究

二段階最適化

  • ユークリッド二段階最適化:AID、ITD、Neumann級数、共役勾配法など
  • 最近の適応的方法:D-TFBOなど

リーマン最適化

  • 古典的方法:リーマン勾配降下法、非線形共役勾配法、分散削減確率勾配法など
  • 適応的方法:RASA、RAMSGrad、Riemannian SAMなど

リーマン二段階最適化

  • RieBO/RieSBO:決定論的および確率的リーマン二段階最適化
  • RHGD:リーマン超勾配降下法フレームワーク
  • RF2SA:完全ランダム一階法

結論と議論

主要な結論

  1. AdaRHDは最初の完全に適応的なリーマン二段階最適化アルゴリズムであり、問題固有のパラメータへの依存性を排除しています
  2. 理論上、非適応的方法と同じO(1/ε)複雑度を達成します
  3. 実験により、アルゴリズムの有効性と顕著な堅牢性の優位性が検証されました

限界

  1. 複雑度の差:勾配およびヘッシアン-ベクトル積複雑度において非適応的方法より1/ε倍高い
  2. 仮定条件:依然として下層問題の測地強凸性が必要
  3. 単環対双環:現在のところ双環アルゴリズムのみを考慮しています

今後の方向性

  1. 単環アルゴリズム:適応的な単環リーマン二段階最適化アルゴリズムの設計
  2. 確率的設定:確率的リーマン二段階最適化への拡張
  3. 弱凸性:測地凸(非強凸)の下層目的への対応
  4. 複雑度の最適化:1/εの差を排除する適応的戦略の探索

深い評価

利点

  1. 理論的革新:RBOにおいて初めて完全な適応性を実現し、理論分析は厳密です
  2. 実用的価値:アルゴリズムの堅牢性と使いやすさを大幅に向上させました
  3. 技術的深さ:リーマン幾何学がもたらす技術的課題を成功裏に処理しています
  4. 実験の充実:複数の応用シナリオでの包括的な検証

不足点

  1. 複雑度のコスト:適応性は追加の計算複雑度を代償とします
  2. 仮定の制限:依然として比較的強い仮定条件が必要です
  3. 応用範囲:主に特定のリーマン多様体に集中しています

影響力

  • 学術的貢献:リーマン最適化と二段階最適化の交差分野に重要な進展をもたらしました
  • 実用的価値:実際の応用におけるリーマン二段階最適化に対してより堅牢なツールを提供します
  • 後続研究:さらなる適応的リーマン最適化研究の基礎を築きます

適用シナリオ

  • リーマンメタラーニングとニューラルアーキテクチャサーチ
  • 画像セグメンテーションと低ランク適応
  • 堅牢統計と幾何機械学習
  • 多様体制約下での二段階最適化が必要なあらゆる応用

本論文はリーマン二段階最適化分野に重要な貢献をしており、初めて完全に適応的なアルゴリズム設計を実現し、理論的複雑度を保ちながら実用性と堅牢性を大幅に向上させています。一定の複雑度コストが存在しますが、その理論的革新と実用的価値により、本論文は当該分野の重要な進展となっています。