Existing methods for solving Riemannian bilevel optimization (RBO) problems require prior knowledge of the problem's first- and second-order information and curvature parameter of the Riemannian manifold to determine step sizes, which poses practical limitations when these parameters are unknown or computationally infeasible to obtain. In this paper, we introduce the Adaptive Riemannian Hypergradient Descent (AdaRHD) algorithm for solving RBO problems. To our knowledge, AdaRHD is the first method to incorporate a fully adaptive step size strategy that eliminates the need for problem-specific parameters in RBO. We prove that AdaRHD achieves an $\mathcal{O}(1/ε)$ iteration complexity for finding an $ε$-stationary point, thus matching the complexity of existing non-adaptive methods. Furthermore, we demonstrate that substituting exponential mappings with retraction mappings maintains the same complexity bound. Experiments demonstrate that AdaRHD achieves comparable performance to existing non-adaptive approaches while exhibiting greater robustness.
- 论文ID: 2504.06042
- 标题: An Adaptive Algorithm for Bilevel Optimization on Riemannian Manifolds
- 作者: Xu Shi, Rufeng Xiao, Rujun Jiang (复旦大学数据科学学院)
- 分类: math.OC (优化与控制)
- 发表会议: NeurIPS 2025 (第39届神经信息处理系统会议)
- 论文链接: https://arxiv.org/abs/2504.06042
现有求解黎曼双层优化(RBO)问题的方法需要预先知道问题的一阶、二阶信息以及黎曼流形的曲率参数来确定步长,这在参数未知或计算不可行时带来了实际限制。本文提出了自适应黎曼超梯度下降(AdaRHD)算法来求解RBO问题。据我们所知,AdaRHD是第一个在RBO中采用完全自适应步长策略的方法,消除了对问题特定参数的需求。我们证明AdaRHD达到了找到ε-稳定点的O(1/ε)迭代复杂度,与现有非自适应方法的复杂度相匹配。此外,我们证明用收缩映射替代指数映射仍能保持相同的复杂度界。实验表明AdaRHD在获得与现有非自适应方法相当性能的同时表现出更强的鲁棒性。
双层优化问题在机器学习领域有广泛应用,包括强化学习、元学习、超参数优化、对抗学习等。黎曼双层优化(RBO)是双层优化在黎曼流形上的扩展,其一般形式为:
minx∈MxF(x):=f(x,y∗(x))s.t. y∗(x)=argminy∈Myg(x,y)
其中Mx,My是黎曼流形,f,g是光滑函数,g(x,y)关于y是测地强凸的。
- 参数依赖性:现有RBO方法(如RHGD、RieBO等)需要预先知道强凸参数、Lipschitz常数、曲率参数等来确定步长
- 实用性限制:这些参数在实际应用中往往难以估计或计算代价过高
- 鲁棒性不足:固定步长策略对初始化和问题条件敏感
本文的核心动机是设计一个完全自适应的RBO算法,能够:
- 无需预先知道问题特定参数
- 自动调整步长以适应问题特性
- 保持与非自适应方法相当的理论复杂度
- 提供更强的实用鲁棒性
- 首个自适应RBO算法:提出AdaRHD,是第一个采用完全自适应步长策略的黎曼双层优化算法,消除了对强凸性、Lipschitz常数和曲率参数的依赖
- 理论复杂度匹配:证明AdaRHD达到O(1/ε)迭代复杂度找到ε-稳定点,与现有非自适应方法复杂度相匹配
- 收缩映射扩展:证明用计算效率更高的收缩映射替代指数映射仍能保持相同的复杂度保证
- 实验验证:在多个RBO问题上验证了算法的有效性和鲁棒性,包括黎曼超表示学习和鲁棒优化问题
考虑黎曼双层优化问题:
- 上层问题:在流形Mx上最小化F(x)=f(x,y∗(x))
- 下层问题:对给定x,在流形My上求解y∗(x)=argminyg(x,y)
- 约束:g(x,y)关于y测地强凸,f不要求凸性
黎曼超梯度定义为:
GF(x)=Gxf(x,y∗(x))−Gxy2g(x,y∗(x))[Hy−1g(x,y∗(x))[Gyf(x,y∗(x))]]
由于精确计算困难,使用近似黎曼超梯度:
G^F(x,y^,v^)=Gxf(x,y^)−Gxy2g(x,y^)[v^]
其中y^是下层问题的近似解,v^是线性系统的近似解。
算法1:AdaRHD主要步骤
- 下层问题求解:使用自适应梯度下降
- 步长更新:bk+12=bk2+∥Gyg(xt,ytk)∥2
- 迭代更新:ytk+1=Expytk(−bk+11Gyg(xt,ytk))
- 线性系统求解:两种策略
- 梯度下降:类似下层问题的自适应步长
- 共轭梯度:使用切空间共轭梯度方法
- 上层更新:自适应超梯度下降
- 步长更新:at+12=at2+∥G^F(xt,ytKt,vtNt)∥2
- 迭代更新:xt+1=Expxt(−at+11G^F(xt,ytKt,vtNt))
- 累积梯度范数策略:采用"累积黎曼梯度范数的倒数"作为自适应步长,无需预知问题参数
- 三层自适应:对上层、下层和线性系统都采用自适应步长,形成完整的自适应框架
- 收缩映射优化:提供使用收缩映射替代指数映射的版本,降低计算复杂度
- 理论保证:严格的收敛分析,处理黎曼流形的几何结构带来的技术挑战
- 简单矩阵相似性问题:在Stiefel流形和SPD流形上的优化
- 数据规模:n=100和n=1000
- 参数设置:d=50, r=20, λ=0.01
- 深度超表示学习:AFEW情感识别数据集
- 3层SPD网络架构
- 7个情感类别,1747个训练样本
- 不平衡类别分布
- 鲁棒优化问题:
- RHGD-20/50:黎曼超梯度下降,下层问题最大迭代数为20/50
- AdaRHD-GD:使用梯度下降求解线性系统的AdaRHD
- AdaRHD-CG:使用共轭梯度求解线性系统的AdaRHD
- 上层目标函数值
- 超梯度估计误差
- 验证准确率
- 收敛时间和迭代次数
简单问题实验:
- AdaRHD在两种数据规模下都表现出更快的收敛速度
- 超梯度估计误差更低,特别是AdaRHD-CG
- 计算时间上具有优势,特别是在大规模问题上
鲁棒性分析:
- 在不同初始步长设置下,AdaRHD表现出显著的鲁棒性
- RHGD在大步长(5, 1, 0.5)下失败,而AdaRHD仍能稳定收敛
- AdaRHD-CG在达到85%验证准确率方面最快
- 鲁棒性优势:AdaRHD对初始步长选择不敏感,而RHGD在不合适的步长下完全失败
- 效率提升:虽然AdaRHD需要更多外层迭代,但由于自适应策略,总体计算时间仍有竞争力
- 方法选择:AdaRHD-CG在精度和鲁棒性方面优于AdaRHD-GD,但后者在初期收敛更快
定理3.1:在标准假设下,AdaRHD满足:
T1∑t=0T−1∥GF(xt)∥xt2≤TC=O(T1)
推论3.1:达到ε-稳定点的复杂度:
- 总迭代数:T = O(1/ε)
- 梯度复杂度:Gf=O(1/ε), Gg=O(1/ε2)
- Hessian-向量积复杂度:AdaRHD-GD为O(1/ε²),AdaRHD-CG为Õ(1/ε)
- 几何结构:黎曼流形的曲率引入额外的分析复杂性
- 三角距离界:需要使用黎曼流形特有的三角距离界而不是欧几里得对应物
- 自适应步长分析:自适应策略可能在初期导致发散行为,需要严格的理论处理
- 欧几里得双层优化:AID、ITD、Neumann级数、共轭梯度等方法
- 最近的自适应方法:D-TFBO等
- 经典方法:黎曼梯度下降、非线性共轭梯度、方差减少随机梯度等
- 自适应方法:RASA、RAMSGrad、Riemannian SAM等
- RieBO/RieSBO:确定性和随机黎曼双层优化
- RHGD:黎曼超梯度下降框架
- RF2SA:完全随机一阶方法
- AdaRHD是首个完全自适应的黎曼双层优化算法,消除了对问题特定参数的依赖
- 理论上达到与非自适应方法相同的O(1/ε)复杂度
- 实验验证了算法的有效性和显著的鲁棒性优势
- 复杂度差距:在梯度和Hessian-向量积复杂度上比非自适应方法高1/ε倍
- 假设条件:仍需要下层问题的测地强凸性
- 单环vs双环:目前只考虑了双环算法
- 单环算法:设计自适应的单环黎曼双层优化算法
- 随机设置:扩展到随机黎曼双层优化
- 弱凸性:处理测地凸(非强凸)的下层目标
- 复杂度优化:探索消除1/ε差距的自适应策略
- 理论创新:首次在RBO中实现完全自适应,理论分析严谨
- 实用价值:显著提升了算法的鲁棒性和易用性
- 技术深度:成功处理了黎曼几何带来的技术挑战
- 实验充分:多个应用场景的全面验证
- 复杂度代价:自适应性以额外的计算复杂度为代价
- 假设限制:仍需要较强的假设条件
- 应用范围:主要集中在特定的黎曼流形上
- 学术贡献:为黎曼优化和双层优化的交叉领域提供了重要进展
- 实用价值:为实际应用中的黎曼双层优化提供了更鲁棒的工具
- 后续研究:为进一步的自适应黎曼优化研究奠定了基础
- 黎曼元学习和神经架构搜索
- 图像分割和低秩适应
- 鲁棒统计和几何机器学习
- 任何需要在流形约束下进行双层优化的应用
这篇论文在黎曼双层优化领域做出了重要贡献,首次实现了完全自适应的算法设计,在保持理论复杂度的同时显著提升了实用性和鲁棒性。尽管存在一定的复杂度代价,但其理论创新和实用价值使其成为该领域的重要进展。