2025-11-22T15:28:16.372787

An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization

Nie, Li, Wen

Recently, lower-level constrained bilevel optimization has attracted increasing attention. However, existing methods mostly focus on either deterministic cases or problems with linear constraints. The main challenge in stochastic cases with general constraints is the bias and variance of the hyper-gradient, arising from the inexact solution of the lower-level problem. In this paper, we propose a novel stochastic augmented Lagrangian value function method for solving stochastic bilevel optimization problems with nonlinear lower-level constraints. Our approach reformulates the original bilevel problem using an augmented Lagrangian-based value function and then applies a penalized stochastic gradient method that carefully manages the noise from stochastic oracles. We establish an equivalence between the stochastic single-level reformulation and the original constrained bilevel problem and provide a non-asymptotic rate of convergence for the proposed method. The rate is further enhanced by employing variance reduction techniques. Extensive experiments on synthetic problems and real-world applications demonstrate the effectiveness of our approach.

academic

An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization

基本信息

论文ID: 2509.24249
标题: An Augmented Lagrangian Value Function Method for Lower-level Constrained Stochastic Bilevel Optimization
作者: Hantao Nie (北京大学), Jiaxiang Li (明尼苏达大学), Zaiwen Wen (北京大学)
分类: math.OC (数学优化与控制)
发表时间: 2025年1月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2509.24249v2

摘要

本文针对带有非线性下层约束的随机双层优化问题，提出了一种新颖的随机增广拉格朗日值函数方法。该方法通过增广拉格朗日值函数重新表述原始双层问题，并应用惩罚随机梯度方法来精心管理来自随机预言机的噪声。作者建立了随机单层重构与原始约束双层问题之间的等价性，并提供了非渐近收敛率分析。通过方差减少技术进一步改进了收敛率。在合成问题和真实应用上的大量实验验证了该方法的有效性。

研究背景与动机

问题背景: 带下层约束的双层优化(LC-BLO)在机器学习领域应用广泛，包括超参数优化、元学习、强化学习等。这类问题具有层次结构，上层问题的解依赖于下层约束优化问题的最优解。
现有方法局限性:
- 大多数现有方法仅关注确定性情况或线性约束问题
- 随机情况下的非线性约束问题缺乏有效解决方案
- 主要挑战在于下层问题不精确解导致的超梯度偏差和方差
技术挑战:
- 超目标函数的非光滑性
- 由于下层问题不精确解导致的超梯度偏差
- 随机预言机带来的噪声管理
研究动机: 填补随机非线性约束双层优化理论和算法的空白，为实际机器学习应用提供理论保证的高效算法。

核心贡献

新颖重构方法: 提出基于随机增广拉格朗日函数及其Moreau包络的双层问题重构，有效处理下层问题不精确解带来的噪声
理论等价性: 建立了随机单层重构与原始双层问题的等价性，提供了实用且理论基础扎实的方法
首个收敛分析: 为非线性LC-BLO在随机设置下的值函数方法提供首个收敛性分析，证明了Õ(cε⁻²), Õ(cc₁²ε⁻²)的样本复杂度
方差减少改进: 通过方差减少技术将上层变量的样本复杂度改进至Õ(c^1.5ε⁻^1.5)

方法详解

任务定义

考虑随机下层约束双层优化问题：

下层问题:

min_{y∈Y} G(x,y) = E_{ξ~D_ξ}[g(x,y;ξ)]
s.t. H_i(x,y) ≤ 0, i = 1,...,p

上层问题:

min_{x∈X} F(x,y*(x)) = E_{ζ~D_ζ}[f(x,y*(x);ζ)]
s.t. y*(x) ∈ arg min_{y∈Y(x)} G(x,y)

其中Y(x) := {y ∈ Y | H(x,y) ≤ 0}是下层可行域。

模型架构

1. 增广拉格朗日重构

引入增广拉格朗日惩罚项：

A_{γ₁}(x,y,z) = (1/2γ₁)∑ᵢ[γ₁zᵢ + Hᵢ(x,y)]²₊

定义增广拉格朗日函数：

L_{γ₁}(x,y,z) = G(x,y) + A_{γ₁}(x,y,z)

2. Moreau包络值函数

构造对偶函数及其Moreau包络：

D_{γ₁}(x,z) = min_{y∈Y} L_{γ₁}(x,y,z)
E^{γ₂}_{γ₁}(x,z) = max_{λ∈ℝ^p₊} {D_{γ₁}(x,λ) - (γ₂/2)||λ-z||²}

3. 单层重构

将原双层问题重构为：

min_{(x,y,z)∈X×Y×ℝ^p₊} F(x,y)
s.t. Ĝ(x,y,z;ξ) ≤ ε₁, (1/2)∑ᵢ[Hᵢ(x,y)]²₊ ≤ ε₂²

其中Ĝ(x,y,z;ξ) = G(x,y) - ℓ_γ(x,z,ŵ(ξ),λ̂(ξ))。

4. 惩罚方法

采用增广拉格朗日惩罚重构：

min_{(x,y,z)∈X×Y×Z} E_ξ[Ψ(x,y,z;ξ)]

其中Ψ(x,y,z;ξ) := F(x,y) + c₁Ĝ(x,y,z;ξ) + (c₂/2)∑ᵢHᵢ(x,y)²₊

技术创新点

双重循环算法结构:
- 内循环：使用随机增广拉格朗日方法(SALM)求解子问题
- 外循环：对重构问题应用随机梯度下降
偏差控制机制: 通过控制下层解的精度来缓解偏差梯度问题
方差减少技术: 采用类似STORM的更新规则减少上层变量的样本复杂度

实验设置

数据集

合成问题: 来自Jiang et al. (2012)的测试例子，添加高斯噪声σ = 0.1
SVM超参数优化: 在Diabetes和Fourclass数据集上进行
权重衰减调优: 在digit数据集上使用两层MLP进行神经网络权重衰减参数优化

评价指标

测试精度
收敛时间
迭代次数
目标函数值

对比方法

LV-HBA: 基于拉格朗日值函数的方法
GAM: 梯度增广方法
BLOCC: 双层优化约束控制方法
SALVF: 本文提出的基础方法
SALVF-VR: 本文提出的方差减少版本

实现细节

内循环步长：ηⱼ = η/(j+1), ρⱼ = ρ/(j+1)
外循环步长：αₖ = α < 1/(2L_Ψ)
样本大小：rₖ = r, qₖ = q, sₖ = s (常数)
惩罚参数：c₁, c₂根据理论分析选择

实验结果

主要结果

合成问题: SALVF和SALVF-VR都能收敛到全局最优解附近，SALVF-VR的分布更加集中，验证了方差减少的加速效果
SVM超参数优化:
- SALVF在测试精度上优于所有基线方法
- 虽然BLOCC也能达到相近的峰值精度，但SALVF的迭代更加时间高效
- 在Diabetes数据集上达到约80%测试精度，在Fourclass数据集上达到约75%测试精度
权重衰减调优:
- 所有双层方法都比无权重衰减的基准表现更好，有效减少了过拟合
- SALVF在时间效率上最优，得益于双循环迭代过程的简洁性

理论结果

样本复杂度:
- SALVF: (Õ(cε⁻²), Õ(cc₁²ε⁻²))
- SALVF-VR: (Õ(c^1.5ε⁻^1.5), Õ(c^1.5c₁²ε⁻^2.5))
收敛率:
- SALVF: Õ(cε⁻¹)迭代复杂度
- SALVF-VR: Õ(c^1.5ε⁻^1.5)迭代复杂度