Stochastic variance reduced gradient (SVRG) is an accelerated version of stochastic gradient descent based on variance reduction, and is promising for solving large-scale inverse problems. In this work, we analyze SVRG and a regularized version that incorporates a priori knowledge of the problem, for solving linear inverse problems in Hilbert spaces. We prove that, with suitable constant step size schedules and regularity conditions, the regularized SVRG can achieve optimal convergence rates in terms of the noise level without any early stopping rules, and standard SVRG is also optimal for problems with nonsmooth solutions under a priori stopping rules. The analysis is based on an explicit error recursion and suitable prior estimates on the inner loop updates with respect to the anchor point. Numerical experiments are provided to complement the theoretical analysis.
论文ID : 2510.14759标题 : On the convergence of stochastic variance reduced gradient for linear inverse problems作者 : Bangti Jin, Zehui Zhou (香港中文大学数学系)分类 : math.NA cs.NA math.OC发表时间 : 2025年10月16日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.14759 随机方差缩减梯度法(SVRG)是基于方差缩减的随机梯度下降加速版本,在解决大规模逆问题方面具有前景。本文分析了SVRG及其结合先验知识的正则化版本,用于求解Hilbert空间中的线性逆问题。研究证明,在合适的常数步长调度和正则性条件下,正则化SVRG可以在噪声水平方面达到最优收敛率,无需任何早停规则;标准SVRG在先验停止规则下对非光滑解问题也是最优的。分析基于显式误差递归和关于锚点的内循环更新的合适先验估计。
本文研究Hilbert空间中的线性逆问题:
A † x = y † A_\dagger x = y_\dagger A † x = y †
其中:
A † : X → Y = Y 1 × ⋯ × Y n A_\dagger: X \to Y = Y_1 \times \cdots \times Y_n A † : X → Y = Y 1 × ⋯ × Y n 是系统算子x ∈ X x \in X x ∈ X 是未知信号,y † ∈ Y y_\dagger \in Y y † ∈ Y 是精确数据实际只能获得噪声数据 y δ = y † + ξ y^\delta = y_\dagger + \xi y δ = y † + ξ ,噪声水平 δ = ∥ ξ ∥ Y \delta = \|\xi\|_Y δ = ∥ ξ ∥ Y 大规模问题需求 :线性逆问题广泛出现在计算机断层扫描、正电子发射断层扫描等实际应用中,数据规模庞大现有方法局限 :传统迭代方法在大规模问题上计算效率低下SVRG优势 :随机方差缩减梯度法具有优秀的可扩展性,但其在逆问题中的理论分析尚不完善正则化需求 :标准SVRG需要早停规则来实现正则化,而先验知识的融入可能改善这一情况理论分析完善 :建立了SVRG和正则化SVRG(rSVRG)求解线性逆问题的完整收敛理论最优收敛率 :证明了在合适条件下两种方法都能达到最优收敛率 O ( δ 2 ν / ( 1 + 2 ν ) ) O(\delta^{2\nu/(1+2\nu)}) O ( δ 2 ν / ( 1 + 2 ν ) ) 正则化性质 :rSVRG具有内在正则化机制,无需早停规则;标准SVRG在先验停止下也具有正则化性质期望和一致收敛 :同时建立了期望意义和一致意义下的收敛率,扩展了已有结果条件放宽 :相比已有工作,对SVRG最优收敛的条件更加宽松考虑优化问题:
J ( x ) = 1 2 n ∥ A † x − y δ ∥ Y 2 = 1 n ∑ i = 1 n f i ( x ) J(x) = \frac{1}{2n}\|A_\dagger x - y^\delta\|_Y^2 = \frac{1}{n}\sum_{i=1}^n f_i(x) J ( x ) = 2 n 1 ∥ A † x − y δ ∥ Y 2 = n 1 ∑ i = 1 n f i ( x )
其中 f i ( x ) = 1 2 ∥ A † , i x − y i δ ∥ Y i 2 f_i(x) = \frac{1}{2}\|A_{\dagger,i}x - y^\delta_i\|_{Y_i}^2 f i ( x ) = 2 1 ∥ A † , i x − y i δ ∥ Y i 2
初始化: x₀^δ = x₀, 频率M, 步长{ηₖ}
for K = 0,1,... do
计算 gₖ = J'(x_{KM}^δ) = (1/n)A_†*(A_†x_{KM}^δ - y^δ)
for t = 0,1,...,M-1 do
随机采样 i_{KM+t} ∈ {1,...,n}
更新 x_{KM+t+1}^δ = x_{KM+t}^δ - η_{KM+t}(A*_{i_{KM+t}}A_{i_{KM+t}}(x_{KM+t}^δ - x_{KM}^δ) + gₖ)
end
end
将算子A † A_\dagger A † 替换为近似算子A A A ,通过截断奇异值分解获得:
A ( ⋅ ) = ∑ j = 1 J σ j ⟨ ϕ j , ⋅ ⟩ ψ j A(\cdot) = \sum_{j=1}^J \sigma_j\langle\phi_j, \cdot\rangle\psi_j A ( ⋅ ) = ∑ j = 1 J σ j ⟨ ϕ j , ⋅ ⟩ ψ j
其中保留满足σ j ≥ a δ b \sigma_j \geq a\delta^b σ j ≥ a δ b 的主要奇异值。
步长条件 :η j = c 0 ≤ L − 1 \eta_j = c_0 \leq L^{-1} η j = c 0 ≤ L − 1 ,其中L = max 1 ≤ i ≤ n ∥ A i ∥ 2 L = \max_{1\leq i\leq n}\|A_i\|^2 L = max 1 ≤ i ≤ n ∥ A i ∥ 2 源条件 :存在ν > 0 \nu > 0 ν > 0 和w ∈ N ( A † ) ⊥ w \in N(A_\dagger)^\perp w ∈ N ( A † ) ⊥ 使得x † − x 0 = B † ν w x_\dagger - x_0 = B_\dagger^\nu w x † − x 0 = B † ν w 算子近似 :当a > 0 a > 0 a > 0 时,A A A 通过截断SVD构造,保留σ j ≥ a δ b \sigma_j \geq a\delta^b σ j ≥ a δ b 的奇异值误差分解策略 :将误差分解为偏差和方差两部分,分别进行精确估计锚点分析 :通过分析内循环更新相对于锚点的行为,建立关键的先验估计统一框架 :提供了处理标准SVRG和正则化SVRG的统一理论框架使用Regutools包中的三个标准逆问题:
s-phillips : 轻度病态问题 (mildly ill-posed)s-gravity : 严重病态问题 (severely ill-posed)s-shaw : 严重病态问题 (severely ill-posed)所有问题离散化为n = m = 1000 n = m = 1000 n = m = 1000 的有限维线性系统。
精确解生成 :x † = ∥ ( A † ∗ A † ) ν x e ∥ ℓ ∞ − 1 ( A † ∗ A † ) ν x e x_\dagger = \|(A_\dagger^*A_\dagger)^\nu x_e\|_{\ell^\infty}^{-1}(A_\dagger^*A_\dagger)^\nu x_e x † = ∥ ( A † ∗ A † ) ν x e ∥ ℓ ∞ − 1 ( A † ∗ A † ) ν x e 噪声设置 :y i δ = y † , i + ϵ ∥ y † ∥ ℓ ∞ ξ i y^\delta_i = y_{\dagger,i} + \epsilon\|y_\dagger\|_{\ell^\infty}\xi_i y i δ = y † , i + ϵ ∥ y † ∥ ℓ ∞ ξ i ,ξ i ∼ N ( 0 , 1 ) \xi_i \sim \mathcal{N}(0,1) ξ i ∼ N ( 0 , 1 ) 步长 :Landweber方法用c 0 = ∥ A † ∥ − 2 c_0 = \|A_\dagger\|^{-2} c 0 = ∥ A † ∥ − 2 ,(r)SVRG用c 0 = O ( c ) c_0 = O(c) c 0 = O ( c ) ,其中c = L − 1 c = L^{-1} c = L − 1 频率 :M = 2 n M = 2n M = 2 n 最大迭代 :10 5 10^5 1 0 5 轮Landweber方法(LM) :经典迭代正则化方法,使用差异原理停止标准SVRG :使用最优误差点停止正则化SVRG(rSVRG) :使用理论指导的停止准则在Assumption 2.1下,存在与k , n , δ k,n,\delta k , n , δ 无关的常数c ∗ c^* c ∗ 使得:
期望收敛率 :
\delta^{2\nu/(1+2\nu)}, & a > 0 \\
n^{-1/2}\sqrt{k}\delta, & a = 0
\end{cases}$$
**一致收敛率**:
$$\|e_k^\delta\| \leq \sqrt{n}c^*k^{-1/2+\max(1/2-\nu,0)} + c^*\begin{cases}
\delta^{2\nu/(1+2\nu)}, & a > 0 \\
n^{-1/2}\sqrt{k}\delta, & a = 0
\end{cases}$$
### 最优性结果 (Corollary 2.1)
- **rSVRG**: 无需早停即可达到最优率$O(\delta^{2\nu/(1+2\nu)})$
- **SVRG**: 在先验停止$k(\delta) = O(\delta^{-2/(1+2\nu)})$下对$\nu \in (0,1/2]$达到最优
### 数值实验结果
实验结果显示在不同正则性参数$\nu$和噪声水平$\epsilon$下:
1. **rSVRG优势**:在所有测试案例中都能达到与Landweber方法相当的精度,但迭代次数显著更少
2. **SVRG表现**:在低正则性情况下表现良好,但对高正则性解需要更小的步长
3. **收敛行为**:更高噪声水平需要更少迭代次数,符合理论预期
4. **平台效应**:rSVRG的最终误差通常低于其他两种方法
具体数值结果见Tables 1-3,例如对于s-phillips问题:
- 当$\nu=0, \epsilon=1e-3$时,rSVRG达到$1.93e-2$的相对误差,仅需102.825次迭代
- 相比之下,Landweber方法需要758次迭代达到相同精度
## 相关工作
### 随机优化方法
- **SGD类方法**:随机梯度下降及其变种在逆问题中的应用
- **方差缩减技术**:SVRG、SAGA等方差缩减方法的发展
### 逆问题理论
- **正则化理论**:Tikhonov正则化、迭代正则化方法
- **源条件**:刻画解的光滑性的标准假设
- **最优收敛率**:在噪声设置下的minimax最优性
### 本文贡献位置
相比Jin et al. (2022)和Jin & Chen (2025)的工作:
- 条件更宽松:对SVRG收敛的要求更加实际
- 分析更完整:同时给出期望和一致收敛率
- 方法更实用:rSVRG无需早停规则
## 结论与讨论
### 主要结论
1. **理论完备性**:建立了SVRG和rSVRG求解线性逆问题的完整理论框架
2. **最优性**:两种方法在适当条件下都能达到minimax最优收敛率
3. **实用性**:rSVRG具有内在正则化,更适合实际应用
4. **条件改进**:相比已有工作放宽了收敛条件
### 局限性
1. **噪声水平依赖**:方法需要已知噪声水平$\delta$来构造算子$A$和选择停止准则
2. **参数选择**:实际应用中参数$a,b$的选择需要启发式技术
3. **线性限制**:当前分析仅适用于线性逆问题
4. **计算复杂度**:每次外循环需要计算完整梯度,在某些情况下可能昂贵
### 未来方向
1. **自适应方法**:开发不依赖已知噪声水平的自适应版本
2. **非线性扩展**:将理论扩展到非线性逆问题
3. **实际应用**:在具体的成像和信号处理问题中验证方法
4. **计算优化**:研究降低计算复杂度的策略
## 深度评价
### 优点
1. **理论严谨**:数学分析深入细致,证明技术先进
2. **结果完整**:同时给出期望和一致收敛率,填补了理论空白
3. **方法实用**:rSVRG的无早停特性使其更适合实际应用
4. **条件改进**:相比已有工作显著放宽了收敛条件
5. **实验充分**:数值实验验证了理论预测,展示了方法优势
### 不足
1. **技术门槛高**:证明过程极其复杂,理解和验证困难
2. **参数敏感**:方法性能对参数选择较为敏感
3. **应用限制**:需要已知噪声水平限制了实际应用范围
4. **计算成本**:完整梯度计算可能抵消随机方法的优势
### 影响力
1. **理论贡献**:为随机优化在逆问题中的应用提供了坚实理论基础
2. **方法指导**:为大规模逆问题求解提供了新的有效途径
3. **研究推动**:可能激发更多关于随机正则化方法的研究
4. **实用价值**:在医学成像、地球物理勘探等领域有潜在应用
### 适用场景
1. **大规模线性逆问题**:特别是数据量巨大的成像问题
2. **已知先验信息**:可以构造合适近似算子的情况
3. **噪声水平可估**:能够合理估计数据噪声水平的应用
4. **计算资源充足**:能够承担完整梯度计算成本的环境
## 参考文献
论文引用了62篇相关文献,主要包括:
- 随机优化经典文献:Johnson & Zhang (2013), Bottou et al. (2018)
- 逆问题理论:Engl et al. (1996), Herman et al. (1978)
- 相关收敛分析:Jin et al. (2022), Jin & Chen (2025)
- 应用背景:Hansen (2007), Kereta et al. (2021)
---
这篇论文在理论深度和实用性之间取得了很好的平衡,为大规模线性逆问题的求解提供了重要的理论指导和实用方法。尽管存在一些局限性,但其贡献对于推进该领域的发展具有重要意义。