Stochastic variance reduced gradient (SVRG) is an accelerated version of stochastic gradient descent based on variance reduction, and is promising for solving large-scale inverse problems. In this work, we analyze SVRG and a regularized version that incorporates a priori knowledge of the problem, for solving linear inverse problems in Hilbert spaces. We prove that, with suitable constant step size schedules and regularity conditions, the regularized SVRG can achieve optimal convergence rates in terms of the noise level without any early stopping rules, and standard SVRG is also optimal for problems with nonsmooth solutions under a priori stopping rules. The analysis is based on an explicit error recursion and suitable prior estimates on the inner loop updates with respect to the anchor point. Numerical experiments are provided to complement the theoretical analysis.
論文ID : 2510.14759タイトル : On the convergence of stochastic variance reduced gradient for linear inverse problems著者 : Bangti Jin、Zehui Zhou(香港中文大学数学部)分類 : math.NA cs.NA math.OC発表日 : 2025年10月16日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.14759 確率的分散縮減勾配法(SVRG)は、分散縮減に基づく確率的勾配降下法の加速版であり、大規模逆問題の解法において有望である。本論文では、SVRG及びその先験知識を組み込んだ正則化版を分析し、Hilbert空間における線形逆問題の求解に適用する。研究により、適切な定常ステップサイズスケジュールと正則性条件の下で、正則化SVRGは雑音水準に関して最適な収束率を達成でき、早期停止規則を必要としないことが証明された。また、標準SVRGは先験的停止規則の下で非滑らかな解問題に対しても最適である。分析は明示的な誤差再帰式と錨点に関する内ループ更新の適切な事前推定に基づいている。
本論文はHilbert空間における線形逆問題を研究する:
A † x = y † A_\dagger x = y_\dagger A † x = y †
ここで:
A † : X → Y = Y 1 × ⋯ × Y n A_\dagger: X \to Y = Y_1 \times \cdots \times Y_n A † : X → Y = Y 1 × ⋯ × Y n はシステム作用素x ∈ X x \in X x ∈ X は未知信号、y † ∈ Y y_\dagger \in Y y † ∈ Y は正確なデータ実際には雑音データ y δ = y † + ξ y^\delta = y_\dagger + \xi y δ = y † + ξ のみが得られ、雑音水準は δ = ∥ ξ ∥ Y \delta = \|\xi\|_Y δ = ∥ ξ ∥ Y 大規模問題への需要 :線形逆問題はコンピュータ断層撮影、陽電子放出断層撮影など実際の応用に広く現れ、データ規模が膨大既存手法の限界 :従来の反復法は大規模問題に対して計算効率が低いSVRGの利点 :確率的分散縮減勾配法は優れたスケーラビリティを持つが、逆問題における理論分析がまだ不完全正則化の必要性 :標準SVRGは早期停止規則を必要とするが、先験知識の組み込みがこれを改善する可能性理論分析の完善 :線形逆問題を解くSVRGと正則化SVRG(rSVRG)の完全な収束理論を確立最適収束率 :適切な条件下で両手法が最適収束率 O ( δ 2 ν / ( 1 + 2 ν ) ) O(\delta^{2\nu/(1+2\nu)}) O ( δ 2 ν / ( 1 + 2 ν ) ) を達成することを証明正則化特性 :rSVRGは内在的な正則化機構を持ち、早期停止を不要にする。標準SVRGも先験的停止下で正則化特性を持つ期待値と一様収束 :期待値意味と一様意味での収束率を同時に確立し、既存結果を拡張条件の緩和 :既存研究と比べてSVRGの最適収束条件をより緩和最適化問題を考える:
J ( x ) = 1 2 n ∥ A † x − y δ ∥ Y 2 = 1 n ∑ i = 1 n f i ( x ) J(x) = \frac{1}{2n}\|A_\dagger x - y^\delta\|_Y^2 = \frac{1}{n}\sum_{i=1}^n f_i(x) J ( x ) = 2 n 1 ∥ A † x − y δ ∥ Y 2 = n 1 ∑ i = 1 n f i ( x )
ここで f i ( x ) = 1 2 ∥ A † , i x − y i δ ∥ Y i 2 f_i(x) = \frac{1}{2}\|A_{\dagger,i}x - y^\delta_i\|_{Y_i}^2 f i ( x ) = 2 1 ∥ A † , i x − y i δ ∥ Y i 2
初期化: x₀^δ = x₀、頻度M、ステップサイズ{ηₖ}
for K = 0,1,... do
gₖ = J'(x_{KM}^δ) = (1/n)A_†*(A_†x_{KM}^δ - y^δ) を計算
for t = 0,1,...,M-1 do
i_{KM+t} ∈ {1,...,n} をランダムにサンプリング
更新 x_{KM+t+1}^δ = x_{KM+t}^δ - η_{KM+t}(A*_{i_{KM+t}}A_{i_{KM+t}}(x_{KM+t}^δ - x_{KM}^δ) + gₖ)
end
end
作用素A † A_\dagger A † を近似作用素A A A に置き換え、特異値分解の切り詰めにより取得:
A ( ⋅ ) = ∑ j = 1 J σ j ⟨ ϕ j , ⋅ ⟩ ψ j A(\cdot) = \sum_{j=1}^J \sigma_j\langle\phi_j, \cdot\rangle\psi_j A ( ⋅ ) = ∑ j = 1 J σ j ⟨ ϕ j , ⋅ ⟩ ψ j
ここで σ j ≥ a δ b \sigma_j \geq a\delta^b σ j ≥ a δ b を満たす主要な特異値を保持。
ステップサイズ条件 :η j = c 0 ≤ L − 1 \eta_j = c_0 \leq L^{-1} η j = c 0 ≤ L − 1 、ここで L = max 1 ≤ i ≤ n ∥ A i ∥ 2 L = \max_{1\leq i\leq n}\|A_i\|^2 L = max 1 ≤ i ≤ n ∥ A i ∥ 2 ソース条件 :ν > 0 \nu > 0 ν > 0 と w ∈ N ( A † ) ⊥ w \in N(A_\dagger)^\perp w ∈ N ( A † ) ⊥ が存在して x † − x 0 = B † ν w x_\dagger - x_0 = B_\dagger^\nu w x † − x 0 = B † ν w 作用素近似 :a > 0 a > 0 a > 0 の場合、A A A は切り詰められたSVDにより構築され、σ j ≥ a δ b \sigma_j \geq a\delta^b σ j ≥ a δ b の特異値を保持誤差分解戦略 :誤差をバイアスと分散の2つの部分に分解し、それぞれを正確に推定錨点分析 :内ループ更新の錨点に対する相対的な動作を分析することで、重要な事前推定を確立統一的枠組み :標準SVRGと正則化SVRGを扱うための統一的な理論枠組みを提供Regutoolsパッケージの3つの標準逆問題を使用:
s-phillips :軽度の不良設定問題(mildly ill-posed)s-gravity :重度の不良設定問題(severely ill-posed)s-shaw :重度の不良設定問題(severely ill-posed)すべての問題は n = m = 1000 n = m = 1000 n = m = 1000 の有限次元線形システムに離散化。
正確解の生成 :x † = ∥ ( A † ∗ A † ) ν x e ∥ ℓ ∞ − 1 ( A † ∗ A † ) ν x e x_\dagger = \|(A_\dagger^*A_\dagger)^\nu x_e\|_{\ell^\infty}^{-1}(A_\dagger^*A_\dagger)^\nu x_e x † = ∥ ( A † ∗ A † ) ν x e ∥ ℓ ∞ − 1 ( A † ∗ A † ) ν x e 雑音設定 :y i δ = y † , i + ϵ ∥ y † ∥ ℓ ∞ ξ i y^\delta_i = y_{\dagger,i} + \epsilon\|y_\dagger\|_{\ell^\infty}\xi_i y i δ = y † , i + ϵ ∥ y † ∥ ℓ ∞ ξ i 、ξ i ∼ N ( 0 , 1 ) \xi_i \sim \mathcal{N}(0,1) ξ i ∼ N ( 0 , 1 ) ステップサイズ :Landweber法は c 0 = ∥ A † ∥ − 2 c_0 = \|A_\dagger\|^{-2} c 0 = ∥ A † ∥ − 2 、(r)SVRGは c 0 = O ( c ) c_0 = O(c) c 0 = O ( c ) (c = L − 1 c = L^{-1} c = L − 1 )頻度 :M = 2 n M = 2n M = 2 n 最大反復 :10 5 10^5 1 0 5 ラウンドLandweber法(LM) :古典的な反復正則化法、差異原理による停止標準SVRG :最適誤差点での停止を使用正則化SVRG(rSVRG) :理論指導の停止準則を使用仮定2.1の下で、k , n , δ k,n,\delta k , n , δ に無関な定数 c ∗ c^* c ∗ が存在して:
期待値収束率 :
E [ ∥ e k δ ∥ 2 ] 1 / 2 ≤ c ∗ k − min ( ν , 1 / 2 ) + c ∗ { δ 2 ν / ( 1 + 2 ν ) , a > 0 n − 1 / 2 k δ , a = 0 E[\|e_k^\delta\|^2]^{1/2} \leq c^*k^{-\min(\nu,1/2)} + c^*\begin{cases}
\delta^{2\nu/(1+2\nu)}, & a > 0 \\
n^{-1/2}\sqrt{k}\delta, & a = 0
\end{cases} E [ ∥ e k δ ∥ 2 ] 1/2 ≤ c ∗ k − m i n ( ν , 1/2 ) + c ∗ { δ 2 ν / ( 1 + 2 ν ) , n − 1/2 k δ , a > 0 a = 0
一様収束率 :
∥ e k δ ∥ ≤ n c ∗ k − 1 / 2 + max ( 1 / 2 − ν , 0 ) + c ∗ { δ 2 ν / ( 1 + 2 ν ) , a > 0 n − 1 / 2 k δ , a = 0 \|e_k^\delta\| \leq \sqrt{n}c^*k^{-1/2+\max(1/2-\nu,0)} + c^*\begin{cases}
\delta^{2\nu/(1+2\nu)}, & a > 0 \\
n^{-1/2}\sqrt{k}\delta, & a = 0
\end{cases} ∥ e k δ ∥ ≤ n c ∗ k − 1/2 + m a x ( 1/2 − ν , 0 ) + c ∗ { δ 2 ν / ( 1 + 2 ν ) , n − 1/2 k δ , a > 0 a = 0
rSVRG :早期停止なしで最適率 O ( δ 2 ν / ( 1 + 2 ν ) ) O(\delta^{2\nu/(1+2\nu)}) O ( δ 2 ν / ( 1 + 2 ν ) ) を達成SVRG :先験的停止 k ( δ ) = O ( δ − 2 / ( 1 + 2 ν ) ) k(\delta) = O(\delta^{-2/(1+2\nu)}) k ( δ ) = O ( δ − 2/ ( 1 + 2 ν ) ) の下で ν ∈ ( 0 , 1 / 2 ] \nu \in (0,1/2] ν ∈ ( 0 , 1/2 ] に対して最適を達成異なる正則性パラメータ ν \nu ν と雑音水準 ϵ \epsilon ϵ の下での実験結果:
rSVRGの利点 :すべてのテストケースでLandweber法と同等の精度を達成するが、反復回数は大幅に少ないSVRGの性能 :低正則性の場合に良好だが、高正則性の解ではより小さいステップサイズが必要収束動作 :より高い雑音水準はより少ない反復回数を必要とし、理論予測と一致プラトー効果 :rSVRGの最終誤差は通常他の2つの手法より低い具体的な数値結果は表1~3を参照。例えば、s-phillips問題の場合:
ν = 0 , ϵ = 1 e − 3 \nu=0, \epsilon=1e-3 ν = 0 , ϵ = 1 e − 3 の場合、rSVRGは相対誤差 1.93 e − 2 1.93e-2 1.93 e − 2 を達成し、わずか102.825回の反復で実現対照的に、Landweber法は同じ精度を達成するのに758回の反復が必要 SGD類手法 :確率的勾配降下法及びその変種の逆問題への応用分散縮減技術 :SVRG、SAGAなど分散縮減手法の発展正則化理論 :Tikhonov正則化、反復正則化法ソース条件 :解の滑らかさを特徴付ける標準的仮定最適収束率 :雑音設定下のミニマックス最適性Jin et al.(2022)及びJin & Chen(2025)の研究と比較して:
より緩い条件:SVRGの収束要件がより実用的 より完全な分析:期待値と一様収束率の両方を提供 より実用的な手法:rSVRGは早期停止を不要にする 理論の完全性 :線形逆問題を解くSVRGとrSVRGの完全な理論枠組みを確立最適性 :適切な条件下で両手法がミニマックス最適収束率を達成実用性 :rSVRGは内在的な正則化を持ち、実際の応用により適している条件の改善 :既存研究と比べて収束条件を緩和雑音水準への依存 :手法は作用素 A A A の構築と停止準則の選択のため、既知の雑音水準 δ \delta δ を必要とするパラメータ選択 :実際の応用でパラメータ a , b a,b a , b の選択にはヒューリスティック技術が必要線形性の制限 :現在の分析は線形逆問題にのみ適用可能計算複雑度 :各外ループで完全勾配の計算が必要で、場合によっては計算コストが高い適応的手法 :既知の雑音水準に依存しない適応版の開発非線形への拡張 :理論を非線形逆問題に拡張実際の応用 :具体的な画像化と信号処理問題での手法の検証計算最適化 :計算複雑度を低減する戦略の研究理論の厳密性 :数学分析が深く細かく、証明技術が先進的結果の完全性 :期待値と一様収束率の両方を提供し、理論的空白を埋める手法の実用性 :rSVRGの早期停止不要特性により実際の応用に適している条件の改善 :既存研究と比べて収束条件を大幅に緩和実験の充実 :数値実験が理論予測を検証し、手法の利点を示す技術的敷居の高さ :証明過程が極めて複雑で、理解と検証が困難パラメータ感度 :手法の性能がパラメータ選択に比較的敏感応用の制限 :既知の雑音水準を必要とすることが実際の応用範囲を制限計算コスト :完全勾配計算が確率的手法の利点を相殺する可能性理論的貢献 :逆問題における確率的最適化の応用に堅実な理論基礎を提供手法指導 :大規模逆問題の求解に新しい有効な手段を提供研究推進 :確率的正則化手法に関するより多くの研究を刺激する可能性実用価値 :医学画像化、地球物理探査など多くの分野で潜在的応用大規模線形逆問題 :特にデータ量が膨大な画像化問題先験情報が利用可能 :適切な近似作用素を構築できる場合雑音水準が推定可能 :データ雑音水準を合理的に推定できる応用計算資源が充分 :完全勾配計算のコストを負担できる環境論文は62篇の関連文献を引用しており、主に以下を含む:
確率的最適化の古典文献:Johnson & Zhang(2013)、Bottou et al.(2018) 逆問題理論:Engl et al.(1996)、Herman et al.(1978) 関連する収束分析:Jin et al.(2022)、Jin & Chen(2025) 応用背景:Hansen(2007)、Kereta et al.(2021) 本論文は理論的深さと実用性の間で良好なバランスを取っており、大規模線形逆問題の求解に重要な理論的指導と実用的手法を提供している。いくつかの限界があるにもかかわらず、その貢献は本分野の発展を推進する上で重要な意義を持つ。