2025-11-16T17:31:12.997131

On the convergence of stochastic variance reduced gradient for linear inverse problems

Jin, Zhou
Stochastic variance reduced gradient (SVRG) is an accelerated version of stochastic gradient descent based on variance reduction, and is promising for solving large-scale inverse problems. In this work, we analyze SVRG and a regularized version that incorporates a priori knowledge of the problem, for solving linear inverse problems in Hilbert spaces. We prove that, with suitable constant step size schedules and regularity conditions, the regularized SVRG can achieve optimal convergence rates in terms of the noise level without any early stopping rules, and standard SVRG is also optimal for problems with nonsmooth solutions under a priori stopping rules. The analysis is based on an explicit error recursion and suitable prior estimates on the inner loop updates with respect to the anchor point. Numerical experiments are provided to complement the theoretical analysis.
academic

Sulla convergenza del gradiente stocastico con varianza ridotta per problemi inversi lineari

Informazioni Fondamentali

  • ID Articolo: 2510.14759
  • Titolo: On the convergence of stochastic variance reduced gradient for linear inverse problems
  • Autori: Bangti Jin, Zehui Zhou (Dipartimento di Matematica, Università Cinese di Hong Kong)
  • Classificazione: math.NA cs.NA math.OC
  • Data di Pubblicazione: 16 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.14759

Riassunto

Il metodo del gradiente stocastico con varianza ridotta (SVRG) è una versione accelerata della discesa del gradiente stocastico basata sulla riduzione della varianza, che mostra promesse nella risoluzione di problemi inversi su larga scala. Questo articolo analizza SVRG e la sua versione regolarizzata che incorpora conoscenze a priori, per la risoluzione di problemi inversi lineari nello spazio di Hilbert. La ricerca dimostra che, con opportuni programmi di step-size costante e condizioni di regolarità, SVRG regolarizzato può raggiungere il tasso di convergenza ottimale rispetto al livello di rumore, senza necessità di alcuna regola di arresto anticipato; SVRG standard è ottimale anche per problemi con soluzioni non lisce sotto una regola di arresto a priori. L'analisi si basa su ricorrenze di errore esplicite e opportune stime a priori riguardanti gli aggiornamenti del ciclo interno rispetto al punto di ancoraggio.

Contesto di Ricerca e Motivazione

Descrizione del Problema

Questo articolo studia problemi inversi lineari nello spazio di Hilbert: Ax=yA_\dagger x = y_\dagger

dove:

  • A:XY=Y1××YnA_\dagger: X \to Y = Y_1 \times \cdots \times Y_n è l'operatore di sistema
  • xXx \in X è il segnale incognito, yYy_\dagger \in Y sono i dati esatti
  • In pratica si possono ottenere solo dati rumorosi yδ=y+ξy^\delta = y_\dagger + \xi, con livello di rumore δ=ξY\delta = \|\xi\|_Y

Motivazione della Ricerca

  1. Necessità di Problemi su Larga Scala: I problemi inversi lineari si presentano ampiamente in applicazioni pratiche come la tomografia computerizzata e la tomografia a emissione di positroni, con volumi di dati considerevoli
  2. Limitazioni dei Metodi Esistenti: I metodi iterativi tradizionali mostrano bassa efficienza computazionale su problemi su larga scala
  3. Vantaggi di SVRG: Il metodo del gradiente stocastico con varianza ridotta possiede eccellente scalabilità, ma la sua analisi teorica nei problemi inversi rimane incompleta
  4. Necessità di Regolarizzazione: SVRG standard richiede regole di arresto anticipato per realizzare la regolarizzazione, mentre l'incorporazione di conoscenze a priori potrebbe migliorare questa situazione

Contributi Fondamentali

  1. Analisi Teorica Completa: Stabilisce la teoria di convergenza completa per SVRG e SVRG regolarizzato (rSVRG) nella risoluzione di problemi inversi lineari
  2. Tasso di Convergenza Ottimale: Dimostra che entrambi i metodi possono raggiungere il tasso di convergenza ottimale O(δ2ν/(1+2ν))O(\delta^{2\nu/(1+2\nu)}) in condizioni appropriate
  3. Proprietà di Regolarizzazione: rSVRG possiede un meccanismo di regolarizzazione intrinseco, senza necessità di arresto anticipato; SVRG standard possiede anche proprietà di regolarizzazione sotto arresto a priori
  4. Convergenza in Aspettativa e Quasi Certa: Stabilisce simultaneamente tassi di convergenza in senso di aspettativa e quasi certo, estendendo i risultati esistenti
  5. Rilassamento delle Condizioni: Rispetto ai lavori precedenti, le condizioni per la convergenza ottimale di SVRG sono più rilassate

Dettagli del Metodo

Definizione del Compito

Considerare il problema di ottimizzazione: J(x)=12nAxyδY2=1ni=1nfi(x)J(x) = \frac{1}{2n}\|A_\dagger x - y^\delta\|_Y^2 = \frac{1}{n}\sum_{i=1}^n f_i(x) dove fi(x)=12A,ixyiδYi2f_i(x) = \frac{1}{2}\|A_{\dagger,i}x - y^\delta_i\|_{Y_i}^2

Architettura dell'Algoritmo

SVRG Standard (Algoritmo 1)

Inizializzazione: x₀^δ = x₀, frequenza M, step-size {ηₖ}
for K = 0,1,... do
    Calcola gₖ = J'(x_{KM}^δ) = (1/n)A_†*(A_†x_{KM}^δ - y^δ)
    for t = 0,1,...,M-1 do
        Campiona casualmente i_{KM+t} ∈ {1,...,n}
        Aggiorna x_{KM+t+1}^δ = x_{KM+t}^δ - η_{KM+t}(A*_{i_{KM+t}}A_{i_{KM+t}}(x_{KM+t}^δ - x_{KM}^δ) + gₖ)
    end
end

SVRG Regolarizzato (Algoritmo 2)

Sostituire l'operatore AA_\dagger con un operatore approssimato AA, ottenuto mediante decomposizione ai valori singolari troncata: A()=j=1Jσjϕj,ψjA(\cdot) = \sum_{j=1}^J \sigma_j\langle\phi_j, \cdot\rangle\psi_j dove si conservano i valori singolari principali che soddisfano σjaδb\sigma_j \geq a\delta^b.

Ipotesi Fondamentali (Assunzione 2.1)

  1. Condizione di Step-Size: ηj=c0L1\eta_j = c_0 \leq L^{-1}, dove L=max1inAi2L = \max_{1\leq i\leq n}\|A_i\|^2
  2. Condizione di Sorgente: Esistono ν>0\nu > 0 e wN(A)w \in N(A_\dagger)^\perp tali che xx0=Bνwx_\dagger - x_0 = B_\dagger^\nu w
  3. Approssimazione dell'Operatore: Quando a>0a > 0, AA è costruito mediante SVD troncata, conservando i valori singolari σjaδb\sigma_j \geq a\delta^b

Punti di Innovazione Tecnica

  1. Strategia di Decomposizione dell'Errore: Decompone l'errore in componenti di bias e varianza, stimando ciascuna precisamente
  2. Analisi del Punto di Ancoraggio: Attraverso l'analisi del comportamento degli aggiornamenti del ciclo interno rispetto al punto di ancoraggio, stabilisce stime a priori critiche
  3. Framework Unificato: Fornisce un framework teorico unificato per trattare SVRG standard e SVRG regolarizzato

Configurazione Sperimentale

Insiemi di Dati

Utilizza tre problemi inversi standard dal pacchetto Regutools:

  • s-phillips: Problema leggermente mal posto (mildly ill-posed)
  • s-gravity: Problema gravemente mal posto (severely ill-posed)
  • s-shaw: Problema gravemente mal posto (severely ill-posed)

Tutti i problemi sono discretizzati in sistemi lineari a dimensione finita con n=m=1000n = m = 1000.

Parametri Sperimentali

  • Generazione della Soluzione Esatta: x=(AA)νxe1(AA)νxex_\dagger = \|(A_\dagger^*A_\dagger)^\nu x_e\|_{\ell^\infty}^{-1}(A_\dagger^*A_\dagger)^\nu x_e
  • Impostazione del Rumore: yiδ=y,i+ϵyξiy^\delta_i = y_{\dagger,i} + \epsilon\|y_\dagger\|_{\ell^\infty}\xi_i, ξiN(0,1)\xi_i \sim \mathcal{N}(0,1)
  • Step-Size: Metodo di Landweber usa c0=A2c_0 = \|A_\dagger\|^{-2}, (r)SVRG usa c0=O(c)c_0 = O(c), dove c=L1c = L^{-1}
  • Frequenza: M=2nM = 2n
  • Iterazioni Massime: 10510^5 cicli

Metodi di Confronto

  • Metodo di Landweber (LM): Metodo iterativo di regolarizzazione classico, con arresto mediante principio di discrepanza
  • SVRG Standard: Utilizza arresto al punto di errore ottimale
  • SVRG Regolarizzato (rSVRG): Utilizza criterio di arresto guidato dalla teoria

Risultati Sperimentali

Risultato Teorico Principale (Teorema 2.1)

Sotto l'Assunzione 2.1, esiste una costante cc^* indipendente da k,n,δk,n,\delta tale che:

Tasso di Convergenza in Aspettativa:

\delta^{2\nu/(1+2\nu)}, & a > 0 \\ n^{-1/2}\sqrt{k}\delta, & a = 0 \end{cases}$$ **Tasso di Convergenza Quasi Certo**: $$\|e_k^\delta\| \leq \sqrt{n}c^*k^{-1/2+\max(1/2-\nu,0)} + c^*\begin{cases} \delta^{2\nu/(1+2\nu)}, & a > 0 \\ n^{-1/2}\sqrt{k}\delta, & a = 0 \end{cases}$$ ### Risultati di Ottimalità (Corollario 2.1) - **rSVRG**: Raggiunge il tasso ottimale $O(\delta^{2\nu/(1+2\nu)})$ senza necessità di arresto anticipato - **SVRG**: Con arresto a priori $k(\delta) = O(\delta^{-2/(1+2\nu)})$ raggiunge l'ottimalità per $\nu \in (0,1/2]$ ### Risultati degli Esperimenti Numerici I risultati sperimentali mostrano, con diversi parametri di regolarità $\nu$ e livelli di rumore $\epsilon$: 1. **Vantaggi di rSVRG**: In tutti i casi testati raggiunge una precisione paragonabile al metodo di Landweber, ma con un numero significativamente inferiore di iterazioni 2. **Prestazioni di SVRG**: Mostra buone prestazioni in caso di bassa regolarità, ma richiede step-size più piccoli per soluzioni ad alta regolarità 3. **Comportamento di Convergenza**: Livelli di rumore più elevati richiedono meno iterazioni, in accordo con le previsioni teoriche 4. **Effetto Plateau**: L'errore finale di rSVRG è tipicamente inferiore agli altri due metodi I risultati numerici specifici si trovano nelle Tabelle 1-3, ad esempio per il problema s-phillips: - Quando $\nu=0, \epsilon=1e-3$, rSVRG raggiunge un errore relativo di $1.93e-2$, richiedendo solo 102.825 iterazioni - In confronto, il metodo di Landweber richiede 758 iterazioni per raggiungere la stessa precisione ## Lavori Correlati ### Metodi di Ottimizzazione Stocastica - **Metodi di tipo SGD**: Applicazioni della discesa del gradiente stocastico e delle sue varianti nei problemi inversi - **Tecniche di Riduzione della Varianza**: Sviluppo dei metodi SVRG, SAGA e di riduzione della varianza ### Teoria dei Problemi Inversi - **Teoria della Regolarizzazione**: Regolarizzazione di Tikhonov, metodi di regolarizzazione iterativa - **Condizioni di Sorgente**: Ipotesi standard per caratterizzare la regolarità della soluzione - **Tassi di Convergenza Ottimali**: Ottimalità minimax in contesti con rumore ### Posizionamento dei Contributi di questo Articolo Rispetto ai lavori di Jin et al. (2022) e Jin & Chen (2025): - Condizioni più rilassate: Requisiti più pratici per la convergenza di SVRG - Analisi più completa: Fornisce sia tassi di convergenza in aspettativa che quasi certi - Metodo più pratico: rSVRG non richiede regole di arresto anticipato ## Conclusioni e Discussione ### Conclusioni Principali 1. **Completezza Teorica**: Stabilisce un framework teorico completo per SVRG e rSVRG nella risoluzione di problemi inversi lineari 2. **Ottimalità**: Entrambi i metodi raggiungono il tasso di convergenza minimax ottimale in condizioni appropriate 3. **Praticità**: rSVRG possiede regolarizzazione intrinseca, rendendolo più adatto alle applicazioni pratiche 4. **Miglioramento delle Condizioni**: Rilassa significativamente le condizioni di convergenza rispetto ai lavori precedenti ### Limitazioni 1. **Dipendenza dal Livello di Rumore**: Il metodo richiede la conoscenza del livello di rumore $\delta$ per costruire l'operatore $A$ e selezionare il criterio di arresto 2. **Scelta dei Parametri**: La scelta pratica dei parametri $a,b$ richiede tecniche euristiche 3. **Restrizione alla Linearità**: L'analisi attuale si applica solo ai problemi inversi lineari 4. **Complessità Computazionale**: Ogni ciclo esterno richiede il calcolo del gradiente completo, che in alcuni casi potrebbe essere costoso ### Direzioni Future 1. **Metodi Adattivi**: Sviluppare versioni adattive che non dipendono dal livello di rumore noto 2. **Estensione Non Lineare**: Estendere la teoria ai problemi inversi non lineari 3. **Applicazioni Pratiche**: Verificare il metodo in problemi specifici di imaging e elaborazione dei segnali 4. **Ottimizzazione Computazionale**: Ricercare strategie per ridurre la complessità computazionale ## Valutazione Approfondita ### Punti di Forza 1. **Rigore Teorico**: L'analisi matematica è profonda e dettagliata, con tecniche di prova avanzate 2. **Completezza dei Risultati**: Fornisce sia tassi di convergenza in aspettativa che quasi certi, colmando lacune teoriche 3. **Praticità del Metodo**: La caratteristica di non richiedere arresto anticipato di rSVRG lo rende più adatto alle applicazioni pratiche 4. **Miglioramento delle Condizioni**: Rilassa significativamente le condizioni di convergenza rispetto ai lavori precedenti 5. **Esperimenti Sufficienti**: Gli esperimenti numerici verificano le previsioni teoriche e dimostrano i vantaggi del metodo ### Insufficienze 1. **Elevata Soglia Tecnica**: Il processo di prova è estremamente complesso, rendendo difficile la comprensione e la verifica 2. **Sensibilità ai Parametri**: Le prestazioni del metodo sono relativamente sensibili alla scelta dei parametri 3. **Limitazioni Applicative**: La necessità di conoscere il livello di rumore limita l'applicabilità pratica 4. **Costo Computazionale**: Il calcolo del gradiente completo potrebbe annullare i vantaggi del metodo stocastico ### Impatto 1. **Contributo Teorico**: Fornisce una base teorica solida per l'applicazione dell'ottimizzazione stocastica nei problemi inversi 2. **Guida Metodologica**: Fornisce nuovi approcci efficaci per la risoluzione di problemi inversi su larga scala 3. **Promozione della Ricerca**: Potrebbe stimolare ulteriori ricerche su metodi di regolarizzazione stocastica 4. **Valore Pratico**: Ha potenziali applicazioni in imaging medico, prospezione geofisica e altri campi ### Scenari Applicabili 1. **Problemi Inversi Lineari su Larga Scala**: In particolare problemi di imaging con volumi di dati enormi 2. **Informazioni a Priori Disponibili**: Situazioni in cui è possibile costruire operatori approssimati appropriati 3. **Livello di Rumore Stimabile**: Applicazioni in cui il livello di rumore dei dati può essere ragionevolmente stimato 4. **Risorse Computazionali Sufficienti**: Ambienti in grado di sostenere il costo del calcolo del gradiente completo ## Bibliografia L'articolo cita 62 riferimenti correlati, che includono principalmente: - Letteratura classica di ottimizzazione stocastica: Johnson & Zhang (2013), Bottou et al. (2018) - Teoria dei problemi inversi: Engl et al. (1996), Herman et al. (1978) - Analisi di convergenza correlata: Jin et al. (2022), Jin & Chen (2025) - Contesto applicativo: Hansen (2007), Kereta et al. (2021) --- Questo articolo raggiunge un buon equilibrio tra profondità teorica e praticità, fornendo una guida teorica importante e metodi pratici per la risoluzione di problemi inversi lineari su larga scala. Nonostante alcune limitazioni, i suoi contributi sono significativi per l'avanzamento di questo campo di ricerca.