On the convergence of stochastic variance reduced gradient for linear inverse problems
Jin, Zhou
Stochastic variance reduced gradient (SVRG) is an accelerated version of stochastic gradient descent based on variance reduction, and is promising for solving large-scale inverse problems. In this work, we analyze SVRG and a regularized version that incorporates a priori knowledge of the problem, for solving linear inverse problems in Hilbert spaces. We prove that, with suitable constant step size schedules and regularity conditions, the regularized SVRG can achieve optimal convergence rates in terms of the noise level without any early stopping rules, and standard SVRG is also optimal for problems with nonsmooth solutions under a priori stopping rules. The analysis is based on an explicit error recursion and suitable prior estimates on the inner loop updates with respect to the anchor point. Numerical experiments are provided to complement the theoretical analysis.
academic
Sobre la convergencia del gradiente de varianza reducida estocástica para problemas inversos lineales
El método de gradiente de varianza reducida estocástica (SVRG) es una versión acelerada del descenso de gradiente estocástico basada en reducción de varianza, que muestra promesa en la resolución de problemas inversos a gran escala. Este artículo analiza SVRG y su versión regularizada que incorpora conocimiento previo, para resolver problemas inversos lineales en espacios de Hilbert. La investigación demuestra que, bajo un tamaño de paso constante apropiado y condiciones de regularidad, SVRG regularizado puede lograr una tasa de convergencia óptima con respecto al nivel de ruido, sin necesidad de ninguna regla de parada anticipada; SVRG estándar también es óptimo para problemas con soluciones no suaves bajo una regla de parada previa. El análisis se basa en recursiones de error explícitas y estimaciones previas apropiadas sobre actualizaciones de bucle interno respecto al punto de anclaje.
Necesidad de problemas a gran escala: Los problemas inversos lineales aparecen ampliamente en aplicaciones prácticas como tomografía computarizada y tomografía por emisión de positrones, con volúmenes de datos masivos
Limitaciones de métodos existentes: Los métodos iterativos tradicionales tienen baja eficiencia computacional en problemas a gran escala
Ventajas de SVRG: El método de gradiente de varianza reducida estocástica tiene excelente escalabilidad, pero su análisis teórico en problemas inversos aún no es completo
Necesidad de regularización: SVRG estándar requiere reglas de parada anticipada para lograr regularización, y la incorporación de conocimiento previo podría mejorar esta situación
Análisis teórico mejorado: Se establece una teoría de convergencia completa para SVRG y SVRG regularizado (rSVRG) en la resolución de problemas inversos lineales
Tasa de convergencia óptima: Se demuestra que ambos métodos pueden lograr la tasa de convergencia óptima O(δ2ν/(1+2ν)) bajo condiciones apropiadas
Propiedades de regularización: rSVRG posee un mecanismo de regularización intrínseco sin necesidad de parada anticipada; SVRG estándar también posee propiedades de regularización bajo parada previa
Convergencia en esperanza y casi segura: Se establecen simultáneamente tasas de convergencia en sentido de esperanza y casi seguro, extendiendo resultados previos
Relajación de condiciones: Las condiciones para convergencia óptima de SVRG son más relajadas en comparación con trabajos previos
Inicialización: x₀^δ = x₀, frecuencia M, tamaño de paso {ηₖ}
para K = 0,1,... hacer
Calcular gₖ = J'(x_{KM}^δ) = (1/n)A_†*(A_†x_{KM}^δ - y^δ)
para t = 0,1,...,M-1 hacer
Muestrear aleatoriamente i_{KM+t} ∈ {1,...,n}
Actualizar x_{KM+t+1}^δ = x_{KM+t}^δ - η_{KM+t}(A*_{i_{KM+t}}A_{i_{KM+t}}(x_{KM+t}^δ - x_{KM}^δ) + gₖ)
fin para
fin para
Reemplazar el operador A† con un operador aproximado A, obtenido mediante descomposición de valores singulares truncada:
A(⋅)=∑j=1Jσj⟨ϕj,⋅⟩ψj
donde se retienen los valores singulares principales que satisfacen σj≥aδb.
Estrategia de descomposición de error: El error se descompone en partes de sesgo y varianza, estimadas por separado con precisión
Análisis de punto de anclaje: Mediante el análisis del comportamiento de actualizaciones de bucle interno relativo al punto de anclaje, se establecen estimaciones previas clave
Marco unificado: Se proporciona un marco teórico unificado para tratar SVRG estándar y SVRG regularizado