On the convergence of stochastic variance reduced gradient for linear inverse problems
Jin, Zhou
Stochastic variance reduced gradient (SVRG) is an accelerated version of stochastic gradient descent based on variance reduction, and is promising for solving large-scale inverse problems. In this work, we analyze SVRG and a regularized version that incorporates a priori knowledge of the problem, for solving linear inverse problems in Hilbert spaces. We prove that, with suitable constant step size schedules and regularity conditions, the regularized SVRG can achieve optimal convergence rates in terms of the noise level without any early stopping rules, and standard SVRG is also optimal for problems with nonsmooth solutions under a priori stopping rules. The analysis is based on an explicit error recursion and suitable prior estimates on the inner loop updates with respect to the anchor point. Numerical experiments are provided to complement the theoretical analysis.
academic
Sur la convergence du gradient stochastique à variance réduite pour les problèmes inverses linéaires
La méthode du gradient stochastique à variance réduite (SVRG) est une version accélérée de la descente de gradient stochastique basée sur la réduction de variance, prometteuse pour résoudre les problèmes inverses à grande échelle. Cet article analyse le SVRG et sa version régularisée combinant les connaissances préalables pour résoudre les problèmes inverses linéaires dans les espaces de Hilbert. L'étude démontre que, sous un calendrier de pas constant approprié et des conditions de régularité, le SVRG régularisé peut atteindre un taux de convergence optimal en fonction du niveau de bruit, sans aucune règle d'arrêt anticipé; le SVRG standard est également optimal pour les problèmes à solutions non lisses sous une règle d'arrêt préalable. L'analyse repose sur des récursions d'erreur explicites et des estimations préalables appropriées concernant les mises à jour de la boucle interne par rapport aux points d'ancrage.
Besoin de problèmes à grande échelle: Les problèmes inverses linéaires apparaissent largement dans les applications pratiques telles que la tomographie par ordinateur et la tomographie par émission de positons, avec des volumes de données considérables
Limitations des méthodes existantes: Les méthodes itératives traditionnelles manquent d'efficacité computationnelle sur les problèmes à grande échelle
Avantages du SVRG: La méthode du gradient stochastique à variance réduite possède une excellente scalabilité, mais son analyse théorique dans les problèmes inverses reste incomplète
Besoin de régularisation: Le SVRG standard nécessite une règle d'arrêt anticipé pour réaliser la régularisation, et l'intégration de connaissances préalables pourrait améliorer cette situation
Analyse théorique complète: Établissement d'une théorie de convergence complète pour le SVRG et le SVRG régularisé (rSVRG) appliqués aux problèmes inverses linéaires
Taux de convergence optimal: Preuve que les deux méthodes atteignent le taux de convergence optimal O(δ2ν/(1+2ν)) sous des conditions appropriées
Propriétés de régularisation: Le rSVRG possède un mécanisme de régularisation intrinsèque sans nécessiter d'arrêt anticipé; le SVRG standard possède également des propriétés de régularisation sous arrêt préalable
Convergence en espérance et presque sûre: Établissement simultané des taux de convergence en espérance et au sens presque sûr, étendant les résultats existants
Conditions assouplies: Par rapport aux travaux antérieurs, les conditions pour la convergence optimale du SVRG sont plus souples
Initialisation: x₀^δ = x₀, fréquence M, pas {ηₖ}
pour K = 0,1,... faire
Calculer gₖ = J'(x_{KM}^δ) = (1/n)A_†*(A_†x_{KM}^δ - y^δ)
pour t = 0,1,...,M-1 faire
Échantillonner aléatoirement i_{KM+t} ∈ {1,...,n}
Mettre à jour x_{KM+t+1}^δ = x_{KM+t}^δ - η_{KM+t}(A*_{i_{KM+t}}A_{i_{KM+t}}(x_{KM+t}^δ - x_{KM}^δ) + gₖ)
fin pour
fin pour
Remplacer l'opérateur A† par un opérateur approché A, obtenu par décomposition en valeurs singulières tronquées:
A(⋅)=∑j=1Jσj⟨ϕj,⋅⟩ψj
où sont conservées les valeurs singulières principales satisfaisant σj≥aδb.
Stratégie de décomposition d'erreur: Décomposition de l'erreur en parties de biais et de variance, avec estimation précise de chacune
Analyse des points d'ancrage: Établissement d'estimations préalables clés par analyse du comportement des mises à jour de la boucle interne par rapport aux points d'ancrage
Cadre unifié: Fourniture d'un cadre théorique unifié pour traiter le SVRG standard et le SVRG régularisé