Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic
Sparse Polyak : une règle de taille de pas adaptative pour l'estimation M haute-dimensionnelle
Cet article propose et étudie Sparse Polyak, une variante de la taille de pas adaptative de Polyak, spécialement conçue pour résoudre les problèmes d'estimation statistique haute-dimensionnelle, où la dimension du problème croît beaucoup plus rapidement que la taille de l'échantillon. Dans ce cadre, la taille de pas standard de Polyak fonctionne mal et nécessite un nombre croissant d'itérations pour atteindre la précision statistique optimale — même si le problème reste bien conditionné et/ou la précision réalisable ne se dégrade pas avec l'échelle du problème. Cet article attribue cette limitation à une inadéquation dans la façon de mesurer la régularité : en haute dimension, l'estimation de la constante de Lipschitz-lissité n'est plus efficace. Au lieu de cela, il est plus approprié d'estimer la régularité restreinte à des directions spécifiques pertinentes pour le problème (constante de Lipschitz-lissité restreinte). Sparse Polyak surmonte ce problème en modifiant la taille de pas pour estimer la constante de Lipschitz-lissité restreinte.
Défis haute-dimensionnels : Dans le cadre haute-dimensionnel, l'estimation traditionnelle de la constante de Lipschitz-lissité échoue, conduisant à des choix de taille de pas trop conservateurs
Dégradation des performances : La taille de pas standard de Polyak se dégrade significativement avec l'augmentation de la dimension du problème, même si le nombre de condition du problème reste constant
Absence d'invariance de taux : Les méthodes existantes ne peuvent pas maintenir les mêmes garanties de convergence que l'IHT à taille de pas fixe
L'algorithme de seuillage dur itératif (IHT) fonctionne bien en récupération parcimonieuse haute-dimensionnelle, mais nécessite de connaître la constante de Lipschitz-lissité restreinte L̄
Les méthodes existantes de taille de pas adaptative manquent de garanties théoriques et de performances pratiques dans le cadre haute-dimensionnel
Il est nécessaire de disposer d'une méthode qui puisse à la fois ajuster la taille de pas de manière adaptative et maintenir l'invariance de taux
Première règle de taille de pas adaptative haute-dimensionnelle : Propose la première règle de taille de pas adaptative qui fonctionne bien dans le cadre haute-dimensionnel et maintient l'invariance de taux
Innovation théorique : Identifie le problème fondamental de la mesure de la régularité en haute dimension et propose d'estimer la constante de Lipschitz-lissité restreinte plutôt que la constante globale
Garanties de convergence : Établit un taux de convergence linéaire comparable aux meilleures tailles de pas fixes connues, atteignant la précision statistique optimale
Applicabilité générale : Fournit des garanties théoriques pour plusieurs modèles statistiques (régression logistique, régression linéaire, régression matricielle, etc.)
Récupération du support : Fournit des garanties de récupération du support sous des conditions de rapport signal-bruit
Algorithme 1 : IHT avec taille de pas Sparse Polyak
Entrée : fonction f, valeur de fonction cible f̂, paramètre de parcimonie s, nombre d'itérations T
Initialisation : θ_0 ∈ R^d, ||θ_0||_0 ≤ s
pour t = 0 à T-1 faire :
Calculer la taille de pas : γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
Mise à jour : θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
fin pour
Corollaire 1 (Récupération du support) :
Sous la condition de rapport signal-bruit |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, l'algorithme peut récupérer avec précision l'ensemble de support.
Problème d'échelle dimensionnelle : En haute dimension, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, avec égalité dans le pire cas
Conservatisme de la taille de pas : L'utilisation de la norme complète du gradient conduit à des tailles de pas trop conservatrices, s'aggravant avec l'augmentation de d
Avantage de l'adaptabilité : La taille de pas adaptative peut exploiter les informations de courbure locale, montrant de meilleures performances sur les problèmes à courbure non uniforme
Identification précise du problème : Identifie avec précision le problème fondamental de la taille de pas adaptative haute-dimensionnelle
Contribution théorique importante : Première fourniture de garanties théoriques pour la taille de pas adaptative dans les problèmes parcimonieux haute-dimensionnels
Méthode simple et efficace : Modification simple mais résultats significatifs
Expériences complètes : Incluent la vérification théorique, les expériences sur données synthétiques et réelles
Évaluation globale : Ceci est un article théorique de haute qualité qui propose une solution innovante à un problème important en optimisation haute-dimensionnelle. L'analyse théorique est rigoureuse, la vérification expérimentale est complète, et il a une valeur de contribution importante pour le domaine connexe. Bien qu'il existe certaines limitations techniques, c'est globalement un progrès important dans le domaine.