2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic

Sparse Polyak : une règle de taille de pas adaptative pour l'estimation M haute-dimensionnelle

Informations de base

  • ID de l'article : 2509.09802
  • Titre : Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
  • Auteurs : Tianqi Qiao (Texas A&M University), Marie Maros (Texas A&M University)
  • Classification : math.OC cs.LG stat.ML
  • Date de publication/Conférence : 39e Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2509.09802

Résumé

Cet article propose et étudie Sparse Polyak, une variante de la taille de pas adaptative de Polyak, spécialement conçue pour résoudre les problèmes d'estimation statistique haute-dimensionnelle, où la dimension du problème croît beaucoup plus rapidement que la taille de l'échantillon. Dans ce cadre, la taille de pas standard de Polyak fonctionne mal et nécessite un nombre croissant d'itérations pour atteindre la précision statistique optimale — même si le problème reste bien conditionné et/ou la précision réalisable ne se dégrade pas avec l'échelle du problème. Cet article attribue cette limitation à une inadéquation dans la façon de mesurer la régularité : en haute dimension, l'estimation de la constante de Lipschitz-lissité n'est plus efficace. Au lieu de cela, il est plus approprié d'estimer la régularité restreinte à des directions spécifiques pertinentes pour le problème (constante de Lipschitz-lissité restreinte). Sparse Polyak surmonte ce problème en modifiant la taille de pas pour estimer la constante de Lipschitz-lissité restreinte.

Contexte et motivation de la recherche

Définition du problème

Cet article étudie le problème d'estimation statistique haute-dimensionnelle :

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

où la dimension d croît très rapidement par rapport à la taille de l'échantillon n, c'est-à-dire d/n → ∞.

Problèmes fondamentaux

  1. Défis haute-dimensionnels : Dans le cadre haute-dimensionnel, l'estimation traditionnelle de la constante de Lipschitz-lissité échoue, conduisant à des choix de taille de pas trop conservateurs
  2. Dégradation des performances : La taille de pas standard de Polyak se dégrade significativement avec l'augmentation de la dimension du problème, même si le nombre de condition du problème reste constant
  3. Absence d'invariance de taux : Les méthodes existantes ne peuvent pas maintenir les mêmes garanties de convergence que l'IHT à taille de pas fixe

Motivation de la recherche

  • L'algorithme de seuillage dur itératif (IHT) fonctionne bien en récupération parcimonieuse haute-dimensionnelle, mais nécessite de connaître la constante de Lipschitz-lissité restreinte L̄
  • Les méthodes existantes de taille de pas adaptative manquent de garanties théoriques et de performances pratiques dans le cadre haute-dimensionnel
  • Il est nécessaire de disposer d'une méthode qui puisse à la fois ajuster la taille de pas de manière adaptative et maintenir l'invariance de taux

Contributions principales

  1. Première règle de taille de pas adaptative haute-dimensionnelle : Propose la première règle de taille de pas adaptative qui fonctionne bien dans le cadre haute-dimensionnel et maintient l'invariance de taux
  2. Innovation théorique : Identifie le problème fondamental de la mesure de la régularité en haute dimension et propose d'estimer la constante de Lipschitz-lissité restreinte plutôt que la constante globale
  3. Garanties de convergence : Établit un taux de convergence linéaire comparable aux meilleures tailles de pas fixes connues, atteignant la précision statistique optimale
  4. Applicabilité générale : Fournit des garanties théoriques pour plusieurs modèles statistiques (régression logistique, régression linéaire, régression matricielle, etc.)
  5. Récupération du support : Fournit des garanties de récupération du support sous des conditions de rapport signal-bruit

Détails de la méthode

Définition de la tâche

Considérez le problème d'optimisation contrainte :

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

où :

  • θ est un vecteur de paramètres de dimension d, contraint à avoir au maximum s éléments non nuls
  • f(θ) est la fonction de risque empirique
  • L'objectif est de résoudre efficacement dans le cadre haute-dimensionnel (d/n → ∞)

Algorithme principal : Taille de pas Sparse Polyak

Algorithme 1 : IHT avec taille de pas Sparse Polyak

Entrée : fonction f, valeur de fonction cible f̂, paramètre de parcimonie s, nombre d'itérations T
Initialisation : θ_0 ∈ R^d, ||θ_0||_0 ≤ s
pour t = 0 à T-1 faire :
    Calculer la taille de pas : γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    Mise à jour : θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
fin pour

Points clés de l'innovation

  1. Formule de taille de pas modifiée :
    • Polyak traditionnel : γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
    • Sparse Polyak : γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
  2. Opérateur de seuillage dur : HT_s conserve les s composantes de plus grande amplitude, les autres étant mises à zéro
  3. Fondement théorique :
    • Utilise les conditions de convexité restreinte (RSC) et de lissité restreinte (RSS)
    • L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

Points d'innovation technique

  1. Taille de pas indépendante de la dimension : En utilisant ||HT_s(∇f(θ_t))||² au lieu de ||∇f(θ_t)||², on évite l'échelle liée à la dimension d
  2. Estimation de direction restreinte : Se concentre sur la régularité dans les directions parcimonieuses, plutôt que dans tout l'espace
  3. Algorithme à double boucle : Fournit l'Algorithme 2 pour traiter le cas où la valeur de fonction cible est inconnue

Analyse théorique

Théorèmes principaux

Théorème 1 (Résultat de convergence principal) : Sous les hypothèses RSC et RSS, lorsque s ≥ (240κ̄)²s* :

  • Convergence linéaire : ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
  • Précision finale : O(||HT_s(∇f(θ̂))||²/μ̄²)

Corollaire 1 (Récupération du support) : Sous la condition de rapport signal-bruit |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, l'algorithme peut récupérer avec précision l'ensemble de support.

Garanties pour les modèles statistiques

Régression logistique parcimonieuse (Corollaire 2) :

  • Taux de convergence : (1 - 1/(80κ̄))
  • Précision statistique : O(s log d / n)
  • Garantie probabiliste : au moins 1 - e^{-c_0 n} - 2/d

Régression matricielle (Corollaire 3) :

  • Applicable à la récupération de matrices de faible rang
  • Garanties de convergence et précision statistique similaires

Configuration expérimentale

Expériences sur données synthétiques

  • Configuration dimensionnelle : d ∈ {5000, 10000, 20000}
  • Parcimonie : s* = 300
  • Taille d'échantillon : n = ⌈α s log d⌉, α = 5
  • Matrice de conception : Structure de série temporelle, paramètre de corrélation ω = 0,5
  • Configuration du bruit : Régression linéaire σ² = 0,25, régression logistique générée selon le modèle (4)

Expériences sur données réelles

  • Régression linéaire : Ensemble de données Wave Energy Farm à grande échelle (120 échantillons, 149 caractéristiques)
  • Régression logistique : Ensemble de données Molecule Musk (120 échantillons, 166 caractéristiques)
  • Parcimonie : s = 20

Méthodes de comparaison

  • IHT avec taille de pas fixe γ = 2/(3L̄)
  • Taille de pas Polyak classique
  • Taille de pas fixe optimisée par recherche en grille

Résultats expérimentaux

Résultats principaux

  1. Vérification de l'invariance de taux :
    • Sparse Polyak maintient un comportement de convergence cohérent sur différentes dimensions d
    • Polyak classique se dégrade significativement avec l'augmentation de la dimension
    • Lorsque log(d)/n reste constant, le nombre d'itérations reste essentiellement inchangé
  2. Comparaison des vitesses de convergence :
    • Comparé à la taille de pas fixe, Sparse Polyak converge généralement plus rapidement
    • L'avantage est plus prononcé en régression logistique (en raison de l'adaptation à la courbure locale)
    • Le choix de la valeur cible f̂ affecte directement la précision réalisable
  3. Performance sur données réelles :
    • Tâche de régression logistique : Sparse Polyak > taille de pas fixe > Polyak classique
    • Tâche de régression linéaire : la taille de pas fixe optimale est légèrement meilleure, mais Sparse Polyak surpasse toujours Polyak classique

Découvertes clés

  1. Problème d'échelle dimensionnelle : En haute dimension, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, avec égalité dans le pire cas
  2. Conservatisme de la taille de pas : L'utilisation de la norme complète du gradient conduit à des tailles de pas trop conservatrices, s'aggravant avec l'augmentation de d
  3. Avantage de l'adaptabilité : La taille de pas adaptative peut exploiter les informations de courbure locale, montrant de meilleures performances sur les problèmes à courbure non uniforme

Travaux connexes

Algorithmes de récupération parcimonieuse

  • IHT et variantes : Blumensath & Davies (2009), Jain et al. (2014)
  • Autres méthodes : Matching Pursuit, OMP, CoSaMP
  • Versions accélérées : Khanna & Kyrillidis (2018), Zhou et al. (2018)

Méthodes de taille de pas adaptative

  • Taille de pas de Polyak : Polyak (1969), résurgence récente Ren et al. (2022)
  • Méthodes Lipschitz locales : Malitsky & Mishchenko (2020, 2024)
  • Problèmes contraints : Cheng & Li (2012), Devanathan & Boyd (2024)

Statistiques haute-dimensionnelle

  • Fondements théoriques : Agarwal et al. (2012), Loh & Wainwright (2015)
  • Développement des conditions : RSC/RSS, évolution des conditions RIP

Conclusions et discussion

Conclusions principales

  1. Efficacité de la méthode : Sparse Polyak résout avec succès les défis de la taille de pas adaptative dans le cadre haute-dimensionnel
  2. Complétude théorique : Fournit des garanties de convergence comparables aux meilleures tailles de pas fixes
  3. Valeur pratique : Démontre de bonnes performances dans plusieurs modèles statistiques
  4. Invariance de taux : Réalise la stabilité des performances avec la croissance de l'échelle du problème

Limitations

  1. Facteurs constants : Le facteur 1/5 dans la formule de taille de pas peut être un artefact de l'analyse, potentiellement inutile en pratique
  2. Exigences d'initialisation : Certains résultats nécessitent des conditions d'initialisation spécifiques
  3. Restrictions de conditions : Nécessite toujours les conditions RSC/RSS, bien que plus faibles que les conditions RIP
  4. Sélection de paramètres : Nécessite de connaître ou d'estimer préalablement la valeur de fonction cible f̂

Directions futures

  1. Extension à d'autres algorithmes : Les auteurs conjecturent que les méthodes BB et autres pourraient également nécessiter des améliorations similaires
  2. Conditions plus faibles : Relâcher davantage les hypothèses théoriques
  3. Applications pratiques : Valider la méthode sur davantage de problèmes réels
  4. Optimisation computationnelle : Réduire la complexité computationnelle et améliorer l'applicabilité pratique

Évaluation approfondie

Avantages

  1. Identification précise du problème : Identifie avec précision le problème fondamental de la taille de pas adaptative haute-dimensionnelle
  2. Contribution théorique importante : Première fourniture de garanties théoriques pour la taille de pas adaptative dans les problèmes parcimonieux haute-dimensionnels
  3. Méthode simple et efficace : Modification simple mais résultats significatifs
  4. Expériences complètes : Incluent la vérification théorique, les expériences sur données synthétiques et réelles
  5. Rédaction claire : Structure logique claire, détails techniques complets

Insuffisances

  1. Conditions relativement fortes : L'exigence s ≥ (240κ̄)²s* peut être trop stricte dans certaines applications
  2. Analyse des constantes : Certaines constantes peuvent ne pas être suffisamment serrées, affectant les performances pratiques
  3. Portée d'applicabilité : Principalement orienté vers les problèmes parcimonieux, l'extensibilité à d'autres problèmes structurés est inconnue
  4. Surcharge computationnelle : Chaque itération nécessite le calcul de l'opération de seuillage dur, augmentant le coût computationnel

Impact

  1. Valeur théorique : Contribution importante à la théorie de l'optimisation haute-dimensionnelle
  2. Signification pratique : Fournit un nouvel outil pour les problèmes parcimonieux en apprentissage automatique
  3. Nature inspirante : Fournit des idées pour l'amélioration d'autres méthodes adaptatives dans le cadre haute-dimensionnel
  4. Reproductibilité : Analyse théorique complète, description d'algorithme claire, facile à implémenter

Scénarios d'application

  1. Régression parcimonieuse haute-dimensionnelle : Sélection de caractéristiques, analyse de données génomiques
  2. Détection comprimée : Reconstruction de signaux, traitement d'images
  3. Apprentissage automatique : Parcimonie en apprentissage profond, élagage de réseaux de neurones
  4. Apprentissage statistique : Inférence statistique haute-dimensionnelle, sélection de variables

Références

Les références clés incluent :

  1. Jain et al. (2014) - Fondements théoriques d'IHT
  2. Agarwal et al. (2012) - Conditions RSC/RSS
  3. Polyak (1969) - Taille de pas Polyak originale
  4. Loh & Wainwright (2015) - Théorie statistique haute-dimensionnelle
  5. Malitsky & Mishchenko (2020) - Méthodes adaptatives modernes

Évaluation globale : Ceci est un article théorique de haute qualité qui propose une solution innovante à un problème important en optimisation haute-dimensionnelle. L'analyse théorique est rigoureuse, la vérification expérimentale est complète, et il a une valeur de contribution importante pour le domaine connexe. Bien qu'il existe certaines limitations techniques, c'est globalement un progrès important dans le domaine.