Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic
Sparse Polyak: una regola di dimensione del passo adattiva per la stima M ad alta dimensionalità
Il presente articolo propone e studia Sparse Polyak, una variante del passo adattivo di Polyak specificamente progettata per affrontare problemi di stima statistica ad alta dimensionalità, dove la dimensione del problema cresce significativamente più velocemente della dimensione del campione. In questo contesto, il passo adattivo di Polyak standard presenta prestazioni scadenti, richiedendo un numero crescente di iterazioni per raggiungere la precisione statistica ottimale, anche quando il problema rimane ben condizionato e/o la precisione raggiungibile non si degrada con la scala del problema. Gli autori attribuiscono questa limitazione a una mancata corrispondenza nel modo di misurare la levigatezza: in alta dimensionalità, la stima della costante di Lipschitz levigatezza globale non è più efficace. Invece, è più appropriato stimare la levigatezza limitata a direzioni specifiche rilevanti per il problema (costante di Lipschitz levigatezza ristretta). Sparse Polyak supera questo problema modificando il passo adattivo per stimare la costante di Lipschitz levigatezza ristretta.
Sfide ad Alta Dimensionalità: In contesti ad alta dimensionalità, la stima tradizionale della costante di Lipschitz levigatezza globale fallisce, determinando scelte di passo eccessivamente conservative
Degradazione delle Prestazioni: Il passo adattivo di Polyak standard mostra un significativo deterioramento delle prestazioni all'aumentare della dimensionalità del problema, anche quando il numero di condizionamento rimane invariato
Assenza di Invarianza di Velocità: I metodi esistenti non riescono a mantenere le stesse garanzie di convergenza dell'algoritmo IHT con passo fisso
L'algoritmo di soglia iterativa (IHT) presenta prestazioni eccellenti nel recupero sparso ad alta dimensionalità, ma richiede la conoscenza della costante di levigatezza ristretta L̄
I metodi di passo adattivo esistenti mancano di garanzie teoriche e prestazioni pratiche in contesti ad alta dimensionalità
È necessario un metodo che sia in grado di adattare dinamicamente il passo mantenendo l'invarianza di velocità
Prima Regola di Passo Adattivo ad Alta Dimensionalità: Propone la prima regola di passo adattivo che funziona bene in contesti ad alta dimensionalità mantenendo l'invarianza di velocità
Innovazione Teorica: Identifica il problema fondamentale nella misurazione della levigatezza in alta dimensionalità, proponendo di stimare la costante di Lipschitz levigatezza ristretta anziché quella globale
Garanzie di Convergenza: Stabilisce una velocità di convergenza lineare equivalente al miglior passo fisso noto, raggiungendo la precisione statistica ottimale
Algoritmo 1: IHT con Dimensione del Passo Sparse Polyak
Input: funzione f, valore della funzione obiettivo f̂, parametro di sparsità s, numero di iterazioni T
Inizializzazione: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
for t = 0 to T-1 do:
Calcola il passo: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
Aggiornamento: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for
Passo Indipendente dalla Dimensionalità: Utilizzando ||HT_s(∇f(θ_t))||² anziché ||∇f(θ_t)||², si evita il ridimensionamento correlato alla dimensionalità d
Stima in Direzioni Ristrette: Focalizzazione sulla levigatezza in direzioni sparse, non nello spazio completo
Algoritmo a Doppio Ciclo: L'Algoritmo 2 fornisce una soluzione per il caso di valore obiettivo sconosciuto
Corollario 1 (Recupero del Supporto):
Sotto la condizione di rapporto segnale-rumore |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, l'algoritmo recupera accuratamente l'insieme di supporto.
Problema di Ridimensionamento Dimensionale: In alta dimensionalità, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, con uguaglianza nel caso peggiore
Conservatismo del Passo: L'utilizzo della norma del gradiente completo determina passi eccessivamente conservativi, peggiorando all'aumentare di d
Vantaggi dell'Adattabilità: Il passo adattivo può sfruttare informazioni di curvatura locale, mostrando prestazioni superiori in problemi con curvatura non uniforme
Valutazione Complessiva: Questo è un articolo di alta qualità che affronta un problema importante nell'ottimizzazione ad alta dimensionalità con una soluzione innovativa. L'analisi teorica è rigorosa, la verifica sperimentale è completa, e il contributo è significativo per il campo. Sebbene esistano alcune limitazioni tecniche, nel complesso rappresenta un importante progresso nel settore.