Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic
Sparse Polyak: una regla de tamaño de paso adaptativo para estimación M de alta dimensión
Este artículo propone e investiga Sparse Polyak, una variante del tamaño de paso adaptativo de Polyak diseñada específicamente para resolver problemas de estimación estadística de alta dimensión, donde la dimensión del problema crece mucho más rápido que el tamaño de la muestra. En este contexto, el tamaño de paso de Polyak estándar tiene un desempeño deficiente, requiriendo cada vez más iteraciones para alcanzar la precisión estadística óptima, incluso cuando el problema mantiene buenas condiciones y/o la precisión alcanzable no se degrada con la escala del problema. Este artículo atribuye esta limitación a una falta de coincidencia en la forma de medir la suavidad: en alta dimensión, estimar la constante de suavidad de Lipschitz ya no es efectivo. En su lugar, es más apropiado estimar la suavidad restringida a direcciones específicas relevantes para el problema (constante de suavidad de Lipschitz restringida). Sparse Polyak supera este problema modificando el tamaño de paso para estimar la constante de suavidad de Lipschitz restringida.
Desafíos de Alta Dimensión: En configuraciones de alta dimensión, la estimación tradicional de la constante de suavidad de Lipschitz falla, resultando en selecciones de tamaño de paso demasiado conservadoras
Degradación del Desempeño: El tamaño de paso de Polyak estándar muestra una degradación significativa del desempeño a medida que aumenta la dimensión del problema, incluso cuando el número de condición del problema permanece constante
Falta de Invariancia de Velocidad: Los métodos existentes no pueden mantener las mismas garantías de convergencia que IHT con tamaño de paso fijo
El algoritmo de umbralización iterada dura (IHT) muestra un desempeño excelente en recuperación dispersa de alta dimensión, pero requiere conocer la constante de suavidad de Lipschitz restringida L̄
Los métodos de tamaño de paso adaptativo existentes carecen de garantías teóricas y desempeño práctico en configuraciones de alta dimensión
Se necesita un método que pueda ajustar adaptativamente el tamaño de paso mientras mantiene la invariancia de velocidad
Primera Regla de Tamaño de Paso Adaptativo de Alta Dimensión: Propone la primera regla de tamaño de paso adaptativo que funciona bien en configuraciones de alta dimensión y mantiene la invariancia de velocidad
Innovación Teórica: Identifica el problema fundamental en la medición de suavidad en alta dimensión, proponiendo estimar la constante de suavidad de Lipschitz restringida en lugar de la constante global
Garantías de Convergencia: Establece velocidades de convergencia lineal comparables al tamaño de paso fijo óptimo conocido, alcanzando precisión estadística óptima
Entrada: función f, valor de función objetivo f̂, parámetro disperso s, número de iteraciones T
Inicialización: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
para t = 0 hasta T-1 hacer:
Calcular tamaño de paso: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
Actualizar: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
fin para
Corolario 1 (Recuperación de Soporte):
Bajo la condición de relación señal-ruido |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, el algoritmo puede recuperar con precisión el conjunto de soporte.
Problema de Escalado de Dimensión: En alta dimensión, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, con igualdad en el peor caso
Conservadurismo del Tamaño de Paso: El uso de la norma de gradiente completo resulta en tamaños de paso demasiado conservadores, empeorando con el aumento de d
Ventaja de Adaptabilidad: El tamaño de paso adaptativo puede aprovechar información de curvatura local, mostrando mejor desempeño en problemas con curvatura no uniforme
Evaluación General: Este es un artículo de alta calidad que propone una solución innovadora a un problema importante en optimización de alta dimensión. El análisis teórico es riguroso, la verificación experimental es completa, y tiene valor de contribución importante para el campo relacionado. Aunque existen algunas limitaciones técnicas, en general representa un progreso importante en el área.