2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

academic

Sparse Polyak: una regla de tamaño de paso adaptativo para estimación M de alta dimensión

Información Básica

ID del Artículo: 2509.09802
Título: Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Autores: Tianqi Qiao (Texas A&M University), Marie Maros (Texas A&M University)
Clasificación: math.OC cs.LG stat.ML
Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2509.09802

Resumen

Este artículo propone e investiga Sparse Polyak, una variante del tamaño de paso adaptativo de Polyak diseñada específicamente para resolver problemas de estimación estadística de alta dimensión, donde la dimensión del problema crece mucho más rápido que el tamaño de la muestra. En este contexto, el tamaño de paso de Polyak estándar tiene un desempeño deficiente, requiriendo cada vez más iteraciones para alcanzar la precisión estadística óptima, incluso cuando el problema mantiene buenas condiciones y/o la precisión alcanzable no se degrada con la escala del problema. Este artículo atribuye esta limitación a una falta de coincidencia en la forma de medir la suavidad: en alta dimensión, estimar la constante de suavidad de Lipschitz ya no es efectivo. En su lugar, es más apropiado estimar la suavidad restringida a direcciones específicas relevantes para el problema (constante de suavidad de Lipschitz restringida). Sparse Polyak supera este problema modificando el tamaño de paso para estimar la constante de suavidad de Lipschitz restringida.

Antecedentes y Motivación de la Investigación

Definición del Problema

Este artículo estudia problemas de estimación estadística de alta dimensión:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

donde la dimensión d crece muy rápidamente en relación con el tamaño de la muestra n, es decir, d/n → ∞.

Problemas Centrales

Desafíos de Alta Dimensión: En configuraciones de alta dimensión, la estimación tradicional de la constante de suavidad de Lipschitz falla, resultando en selecciones de tamaño de paso demasiado conservadoras
Degradación del Desempeño: El tamaño de paso de Polyak estándar muestra una degradación significativa del desempeño a medida que aumenta la dimensión del problema, incluso cuando el número de condición del problema permanece constante
Falta de Invariancia de Velocidad: Los métodos existentes no pueden mantener las mismas garantías de convergencia que IHT con tamaño de paso fijo

Motivación de la Investigación

El algoritmo de umbralización iterada dura (IHT) muestra un desempeño excelente en recuperación dispersa de alta dimensión, pero requiere conocer la constante de suavidad de Lipschitz restringida L̄
Los métodos de tamaño de paso adaptativo existentes carecen de garantías teóricas y desempeño práctico en configuraciones de alta dimensión
Se necesita un método que pueda ajustar adaptativamente el tamaño de paso mientras mantiene la invariancia de velocidad

Contribuciones Principales

Primera Regla de Tamaño de Paso Adaptativo de Alta Dimensión: Propone la primera regla de tamaño de paso adaptativo que funciona bien en configuraciones de alta dimensión y mantiene la invariancia de velocidad
Innovación Teórica: Identifica el problema fundamental en la medición de suavidad en alta dimensión, proponiendo estimar la constante de suavidad de Lipschitz restringida en lugar de la constante global
Garantías de Convergencia: Establece velocidades de convergencia lineal comparables al tamaño de paso fijo óptimo conocido, alcanzando precisión estadística óptima
Aplicabilidad Amplia: Proporciona garantías teóricas para múltiples modelos estadísticos (regresión logística, regresión lineal, regresión matricial, etc.)
Recuperación de Soporte: Proporciona garantías de recuperación de soporte bajo condiciones de relación señal-ruido

Explicación Detallada del Método

Definición de la Tarea

Considere el problema de optimización restringida:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

donde:

θ es un vector de parámetros d-dimensional, restringido a tener como máximo s elementos distintos de cero
f(θ) es la función de riesgo empírico
El objetivo es resolver eficientemente en configuraciones de alta dimensión (d/n → ∞)

Algoritmo Principal: Tamaño de Paso Sparse Polyak

Algoritmo 1: IHT con Tamaño de Paso Sparse Polyak

Entrada: función f, valor de función objetivo f̂, parámetro disperso s, número de iteraciones T
Inicialización: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
para t = 0 hasta T-1 hacer:
    Calcular tamaño de paso: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    Actualizar: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
fin para

Puntos Clave de Innovación

Fórmula de Tamaño de Paso Modificada:
- Polyak Tradicional: γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
- Sparse Polyak: γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
Operador de Umbralización Dura: HT_s retiene los s componentes de mayor magnitud, estableciendo el resto en cero
Fundamento Teórico:
- Utiliza condiciones de convexidad fuerte restringida (RSC) y suavidad restringida (RSS)
- L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

Puntos de Innovación Técnica

Tamaño de Paso Independiente de Dimensión: Al usar ||HT_s(∇f(θ_t))||² en lugar de ||∇f(θ_t)||², evita el escalado relacionado con la dimensión d
Estimación de Dirección Restringida: Se enfoca en la suavidad en direcciones dispersas, no en todo el espacio
Algoritmo de Doble Ciclo: Proporciona el Algoritmo 2 para manejar casos con valor objetivo desconocido

Análisis Teórico

Teoremas Principales

Teorema 1 (Resultado Principal de Convergencia): Bajo supuestos RSC y RSS, cuando s ≥ (240κ̄)²s*:

Convergencia Lineal: ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
Precisión Final: O(||HT_s(∇f(θ̂))||²/μ̄²)

Corolario 1 (Recuperación de Soporte): Bajo la condición de relación señal-ruido |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, el algoritmo puede recuperar con precisión el conjunto de soporte.

Garantías de Modelos Estadísticos

Regresión Logística Dispersa (Corolario 2):

Velocidad de Convergencia: (1 - 1/(80κ̄))
Precisión Estadística: O(s log d / n)
Garantía de Probabilidad: al menos 1 - e^{-c_0 n} - 2/d

Regresión Matricial (Corolario 3):

Aplicable a recuperación de matrices de bajo rango
Garantías de convergencia y precisión estadística similares

Configuración Experimental

Experimentos con Datos Sintéticos

Configuración de Dimensión: d ∈ {5000, 10000, 20000}
Dispersidad: s* = 300
Tamaño de Muestra: n = ⌈α s log d⌉, α = 5
Matriz de Diseño: Estructura de serie temporal, parámetro de correlación ω = 0.5
Configuración de Ruido: Regresión lineal σ² = 0.25, regresión logística generada según modelo (4)

Experimentos con Datos Reales

Regresión Lineal: Conjunto de datos Large-scale Wave Energy Farm (120 muestras, 149 características)
Regresión Logística: Conjunto de datos Molecule Musk (120 muestras, 166 características)
Dispersidad: s = 20

Métodos de Comparación

IHT con tamaño de paso fijo γ = 2/(3L̄)
Tamaño de paso clásico de Polyak
Tamaño de paso fijo optimizado mediante búsqueda en cuadrícula

Resultados Experimentales

Resultados Principales

Verificación de Invariancia de Velocidad:
- Sparse Polyak mantiene comportamiento de convergencia consistente en diferentes dimensiones d
- El Polyak clásico muestra degradación significativa del desempeño con el aumento de dimensión
- Cuando log(d)/n permanece constante, el número de iteraciones permanece esencialmente sin cambios
Comparación de Velocidad de Convergencia:
- En comparación con tamaño de paso fijo, Sparse Polyak generalmente converge más rápido
- La ventaja es más pronunciada en regresión logística (debido a la adaptación de curvatura local)
- La selección del valor objetivo f̂ afecta directamente la precisión alcanzable
Desempeño con Datos Reales:
- Tarea de Regresión Logística: Sparse Polyak > tamaño de paso fijo > Polyak clásico
- Tarea de Regresión Lineal: tamaño de paso fijo óptimo ligeramente superior, pero Sparse Polyak aún supera a Polyak clásico

Hallazgos Clave

Problema de Escalado de Dimensión: En alta dimensión, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, con igualdad en el peor caso
Conservadurismo del Tamaño de Paso: El uso de la norma de gradiente completo resulta en tamaños de paso demasiado conservadores, empeorando con el aumento de d
Ventaja de Adaptabilidad: El tamaño de paso adaptativo puede aprovechar información de curvatura local, mostrando mejor desempeño en problemas con curvatura no uniforme

Trabajo Relacionado

Algoritmos de Recuperación Dispersa

IHT y Variantes: Blumensath & Davies (2009), Jain et al. (2014)
Otros Métodos: Matching Pursuit, OMP, CoSaMP
Versiones Aceleradas: Khanna & Kyrillidis (2018), Zhou et al. (2018)

Métodos de Tamaño de Paso Adaptativo

Tamaño de Paso de Polyak: Polyak (1969), resurgimiento reciente Ren et al. (2022)
Métodos de Lipschitz Local: Malitsky & Mishchenko (2020, 2024)
Problemas Restringidos: Cheng & Li (2012), Devanathan & Boyd (2024)

Estadística de Alta Dimensión

Fundamentos Teóricos: Agarwal et al. (2012), Loh & Wainwright (2015)
Desarrollo de Requisitos de Condición: Evolución de condiciones RSC/RSS, RIP

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: Sparse Polyak resuelve exitosamente el desafío del tamaño de paso adaptativo en configuraciones de alta dimensión
Completitud Teórica: Proporciona garantías de convergencia comparables al tamaño de paso fijo óptimo
Valor Práctico: Demuestra buen desempeño en múltiples modelos estadísticos
Invariancia de Velocidad: Logra estabilidad de desempeño a medida que crece la escala del problema

Limitaciones

Factores Constantes: El factor 1/5 en la fórmula del tamaño de paso puede ser un artefacto del análisis, posiblemente innecesario en la práctica
Requisitos de Inicialización: Algunos resultados requieren condiciones de inicialización específicas
Restricciones de Condición: Aún requiere condiciones RSC/RSS, aunque más relajadas que las condiciones RIP
Selección de Parámetros: Requiere conocer o estimar previamente el valor de la función objetivo f̂

Direcciones Futuras

Extensión a Otros Algoritmos: Los autores conjeturan que métodos como BB también pueden requerir mejoras similares
Condiciones Más Débiles: Relajación adicional de supuestos teóricos
Aplicaciones Prácticas: Validación del método en más problemas prácticos
Optimización Computacional: Reducción de complejidad computacional, mejora de practicidad

Evaluación Profunda

Fortalezas

Identificación Precisa del Problema: Identifica con precisión el problema central del tamaño de paso adaptativo en alta dimensión
Contribución Teórica Importante: Primera garantía teórica de tamaño de paso adaptativo para problemas dispersos de alta dimensión
Método Simple pero Efectivo: Modificación simple pero con efectos significativos
Experimentación Completa: Incluye verificación teórica, experimentos con datos sintéticos y reales
Escritura Clara: Estructura lógica clara, detalles técnicos completos

Deficiencias

Condiciones Relativamente Fuertes: El requisito s ≥ (240κ̄)²s* puede ser demasiado restrictivo en algunas aplicaciones
Análisis de Constantes: Algunas constantes pueden no ser suficientemente ajustadas, afectando el desempeño práctico
Rango de Aplicabilidad: Principalmente dirigido a problemas dispersos, extensibilidad a otros problemas con estructura desconocida
Costo Computacional: Cada iteración requiere cálculo de operación de umbralización dura, aumentando costo computacional

Impacto

Valor Teórico: Contribución importante a la teoría de optimización de alta dimensión
Significado Práctico: Proporciona nueva herramienta para problemas dispersos en aprendizaje automático
Inspiración: Proporciona ideas para mejora de otros métodos adaptativos en configuraciones de alta dimensión
Reproducibilidad: Análisis teórico completo, descripción de algoritmo clara, fácil de implementar

Escenarios de Aplicación

Regresión Dispersa de Alta Dimensión: Selección de características, análisis de datos genómicos
Detección Comprimida: Reconstrucción de señales, procesamiento de imágenes
Aprendizaje Automático: Dispersificación en aprendizaje profundo, poda de redes neuronales
Aprendizaje Estadístico: Inferencia estadística de alta dimensión, selección de variables

Referencias

Las referencias clave incluyen:

Jain et al. (2014) - Fundamentos teóricos de IHT
Agarwal et al. (2012) - Condiciones RSC/RSS
Polyak (1969) - Tamaño de paso de Polyak original
Loh & Wainwright (2015) - Teoría estadística de alta dimensión
Malitsky & Mishchenko (2020) - Métodos adaptativos modernos

Evaluación General: Este es un artículo de alta calidad que propone una solución innovadora a un problema importante en optimización de alta dimensión. El análisis teórico es riguroso, la verificación experimental es completa, y tiene valor de contribución importante para el campo relacionado. Aunque existen algunas limitaciones técnicas, en general representa un progreso importante en el área.