2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic

Sparse Polyak: una regla de tamaño de paso adaptativo para estimación M de alta dimensión

Información Básica

  • ID del Artículo: 2509.09802
  • Título: Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
  • Autores: Tianqi Qiao (Texas A&M University), Marie Maros (Texas A&M University)
  • Clasificación: math.OC cs.LG stat.ML
  • Fecha de Publicación/Conferencia: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2509.09802

Resumen

Este artículo propone e investiga Sparse Polyak, una variante del tamaño de paso adaptativo de Polyak diseñada específicamente para resolver problemas de estimación estadística de alta dimensión, donde la dimensión del problema crece mucho más rápido que el tamaño de la muestra. En este contexto, el tamaño de paso de Polyak estándar tiene un desempeño deficiente, requiriendo cada vez más iteraciones para alcanzar la precisión estadística óptima, incluso cuando el problema mantiene buenas condiciones y/o la precisión alcanzable no se degrada con la escala del problema. Este artículo atribuye esta limitación a una falta de coincidencia en la forma de medir la suavidad: en alta dimensión, estimar la constante de suavidad de Lipschitz ya no es efectivo. En su lugar, es más apropiado estimar la suavidad restringida a direcciones específicas relevantes para el problema (constante de suavidad de Lipschitz restringida). Sparse Polyak supera este problema modificando el tamaño de paso para estimar la constante de suavidad de Lipschitz restringida.

Antecedentes y Motivación de la Investigación

Definición del Problema

Este artículo estudia problemas de estimación estadística de alta dimensión:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

donde la dimensión d crece muy rápidamente en relación con el tamaño de la muestra n, es decir, d/n → ∞.

Problemas Centrales

  1. Desafíos de Alta Dimensión: En configuraciones de alta dimensión, la estimación tradicional de la constante de suavidad de Lipschitz falla, resultando en selecciones de tamaño de paso demasiado conservadoras
  2. Degradación del Desempeño: El tamaño de paso de Polyak estándar muestra una degradación significativa del desempeño a medida que aumenta la dimensión del problema, incluso cuando el número de condición del problema permanece constante
  3. Falta de Invariancia de Velocidad: Los métodos existentes no pueden mantener las mismas garantías de convergencia que IHT con tamaño de paso fijo

Motivación de la Investigación

  • El algoritmo de umbralización iterada dura (IHT) muestra un desempeño excelente en recuperación dispersa de alta dimensión, pero requiere conocer la constante de suavidad de Lipschitz restringida L̄
  • Los métodos de tamaño de paso adaptativo existentes carecen de garantías teóricas y desempeño práctico en configuraciones de alta dimensión
  • Se necesita un método que pueda ajustar adaptativamente el tamaño de paso mientras mantiene la invariancia de velocidad

Contribuciones Principales

  1. Primera Regla de Tamaño de Paso Adaptativo de Alta Dimensión: Propone la primera regla de tamaño de paso adaptativo que funciona bien en configuraciones de alta dimensión y mantiene la invariancia de velocidad
  2. Innovación Teórica: Identifica el problema fundamental en la medición de suavidad en alta dimensión, proponiendo estimar la constante de suavidad de Lipschitz restringida en lugar de la constante global
  3. Garantías de Convergencia: Establece velocidades de convergencia lineal comparables al tamaño de paso fijo óptimo conocido, alcanzando precisión estadística óptima
  4. Aplicabilidad Amplia: Proporciona garantías teóricas para múltiples modelos estadísticos (regresión logística, regresión lineal, regresión matricial, etc.)
  5. Recuperación de Soporte: Proporciona garantías de recuperación de soporte bajo condiciones de relación señal-ruido

Explicación Detallada del Método

Definición de la Tarea

Considere el problema de optimización restringida:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

donde:

  • θ es un vector de parámetros d-dimensional, restringido a tener como máximo s elementos distintos de cero
  • f(θ) es la función de riesgo empírico
  • El objetivo es resolver eficientemente en configuraciones de alta dimensión (d/n → ∞)

Algoritmo Principal: Tamaño de Paso Sparse Polyak

Algoritmo 1: IHT con Tamaño de Paso Sparse Polyak

Entrada: función f, valor de función objetivo f̂, parámetro disperso s, número de iteraciones T
Inicialización: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
para t = 0 hasta T-1 hacer:
    Calcular tamaño de paso: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    Actualizar: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
fin para

Puntos Clave de Innovación

  1. Fórmula de Tamaño de Paso Modificada:
    • Polyak Tradicional: γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
    • Sparse Polyak: γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
  2. Operador de Umbralización Dura: HT_s retiene los s componentes de mayor magnitud, estableciendo el resto en cero
  3. Fundamento Teórico:
    • Utiliza condiciones de convexidad fuerte restringida (RSC) y suavidad restringida (RSS)
    • L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

Puntos de Innovación Técnica

  1. Tamaño de Paso Independiente de Dimensión: Al usar ||HT_s(∇f(θ_t))||² en lugar de ||∇f(θ_t)||², evita el escalado relacionado con la dimensión d
  2. Estimación de Dirección Restringida: Se enfoca en la suavidad en direcciones dispersas, no en todo el espacio
  3. Algoritmo de Doble Ciclo: Proporciona el Algoritmo 2 para manejar casos con valor objetivo desconocido

Análisis Teórico

Teoremas Principales

Teorema 1 (Resultado Principal de Convergencia): Bajo supuestos RSC y RSS, cuando s ≥ (240κ̄)²s*:

  • Convergencia Lineal: ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
  • Precisión Final: O(||HT_s(∇f(θ̂))||²/μ̄²)

Corolario 1 (Recuperación de Soporte): Bajo la condición de relación señal-ruido |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄, el algoritmo puede recuperar con precisión el conjunto de soporte.

Garantías de Modelos Estadísticos

Regresión Logística Dispersa (Corolario 2):

  • Velocidad de Convergencia: (1 - 1/(80κ̄))
  • Precisión Estadística: O(s log d / n)
  • Garantía de Probabilidad: al menos 1 - e^{-c_0 n} - 2/d

Regresión Matricial (Corolario 3):

  • Aplicable a recuperación de matrices de bajo rango
  • Garantías de convergencia y precisión estadística similares

Configuración Experimental

Experimentos con Datos Sintéticos

  • Configuración de Dimensión: d ∈ {5000, 10000, 20000}
  • Dispersidad: s* = 300
  • Tamaño de Muestra: n = ⌈α s log d⌉, α = 5
  • Matriz de Diseño: Estructura de serie temporal, parámetro de correlación ω = 0.5
  • Configuración de Ruido: Regresión lineal σ² = 0.25, regresión logística generada según modelo (4)

Experimentos con Datos Reales

  • Regresión Lineal: Conjunto de datos Large-scale Wave Energy Farm (120 muestras, 149 características)
  • Regresión Logística: Conjunto de datos Molecule Musk (120 muestras, 166 características)
  • Dispersidad: s = 20

Métodos de Comparación

  • IHT con tamaño de paso fijo γ = 2/(3L̄)
  • Tamaño de paso clásico de Polyak
  • Tamaño de paso fijo optimizado mediante búsqueda en cuadrícula

Resultados Experimentales

Resultados Principales

  1. Verificación de Invariancia de Velocidad:
    • Sparse Polyak mantiene comportamiento de convergencia consistente en diferentes dimensiones d
    • El Polyak clásico muestra degradación significativa del desempeño con el aumento de dimensión
    • Cuando log(d)/n permanece constante, el número de iteraciones permanece esencialmente sin cambios
  2. Comparación de Velocidad de Convergencia:
    • En comparación con tamaño de paso fijo, Sparse Polyak generalmente converge más rápido
    • La ventaja es más pronunciada en regresión logística (debido a la adaptación de curvatura local)
    • La selección del valor objetivo f̂ afecta directamente la precisión alcanzable
  3. Desempeño con Datos Reales:
    • Tarea de Regresión Logística: Sparse Polyak > tamaño de paso fijo > Polyak clásico
    • Tarea de Regresión Lineal: tamaño de paso fijo óptimo ligeramente superior, pero Sparse Polyak aún supera a Polyak clásico

Hallazgos Clave

  1. Problema de Escalado de Dimensión: En alta dimensión, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, con igualdad en el peor caso
  2. Conservadurismo del Tamaño de Paso: El uso de la norma de gradiente completo resulta en tamaños de paso demasiado conservadores, empeorando con el aumento de d
  3. Ventaja de Adaptabilidad: El tamaño de paso adaptativo puede aprovechar información de curvatura local, mostrando mejor desempeño en problemas con curvatura no uniforme

Trabajo Relacionado

Algoritmos de Recuperación Dispersa

  • IHT y Variantes: Blumensath & Davies (2009), Jain et al. (2014)
  • Otros Métodos: Matching Pursuit, OMP, CoSaMP
  • Versiones Aceleradas: Khanna & Kyrillidis (2018), Zhou et al. (2018)

Métodos de Tamaño de Paso Adaptativo

  • Tamaño de Paso de Polyak: Polyak (1969), resurgimiento reciente Ren et al. (2022)
  • Métodos de Lipschitz Local: Malitsky & Mishchenko (2020, 2024)
  • Problemas Restringidos: Cheng & Li (2012), Devanathan & Boyd (2024)

Estadística de Alta Dimensión

  • Fundamentos Teóricos: Agarwal et al. (2012), Loh & Wainwright (2015)
  • Desarrollo de Requisitos de Condición: Evolución de condiciones RSC/RSS, RIP

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Método: Sparse Polyak resuelve exitosamente el desafío del tamaño de paso adaptativo en configuraciones de alta dimensión
  2. Completitud Teórica: Proporciona garantías de convergencia comparables al tamaño de paso fijo óptimo
  3. Valor Práctico: Demuestra buen desempeño en múltiples modelos estadísticos
  4. Invariancia de Velocidad: Logra estabilidad de desempeño a medida que crece la escala del problema

Limitaciones

  1. Factores Constantes: El factor 1/5 en la fórmula del tamaño de paso puede ser un artefacto del análisis, posiblemente innecesario en la práctica
  2. Requisitos de Inicialización: Algunos resultados requieren condiciones de inicialización específicas
  3. Restricciones de Condición: Aún requiere condiciones RSC/RSS, aunque más relajadas que las condiciones RIP
  4. Selección de Parámetros: Requiere conocer o estimar previamente el valor de la función objetivo f̂

Direcciones Futuras

  1. Extensión a Otros Algoritmos: Los autores conjeturan que métodos como BB también pueden requerir mejoras similares
  2. Condiciones Más Débiles: Relajación adicional de supuestos teóricos
  3. Aplicaciones Prácticas: Validación del método en más problemas prácticos
  4. Optimización Computacional: Reducción de complejidad computacional, mejora de practicidad

Evaluación Profunda

Fortalezas

  1. Identificación Precisa del Problema: Identifica con precisión el problema central del tamaño de paso adaptativo en alta dimensión
  2. Contribución Teórica Importante: Primera garantía teórica de tamaño de paso adaptativo para problemas dispersos de alta dimensión
  3. Método Simple pero Efectivo: Modificación simple pero con efectos significativos
  4. Experimentación Completa: Incluye verificación teórica, experimentos con datos sintéticos y reales
  5. Escritura Clara: Estructura lógica clara, detalles técnicos completos

Deficiencias

  1. Condiciones Relativamente Fuertes: El requisito s ≥ (240κ̄)²s* puede ser demasiado restrictivo en algunas aplicaciones
  2. Análisis de Constantes: Algunas constantes pueden no ser suficientemente ajustadas, afectando el desempeño práctico
  3. Rango de Aplicabilidad: Principalmente dirigido a problemas dispersos, extensibilidad a otros problemas con estructura desconocida
  4. Costo Computacional: Cada iteración requiere cálculo de operación de umbralización dura, aumentando costo computacional

Impacto

  1. Valor Teórico: Contribución importante a la teoría de optimización de alta dimensión
  2. Significado Práctico: Proporciona nueva herramienta para problemas dispersos en aprendizaje automático
  3. Inspiración: Proporciona ideas para mejora de otros métodos adaptativos en configuraciones de alta dimensión
  4. Reproducibilidad: Análisis teórico completo, descripción de algoritmo clara, fácil de implementar

Escenarios de Aplicación

  1. Regresión Dispersa de Alta Dimensión: Selección de características, análisis de datos genómicos
  2. Detección Comprimida: Reconstrucción de señales, procesamiento de imágenes
  3. Aprendizaje Automático: Dispersificación en aprendizaje profundo, poda de redes neuronales
  4. Aprendizaje Estadístico: Inferencia estadística de alta dimensión, selección de variables

Referencias

Las referencias clave incluyen:

  1. Jain et al. (2014) - Fundamentos teóricos de IHT
  2. Agarwal et al. (2012) - Condiciones RSC/RSS
  3. Polyak (1969) - Tamaño de paso de Polyak original
  4. Loh & Wainwright (2015) - Teoría estadística de alta dimensión
  5. Malitsky & Mishchenko (2020) - Métodos adaptativos modernos

Evaluación General: Este es un artículo de alta calidad que propone una solución innovadora a un problema importante en optimización de alta dimensión. El análisis teórico es riguroso, la verificación experimental es completa, y tiene valor de contribución importante para el campo relacionado. Aunque existen algunas limitaciones técnicas, en general representa un progreso importante en el área.