2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

academic

Sparse Polyak: адаптивное правило выбора размера шага для высокомерного M-оценивания

Основная информация

ID статьи: 2509.09802
Название: Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Авторы: Tianqi Qiao (Texas A&M University), Marie Maros (Texas A&M University)
Классификация: math.OC cs.LG stat.ML
Дата публикации/конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2509.09802

Аннотация

В данной работе предложен и исследован метод Sparse Polyak, представляющий собой вариант адаптивного размера шага Polyak, специально разработанный для решения высокомерных задач статистического оценивания, где размерность задачи растёт значительно быстрее, чем размер выборки. В таких условиях стандартный размер шага Polyak показывает неудовлетворительные результаты, требуя всё большего количества итераций для достижения оптимальной статистической точности — даже если задача остаётся хорошо обусловленной и/или достижимая точность сама по себе не деградирует с ростом размерности задачи. Авторы связывают это ограничение с несоответствием в способе измерения гладкости: в высокомерном случае оценка глобальной константы Липшица гладкости становится неэффективной. Вместо этого более целесообразно оценивать гладкость, ограниченную конкретными направлениями, релевантными для задачи (ограниченная константа Липшица гладкости). Метод Sparse Polyak преодолевает эту проблему путём модификации размера шага для оценки ограниченной константы Липшица гладкости.

Исследовательский контекст и мотивация

Постановка задачи

В работе исследуется задача высокомерного статистического оценивания:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

где размерность d растёт значительно быстрее размера выборки n, то есть d/n → ∞.

Основные проблемы

Высокомерные вызовы: В высокомерной постановке традиционная оценка глобальной константы Липшица гладкости становится неэффективной, приводя к чрезмерно консервативному выбору размера шага
Деградация производительности: Стандартный размер шага Polyak показывает значительное снижение производительности с увеличением размерности задачи, даже если число обусловленности задачи остаётся неизменным
Отсутствие инвариантности скорости: Существующие методы не сохраняют гарантии сходимости, эквивалентные фиксированному размеру шага для алгоритма IHT

Исследовательская мотивация

Алгоритм итеративного жёсткого порогования (IHT) показывает отличные результаты в высокомерном разреженном восстановлении, но требует знания ограниченной константы Липшица гладкости L̄
Существующие адаптивные методы выбора размера шага не имеют теоретических гарантий и практической производительности в высокомерной постановке
Требуется метод, который одновременно адаптивно регулирует размер шага и сохраняет инвариантность скорости

Основные вклады

Первое адаптивное правило выбора размера шага для высокомерного случая: Предложено первое адаптивное правило выбора размера шага, которое показывает хорошие результаты в высокомерной постановке и сохраняет инвариантность скорости
Теоретические инновации: Выявлена фундаментальная проблема измерения гладкости в высокомерном случае, предложена оценка ограниченной константы Липшица гладкости вместо глобальной константы
Гарантии сходимости: Установлена линейная скорость сходимости, эквивалентная известному оптимальному фиксированному размеру шага, достигающая оптимальной статистической точности
Широкая применимость: Предоставлены теоретические гарантии для различных статистических моделей (логистическая регрессия, линейная регрессия, матричная регрессия и т.д.)
Восстановление носителя: Предоставлены гарантии восстановления носителя при условии отношения сигнал-шум

Описание метода

Определение задачи

Рассматривается задача условной оптимизации:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

где:

θ — d-мерный вектор параметров, ограниченный не более чем s ненулевыми элементами
f(θ) — функция эмпирического риска
цель состоит в эффективном решении в высокомерной постановке (d/n → ∞)

Основной алгоритм: размер шага Sparse Polyak

Алгоритм 1: IHT с размером шага Sparse Polyak

Вход: функция f, целевое значение функции f̂, параметр разреженности s, количество итераций T
Инициализация: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
для t = 0 до T-1:
    Вычислить размер шага: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    Обновление: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
конец для

Ключевые инновационные моменты

Модифицированная формула размера шага:
- Традиционный Polyak: γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
- Sparse Polyak: γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
Оператор жёсткого порогования: HT_s сохраняет s компонент с наибольшей абсолютной величиной, остальные обнуляются
Теоретическая основа:
- Использование условий ограниченной сильной выпуклости (RSC) и ограниченной гладкости (RSS)
- L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

Технические инновации

Независимость размера шага от размерности: Использование ||HT_s(∇f(θ_t))||² вместо ||∇f(θ_t)||² избегает масштабирования, зависящего от размерности d
Оценка гладкости в ограниченных направлениях: Фокусировка на гладкости в разреженных направлениях, а не во всём пространстве
Двойной цикл алгоритма: Алгоритм 2 предоставляет решение для случая неизвестного целевого значения

Теоретический анализ

Основные теоремы

Теорема 1 (основной результат сходимости): При условиях RSC и RSS, когда s ≥ (240κ̄)²s*:

Линейная сходимость: ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
Финальная точность: O(||HT_s(∇f(θ̂))||²/μ̄²)

Следствие 1 (восстановление носителя): При условии отношения сигнал-шум |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄ алгоритм точно восстанавливает носитель.

Гарантии для статистических моделей

Разреженная логистическая регрессия (Следствие 2):

Скорость сходимости: (1 - 1/(80κ̄))
Статистическая точность: O(s log d / n)
Вероятностная гарантия: не менее 1 - e^{-c_0 n} - 2/d

Матричная регрессия (Следствие 3):

Применимо к восстановлению матриц низкого ранга
Аналогичные гарантии сходимости и статистической точности

Экспериментальная установка

Эксперименты на синтетических данных

Диапазон размерностей: d ∈ {5000, 10000, 20000}
Разреженность: s* = 300
Размер выборки: n = ⌈α s log d⌉, α = 5
Матрица плана: структура временного ряда, параметр корреляции ω = 0.5
Установка шума: для линейной регрессии σ² = 0.25, для логистической регрессии согласно модели (4)

Эксперименты на реальных данных

Линейная регрессия: набор данных Large-scale Wave Energy Farm (120 образцов, 149 признаков)
Логистическая регрессия: набор данных Molecule Musk (120 образцов, 166 признаков)
Разреженность: s = 20

Методы сравнения

IHT с фиксированным размером шага γ = 2/(3L̄)
Классический размер шага Polyak
Фиксированный размер шага, оптимизированный поиском по сетке

Результаты экспериментов

Основные результаты

Проверка инвариантности скорости:
- Sparse Polyak сохраняет согласованное поведение сходимости при различных размерностях d
- Классический Polyak показывает значительное снижение производительности с увеличением размерности
- Когда log(d)/n остаётся постоянным, количество итераций остаётся практически неизменным
Сравнение скорости сходимости:
- По сравнению с фиксированным размером шага, Sparse Polyak обычно сходится быстрее
- Преимущество более выражено в логистической регрессии (благодаря адаптации к локальной кривизне)
- Выбор целевого значения f̂ напрямую влияет на достижимую точность
Производительность на реальных данных:
- Задача логистической регрессии: Sparse Polyak > фиксированный размер шага > классический Polyak
- Задача линейной регрессии: оптимальный фиксированный размер шага немного лучше, но Sparse Polyak всё ещё превосходит классический Polyak

Ключевые находки

Проблема масштабирования по размерности: В высокомерном случае ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, в худшем случае достигается равенство
Консервативность размера шага: Использование полной нормы градиента приводит к чрезмерно консервативному размеру шага, который ухудшается с увеличением d
Преимущества адаптивности: Адаптивный размер шага может использовать информацию о локальной кривизне, показывая лучшие результаты на задачах с неоднородной кривизной

Связанные работы

Алгоритмы разреженного восстановления

IHT и варианты: Blumensath & Davies (2009), Jain et al. (2014)
Другие методы: Matching Pursuit, OMP, CoSaMP
Ускоренные версии: Khanna & Kyrillidis (2018), Zhou et al. (2018)

Адаптивные методы выбора размера шага

Размер шага Polyak: Polyak (1969), недавнее возрождение Ren et al. (2022)
Методы локального Липшица: Malitsky & Mishchenko (2020, 2024)
Условные задачи: Cheng & Li (2012), Devanathan & Boyd (2024)

Высокомерная статистика

Теоретические основы: Agarwal et al. (2012), Loh & Wainwright (2015)
Требования к условиям: развитие условий RSC/RSS и RIP

Заключение и обсуждение

Основные выводы

Эффективность метода: Sparse Polyak успешно решает проблему адаптивного выбора размера шага в высокомерной постановке
Полнота теории: Предоставлены гарантии сходимости, эквивалентные оптимальному фиксированному размеру шага
Практическая ценность: Демонстрирует хорошую производительность на различных статистических моделях
Инвариантность скорости: Достигнута стабильность производительности при росте размерности задачи

Ограничения

Константные множители: Множитель 1/5 в формуле размера шага может быть артефактом анализа и не обязательно требуется на практике
Требования к инициализации: Некоторые результаты требуют специфических условий инициализации
Ограничения условий: По-прежнему требуются условия RSC/RSS, хотя они более слабые, чем условие RIP
Выбор параметров: Требуется предварительное знание или оценка целевого значения функции f̂

Будущие направления

Расширение на другие алгоритмы: Авторы предполагают, что методы Barzilai-Borwein и другие могут требовать аналогичных улучшений
Более слабые условия: Дальнейшее ослабление теоретических предположений
Практические приложения: Проверка метода на большем количестве практических задач
Оптимизация вычислений: Снижение вычислительной сложности и повышение практической применимости

Глубокая оценка

Преимущества

Точное выявление проблемы: Точно выявлена основная проблема адаптивного выбора размера шага в высокомерном случае
Важность теоретического вклада: Впервые предоставлены теоретические гарантии адаптивного размера шага для высокомерных разреженных задач
Простота и эффективность метода: Простая модификация, но значительный эффект
Полнота экспериментов: Включены проверка теории, эксперименты на синтетических и реальных данных
Ясность изложения: Логичная структура, полные технические детали

Недостатки

Сильные условия: Требование s ≥ (240κ̄)²s* может быть чрезмерно строгим для некоторых приложений
Анализ констант: Некоторые константы могут быть не достаточно точными, влияя на практическую производительность
Область применимости: Сосредоточено на разреженных задачах, расширяемость на другие структурированные задачи неизвестна
Вычислительные затраты: Каждая итерация требует операции жёсткого порогования, увеличивая вычислительные затраты

Влияние

Теоретическая ценность: Важный вклад в теорию высокомерной оптимизации
Практическое значение: Предоставляет новый инструмент для разреженных задач в машинном обучении
Вдохновляющий характер: Предлагает идеи для улучшения других адаптивных методов в высокомерной постановке
Воспроизводимость: Полный теоретический анализ, ясное описание алгоритма, легко реализуется

Области применения

Высокомерная разреженная регрессия: Выбор признаков, анализ геномных данных
Сжатое зондирование: Восстановление сигналов, обработка изображений
Машинное обучение: Разреживание в глубоком обучении, прунинг нейронных сетей
Статистическое обучение: Высокомерный статистический вывод, выбор переменных

Список литературы

Ключевые ссылки включают:

Jain et al. (2014) — теоретические основы IHT
Agarwal et al. (2012) — условия RSC/RSS
Polyak (1969) — исходный размер шага Polyak
Loh & Wainwright (2015) — теория высокомерной статистики
Malitsky & Mishchenko (2020) — современные адаптивные методы

Общая оценка: Это высококачественная теоретическая работа, предлагающая инновационное решение важной проблемы в высокомерной оптимизации. Анализ строг, экспериментальная проверка полна, что представляет значительный вклад в соответствующую область. Несмотря на некоторые технические ограничения, это важный прогресс в данной области исследований.