Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic
Sparse Polyak: адаптивное правило выбора размера шага для высокомерного M-оценивания
В данной работе предложен и исследован метод Sparse Polyak, представляющий собой вариант адаптивного размера шага Polyak, специально разработанный для решения высокомерных задач статистического оценивания, где размерность задачи растёт значительно быстрее, чем размер выборки. В таких условиях стандартный размер шага Polyak показывает неудовлетворительные результаты, требуя всё большего количества итераций для достижения оптимальной статистической точности — даже если задача остаётся хорошо обусловленной и/или достижимая точность сама по себе не деградирует с ростом размерности задачи. Авторы связывают это ограничение с несоответствием в способе измерения гладкости: в высокомерном случае оценка глобальной константы Липшица гладкости становится неэффективной. Вместо этого более целесообразно оценивать гладкость, ограниченную конкретными направлениями, релевантными для задачи (ограниченная константа Липшица гладкости). Метод Sparse Polyak преодолевает эту проблему путём модификации размера шага для оценки ограниченной константы Липшица гладкости.
Высокомерные вызовы: В высокомерной постановке традиционная оценка глобальной константы Липшица гладкости становится неэффективной, приводя к чрезмерно консервативному выбору размера шага
Деградация производительности: Стандартный размер шага Polyak показывает значительное снижение производительности с увеличением размерности задачи, даже если число обусловленности задачи остаётся неизменным
Отсутствие инвариантности скорости: Существующие методы не сохраняют гарантии сходимости, эквивалентные фиксированному размеру шага для алгоритма IHT
Алгоритм итеративного жёсткого порогования (IHT) показывает отличные результаты в высокомерном разреженном восстановлении, но требует знания ограниченной константы Липшица гладкости L̄
Существующие адаптивные методы выбора размера шага не имеют теоретических гарантий и практической производительности в высокомерной постановке
Требуется метод, который одновременно адаптивно регулирует размер шага и сохраняет инвариантность скорости
Первое адаптивное правило выбора размера шага для высокомерного случая: Предложено первое адаптивное правило выбора размера шага, которое показывает хорошие результаты в высокомерной постановке и сохраняет инвариантность скорости
Теоретические инновации: Выявлена фундаментальная проблема измерения гладкости в высокомерном случае, предложена оценка ограниченной константы Липшица гладкости вместо глобальной константы
Гарантии сходимости: Установлена линейная скорость сходимости, эквивалентная известному оптимальному фиксированному размеру шага, достигающая оптимальной статистической точности
Широкая применимость: Предоставлены теоретические гарантии для различных статистических моделей (логистическая регрессия, линейная регрессия, матричная регрессия и т.д.)
Восстановление носителя: Предоставлены гарантии восстановления носителя при условии отношения сигнал-шум
Вход: функция f, целевое значение функции f̂, параметр разреженности s, количество итераций T
Инициализация: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
для t = 0 до T-1:
Вычислить размер шага: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
Обновление: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
конец для
Проблема масштабирования по размерности: В высокомерном случае ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, в худшем случае достигается равенство
Консервативность размера шага: Использование полной нормы градиента приводит к чрезмерно консервативному размеру шага, который ухудшается с увеличением d
Преимущества адаптивности: Адаптивный размер шага может использовать информацию о локальной кривизне, показывая лучшие результаты на задачах с неоднородной кривизной
Loh & Wainwright (2015) — теория высокомерной статистики
Malitsky & Mishchenko (2020) — современные адаптивные методы
Общая оценка: Это высококачественная теоретическая работа, предлагающая инновационное решение важной проблемы в высокомерной оптимизации. Анализ строг, экспериментальная проверка полна, что представляет значительный вклад в соответствующую область. Несмотря на некоторые технические ограничения, это важный прогресс в данной области исследований.