2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

academic

Sparse Polyak: 高次元M推定のための適応的ステップサイズ規則

基本情報

論文ID: 2509.09802
タイトル: Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
著者: Tianqi Qiao (テキサスA&M大学), Marie Maros (テキサスA&M大学)
分類: math.OC cs.LG stat.ML
発表時期/会議: 第39回ニューラル情報処理システム会議 (NeurIPS 2025)
論文リンク: https://arxiv.org/abs/2509.09802

概要

本論文は、Polyak適応的ステップサイズの変種であるSparse Polyakを提案・研究しており、問題の次元がサンプルサイズよりもはるかに速く増加する高次元統計推定問題の解決に特に設計されている。このような設定では、標準的なPolyakステップサイズは性能が低下し、最適統計精度に到達するために次々と多くの反復が必要になる。これは問題が良好な条件を保つ場合や、達成可能な精度自体が問題規模に応じて悪化しない場合でさえそうである。本論文は、この制限を平滑度測定方法の不一致に起因するものとしている。高次元では、Lipschitz平滑定数の推定はもはや有効ではない。代わりに、問題に関連する特定の方向に制限された平滑度（制限Lipschitz平滑定数）を推定することがより適切である。Sparse Polyakは、制限Lipschitz平滑定数を推定するようにステップサイズを修正することでこの問題を克服する。

研究背景と動機

問題定義

本論文は、以下の高次元統計推定問題を研究する：

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

ここで、次元dはサンプルサイズnに対して急速に増加する。すなわち、d/n → ∞である。

中心的な問題

高次元の課題：高次元設定では、従来のLipschitz平滑定数推定が失効し、ステップサイズ選択が過度に保守的になる
性能の悪化：標準的なPolyakステップサイズは問題の次元増加に伴い著しく性能が低下する。これは問題の条件数が一定に保たれている場合でさえそうである
速度不変性の欠如：既存の方法は、固定ステップサイズIHTと同じ収束保証を維持できない

研究動機

反復的硬閾値処理(IHT)アルゴリズムは高次元スパース復元で優れた性能を示すが、制限Lipschitz平滑(RSS)定数L̄を知る必要がある
既存の適応的ステップサイズ方法は、高次元設定で理論的保証と実際の性能が不足している
ステップサイズを適応的に調整しながら速度不変性を保つ方法が必要である

中心的な貢献

最初の高次元適応的ステップサイズ規則：高次元設定で良好に機能し、速度不変性を保つ最初の適応的ステップサイズ規則を提案した
理論的革新：高次元における平滑度測定の根本的な問題を特定し、全体的な定数ではなく制限Lipschitz平滑定数を推定することを提案した
収束性保証：既知の最適固定ステップサイズと同等の線形収束速度を確立し、最適統計精度に到達する
広範な適用性：複数の統計モデル（ロジスティック回帰、線形回帰、行列回帰など）に対して理論的保証を提供する
サポート復元：信号対雑音比条件下でサポート復元保証を提供する

方法の詳細

タスク定義

以下の制約付き最適化問題を考える：

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

ここで：

θはd次元パラメータベクトルで、最大s個の非ゼロ要素に制限される
f(θ)は経験的リスク関数である
目標は高次元設定(d/n → ∞)で効率的に解くことである

中心的なアルゴリズム：Sparse Polyakステップサイズ

アルゴリズム1: Sparse Polyakステップサイズを用いたIHT

入力：関数f、目標関数値f̂、スパース性パラメータs、反復回数T
初期化：θ_0 ∈ R^d、||θ_0||_0 ≤ s
for t = 0 to T-1 do:
    ステップサイズを計算：γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    更新：θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for

主要な革新点

修正されたステップサイズ公式：
- 従来のPolyak：γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
- Sparse Polyak：γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
硬閾値演算子：HT_sはs個の最大振幅成分を保持し、残りをゼロに設定する
理論的基礎：
- 制限強凸性(RSC)と制限平滑性(RSS)条件を利用する
- L̄ = L + 3τs、μ̄ = μ - 3τs、κ̄ = L̄/μ̄

技術的革新点

次元に無関係なステップサイズ：||∇f(θ_t)||²ではなく||HT_s(∇f(θ_t))||²を使用することで、次元dに関連するスケーリングを回避する
制限方向推定：全空間ではなく、スパース方向上の平滑性に焦点を当てる
二重ループアルゴリズム：未知の目標値を処理するためのアルゴリズム2を提供する

理論的分析

主要な定理

定理1（主要な収束結果）： RSCおよびRSS仮説の下で、s ≥ (240κ̄)²s*のとき：

線形収束：||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
最終精度：O(||HT_s(∇f(θ̂))||²/μ̄²)

系1（サポート復元）：信号対雑音比条件|θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄の下で、アルゴリズムはサポート集合を正確に復元できる。

統計モデルの保証

スパースロジスティック回帰（系2）：

収束速度：(1 - 1/(80κ̄))
統計精度：O(s log d / n)
確率保証：少なくとも1 - e^{-c_0 n} - 2/d

行列回帰（系3）：

低ランク行列復元に適用可能
同様の収束保証と統計精度

実験設定

合成データ実験

次元設定：d ∈ {5000, 10000, 20000}
スパース度：s* = 300
サンプルサイズ：n = ⌈α s log d⌉、α = 5
設計行列：時系列構造、相関パラメータω = 0.5
ノイズ設定：線形回帰σ² = 0.25、ロジスティック回帰はモデル(4)に従う

実データ実験

線形回帰：大規模波エネルギーファームデータセット(120サンプル、149特徴)
ロジスティック回帰：Molecule Muskデータセット(120サンプル、166特徴)
スパース度：s = 20

比較方法

固定ステップサイズγ = 2/(3L̄)を用いたIHT
古典的なPolyakステップサイズ
グリッドサーチで最適化された固定ステップサイズ

実験結果

主要な結果

速度不変性の検証：
- Sparse Polyakは異なる次元dで一貫した収束挙動を保つ
- 古典的なPolyakは次元増加に伴い性能が著しく低下する
- log(d)/nが定数のとき、反復回数は基本的に変わらない
収束速度の比較：
- 固定ステップサイズと比較して、Sparse Polyakは通常より速く収束する
- ロジスティック回帰ではより顕著な利点がある（局所曲率適応による）
- 目標値f̂の選択は達成可能な精度に直接影響する
実データの性能：
- ロジスティック回帰タスク：Sparse Polyak > 固定ステップサイズ > 古典的Polyak
- 線形回帰タスク：最適固定ステップサイズがわずかに優れているが、Sparse Polyakは依然として古典的Polyakより優れている