We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
論文ID : 2509.09802タイトル : Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation著者 : Tianqi Qiao (テキサスA&M大学), Marie Maros (テキサスA&M大学)分類 : math.OC cs.LG stat.ML発表時期/会議 : 第39回ニューラル情報処理システム会議 (NeurIPS 2025)論文リンク : https://arxiv.org/abs/2509.09802 本論文は、Polyak適応的ステップサイズの変種であるSparse Polyakを提案・研究しており、問題の次元がサンプルサイズよりもはるかに速く増加する高次元統計推定問題の解決に特に設計されている。このような設定では、標準的なPolyakステップサイズは性能が低下し、最適統計精度に到達するために次々と多くの反復が必要になる。これは問題が良好な条件を保つ場合や、達成可能な精度自体が問題規模に応じて悪化しない場合でさえそうである。本論文は、この制限を平滑度測定方法の不一致に起因するものとしている。高次元では、Lipschitz平滑定数の推定はもはや有効ではない。代わりに、問題に関連する特定の方向に制限された平滑度(制限Lipschitz平滑定数)を推定することがより適切である。Sparse Polyakは、制限Lipschitz平滑定数を推定するようにステップサイズを修正することでこの問題を克服する。
本論文は、以下の高次元統計推定問題を研究する:
min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)
ここで、次元dはサンプルサイズnに対して急速に増加する。すなわち、d/n → ∞である。
高次元の課題 :高次元設定では、従来のLipschitz平滑定数推定が失効し、ステップサイズ選択が過度に保守的になる性能の悪化 :標準的なPolyakステップサイズは問題の次元増加に伴い著しく性能が低下する。これは問題の条件数が一定に保たれている場合でさえそうである速度不変性の欠如 :既存の方法は、固定ステップサイズIHTと同じ収束保証を維持できない反復的硬閾値処理(IHT)アルゴリズムは高次元スパース復元で優れた性能を示すが、制限Lipschitz平滑(RSS)定数L̄を知る必要がある 既存の適応的ステップサイズ方法は、高次元設定で理論的保証と実際の性能が不足している ステップサイズを適応的に調整しながら速度不変性を保つ方法が必要である 最初の高次元適応的ステップサイズ規則 :高次元設定で良好に機能し、速度不変性を保つ最初の適応的ステップサイズ規則を提案した理論的革新 :高次元における平滑度測定の根本的な問題を特定し、全体的な定数ではなく制限Lipschitz平滑定数を推定することを提案した収束性保証 :既知の最適固定ステップサイズと同等の線形収束速度を確立し、最適統計精度に到達する広範な適用性 :複数の統計モデル(ロジスティック回帰、線形回帰、行列回帰など)に対して理論的保証を提供するサポート復元 :信号対雑音比条件下でサポート復元保証を提供する以下の制約付き最適化問題を考える:
min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)
ここで:
θはd次元パラメータベクトルで、最大s個の非ゼロ要素に制限される f(θ)は経験的リスク関数である 目標は高次元設定(d/n → ∞)で効率的に解くことである アルゴリズム1: Sparse Polyakステップサイズを用いたIHT
入力:関数f、目標関数値f̂、スパース性パラメータs、反復回数T
初期化:θ_0 ∈ R^d、||θ_0||_0 ≤ s
for t = 0 to T-1 do:
ステップサイズを計算:γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
更新:θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for
修正されたステップサイズ公式 :従来のPolyak:γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||² Sparse Polyak:γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||² 硬閾値演算子 :HT_sはs個の最大振幅成分を保持し、残りをゼロに設定する理論的基礎 :制限強凸性(RSC)と制限平滑性(RSS)条件を利用する L̄ = L + 3τs、μ̄ = μ - 3τs、κ̄ = L̄/μ̄ 次元に無関係なステップサイズ :||∇f(θ_t)||²ではなく||HT_s(∇f(θ_t))||²を使用することで、次元dに関連するスケーリングを回避する制限方向推定 :全空間ではなく、スパース方向上の平滑性に焦点を当てる二重ループアルゴリズム :未知の目標値を処理するためのアルゴリズム2を提供する定理1(主要な収束結果) :
RSCおよびRSS仮説の下で、s ≥ (240κ̄)²s*のとき:
線形収束:||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||² 最終精度:O(||HT_s(∇f(θ̂))||²/μ̄²) 系1(サポート復元) :
信号対雑音比条件|θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄の下で、アルゴリズムはサポート集合を正確に復元できる。
スパースロジスティック回帰(系2) :
収束速度:(1 - 1/(80κ̄)) 統計精度:O(s log d / n) 確率保証:少なくとも1 - e^{-c_0 n} - 2/d 行列回帰(系3) :
低ランク行列復元に適用可能 同様の収束保証と統計精度 次元設定 :d ∈ {5000, 10000, 20000}スパース度 :s* = 300サンプルサイズ :n = ⌈α s log d⌉、α = 5設計行列 :時系列構造、相関パラメータω = 0.5ノイズ設定 :線形回帰σ² = 0.25、ロジスティック回帰はモデル(4)に従う線形回帰 :大規模波エネルギーファーム データセット(120サンプル、149特徴)ロジスティック回帰 :Molecule Muskデータセット(120サンプル、166特徴)スパース度 :s = 20固定ステップサイズγ = 2/(3L̄)を用いたIHT 古典的なPolyakステップサイズ グリッドサーチで最適化された固定ステップサイズ 速度不変性の検証 :Sparse Polyakは異なる次元dで一貫した収束挙動を保つ 古典的なPolyakは次元増加に伴い性能が著しく低下する log(d)/nが定数のとき、反復回数は基本的に変わらない 収束速度の比較 :固定ステップサイズと比較して、Sparse Polyakは通常より速く収束する ロジスティック回帰ではより顕著な利点がある(局所曲率適応による) 目標値f̂の選択は達成可能な精度に直接影響する 実データの性能 :ロジスティック回帰タスク:Sparse Polyak > 固定ステップサイズ > 古典的Polyak 線形回帰タスク:最適固定ステップサイズがわずかに優れているが、Sparse Polyakは依然として古典的Polyakより優れている 次元スケーリング問題 :高次元では、||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||で、最悪の場合等号が成立するステップサイズの保守性 :全勾配ノルムを使用すると、過度に保守的なステップサイズが生じ、dの増加に伴い悪化する適応性の利点 :適応的ステップサイズは局所曲率情報を活用でき、不均一な曲率問題でより優れた性能を示すIHTおよび変種 :Blumensath & Davies (2009)、Jain et al. (2014)その他の方法 :Matching Pursuit、OMP、CoSaMP加速版 :Khanna & Kyrillidis (2018)、Zhou et al. (2018)Polyakステップサイズ :Polyak (1969)、最近の復興 Ren et al. (2022)局所Lipschitz方法 :Malitsky & Mishchenko (2020、2024)制約問題 :Cheng & Li (2012)、Devanathan & Boyd (2024)理論的基礎 :Agarwal et al. (2012)、Loh & Wainwright (2015)条件要件 :RSC/RSS、RIP条件の発展方法の有効性 :Sparse Polyakは高次元設定における適応的ステップサイズの課題を成功裏に解決した理論的完全性 :最適固定ステップサイズと同等の収束保証を提供する実用的価値 :複数の統計モデルで良好な性能を示した速度不変性 :問題規模増加に伴う性能の安定性を実現した定数因子 :ステップサイズ公式の因子1/5は分析の産物である可能性があり、実際には不要かもしれない初期化要件 :一部の結果は特定の初期化条件を必要とする条件制限 :依然としてRSC/RSS条件が必要であり、RIP条件よりは緩いがパラメータ選択 :目標関数値f̂を事前に知るか推定する必要がある他のアルゴリズムへの拡張 :著者は、BB方法などにも同様の改善が必要である可能性があると推測しているより弱い条件 :理論的仮定条件をさらに緩和する実用的応用 :より多くの実際の問題で方法の効果を検証する計算最適化 :計算複雑度を削減し、実用性を向上させる問題特定の正確性 :高次元適応的ステップサイズの中心的な問題を正確に特定した理論的貢献の重要性 :高次元スパース問題に対する適応的ステップサイズの理論的保証を初めて提供した方法の簡潔性と有効性 :修正は単純だが効果は顕著である実験の充実 :理論検証、合成データ、実データ実験を含む記述の明確性 :論理構造が明確で、技術的詳細が完全である条件の強さ :s ≥ (240κ̄)²s*の要件は一部の応用で過度に厳しい可能性がある定数分析 :一部の定数は十分に厳密でない可能性があり、実際の性能に影響する適用範囲 :主にスパース問題に焦点を当てており、他の構造化問題への拡張性は不明である計算オーバーヘッド :各反復で硬閾値操作を計算する必要があり、計算コストが増加する理論的価値 :高次元最適化理論に重要な貢献をした実用的意義 :機械学習のスパース問題に新しいツールを提供する啓発性 :他の適応的方法が高次元設定で改善される方法に示唆を与える再現可能性 :理論分析が完全で、アルゴリズム記述が明確であり、実装が容易である高次元スパース回帰 :特徴選択、ゲノミクスデータ分析圧縮センシング :信号復元、画像処理機械学習 :深層学習のスパース化、ニューラルネットワークプルーニング統計学習 :高次元統計推論、変数選択主要な参考文献には以下が含まれる:
Jain et al. (2014) - IHT理論的基礎 Agarwal et al. (2012) - RSC/RSS条件 Polyak (1969) - 元のPolyakステップサイズ Loh & Wainwright (2015) - 高次元統計理論 Malitsky & Mishchenko (2020) - 現代的適応的方法 総合評価 :これは高次元最適化における重要な問題に対して革新的な解決策を提案する高品質な理論論文である。理論分析は厳密で、実験検証は充分であり、関連分野に対して重要な貢献価値を持つ。いくつかの技術的制限は存在するが、全体的には当該分野の重要な進展である。