We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
論文ID : 2510.11312タイトル : Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis著者 : Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)分類 : math.OC(最適化と制御)発表会議 : 39th Conference on Neural Information Processing Systems (NeurIPS 2025)論文リンク : https://arxiv.org/abs/2510.11312 本論文は、滑らかな非凸最適化問題に対する非線形前処理勾配法を研究しており、広く使用されている勾配クリッピング技術に類似した処理を本質的に実行するシグモイド前処理器に焦点を当てている。この考え方に基づいて、著者らは新規な重球型アルゴリズムを導入し、従来のLipschitz平滑性の制限よりも緩い一般化された平滑性条件下で収束保証を提供し、より広いクラスの関数をカバーしている。さらに、基本的な方法の確率的変種を開発し、異なるノイズ仮定下での収束特性を研究している。
解決すべき問題 :従来の勾配降下法(GD)と確率的勾配降下法(SGD)は、大域的Lipschitz勾配仮定を満たさない現代的な機械学習応用を扱う際に、慎重なパラメータ調整または高価な線探索戦略を必要とする。問題の重要性 :現代の深層学習応用における大多数のコスト関数は従来のLipschitz勾配仮定を満たさず、勾配クリッピング技術は言語モデルなどのタスクにおいて神経ネットワーク訓練を安定化させるための標準的な実践となっている。既存方法の限界 :標準的なGD/SGD法はLipschitz平滑性を超える問題の処理において収束が困難 既存の勾配クリッピング法の理論解析は主に特定の平滑性条件に限定されている より一般的な設定における運動量法の解析が不足している 研究動機 :勾配クリッピング法を非線形前処理フレームワークに統一し、運動量と確率的変種を含むより一般的な理論解析に拡張する。異方性勾配降下法の拡張 :基本的な反復に重球運動量を組み込むことにより、一般的な非凸設定下での収束保証を研究した。確率的拡張の提案 :異なるノイズ仮定下での基本的な方法の確率的版を解析し、有界分散よりも緩い条件を含めた。理論解析の貢献 :異方性降下不等式下での運動量アルゴリズムの収束性を証明 一般化されたPL条件下での線形収束率を証明 新しいノイズ仮定下での確率的方法を解析 実験的検証 :神経ネットワーク訓練と行列分解を含む多様な機械学習タスクにおいて、提案手法の優れた性能を実証した。一般的な最小化問題を考察する:
min x ∈ R n f ( x ) \min_{x \in \mathbb{R}^n} f(x) min x ∈ R n f ( x )
ここでf : R n → R f: \mathbb{R}^n \to \mathbb{R} f : R n → R は滑らかで、おそらく非凸な関数である。
基本的な方法 :
x k + 1 = x k − γ ∇ ϕ ∗ ( ∇ f ( x k ) ) x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k)) x k + 1 = x k − γ ∇ ϕ ∗ ( ∇ f ( x k ))
ここでϕ : R n → R \phi: \mathbb{R}^n \to \mathbb{R} ϕ : R n → R は凸参照関数、ϕ ∗ \phi^* ϕ ∗ はその凸共役、∇ ϕ ∗ \nabla \phi^* ∇ ϕ ∗ は前処理器を生成する。
主要な考え方 :強凸で有界領域を持つ参照関数ϕ \phi ϕ を選択することにより、写像∇ ϕ ∗ \nabla \phi^* ∇ ϕ ∗ はR n \mathbb{R}^n R n を単位n n n -球に写像し、自然に勾配クリッピングを実装する。
入力:x⁰ ∈ ℝⁿ, γ, β > 0を選択、m⁻¹ = 0ⁿを設定
収束まで k = 0, 1, ... に対して繰り返す:
1. mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))を計算
2. xᵏ⁺¹ = xᵏ - γmᵏを計算
等価形式 :
x k + 1 = x k − ( 1 − β ) γ ∇ ϕ ∗ ( ∇ f ( x k ) ) + β ( x k − x k − 1 ) x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1}) x k + 1 = x k − ( 1 − β ) γ ∇ ϕ ∗ ( ∇ f ( x k )) + β ( x k − x k − 1 )
定義 :関数f f f がϕ \phi ϕ に対して異方性降下性質を満たすとは、すべてのx , x ˉ ∈ R n x, \bar{x} \in \mathbb{R}^n x , x ˉ ∈ R n に対して以下が成立することである:
f ( x ) ≤ f ( x ˉ ) + 1 L ⋆ ϕ ( x − y ˉ ) − 1 L ⋆ ϕ ( x ˉ − y ˉ ) f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y}) f ( x ) ≤ f ( x ˉ ) + L 1 ⋆ ϕ ( x − y ˉ ) − L 1 ⋆ ϕ ( x ˉ − y ˉ )
ここでy ˉ = x ˉ − 1 L ∇ ϕ ∗ ( ∇ f ( x ˉ ) ) \bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x})) y ˉ = x ˉ − L 1 ∇ ϕ ∗ ( ∇ f ( x ˉ )) である。
運動量設計 :標準的な方法と異なり、本論文の運動量推定は勾配を集約してから前処理するのではなく、前処理勾配の凸組み合わせで構成される。一般化された平滑性 :異方性平滑性は( L 0 , L 1 ) (L_0, L_1) ( L 0 , L 1 ) -平滑性よりも制限が少なく、より広いクラスの関数をカバーする。統一的な解析フレームワーク :参照関数ϕ \phi ϕ の凸性に基づいた統一的な収束性解析を提供する。定理2.2 :異方性平滑性条件下で、β ∈ [ 0 , 0.5 ) \beta \in [0, 0.5) β ∈ [ 0 , 0.5 ) およびγ = α / L \gamma = \alpha/L γ = α / L 、α ≤ 1 \alpha \leq 1 α ≤ 1 に対して:
min 0 ≤ k ≤ K ϕ ( ∇ ϕ ∗ ( ∇ f ( x k ) ) ) ≤ L ( f ( x 0 ) − f ∗ ) α ( K + 1 ) ( 1 − 2 β ) \min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)} min 0 ≤ k ≤ K ϕ ( ∇ ϕ ∗ ( ∇ f ( x k ))) ≤ α ( K + 1 ) ( 1 − 2 β ) L ( f ( x 0 ) − f ∗ )
定理2.4 :一般化されたPL条件下で、2次同次参照関数に対して:
f ( x k ) − f ∗ ≤ α k ( f ( x 0 ) − f ∗ ) f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*) f ( x k ) − f ∗ ≤ α k ( f ( x 0 ) − f ∗ )
ここでα = max { 1 − γ μ ( β − 2 β 2 ) , β + 2 β 2 } \alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\} α = max { 1 − γ μ ( β − 2 β 2 ) , β + 2 β 2 } である。
定理3.1 :ノイズ条件E [ ϕ ( ∇ ϕ ∗ ( ∇ f ( x ) ) − ∇ ϕ ∗ ( g ( x ) ) ) ] ≤ σ 2 \mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2 E [ ϕ ( ∇ ϕ ∗ ( ∇ f ( x )) − ∇ ϕ ∗ ( g ( x )))] ≤ σ 2 下で:
E [ 1 K ∑ k = 0 K − 1 ϕ ( ∇ ϕ ∗ ( ∇ f ( x k ) ) ) ] ≤ f ( x 0 ) − f ∗ γ K + σ 2 \mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2 E [ K 1 ∑ k = 0 K − 1 ϕ ( ∇ ϕ ∗ ( ∇ f ( x k ))) ] ≤ γ K f ( x 0 ) − f ∗ + σ 2
MNIST :手書き数字分類、2層全結合ネットワークを使用CIFAR-10/100 :画像分類、ResNet-18/34アーキテクチャを使用MovieLens 100K :行列分解問題位相回復 :非凸最適化問題訓練損失の収束速度 テスト精度 勾配ノルム∥ ∇ f ( x k ) ∥ \|\nabla f(x^k)\| ∥∇ f ( x k ) ∥ SGD/SGDm:標準確率的勾配降下法およびその運動量版 Adam:適応的学習率法 GD/GDm:標準勾配降下法およびその運動量版 AdGD-accel:適応的勾配法の加速変種 固定ステップサイズを使用 双曲勾配降下法(HGD):ϕ ( x ) = cosh ( ∥ x ∥ ) − 1 \phi(x) = \cosh(\|x\|) - 1 ϕ ( x ) = cosh ( ∥ x ∥ ) − 1 分離版:ϕ ( x ) = ∑ i = 1 n cosh ( x i ) − 1 \phi(x) = \sum_{i=1}^n \cosh(x_i) - 1 ϕ ( x ) = ∑ i = 1 n cosh ( x i ) − 1 MNIST分類 :iHGDは迅速に小さな訓練損失に到達し、SGDおよびAdamを上回る性能を示したCIFAR-10分類 :提案手法はSGDおよびSGDmと同等の性能を示し、後者がこの問題の最先端手法である行列分解 :iHGDmは他の手法を大幅に上回り、異なるランダム初期化下でより安定している位相回復 :sHGDは勾配クリッピング法と同様の性能を示した適応的ステップサイズ :2次を超える速度で増加する参照関数に対して、前処理器は自然にシグモイド形状を形成し、暗黙的な適応的ステップサイズ規則を提供する安定性 :行列分解などの非凸問題において、提案手法はより優れた安定性を示す広い適用性 :異なるタイプの機械学習タスク全体で手法は良好な性能を示す最初に32 で凸本質的に滑らかな問題に対して導入 24 で異方性降下不等式を導入36 で該当方法が多くの流行アルゴリズムを含むことを示した48 で( L 0 , L 1 ) (L_0, L_1) ( L 0 , L 1 ) -平滑性の概念を導入47 で運動量付きの一般的なクリッピングフレームワークを解析緩和されたノイズと平滑性仮定下でこのような方法を研究する多くの研究 異方性勾配降下法を重球運動量を含むように正常に拡張した 従来のLipschitz平滑性よりも緩い条件下で収束保証を提供した 確率的版を開発し、新しいノイズ仮定下で解析した 多様な機械学習タスクにおける手法の有効性を実験的に検証した 運動量パラメータがβ ∈ [ 0 , 0.5 ) \beta \in [0, 0.5) β ∈ [ 0 , 0.5 ) に制限され、β ∈ [ 0 , 1 ) \beta \in [0, 1) β ∈ [ 0 , 1 ) に拡張できない 前処理Lipschitz連続性仮定は異方性平滑性よりも厳密 確率的運動量法の完全な解析が提供されていない 緩和された参照関数仮定下での運動量アルゴリズムの統一解析 任意のβ ∈ [ 0 , 1 ) \beta \in [0, 1) β ∈ [ 0 , 1 ) への運動量パラメータの拡張 運動量を含む完全な近接勾配型アルゴリズムへの拡張 確率的アルゴリズムのバッチサイズ依存性の除去と運動量の組み込み 理論的革新 :異方性平滑性条件下での運動量法の初の解析を提供統一フレームワーク :勾配クリッピングなど複数の方法を非線形前処理フレームワークに統一実用的価値 :実際の機械学習タスクにおいて手法は優れた性能を示す解析の深さ :確定的および確率的設定下での完全な理論解析を提供パラメータ制限 :運動量パラメータの制限(β < 0.5 \beta < 0.5 β < 0.5 )は標準的な解析と比較してより厳密仮定の強度 :いくつかの理論的結果は追加の技術的仮定を必要とする実験範囲 :実験は主に標準的な機械学習タスクに集中しており、より広い応用検証が不足している理論的貢献 :非線形前処理法の理論解析に新しいツールと洞察を提供実用的価値 :標準的な平滑性仮定を超える最適化問題の処理に新しい方法を提供再現性 :著者らは公開コード実装を提供している神経ネットワーク訓練、特に勾配が大きくなる可能性のあるシーン 行列分解などの非凸最適化問題 勾配クリッピングまたは正規化が必要なアプリケーション 標準的なLipschitz平滑性を超える最適化問題 論文は最適化理論、機械学習および数値方法などの関連分野の重要な研究をカバーする48の参考文献を含み、研究に堅実な理論的基礎を提供している。