2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

非線形前処理勾配法：運動量と確率解析

基本情報

論文ID: 2510.11312
タイトル: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
著者: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
分類: math.OC（最適化と制御）
発表会議: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
論文リンク: https://arxiv.org/abs/2510.11312

要約

本論文は、滑らかな非凸最適化問題に対する非線形前処理勾配法を研究しており、広く使用されている勾配クリッピング技術に類似した処理を本質的に実行するシグモイド前処理器に焦点を当てている。この考え方に基づいて、著者らは新規な重球型アルゴリズムを導入し、従来のLipschitz平滑性の制限よりも緩い一般化された平滑性条件下で収束保証を提供し、より広いクラスの関数をカバーしている。さらに、基本的な方法の確率的変種を開発し、異なるノイズ仮定下での収束特性を研究している。

研究背景と動機

解決すべき問題：従来の勾配降下法(GD)と確率的勾配降下法(SGD)は、大域的Lipschitz勾配仮定を満たさない現代的な機械学習応用を扱う際に、慎重なパラメータ調整または高価な線探索戦略を必要とする。
問題の重要性：現代の深層学習応用における大多数のコスト関数は従来のLipschitz勾配仮定を満たさず、勾配クリッピング技術は言語モデルなどのタスクにおいて神経ネットワーク訓練を安定化させるための標準的な実践となっている。
既存方法の限界：
- 標準的なGD/SGD法はLipschitz平滑性を超える問題の処理において収束が困難
- 既存の勾配クリッピング法の理論解析は主に特定の平滑性条件に限定されている
- より一般的な設定における運動量法の解析が不足している
研究動機：勾配クリッピング法を非線形前処理フレームワークに統一し、運動量と確率的変種を含むより一般的な理論解析に拡張する。

核心的な貢献

異方性勾配降下法の拡張：基本的な反復に重球運動量を組み込むことにより、一般的な非凸設定下での収束保証を研究した。
確率的拡張の提案：異なるノイズ仮定下での基本的な方法の確率的版を解析し、有界分散よりも緩い条件を含めた。
理論解析の貢献：
- 異方性降下不等式下での運動量アルゴリズムの収束性を証明
- 一般化されたPL条件下での線形収束率を証明
- 新しいノイズ仮定下での確率的方法を解析
実験的検証：神経ネットワーク訓練と行列分解を含む多様な機械学習タスクにおいて、提案手法の優れた性能を実証した。

方法の詳細

タスク定義

一般的な最小化問題を考察する： $\min_{x \in \mathbb{R}^n} f(x)$ ここで $f: \mathbb{R}^n \to \mathbb{R}$ は滑らかで、おそらく非凸な関数である。

核心フレームワーク：非線形前処理勾配法

基本的な方法： $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

ここで $\phi: \mathbb{R}^n \to \mathbb{R}$ は凸参照関数、 $\phi^*$ はその凸共役、 $\nabla \phi^*$ は前処理器を生成する。

主要な考え方：強凸で有界領域を持つ参照関数 $\phi$ を選択することにより、写像 $\nabla \phi^*$ は $\mathbb{R}^n$ を単位 $n$ -球に写像し、自然に勾配クリッピングを実装する。

アルゴリズム1：運動量付き非線形前処理勾配法 (m-NPGM)

入力：x⁰ ∈ ℝⁿ, γ, β > 0を選択、m⁻¹ = 0ⁿを設定
収束まで k = 0, 1, ... に対して繰り返す：
1. mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))を計算
2. xᵏ⁺¹ = xᵏ - γmᵏを計算

等価形式： $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

異方性降下不等式

定義：関数 $f$ が $\phi$ に対して異方性降下性質を満たすとは、すべての $x, \bar{x} \in \mathbb{R}^n$ に対して以下が成立することである： $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ ここで $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ である。