2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

基本信息

  • 论文ID: 2510.11312
  • 标题: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
  • 作者: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
  • 分类: math.OC (Optimization and Control)
  • 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2510.11312

摘要

本文研究了用于光滑非凸优化问题的非线性预条件梯度方法,重点关注本质上执行类似于广泛使用的梯度裁剪技术的sigmoid预条件器。基于这一思想,作者引入了一种新颖的重球型算法,并在比传统Lipschitz光滑性限制更宽松的广义光滑性条件下提供了收敛保证,从而覆盖了更广泛的函数类别。此外,作者还开发了基础方法的随机变体,并在不同的噪声假设下研究了其收敛性质。

研究背景与动机

  1. 要解决的问题:传统的梯度下降(GD)和随机梯度下降(SGD)方法在处理不满足全局Lipschitz梯度假设的现代机器学习应用中需要谨慎调参或昂贵的线搜索策略。
  2. 问题重要性:现代深度学习应用中的大多数成本函数都不满足传统的Lipschitz梯度假设,而梯度裁剪技术已成为语言模型等任务的标准实践,用于稳定神经网络训练。
  3. 现有方法局限性
    • 标准GD/SGD方法在处理超出Lipschitz光滑性的问题时收敛困难
    • 现有梯度裁剪方法的理论分析主要局限于特定的光滑性条件
    • 缺乏在更一般设置下的动量方法分析
  4. 研究动机:将梯度裁剪方法统一到非线性预条件框架中,并扩展到包含动量和随机变体的更一般理论分析。

核心贡献

  1. 扩展了各向异性梯度下降方法:通过在基础迭代中加入重球动量,在一般非凸设置下研究了收敛保证。
  2. 提出了随机扩展:在不同噪声假设下分析了基础方法的随机版本,包括比有界方差更宽松的条件。
  3. 理论分析贡献
    • 在各向异性下降不等式下证明了动量算法的收敛性
    • 在广义PL条件下证明了线性收敛率
    • 在新的噪声假设下分析了随机方法
  4. 实验验证:在多种机器学习任务上展示了所提方法的良好性能,包括神经网络训练和矩阵分解。

方法详解

任务定义

考虑一般最小化问题: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x) 其中f:RnRf: \mathbb{R}^n \to \mathbb{R}是光滑且可能非凸的函数。

核心框架:非线性预条件梯度方法

基础方法xk+1=xkγϕ(f(xk))x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))

其中ϕ:RnR\phi: \mathbb{R}^n \to \mathbb{R}是凸参考函数,ϕ\phi^*是其凸共轭,ϕ\nabla \phi^*生成预条件器。

关键思想:通过选择强凸且有界域的参考函数ϕ\phi,映射ϕ\nabla \phi^*Rn\mathbb{R}^n映射到单位nn-球,自然地实现梯度裁剪。

算法1:带动量的非线性预条件梯度方法 (m-NPGM)

输入:选择 x⁰ ∈ ℝⁿ, γ, β > 0,设置 m⁻¹ = 0ⁿ
重复 k = 0, 1, ... 直到收敛:
1. 计算 mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. 计算 xᵏ⁺¹ = xᵏ - γmᵏ

等价形式xk+1=xk(1β)γϕ(f(xk))+β(xkxk1)x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})

各向异性下降不等式

定义:函数ff相对于ϕ\phi满足各向异性下降性质,如果对所有x,xˉRnx, \bar{x} \in \mathbb{R}^nf(x)f(xˉ)+1Lϕ(xyˉ)1Lϕ(xˉyˉ)f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y}) 其中yˉ=xˉ1Lϕ(f(xˉ))\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))

技术创新点

  1. 动量设计:与标准方法不同,本文的动量估计由预条件梯度的凸组合构成,而非先聚合梯度再预条件。
  2. 广义光滑性:各向异性光滑性比(L0,L1)(L_0, L_1)-光滑性限制更少,覆盖更广泛的函数类。
  3. 统一分析框架:基于参考函数ϕ\phi的凸性提供统一的收敛性分析。

理论结果

主要收敛定理

定理2.2:在各向异性光滑性条件下,对于β[0,0.5)\beta \in [0, 0.5)γ=α/L\gamma = \alpha/Lα1\alpha \leq 1min0kKϕ(ϕ(f(xk)))L(f(x0)f)α(K+1)(12β)\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}

定理2.4:在广义PL条件下,对于2-次齐次参考函数: f(xk)fαk(f(x0)f)f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*) 其中α=max{1γμ(β2β2),β+2β2}\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}

随机方法分析

定理3.1:在噪声条件E[ϕ(ϕ(f(x))ϕ(g(x)))]σ2\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2下: E[1Kk=0K1ϕ(ϕ(f(xk)))]f(x0)fγK+σ2\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2

实验设置

数据集

  1. MNIST:手写数字分类,使用两层全连接网络
  2. CIFAR-10/100:图像分类,使用ResNet-18/34架构
  3. MovieLens 100K:矩阵分解问题
  4. 相位恢复:非凸优化问题

评价指标

  • 训练损失收敛速度
  • 测试准确率
  • 梯度范数f(xk)\|\nabla f(x^k)\|

对比方法

  • SGD/SGDm:标准随机梯度下降及其动量版本
  • Adam:自适应学习率方法
  • GD/GDm:标准梯度下降及其动量版本
  • AdGD-accel:自适应梯度方法的加速变体

实现细节

  • 使用固定步长
  • 双曲梯度下降(HGD):ϕ(x)=cosh(x)1\phi(x) = \cosh(\|x\|) - 1
  • 分离版本:ϕ(x)=i=1ncosh(xi)1\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1

实验结果

主要结果

  1. MNIST分类:iHGD快速达到小训练损失,性能优于SGD和Adam
  2. CIFAR-10分类:所提方法与SGD和SGDm性能相当,后者是该问题的最先进方法
  3. 矩阵分解:iHGDm显著优于其他方法,在不同随机初始化下更稳定
  4. 相位恢复:sHGD与梯度裁剪方法性能相似

关键发现

  1. 自适应步长:对于增长速度超过二次的参考函数,预条件器自然形成sigmoid形状,提供隐式自适应步长规则
  2. 稳定性:在矩阵分解等非凸问题上,所提方法表现出更好的稳定性
  3. 广泛适用性:方法在不同类型的机器学习任务上都表现良好

相关工作

双空间预条件/各向异性梯度下降

  • 最初在32中为凸本质光滑问题引入
  • 24中引入各向异性下降不等式
  • 36中显示该方法包含多种流行算法

梯度裁剪与广义光滑性

  • 48引入(L0,L1)(L_0, L_1)-光滑性概念
  • 47分析了带动量的一般裁剪框架
  • 大量工作致力于在放宽的噪声和光滑性假设下研究此类方法

结论与讨论

主要结论

  1. 成功将各向异性梯度下降方法扩展到包含重球动量
  2. 在比传统Lipschitz光滑性更宽松的条件下提供了收敛保证
  3. 开发了随机版本并在新的噪声假设下进行了分析
  4. 实验验证了方法在多种机器学习任务上的有效性

局限性

  1. 动量参数限制在β[0,0.5)\beta \in [0, 0.5),无法扩展到β[0,1)\beta \in [0, 1)
  2. 预条件Lipschitz连续性假设比各向异性光滑性更严格
  3. 未提供随机动量方法的完整分析

未来方向

  1. 在放宽的参考函数假设下统一分析动量算法
  2. 扩展到任意β[0,1)\beta \in [0, 1)的动量参数
  3. 将完整的近端梯度型算法扩展到包含动量
  4. 为随机算法去除对批量大小的依赖并包含动量

深度评价

优点

  1. 理论创新:提供了在各向异性光滑性条件下的首个动量方法分析
  2. 统一框架:将梯度裁剪等多种方法统一到非线性预条件框架
  3. 实用价值:方法在实际机器学习任务中表现良好
  4. 分析深度:提供了确定性和随机设置下的完整理论分析

不足

  1. 参数限制:动量参数的限制(β<0.5\beta < 0.5)相比标准分析更严格
  2. 假设强度:某些理论结果需要额外的技术假设
  3. 实验范围:实验主要集中在标准机器学习任务,缺乏更广泛的应用验证

影响力

  1. 理论贡献:为非线性预条件方法的理论分析提供了新的工具和洞察
  2. 实用价值:为处理超出标准光滑性假设的优化问题提供了新方法
  3. 可复现性:作者提供了公开的代码实现

适用场景

  1. 神经网络训练,特别是梯度可能很大的场景
  2. 非凸优化问题,如矩阵分解
  3. 需要梯度裁剪或标准化的应用
  4. 超出标准Lipschitz光滑性的优化问题

参考文献

论文包含48篇参考文献,涵盖了优化理论、机器学习和数值方法等相关领域的重要工作,为研究提供了坚实的理论基础。