2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

Convergence of optimizers implies eigenvalues filtering at equilibrium

基本信息

  • 论文ID: 2510.09034
  • 标题: Convergence of optimizers implies eigenvalues filtering at equilibrium
  • 作者: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • 分类: cs.LG math.DS math.OC
  • 发表时间: October 13, 2025
  • 论文链接: https://arxiv.org/abs/2510.09034

摘要

大量深度神经网络训练的经验证据表明,各种优化器倾向于找到接近全局最优的解。本文采用相反的视角,假设收敛到任意点而非证明收敛,专注于这一假设的后果。从这个角度出发,结合边缘稳定性现象的最新进展,作者论证了不同的优化器实际上充当由其超参数决定的特征值过滤器。具体而言,标准梯度下降方法固有地避免最尖锐的最小值,而锐度感知最小化(SAM)算法进一步主动偏好更宽的盆地。基于这些见解,作者提出了两种新算法,展现出增强的特征值过滤能力,有效促进更宽的最小值。理论分析利用了广义Hadamard-Perron稳定流形定理,适用于一般半代数C²函数,无需额外的非退化条件或全局Lipschitz界假设。

研究背景与动机

核心问题

本研究解决的核心问题是理解优化算法在深度学习中的收敛行为,特别是它们如何在损失函数的复杂景观中选择特定的最小值。传统研究关注证明收敛性,而本文采用"逆向"视角:假设收敛已经发生,分析这种收敛对达到点的几何性质(特别是Hessian特征值)的限制。

重要性

  1. 稳定性与泛化的联系:稳定的训练与宽吸引盆地和平坦最小值相关,这些特性与泛化性能密切相关
  2. 边缘稳定性现象:经验观察表明,标准训练通常在稳定性边界附近操作
  3. 实际意义:理解优化器的隐式偏好有助于设计更好的训练算法

现有方法局限性

  • 现有理论通常需要严格的假设条件(如全局Lipschitz界、非退化条件)
  • 缺乏统一框架来理解不同优化器的特征值过滤行为
  • 对SAM类算法的理论理解有限

研究动机

近十年来,深度学习实践中成功训练几乎成为常态,这促使研究视角从"何时收敛"转向"为什么成功收敛以及超参数如何使其成为可能"。

核心贡献

  1. 统一理论框架:提出基于广义Hadamard-Perron稳定流形定理的统一分析框架,适用于广泛的优化算法类别
  2. 特征值过滤理论:证明了成功收敛的优化器必然对达到点的Hessian特征值施加约束,形成"特征值过滤"效应
  3. 算法分析:系统分析了梯度下降、重球法、Nesterov加速梯度法和USAM的特征值过滤性质
  4. 新算法提出:设计了Two-step USAM和Hessian USAM两种新算法,展现更强的特征值过滤能力
  5. 理论扩展:将现有结果扩展到更一般的半代数函数类,移除了抽象的非退化假设

方法详解

任务定义

考虑一般形式的迭代优化算法: xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

其中:

  • DRm×mD \in \mathbb{R}^{m \times m}是可逆矩阵
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^mC1C^1连续可微的半代数映射
  • α>0\alpha > 0是步长参数

核心理论结果

主定理(特征值过滤)

定理1.1:设DRm×mD \in \mathbb{R}^{m \times m}为可逆矩阵,g:RmRmg: \mathbb{R}^m \to \mathbb{R}^mC1C^1半代数映射。对于几乎所有x0Rmx_0 \in \mathbb{R}^mα>0\alpha > 0,如果序列(xk)kN(x_k)_{k \in \mathbb{N}}收敛到某点xˉ\bar{x},则DαgD - \alpha gxˉ\bar{x}处的Jacobian的谱半径至多为1: ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

稳定流形定理扩展

定理2.1:存在ΛR+\Lambda \subset \mathbb{R}_+,其补集为有限集,使得对任意αΛ\alpha \in \Lambda,集合 Wα={x0Rmxˉ s.t. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} 包含在至多m1m-1维的C1C^1子流形的可数并中。

技术创新点

  1. 半代数假设:使用半代数函数类作为充分条件,包含深度学习中几乎所有常见函数
  2. 无需全局条件:不需要全局Lipschitz界或非退化假设
  3. 统一分析框架:通过统一的矩阵形式DD和映射gg,涵盖多种优化算法

具体算法分析

梯度下降

命题3.1:对于梯度下降xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k),如果收敛到xˉ\bar{x},则2f(xˉ)\nabla^2f(\bar{x})的所有特征值λ\lambda满足: 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

重球法

命题3.2:对于重球法,特征值约束为: 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

USAM算法

命题3.4:对于USAM算法xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)),特征值λ\lambda满足: 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

等价地: 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

新算法设计

Two-step USAM

更新规则: xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

特征值约束: 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

更新规则: xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

特征值约束: 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

实验设置

数据集

  1. MNIST + MLP:隐藏层维度{128, 64, 10, 10},ReLU激活,交叉熵损失
  2. Fashion-MNIST + MLP:同上设置
  3. CIFAR10 + WideResNet-16-8:无批归一化层的WideResNet架构

实验配置

  • 批大小:128
  • 学习率:α=0.01\alpha = 0.01
  • 权重衰减:5×1045 \times 10^{-4}
  • 动量:β{0,0.9}\beta \in \{0, 0.9\}
  • SAM参数:ρ\rho通过网格搜索选择

评价指标

  • 测试准确率
  • Hessian矩阵的前三个最大特征值

实验结果

主要发现

  1. 特征值过滤验证:实验结果与理论预测高度一致,USAM、Two-step USAM和Hessian USAM确实找到了更平坦的最小值
  2. 算法比较
    • 标准梯度下降:基线性能
    • USAM:显著降低Hessian特征值
    • Two-step USAM:进一步改善特征值过滤
    • Hessian USAM:类似的改善效果
  3. 架构依赖性
    • MLP架构:理论预测与实验结果高度吻合
    • WideResNet:差异较小,可能由于训练难度增加

实验观察

  1. 稳定性要求:Two-step USAM和Hessian USAM需要更小的ρ\rho值以避免训练失败,符合理论预测的更严格曲率约束
  2. 批归一化影响:使用批归一化的架构中,SAM类算法的平坦化效果不明显,这不与理论矛盾,因为批归一化改变了算法动力学

相关工作

稳定流形定理

  • Hadamard (1901), Perron (1929)的经典结果
  • 现代优化中的应用:Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

边缘稳定性现象

  • Cohen et al. (2021, 2022):梯度下降和自适应方法的边缘稳定性
  • Andreyev & Beneventano (2024):随机算法的扩展

锐度感知最小化

  • Foret et al. (2021):原始SAM算法
  • Andriushchenko & Flammarion (2022):USAM变体
  • 后续理论分析:Zhou et al. (2025), Marion & Chizat (2024)

结论与讨论

主要结论

  1. 统一视角:成功的优化器训练本质上是特征值过滤过程,不同算法通过超参数实现不同程度的过滤
  2. 理论扩展:广义稳定流形定理为理解优化算法提供了强大的理论工具
  3. 实用指导:理论结果为设计新的优化算法提供了原则性指导

局限性

  1. 半代数假设:虽然覆盖面广,但仍有一定限制
  2. 新算法的计算成本:Two-step USAM和Hessian USAM的单次迭代成本更高
  3. 批归一化兼容性:理论框架尚未涵盖批归一化操作

未来方向

  1. 扩展到更一般函数类:探索无需半代数假设的理论扩展
  2. 批归一化理论:将理论框架扩展到包含批归一化的架构
  3. 实用算法优化:在保持理论优势的同时降低新算法的计算成本

深度评价

优点

  1. 理论创新:提供了理解优化算法的全新视角,从"收敛性证明"转向"收敛后果分析"
  2. 统一框架:首次提供了分析多种优化算法特征值过滤行为的统一理论框架
  3. 实用价值:理论结果直接指导了新算法的设计,并得到实验验证
  4. 技术严谨:数学推导严密,假设条件明确且合理

不足

  1. 实验规模有限:实验主要在相对简单的架构和数据集上进行,大规模实验验证不足
  2. 新算法评估:对Two-step USAM和Hessian USAM的全面性能评估(包括泛化能力)仍需更多工作
  3. 理论gap:SAM算法的实际表现与理论预测存在一定差距(如严格鞍点问题)

影响力

  1. 理论贡献:为优化理论提供了新的分析工具和视角
  2. 实用价值:为优化算法设计提供了原则性指导
  3. 跨领域意义:连接了动力系统理论与机器学习实践

适用场景

  1. 深度学习优化:特别适用于理解和改进神经网络训练算法
  2. 非凸优化:为一般非凸优化问题提供新的分析工具
  3. 算法设计:指导新型优化算法的设计和分析

参考文献

本文引用了大量相关工作,主要包括:

  • 经典动力系统理论文献
  • 现代优化理论进展
  • 深度学习中的稳定性和泛化研究
  • 锐度感知最小化相关工作
  • 边缘稳定性现象的理论和实验研究

总体评价:这是一篇理论深度与实用价值并重的优秀论文,为理解深度学习中的优化现象提供了新的理论工具,并展示了理论指导算法设计的成功案例。虽然在大规模实验验证方面还有改进空间,但其理论贡献和创新视角使其成为优化理论领域的重要进展。