2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

Convergence of optimizers implies eigenvalues filtering at equilibrium

基本信息

论文ID: 2510.09034
标题: Convergence of optimizers implies eigenvalues filtering at equilibrium
作者: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
分类: cs.LG math.DS math.OC
发表时间: October 13, 2025
论文链接: https://arxiv.org/abs/2510.09034

摘要

大量深度神经网络训练的经验证据表明，各种优化器倾向于找到接近全局最优的解。本文采用相反的视角，假设收敛到任意点而非证明收敛，专注于这一假设的后果。从这个角度出发，结合边缘稳定性现象的最新进展，作者论证了不同的优化器实际上充当由其超参数决定的特征值过滤器。具体而言，标准梯度下降方法固有地避免最尖锐的最小值，而锐度感知最小化(SAM)算法进一步主动偏好更宽的盆地。基于这些见解，作者提出了两种新算法，展现出增强的特征值过滤能力，有效促进更宽的最小值。理论分析利用了广义Hadamard-Perron稳定流形定理，适用于一般半代数C²函数，无需额外的非退化条件或全局Lipschitz界假设。

研究背景与动机

核心问题

本研究解决的核心问题是理解优化算法在深度学习中的收敛行为，特别是它们如何在损失函数的复杂景观中选择特定的最小值。传统研究关注证明收敛性，而本文采用"逆向"视角：假设收敛已经发生，分析这种收敛对达到点的几何性质（特别是Hessian特征值）的限制。

重要性

稳定性与泛化的联系：稳定的训练与宽吸引盆地和平坦最小值相关，这些特性与泛化性能密切相关
边缘稳定性现象：经验观察表明，标准训练通常在稳定性边界附近操作
实际意义：理解优化器的隐式偏好有助于设计更好的训练算法

现有方法局限性

现有理论通常需要严格的假设条件（如全局Lipschitz界、非退化条件）
缺乏统一框架来理解不同优化器的特征值过滤行为
对SAM类算法的理论理解有限

研究动机

近十年来，深度学习实践中成功训练几乎成为常态，这促使研究视角从"何时收敛"转向"为什么成功收敛以及超参数如何使其成为可能"。

核心贡献

统一理论框架：提出基于广义Hadamard-Perron稳定流形定理的统一分析框架，适用于广泛的优化算法类别
特征值过滤理论：证明了成功收敛的优化器必然对达到点的Hessian特征值施加约束，形成"特征值过滤"效应
算法分析：系统分析了梯度下降、重球法、Nesterov加速梯度法和USAM的特征值过滤性质
新算法提出：设计了Two-step USAM和Hessian USAM两种新算法，展现更强的特征值过滤能力
理论扩展：将现有结果扩展到更一般的半代数函数类，移除了抽象的非退化假设

方法详解

任务定义

考虑一般形式的迭代优化算法： $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

其中：

$D \in \mathbb{R}^{m \times m}$ 是可逆矩阵
$g: \mathbb{R}^m \to \mathbb{R}^m$ 是 $C^1$ 连续可微的半代数映射
$\alpha > 0$ 是步长参数

核心理论结果

主定理（特征值过滤）

定理1.1：设 $D \in \mathbb{R}^{m \times m}$ 为可逆矩阵， $g: \mathbb{R}^m \to \mathbb{R}^m$ 为 $C^1$ 半代数映射。对于几乎所有 $x_0 \in \mathbb{R}^m$ 和 $\alpha > 0$ ，如果序列 $(x_k)_{k \in \mathbb{N}}$ 收敛到某点 $\bar{x}$ ，则 $D - \alpha g$ 在 $\bar{x}$ 处的Jacobian的谱半径至多为1： $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

稳定流形定理扩展

定理2.1：存在 $\Lambda \subset \mathbb{R}_+$ ，其补集为有限集，使得对任意 $\alpha \in \Lambda$ ，集合 $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ 包含在至多 $m-1$ 维的 $C^1$ 子流形的可数并中。

技术创新点

半代数假设：使用半代数函数类作为充分条件，包含深度学习中几乎所有常见函数
无需全局条件：不需要全局Lipschitz界或非退化假设
统一分析框架：通过统一的矩阵形式 $D$ 和映射 $g$ ，涵盖多种优化算法

具体算法分析

梯度下降

命题3.1：对于梯度下降 $x_{k+1} = x_k - \alpha \nabla f(x_k)$ ，如果收敛到 $\bar{x}$ ，则 $\nabla^2f(\bar{x})$ 的所有特征值 $\lambda$ 满足： $0 \leq \lambda \leq \frac{2}{\alpha}$

重球法

命题3.2：对于重球法，特征值约束为： $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

USAM算法

命题3.4：对于USAM算法 $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ ，特征值 $\lambda$ 满足： $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

等价地： $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

新算法设计

Two-step USAM

更新规则： $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

特征值约束： $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

更新规则： $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

特征值约束： $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

实验设置

数据集

MNIST + MLP：隐藏层维度{128, 64, 10, 10}，ReLU激活，交叉熵损失
Fashion-MNIST + MLP：同上设置
CIFAR10 + WideResNet-16-8：无批归一化层的WideResNet架构

实验配置

批大小：128
学习率： $\alpha = 0.01$
权重衰减： $5 \times 10^{-4}$
动量： $\beta \in \{0, 0.9\}$
SAM参数： $\rho$ 通过网格搜索选择

评价指标

测试准确率
Hessian矩阵的前三个最大特征值

实验结果

主要发现

特征值过滤验证：实验结果与理论预测高度一致，USAM、Two-step USAM和Hessian USAM确实找到了更平坦的最小值
算法比较：
- 标准梯度下降：基线性能
- USAM：显著降低Hessian特征值
- Two-step USAM：进一步改善特征值过滤
- Hessian USAM：类似的改善效果
架构依赖性：
- MLP架构：理论预测与实验结果高度吻合
- WideResNet：差异较小，可能由于训练难度增加