Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
论文ID : 2510.09034标题 : Convergence of optimizers implies eigenvalues filtering at equilibrium作者 : Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels分类 : cs.LG math.DS math.OC发表时间 : October 13, 2025论文链接 : https://arxiv.org/abs/2510.09034 大量深度神经网络训练的经验证据表明,各种优化器倾向于找到接近全局最优的解。本文采用相反的视角,假设收敛到任意点而非证明收敛,专注于这一假设的后果。从这个角度出发,结合边缘稳定性现象的最新进展,作者论证了不同的优化器实际上充当由其超参数决定的特征值过滤器。具体而言,标准梯度下降方法固有地避免最尖锐的最小值,而锐度感知最小化(SAM)算法进一步主动偏好更宽的盆地。基于这些见解,作者提出了两种新算法,展现出增强的特征值过滤能力,有效促进更宽的最小值。理论分析利用了广义Hadamard-Perron稳定流形定理,适用于一般半代数C²函数,无需额外的非退化条件或全局Lipschitz界假设。
本研究解决的核心问题是理解优化算法在深度学习中的收敛行为,特别是它们如何在损失函数的复杂景观中选择特定的最小值。传统研究关注证明收敛性,而本文采用"逆向"视角:假设收敛已经发生,分析这种收敛对达到点的几何性质(特别是Hessian特征值)的限制。
稳定性与泛化的联系 :稳定的训练与宽吸引盆地和平坦最小值相关,这些特性与泛化性能密切相关边缘稳定性现象 :经验观察表明,标准训练通常在稳定性边界附近操作实际意义 :理解优化器的隐式偏好有助于设计更好的训练算法现有理论通常需要严格的假设条件(如全局Lipschitz界、非退化条件) 缺乏统一框架来理解不同优化器的特征值过滤行为 对SAM类算法的理论理解有限 近十年来,深度学习实践中成功训练几乎成为常态,这促使研究视角从"何时收敛"转向"为什么成功收敛以及超参数如何使其成为可能"。
统一理论框架 :提出基于广义Hadamard-Perron稳定流形定理的统一分析框架,适用于广泛的优化算法类别特征值过滤理论 :证明了成功收敛的优化器必然对达到点的Hessian特征值施加约束,形成"特征值过滤"效应算法分析 :系统分析了梯度下降、重球法、Nesterov加速梯度法和USAM的特征值过滤性质新算法提出 :设计了Two-step USAM和Hessian USAM两种新算法,展现更强的特征值过滤能力理论扩展 :将现有结果扩展到更一般的半代数函数类,移除了抽象的非退化假设考虑一般形式的迭代优化算法:
x k + 1 = G α ( x k ) = D x k − α g ( x k ) , k = 0 , 1 , 2 , … x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots x k + 1 = G α ( x k ) = D x k − αg ( x k ) , k = 0 , 1 , 2 , …
其中:
D ∈ R m × m D \in \mathbb{R}^{m \times m} D ∈ R m × m 是可逆矩阵g : R m → R m g: \mathbb{R}^m \to \mathbb{R}^m g : R m → R m 是C 1 C^1 C 1 连续可微的半代数映射α > 0 \alpha > 0 α > 0 是步长参数定理1.1 :设D ∈ R m × m D \in \mathbb{R}^{m \times m} D ∈ R m × m 为可逆矩阵,g : R m → R m g: \mathbb{R}^m \to \mathbb{R}^m g : R m → R m 为C 1 C^1 C 1 半代数映射。对于几乎所有x 0 ∈ R m x_0 \in \mathbb{R}^m x 0 ∈ R m 和α > 0 \alpha > 0 α > 0 ,如果序列( x k ) k ∈ N (x_k)_{k \in \mathbb{N}} ( x k ) k ∈ N 收敛到某点x ˉ \bar{x} x ˉ ,则D − α g D - \alpha g D − αg 在x ˉ \bar{x} x ˉ 处的Jacobian的谱半径至多为1:
ρ ( Jac G α ( x ˉ ) ) ≤ 1 \rho(\text{Jac}G_\alpha(\bar{x})) \leq 1 ρ ( Jac G α ( x ˉ )) ≤ 1
定理2.1 :存在Λ ⊂ R + \Lambda \subset \mathbb{R}_+ Λ ⊂ R + ,其补集为有限集,使得对任意α ∈ Λ \alpha \in \Lambda α ∈ Λ ,集合
W α = { x 0 ∈ R m ∣ ∃ x ˉ s.t. G α ( x ˉ ) = x ˉ , ρ ( Jac G α ( x ˉ ) ) > 1 , x k → x ˉ } W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} W α = { x 0 ∈ R m ∣∃ x ˉ s.t. G α ( x ˉ ) = x ˉ , ρ ( Jac G α ( x ˉ )) > 1 , x k → x ˉ }
包含在至多m − 1 m-1 m − 1 维的C 1 C^1 C 1 子流形的可数并中。
半代数假设 :使用半代数函数类作为充分条件,包含深度学习中几乎所有常见函数无需全局条件 :不需要全局Lipschitz界或非退化假设统一分析框架 :通过统一的矩阵形式D D D 和映射g g g ,涵盖多种优化算法命题3.1 :对于梯度下降x k + 1 = x k − α ∇ f ( x k ) x_{k+1} = x_k - \alpha \nabla f(x_k) x k + 1 = x k − α ∇ f ( x k ) ,如果收敛到x ˉ \bar{x} x ˉ ,则∇ 2 f ( x ˉ ) \nabla^2f(\bar{x}) ∇ 2 f ( x ˉ ) 的所有特征值λ \lambda λ 满足:
0 ≤ λ ≤ 2 α 0 \leq \lambda \leq \frac{2}{\alpha} 0 ≤ λ ≤ α 2
命题3.2 :对于重球法,特征值约束为:
0 ≤ λ ≤ 2 ( 1 + β ) α 0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ≤ α 2 ( 1 + β )
命题3.4 :对于USAM算法x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)) x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k )) ,特征值λ \lambda λ 满足:
0 ≤ λ ( 1 + ρ λ ) ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ ) ≤ α 2 ( 1 + β )
等价地:
0 ≤ λ ≤ 1 + 8 ( 1 + β ) ρ / α − 1 2 ρ 0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho} 0 ≤ λ ≤ 2 ρ 1 + 8 ( 1 + β ) ρ / α − 1
更新规则:
x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) + ρ ∇ f ( x k + ρ ∇ f ( x k ) ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k))) x k + 1 = x k − α ∇ f ( x k + ρ ∇ f ( x k ) + ρ ∇ f ( x k + ρ ∇ f ( x k )))
特征值约束:
0 ≤ λ ( 1 + ρ λ ) 2 ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ ) 2 ≤ α 2 ( 1 + β )
更新规则:
x k + 1 = x k − α ∇ f ( x k + ρ ∇ 2 f ( x k ) ∇ f ( x k ) ) x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k)) x k + 1 = x k − α ∇ f ( x k + ρ ∇ 2 f ( x k ) ∇ f ( x k ))
特征值约束:
0 ≤ λ ( 1 + ρ λ 2 ) ≤ 2 ( 1 + β ) α 0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha} 0 ≤ λ ( 1 + ρ λ 2 ) ≤ α 2 ( 1 + β )
MNIST + MLP :隐藏层维度{128, 64, 10, 10},ReLU激活,交叉熵损失Fashion-MNIST + MLP :同上设置CIFAR10 + WideResNet-16-8 :无批归一化层的WideResNet架构批大小:128 学习率:α = 0.01 \alpha = 0.01 α = 0.01 权重衰减:5 × 10 − 4 5 \times 10^{-4} 5 × 1 0 − 4 动量:β ∈ { 0 , 0.9 } \beta \in \{0, 0.9\} β ∈ { 0 , 0.9 } SAM参数:ρ \rho ρ 通过网格搜索选择 特征值过滤验证 :实验结果与理论预测高度一致,USAM、Two-step USAM和Hessian USAM确实找到了更平坦的最小值算法比较 :标准梯度下降:基线性能 USAM:显著降低Hessian特征值 Two-step USAM:进一步改善特征值过滤 Hessian USAM:类似的改善效果 架构依赖性 :MLP架构:理论预测与实验结果高度吻合 WideResNet:差异较小,可能由于训练难度增加 稳定性要求 :Two-step USAM和Hessian USAM需要更小的ρ \rho ρ 值以避免训练失败,符合理论预测的更严格曲率约束批归一化影响 :使用批归一化的架构中,SAM类算法的平坦化效果不明显,这不与理论矛盾,因为批归一化改变了算法动力学Hadamard (1901), Perron (1929)的经典结果 现代优化中的应用:Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022) Cohen et al. (2021, 2022):梯度下降和自适应方法的边缘稳定性 Andreyev & Beneventano (2024):随机算法的扩展 Foret et al. (2021):原始SAM算法 Andriushchenko & Flammarion (2022):USAM变体 后续理论分析:Zhou et al. (2025), Marion & Chizat (2024) 统一视角 :成功的优化器训练本质上是特征值过滤过程,不同算法通过超参数实现不同程度的过滤理论扩展 :广义稳定流形定理为理解优化算法提供了强大的理论工具实用指导 :理论结果为设计新的优化算法提供了原则性指导半代数假设 :虽然覆盖面广,但仍有一定限制新算法的计算成本 :Two-step USAM和Hessian USAM的单次迭代成本更高批归一化兼容性 :理论框架尚未涵盖批归一化操作扩展到更一般函数类 :探索无需半代数假设的理论扩展批归一化理论 :将理论框架扩展到包含批归一化的架构实用算法优化 :在保持理论优势的同时降低新算法的计算成本理论创新 :提供了理解优化算法的全新视角,从"收敛性证明"转向"收敛后果分析"统一框架 :首次提供了分析多种优化算法特征值过滤行为的统一理论框架实用价值 :理论结果直接指导了新算法的设计,并得到实验验证技术严谨 :数学推导严密,假设条件明确且合理实验规模有限 :实验主要在相对简单的架构和数据集上进行,大规模实验验证不足新算法评估 :对Two-step USAM和Hessian USAM的全面性能评估(包括泛化能力)仍需更多工作理论gap :SAM算法的实际表现与理论预测存在一定差距(如严格鞍点问题)理论贡献 :为优化理论提供了新的分析工具和视角实用价值 :为优化算法设计提供了原则性指导跨领域意义 :连接了动力系统理论与机器学习实践深度学习优化 :特别适用于理解和改进神经网络训练算法非凸优化 :为一般非凸优化问题提供新的分析工具算法设计 :指导新型优化算法的设计和分析本文引用了大量相关工作,主要包括:
经典动力系统理论文献 现代优化理论进展 深度学习中的稳定性和泛化研究 锐度感知最小化相关工作 边缘稳定性现象的理论和实验研究 总体评价 :这是一篇理论深度与实用价值并重的优秀论文,为理解深度学习中的优化现象提供了新的理论工具,并展示了理论指导算法设计的成功案例。虽然在大规模实验验证方面还有改进空间,但其理论贡献和创新视角使其成为优化理论领域的重要进展。