The theory of training deep networks has become a central question of modern machine learning and has inspired many practical advancements. In particular, the gradient descent (GD) optimization algorithm has been extensively studied in recent years. A key assumption about GD has appeared in several recent works: the \emph{GD map is non-singular} -- it preserves sets of measure zero under preimages. Crucially, this assumption has been used to prove that GD avoids saddle points and maxima, and to establish the existence of a computable quantity that determines the convergence to global minima (both for GD and stochastic GD). However, the current literature either assumes the non-singularity of the GD map or imposes restrictive assumptions, such as Lipschitz smoothness of the loss (for example, Lipschitzness does not hold for deep ReLU networks with the cross-entropy loss) and restricts the analysis to GD with small step-sizes. In this paper, we investigate the neural network map as a function on the space of weights and biases. We also prove, for the first time, the non-singularity of the gradient descent (GD) map on the loss landscape of realistic neural network architectures (with fully connected, convolutional, or softmax attention layers) and piecewise analytic activations (which includes sigmoid, ReLU, leaky ReLU, etc.) for almost all step-sizes. Our work significantly extends the existing results on the convergence of GD and SGD by guaranteeing that they apply to practical neural network settings and has the potential to unlock further exploration of learning dynamics.
- 论文ID: 2510.24466
- 标题: Non-Singularity of the Gradient Descent Map for Neural Networks with Piecewise Analytic Activations
- 作者: Alexandru Crăciun (Technical University of Munich), Debarghya Ghoshdastidar (Technical University of Munich, Munich Data Science Institute, Munich Center for Machine Learning)
- 分类: math.OC (Optimization and Control), cs.LG (Machine Learning)
- 发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
- 论文链接: https://arxiv.org/abs/2510.24466v1
本文首次证明了对于使用分段解析激活函数(如ReLU、sigmoid、leaky ReLU等)的现实神经网络架构(包括全连接层、卷积层或softmax注意力层),梯度下降(GD)映射在几乎所有步长下都是非奇异的。非奇异性意味着GD映射保持测度零集合在原像下的测度零性质。这一结果验证了先前理论工作中的关键假设,确保了GD避免鞍点和最大值的理论结果,以及关于最小值稳定性的分析可以应用于实际的深度学习场景。该工作显著扩展了现有关于GD和SGD收敛性的结果,为理解神经网络优化动力学提供了坚实的理论基础。
训练深度神经网络涉及在高维参数空间中优化高度非凸的损失函数。一个核心理论问题是:梯度下降(GD)映射 Gη(θ)=θ−η∇L(θ) 是否是非奇异的?
非奇异性的定义:如果映射 G 的任何测度零集合的原像也是测度零集合,则称 G 是非奇异的。这一性质确保病态行为(如收敛到不理想点)只发生在可忽略的集合上。
非奇异性假设是多个重要理论结果的基础:
- 避免鞍点和最大值:Lee et al. (2019) 证明,如果GD映射非奇异,则对于几乎所有初始化,GD会避免收敛到鞍点或最大值
- 最小值稳定性:Chemnitz and Engel (2024) 等研究表明,非奇异性保证了可以定义一个可计算量来判断GD/SGD是否会从附近初始化收敛到给定最小值
- 泛化能力:稳定的最小值与更好的泛化能力相关
尽管非奇异性在理论分析中至关重要,但现有文献存在以下问题:
- 直接假设:许多工作(Lee et al., 2019; Chemnitz and Engel, 2024)直接假设GD映射非奇异,缺乏严格证明
- 限制性条件:一些研究要求损失函数Lipschitz光滑,但这在实际中往往不成立(如深度ReLU网络配合交叉熵损失)
- 小步长限制:分析通常限制在小步长情况
- 激活函数限制:对于ReLU等严格分段解析函数,标准分析工具失效
本文的核心动机是为实际神经网络训练提供严格的理论基础。作者认识到:
- 对于解析激活函数,标准分析工具可以证明非奇异性
- 但对于ReLU等分段解析函数,需要全新方法
- 神经网络的层次结构提供了关键洞察
本文的主要贡献包括:
- 主要理论结果(Theorem 1):首次证明对于使用分段解析激活函数的神经网络(包括全连接、卷积、注意力层),在几乎所有步长 η 下,(随机)梯度下降映射是非奇异的
- 技术创新:
- 提出了分段解析函数的链式法则类比(Proposition 6),利用神经网络的层次结构
- 证明了神经网络损失函数几乎处处解析(Corollary 9)
- 建立了从局部可逆性到全局非奇异性的桥梁
- 理论扩展:
- 验证了Lee et al. (2019) 和 Chemnitz and Engel (2024) 等工作的关键假设
- 使得这些理论结果适用于实际的深度学习场景
- 扩展到SGD和自适应学习率场景
- 实际应用:
- 提供了分析周期轨迹稳定性的框架
- 展示了GD和SGD可能有不同的稳定最小值集合
监督学习设置:
- 参数化模型:F:Rnθ×Rn0→RnD
- 训练数据:{(xi,yi)}i=1m⊂Rn0×RnD
- 损失函数:l:RnD×RnD→R
- 经验损失:L(θ)=m1∑i=1ml(yi,F(θ,xi))
目标:证明GD映射 Gη(θ)=θ−η∇L(θ) 对几乎所有步长 η>0 是非奇异的。
单变量情况:函数 f:R→R 是分段解析的,如果存在严格递增序列 {xi}i∈Z,使得 f 在每个开区间 (xi,xi+1) 上解析。
多变量情况:函数 f:Rm→Rn 是几乎处处解析的,如果存在开集 U⊂Rm 使得 f∣U 解析且 U 的补集测度为零。
记号:
- D(f):f 解析的最大开集
- S(f)=Rm∖D(f):f 不解析的点集
例子:
- Sigmoid函数:D(f)=R
- ReLU函数:S(f)={0}
这是本文的关键技术创新。标准链式法则对几乎处处解析函数不适用(见Remark 5的反例)。
定理陈述:设 D>0,{σi:Rni→Rni}i=1D 是几乎处处解析映射的集合,α∈Rn0 是向量。定义递归映射:
fD:Rn1×n0×⋯×RnD×nD−1→RnD(W1,…,WD)↦σD(WDfD−1(W1,…,WD−1))
其中 f1(W1)=σ1(W1α)。则 fD 几乎处处解析,且 ∂Z(fD) 测度为零。
证明思路(归纳法):
基础情况 (D=1):
- 若 α=0,f1 是常数,显然解析
- 若 α=0,关键观察:乘法映射 M1:W1↦W1α 是非奇异的(因为它是submersion)
- 因此 S(f1)={W1α∈S(σ1)} 测度为零
归纳步骤:假设 fD−1 几乎处处解析。将定义域分为三个不相交部分:
- "坏"点:B(fD−1)=∂Z(fD−1)∪S(fD−1)(测度为零)
- "好的"零点:int(Z(fD−1))
- "好的"非零点:N(fD−1)=dom(fD−1)∖(B(fD−1)∪int(Z(fD−1)))
对于情况2和3,可以应用链式法则:
- 在 N(fD−1) 上,fD−1(xD−1)=0,可以选择 WD 使得乘法映射是submersion
- 在 int(Z(fD−1)) 上,fD 是常数
关键技术点:证明"坏"点集合
Δ={(xD−1,WD)∈N(fD−1)×RnD×nD−1∣WDfD−1(xD−1)∈S(σD)}
测度为零。使用Fubini定理完成。
结论:对于任何使用分段解析激活函数的神经网络,给定数据集和解析损失函数,经验损失 L(θ) 几乎处处解析。
证明:
- 由Proposition 7,对每个输入 xi,映射 θ↦fθ(xi) 几乎处处解析
- 由Lemma 8,解析函数与几乎处处解析函数的复合仍几乎处处解析
- 因此 l∘(θ↦(yi,fθ(xi))) 几乎处处解析
- 几乎处处解析函数的和仍几乎处处解析
解析损失的情况(Proposition 11):
对于解析损失 L,GD映射的Jacobi行列式为:
det(DGη)=det(I−ηHL)
其中 HL 是Hessian矩阵。关键观察:
- 若所有特征值 λi 为常数,则对 η∈/{1/λ1,…,1/λnθ},行列式非零
- 若至少一个特征值非常数,可构造解析路径 γ,使得 λi∘γ 是解析函数
- 对于非常数解析函数,零点集测度为零
- 应用Lemma 10(submersion非奇异)完成证明
几乎处处解析损失的情况(Corollary 12):
对于几乎处处解析的 L,在 D(L) 上 Gη 非奇异。对任何测度零集 B:
Gη−1(B)=Gη∣D(L)−1(B)∪Gη∣S(L)−1(B)
两项都是测度零(第一项由 D(L) 上非奇异性,第二项因为 S(L) 测度为零)。
- 利用层次结构:不是将神经网络视为一般的几乎处处解析函数,而是利用其层次结构进行归纳证明
- 细致的集合分解:将参数空间分解为"好"点和"坏"点,分别处理
- 测度论工具:巧妙运用Fubini定理、submersion理论、解析函数零点集性质
- 架构通用性:证明技术可扩展到卷积层(Proposition 16)和注意力层(Proposition 17)
本文主要是理论工作,实验用于:
- 验证理论预测(周期轨迹的存在性和稳定性)
- 展示GD和SGD稳定最小值的差异
模型:两层ReLU网络
fθ(x)=ReLU(θ2ReLU(θ1x))
数据:两个数据点 (0.9,0.9) 和 (2.5,2.5),确定线性函数
损失函数:
L(θ1,θ2)=3.53(1−ReLU(θ2ReLU(θ1)))2
全局最小值:{(θ1,θ2)∣θ1θ2=1,θ1,θ2>0}(第一象限的双曲线)
稳定性判据:根据Chemnitz and Engel (2024),可计算:
μ(θ)=log(∣1−η(p⋅0.92+(1−p)⋅2.52)(θ12+θ22)∣)
λ(θ)=plog(∣1−η⋅0.92(θ12+θ22)∣)+(1−p)log(∣1−η⋅2.52(θ12+θ22)∣)
其中 p 是SGD选择第一个数据点的概率。
- GD稳定条件:μ(θ)<0
- SGD稳定条件:λ(θ)<0
分叉图(左图):
- 研究对角线上的周期轨迹(θ1=θ2)
- 随着步长 η 从0.26增加到0.36:
- 1-周期轨迹(固定点)变得不稳定
- 出现稳定的2-周期轨迹
- 进一步出现4-周期、8-周期轨迹
- 展示了经典的倍周期分叉现象
收敛与振荡对比(右图):
- 相同初始化 (1.48,1/1.48+0.1)
- η=0.25:收敛到全局最小值(紫色轨迹)
- η=0.325:收敛到2-周期轨迹(棕色轨迹)
- 验证了理论预测:大步长可能导致周期行为
理论意义:
- 验证了非奇异性框架可以分析周期轨迹
- 解释了实践中观察到的Hessian特征值振荡现象(Cohen et al., 2021, 2023)
情况1(左图):η=0.15, p=0.5
- SGD稳定最小值(红色)是GD稳定最小值(绿色)的真子集
- 表明SGD对最小值的选择更"挑剔"
情况2(右图):η=0.3, p=0.58
- GD和SGD的稳定最小值集合完全不重叠
- 仅通过改变步长和数据采样概率实现
理论验证:
- 定量验证了Wu et al. (2018)的经验观察:GD和SGD可能收敛到不同最小值
- 展示了Corollary 13的实际应用:可以通过可计算量 μ 和 λ 判断稳定性
- 步长的关键作用:
- 步长不仅影响收敛速度,还根本性地改变优化动力学
- 大步长可能导致周期轨迹而非收敛
- GD与SGD的本质差异:
- 不仅是噪声的影响,而是选择不同的稳定最小值集合
- 关系复杂,难以建立一般性规律
- 理论与实践的桥梁:
- 理论预测(通过 μ 和 λ)与数值实验完美吻合
- 验证了非奇异性框架的实用价值
避免鞍点:
- Panageas and Piliouras (2016), Lee et al. (2016, 2019):证明GD几乎总能避免鞍点
- 限制:假设Lipschitz光滑性和小步长
- 本文贡献:移除这些限制性假设
最小值稳定性:
- Wu et al. (2018), Ma and Ying (2021):启发式分析批量大小和步长的影响
- Ahn et al. (2022), Chemnitz and Engel (2024):引入Lyapunov指数类量来表征稳定性
- 本文贡献:验证其核心假设(非奇异性)
输入空间分析:
- Montufar et al. (2014), Balestriero et al. (2019, 2020):研究ReLU网络如何将输入空间分割为仿射线性区域
- Humayun et al. (2023):可视化工具
- 区别:这些关注固定参数下的输入空间,本文关注固定数据下的参数空间
Lipschitz性质:
- Khromov and Singh (2023):实证研究训练中Lipschitz常数的变化
- 局限:研究输入空间的Lipschitz性,而优化理论需要参数空间的Lipschitz性
Jentzen and Riekert (2022a,b, 2023):
- 证明了仅使用ReLU激活的深度网络损失函数几乎处处连续可微
- 假设:数据生成函数是多项式
- 本文扩展:
- 任何分段解析激活函数(不限于ReLU)
- 更广泛的架构(卷积、注意力)
- 不限制数据生成过程
- 更强结果:几乎处处解析(不仅是可微)
- 理论严格性:首次严格证明实际神经网络的GD映射非奇异性
- 广泛适用性:涵盖主流架构和激活函数
- 实用价值:使得多个重要理论结果适用于实践
- 核心定理:对于使用分段解析激活函数的神经网络(包括全连接、卷积、注意力层),在几乎所有步长下,GD和SGD映射是非奇异的
- 理论意义:
- 验证了Lee et al. (2019) 关于避免鞍点的理论假设
- 验证了Chemnitz and Engel (2024) 关于最小值稳定性的理论假设
- 为实际深度学习提供了严格的理论基础
- 实践指导:
- 对几乎所有初始化和步长,优化轨迹避免病态行为
- 可以通过可计算量判断最小值稳定性
- GD和SGD可能选择不同的稳定最小值
作者诚实地指出以下局限:
- 架构限制:
- 目前证明不涵盖循环神经网络(RNN)
- 对于RNN,现有技术不足,需要更深入分析
- 作者猜测结论仍然成立,但需要新方法
- 步长例外:
- 非奇异性在特定步长值(η=1/λi,其中 λi 是Hessian特征值)可能失效
- 但这些值构成测度零集,实践中可忽略
- "泛型数据"假设:
- 对于卷积层,需要假设数据是泛型的(generic)
- 噪声数据满足此条件,但病态数据可能不满足
- 稳定最小值关系:
- GD和SGD的稳定最小值关系复杂,难以建立一般性规律
- 可能需要逐案分析
- 扩展到其他架构:
- 图神经网络(GNN)
- 残差网络(ResNet):作者认为可能是常规应用
- 循环神经网络(RNN):需要新技术
- 其他优化算法:
- 镜像下降(Mirror Descent)
- 近端点算法(Proximal Point Methods)
- 作者指出技术可能可以迁移
- 泛化理论:
- 稳定性与泛化的关系(Hochreiter and Schmidhuber, 1997)
- 可能利用本文框架建立更严格的联系
- 实践应用:
- 设计更好的学习率调度策略
- 理解和避免周期轨迹
- 引导优化到更好的稳定最小值
- 填补重要理论空白:首次严格证明了实际神经网络GD映射的非奇异性,将之前的"假设"变为"定理"
- 技术创新:Proposition 6的链式法则类比是真正的创新,巧妙利用了神经网络的层次结构
- 数学深度:综合运用实分析、测度论、微分几何等工具,证明严谨
- 激活函数:涵盖所有分段解析函数(sigmoid, tanh, ReLU, leaky ReLU, GELU等)
- 架构:全连接、卷积、注意力层(涵盖Transformer)
- 算法:GD、SGD、自适应学习率
- 实用价值极高:直接适用于当前主流深度学习实践
- 不是孤立的结果,而是多个重要理论工作的基础
- 通过Corollary 13连接到稳定性理论
- 为未来研究提供了坚实平台
- 结构清晰,从简单到复杂逐步展开
- 图示(Figure 1, 2)直观展示核心概念
- 定理陈述精确,证明详细(附录)
- 轻微不足:主文中某些证明思路可以更直观
- 虽然是理论论文,但提供了有意义的数值验证
- 周期轨迹分析展示了理论的预测能力
- GD vs SGD的对比提供了实际洞察
- RNN缺失:这是当前的主要限制
- 作者诚实承认,但对于完整性是遗憾
- 不过,Transformer已在很多任务上替代RNN
- 只有简单的2参数示例
- 未在实际规模网络上验证(虽然理论保证了适用性)
- 可以增加中等规模实验增强说服力
- 理论告诉我们"几乎所有步长"都好,但没有告诉我们如何选择步长
- 稳定性判据 μ 和 λ 的计算在大规模网络中可行性未知
- 从理论到实践还有距离
- 对于卷积层需要此假设
- 虽然合理(噪声数据通常满足),但不是完全无条件
- 可能在某些特殊应用中需要注意
- 基础性工作:为优化理论提供了坚实基础
- 使能作用:使得多个重要理论结果适用于实践
- 长期价值:预计会被广泛引用
- 直接应用有限:不会改变训练实践
- 间接价值高:为理解训练动力学提供工具
- 未来潜力:可能启发新的优化算法设计
- 理论证明完整,可验证
- 实验设置清晰,代码实现简单
- 数学工具标准,易于扩展
- 优化理论:研究GD/SGD收敛性的基础
- 泛化理论:连接稳定性与泛化
- 神经网络理论:理解损失景观几何
- 学习率调度:理解步长对动力学的影响
- 优化器开发:设计新的一阶方法
- 架构搜索:理解不同架构的优化性质
- 训练诊断:理解训练中的异常行为(如振荡)
- 超参数选择:避免导致病态行为的步长
- 最小值选择:理解GD和SGD的不同偏好
- 优秀的理论分析范例
- 展示如何将抽象数学工具应用于实际问题
- 适合高级机器学习课程
这是一篇高质量的理论论文,具有以下特点:
- 重要性:解决了理论机器学习中的一个基本问题
- 严格性:数学证明严谨,结论可靠
- 创新性:技术上有真正的创新(链式法则类比)
- 影响力:预计会成为该领域的基础性引用
适合读者:
- 优化理论研究者(必读)
- 深度学习理论研究者(强烈推荐)
- 关注训练动力学的实践者(推荐)
- 博士生(优秀的理论研究范例)
不适合读者:
- 纯工程实践者(短期实用价值有限)
- 缺乏数学背景者(需要实分析、测度论基础)
历史地位预测:
这篇论文很可能成为神经网络优化理论的经典引用,就像Lee et al. (2019) 在避免鞍点方面的地位一样。它为该领域提供了坚实的数学基础,使得后续研究可以在更可靠的假设上进行。
- Lee et al. (2019): "First-order methods almost always avoid strict saddle points" - 本文验证的核心假设来源
- Chemnitz and Engel (2024): "Characterizing dynamical stability of stochastic gradient descent" - 稳定性分析框架
- Jentzen and Riekert (2022a,b, 2023): 最接近的前期工作,本文的重要扩展
- Wu et al. (2018): "How SGD selects the global minima" - GD vs SGD差异的经验观察
- Cooper (2020, 2021): 关于过参数化网络临界点的理论工作
总结:本文通过严格的数学证明,为实际神经网络训练的理论理解提供了坚实基础,是优化理论领域的重要贡献。虽然短期内不会直接改变训练实践,但为长期的理论发展和算法创新奠定了基础。