2025-11-12T03:25:10.381590

Non-Singularity of the Gradient Descent map for Neural Networks with Piecewise Analytic Activations

CrÄciun, Ghoshdastidar

The theory of training deep networks has become a central question of modern machine learning and has inspired many practical advancements. In particular, the gradient descent (GD) optimization algorithm has been extensively studied in recent years. A key assumption about GD has appeared in several recent works: the \emph{GD map is non-singular} -- it preserves sets of measure zero under preimages. Crucially, this assumption has been used to prove that GD avoids saddle points and maxima, and to establish the existence of a computable quantity that determines the convergence to global minima (both for GD and stochastic GD). However, the current literature either assumes the non-singularity of the GD map or imposes restrictive assumptions, such as Lipschitz smoothness of the loss (for example, Lipschitzness does not hold for deep ReLU networks with the cross-entropy loss) and restricts the analysis to GD with small step-sizes. In this paper, we investigate the neural network map as a function on the space of weights and biases. We also prove, for the first time, the non-singularity of the gradient descent (GD) map on the loss landscape of realistic neural network architectures (with fully connected, convolutional, or softmax attention layers) and piecewise analytic activations (which includes sigmoid, ReLU, leaky ReLU, etc.) for almost all step-sizes. Our work significantly extends the existing results on the convergence of GD and SGD by guaranteeing that they apply to practical neural network settings and has the potential to unlock further exploration of learning dynamics.

academic

Non-Singularity of the Gradient Descent Map for Neural Networks with Piecewise Analytic Activations

基本信息

论文ID: 2510.24466
标题: Non-Singularity of the Gradient Descent Map for Neural Networks with Piecewise Analytic Activations
作者: Alexandru Crăciun (Technical University of Munich), Debarghya Ghoshdastidar (Technical University of Munich, Munich Data Science Institute, Munich Center for Machine Learning)
分类: math.OC (Optimization and Control), cs.LG (Machine Learning)
发表会议: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
论文链接: https://arxiv.org/abs/2510.24466v1

摘要

本文首次证明了对于使用分段解析激活函数（如ReLU、sigmoid、leaky ReLU等）的现实神经网络架构（包括全连接层、卷积层或softmax注意力层），梯度下降（GD）映射在几乎所有步长下都是非奇异的。非奇异性意味着GD映射保持测度零集合在原像下的测度零性质。这一结果验证了先前理论工作中的关键假设，确保了GD避免鞍点和最大值的理论结果，以及关于最小值稳定性的分析可以应用于实际的深度学习场景。该工作显著扩展了现有关于GD和SGD收敛性的结果，为理解神经网络优化动力学提供了坚实的理论基础。

研究背景与动机

1. 要解决的核心问题

训练深度神经网络涉及在高维参数空间中优化高度非凸的损失函数。一个核心理论问题是：梯度下降（GD）映射 $G_\eta(\theta) = \theta - \eta\nabla L(\theta)$ 是否是非奇异的？

非奇异性的定义：如果映射 $G$ 的任何测度零集合的原像也是测度零集合，则称 $G$ 是非奇异的。这一性质确保病态行为（如收敛到不理想点）只发生在可忽略的集合上。

2. 问题的重要性

非奇异性假设是多个重要理论结果的基础：

避免鞍点和最大值：Lee et al. (2019) 证明，如果GD映射非奇异，则对于几乎所有初始化，GD会避免收敛到鞍点或最大值
最小值稳定性：Chemnitz and Engel (2024) 等研究表明，非奇异性保证了可以定义一个可计算量来判断GD/SGD是否会从附近初始化收敛到给定最小值
泛化能力：稳定的最小值与更好的泛化能力相关

3. 现有方法的局限性

尽管非奇异性在理论分析中至关重要，但现有文献存在以下问题：

直接假设：许多工作（Lee et al., 2019; Chemnitz and Engel, 2024）直接假设GD映射非奇异，缺乏严格证明
限制性条件：一些研究要求损失函数Lipschitz光滑，但这在实际中往往不成立（如深度ReLU网络配合交叉熵损失）
小步长限制：分析通常限制在小步长情况
激活函数限制：对于ReLU等严格分段解析函数，标准分析工具失效

4. 研究动机

本文的核心动机是为实际神经网络训练提供严格的理论基础。作者认识到：

对于解析激活函数，标准分析工具可以证明非奇异性
但对于ReLU等分段解析函数，需要全新方法
神经网络的层次结构提供了关键洞察

核心贡献

本文的主要贡献包括：

主要理论结果（Theorem 1）：首次证明对于使用分段解析激活函数的神经网络（包括全连接、卷积、注意力层），在几乎所有步长 $\eta$ 下，（随机）梯度下降映射是非奇异的
技术创新：
- 提出了分段解析函数的链式法则类比（Proposition 6），利用神经网络的层次结构
- 证明了神经网络损失函数几乎处处解析（Corollary 9）
- 建立了从局部可逆性到全局非奇异性的桥梁
理论扩展：
- 验证了Lee et al. (2019) 和 Chemnitz and Engel (2024) 等工作的关键假设
- 使得这些理论结果适用于实际的深度学习场景
- 扩展到SGD和自适应学习率场景
实际应用：
- 提供了分析周期轨迹稳定性的框架
- 展示了GD和SGD可能有不同的稳定最小值集合

方法详解

任务定义

监督学习设置：

参数化模型： $F: \mathbb{R}^{n_\theta} \times \mathbb{R}^{n_0} \to \mathbb{R}^{n_D}$
训练数据： $\{(x_i, y_i)\}_{i=1}^m \subset \mathbb{R}^{n_0} \times \mathbb{R}^{n_D}$
损失函数： $l: \mathbb{R}^{n_D} \times \mathbb{R}^{n_D} \to \mathbb{R}$
经验损失： $L(\theta) = \frac{1}{m}\sum_{i=1}^m l(y_i, F(\theta, x_i))$

目标：证明GD映射 $G_\eta(\theta) = \theta - \eta\nabla L(\theta)$ 对几乎所有步长 $\eta > 0$ 是非奇异的。

核心技术框架

1. 分段解析函数的定义（Definition 2）

单变量情况：函数 $f: \mathbb{R} \to \mathbb{R}$ 是分段解析的，如果存在严格递增序列 $\{x_i\}_{i\in\mathbb{Z}}$ ，使得 $f$ 在每个开区间 $(x_i, x_{i+1})$ 上解析。

多变量情况：函数 $f: \mathbb{R}^m \to \mathbb{R}^n$ 是几乎处处解析的，如果存在开集 $U \subset \mathbb{R}^m$ 使得 $f|_U$ 解析且 $U$ 的补集测度为零。

记号：

$D(f)$ ： $f$ 解析的最大开集
$S(f) = \mathbb{R}^m \setminus D(f)$ ： $f$ 不解析的点集

例子：

Sigmoid函数： $D(f) = \mathbb{R}$
ReLU函数： $S(f) = \{0\}$

2. 神经网络的链式法则类比（Proposition 6）

这是本文的关键技术创新。标准链式法则对几乎处处解析函数不适用（见Remark 5的反例）。

定理陈述：设 $D > 0$ ， $\{\sigma_i: \mathbb{R}^{n_i} \to \mathbb{R}^{n_i}\}_{i=1}^D$ 是几乎处处解析映射的集合， $\alpha \in \mathbb{R}^{n_0}$ 是向量。定义递归映射：

$f_D: \mathbb{R}^{n_1 \times n_0} \times \cdots \times \mathbb{R}^{n_D \times n_{D-1}} \to \mathbb{R}^{n_D}$ $(W_1, \ldots, W_D) \mapsto \sigma_D(W_D f_{D-1}(W_1, \ldots, W_{D-1}))$

其中 $f_1(W_1) = \sigma_1(W_1\alpha)$ 。则 $f_D$ 几乎处处解析，且 $\partial Z(f_D)$ 测度为零。

证明思路（归纳法）：

基础情况 ( $D=1$ )：

若 $\alpha = 0$ ， $f_1$ 是常数，显然解析
若 $\alpha \neq 0$ ，关键观察：乘法映射 $M_1: W_1 \mapsto W_1\alpha$ 是非奇异的（因为它是submersion）
因此 $S(f_1) = \{W_1\alpha \in S(\sigma_1)\}$ 测度为零

归纳步骤：假设 $f_{D-1}$ 几乎处处解析。将定义域分为三个不相交部分：

"坏"点： $B(f_{D-1}) = \partial Z(f_{D-1}) \cup S(f_{D-1})$ （测度为零）
"好的"零点： $\text{int}(Z(f_{D-1}))$
"好的"非零点： $N(f_{D-1}) = \text{dom}(f_{D-1}) \setminus (B(f_{D-1}) \cup \text{int}(Z(f_{D-1})))$

对于情况2和3，可以应用链式法则：

在 $N(f_{D-1})$ 上， $f_{D-1}(x_{D-1}) \neq 0$ ，可以选择 $W_D$ 使得乘法映射是submersion
在 $\text{int}(Z(f_{D-1}))$ 上， $f_D$ 是常数

关键技术点：证明"坏"点集合 $\Delta = \{(x_{D-1}, W_D) \in N(f_{D-1}) \times \mathbb{R}^{n_D \times n_{D-1}} | W_D f_{D-1}(x_{D-1}) \in S(\sigma_D)\}$ 测度为零。使用Fubini定理完成。

3. 损失函数的解析性（Corollary 9）

结论：对于任何使用分段解析激活函数的神经网络，给定数据集和解析损失函数，经验损失 $L(\theta)$ 几乎处处解析。

证明：

由Proposition 7，对每个输入 $x_i$ ，映射 $\theta \mapsto f_\theta(x_i)$ 几乎处处解析
由Lemma 8，解析函数与几乎处处解析函数的复合仍几乎处处解析
因此 $l \circ (\theta \mapsto (y_i, f_\theta(x_i)))$ 几乎处处解析
几乎处处解析函数的和仍几乎处处解析

4. GD映射的非奇异性（Proposition 11 & Corollary 12）

解析损失的情况（Proposition 11）：

对于解析损失 $L$ ，GD映射的Jacobi行列式为： $\det(DG_\eta) = \det(I - \eta H_L)$

其中 $H_L$ 是Hessian矩阵。关键观察：

若所有特征值 $\lambda_i$ 为常数，则对 $\eta \notin \{1/\lambda_1, \ldots, 1/\lambda_{n_\theta}\}$ ，行列式非零
若至少一个特征值非常数，可构造解析路径 $\gamma$ ，使得 $\lambda_i \circ \gamma$ 是解析函数
对于非常数解析函数，零点集测度为零
应用Lemma 10（submersion非奇异）完成证明

几乎处处解析损失的情况（Corollary 12）：

对于几乎处处解析的 $L$ ，在 $D(L)$ 上 $G_\eta$ 非奇异。对任何测度零集 $B$ ： $G_\eta^{-1}(B) = G_\eta|_{D(L)}^{-1}(B) \cup G_\eta|_{S(L)}^{-1}(B)$

两项都是测度零（第一项由 $D(L)$ 上非奇异性，第二项因为 $S(L)$ 测度为零）。

技术创新点

利用层次结构：不是将神经网络视为一般的几乎处处解析函数，而是利用其层次结构进行归纳证明
细致的集合分解：将参数空间分解为"好"点和"坏"点，分别处理
测度论工具：巧妙运用Fubini定理、submersion理论、解析函数零点集性质
架构通用性：证明技术可扩展到卷积层（Proposition 16）和注意力层（Proposition 17）

实验设置

实验目的

本文主要是理论工作，实验用于：

验证理论预测（周期轨迹的存在性和稳定性）
展示GD和SGD稳定最小值的差异

实验设置

模型：两层ReLU网络 $f_\theta(x) = \text{ReLU}(\theta_2 \text{ReLU}(\theta_1 x))$

数据：两个数据点 $(0.9, 0.9)$ 和 $(2.5, 2.5)$ ，确定线性函数

损失函数： $L(\theta_1, \theta_2) = 3.53(1 - \text{ReLU}(\theta_2 \text{ReLU}(\theta_1)))^2$

全局最小值： $\{(\theta_1, \theta_2) | \theta_1\theta_2 = 1, \theta_1, \theta_2 > 0\}$ （第一象限的双曲线）

稳定性判据：根据Chemnitz and Engel (2024)，可计算：

$\mu(\theta) = \log(|1 - \eta(p \cdot 0.9^2 + (1-p) \cdot 2.5^2)(\theta_1^2 + \theta_2^2)|)$

$\lambda(\theta) = p\log(|1 - \eta \cdot 0.9^2(\theta_1^2 + \theta_2^2)|) + (1-p)\log(|1 - \eta \cdot 2.5^2(\theta_1^2 + \theta_2^2)|)$

其中 $p$ 是SGD选择第一个数据点的概率。

GD稳定条件： $\mu(\theta) < 0$
SGD稳定条件： $\lambda(\theta) < 0$

实验结果

主要结果

1. 周期轨迹分析（Figure 3）

分叉图（左图）：

研究对角线上的周期轨迹（ $\theta_1 = \theta_2$ ）
随着步长 $\eta$ $η$ 从0.26增加到0.36：
- 1-周期轨迹（固定点）变得不稳定
- 出现稳定的2-周期轨迹
- 进一步出现4-周期、8-周期轨迹
展示了经典的倍周期分叉现象

收敛与振荡对比（右图）：

相同初始化 $(1.48, 1/1.48 + 0.1)$
$\eta = 0.25$ ：收敛到全局最小值（紫色轨迹）
$\eta = 0.325$ ：收敛到2-周期轨迹（棕色轨迹）
验证了理论预测：大步长可能导致周期行为

理论意义：

验证了非奇异性框架可以分析周期轨迹
解释了实践中观察到的Hessian特征值振荡现象（Cohen et al., 2021, 2023）

2. GD与SGD稳定最小值差异（Figure 4）

情况1（左图）： $\eta = 0.15$ , $p = 0.5$

SGD稳定最小值（红色）是GD稳定最小值（绿色）的真子集
表明SGD对最小值的选择更"挑剔"

情况2（右图）： $\eta = 0.3$ , $p = 0.58$

GD和SGD的稳定最小值集合完全不重叠
仅通过改变步长和数据采样概率实现

理论验证：

定量验证了Wu et al. (2018)的经验观察：GD和SGD可能收敛到不同最小值
展示了Corollary 13的实际应用：可以通过可计算量 $\mu$ 和 $\lambda$ 判断稳定性

实验发现

步长的关键作用：
- 步长不仅影响收敛速度，还根本性地改变优化动力学
- 大步长可能导致周期轨迹而非收敛
GD与SGD的本质差异：
- 不仅是噪声的影响，而是选择不同的稳定最小值集合
- 关系复杂，难以建立一般性规律
理论与实践的桥梁：
- 理论预测（通过 $\mu$ 和 $\lambda$ ）与数值实验完美吻合
- 验证了非奇异性框架的实用价值

结论与讨论

主要结论

核心定理：对于使用分段解析激活函数的神经网络（包括全连接、卷积、注意力层），在几乎所有步长下，GD和SGD映射是非奇异的
理论意义：
- 验证了Lee et al. (2019) 关于避免鞍点的理论假设
- 验证了Chemnitz and Engel (2024) 关于最小值稳定性的理论假设
- 为实际深度学习提供了严格的理论基础
实践指导：
- 对几乎所有初始化和步长，优化轨迹避免病态行为
- 可以通过可计算量判断最小值稳定性
- GD和SGD可能选择不同的稳定最小值

局限性

作者诚实地指出以下局限：

架构限制：
- 目前证明不涵盖循环神经网络（RNN）
- 对于RNN，现有技术不足，需要更深入分析
- 作者猜测结论仍然成立，但需要新方法
步长例外：
- 非奇异性在特定步长值（ $\eta = 1/\lambda_i$ ，其中 $\lambda_i$ 是Hessian特征值）可能失效
- 但这些值构成测度零集，实践中可忽略
"泛型数据"假设：
- 对于卷积层，需要假设数据是泛型的（generic）
- 噪声数据满足此条件，但病态数据可能不满足
稳定最小值关系：
- GD和SGD的稳定最小值关系复杂，难以建立一般性规律
- 可能需要逐案分析

未来方向

扩展到其他架构：
- 图神经网络（GNN）
- 残差网络（ResNet）：作者认为可能是常规应用
- 循环神经网络（RNN）：需要新技术
其他优化算法：
- 镜像下降（Mirror Descent）
- 近端点算法（Proximal Point Methods）
- 作者指出技术可能可以迁移
泛化理论：
- 稳定性与泛化的关系（Hochreiter and Schmidhuber, 1997）
- 可能利用本文框架建立更严格的联系
实践应用：
- 设计更好的学习率调度策略
- 理解和避免周期轨迹
- 引导优化到更好的稳定最小值

深度评价

优点

1. 理论严格性和创新性（★★★★★）

填补重要理论空白：首次严格证明了实际神经网络GD映射的非奇异性，将之前的"假设"变为"定理"
技术创新：Proposition 6的链式法则类比是真正的创新，巧妙利用了神经网络的层次结构
数学深度：综合运用实分析、测度论、微分几何等工具，证明严谨

2. 广泛适用性（★★★★★）

激活函数：涵盖所有分段解析函数（sigmoid, tanh, ReLU, leaky ReLU, GELU等）
架构：全连接、卷积、注意力层（涵盖Transformer）
算法：GD、SGD、自适应学习率
实用价值极高：直接适用于当前主流深度学习实践

3. 理论连接性（★★★★★）

不是孤立的结果，而是多个重要理论工作的基础
通过Corollary 13连接到稳定性理论
为未来研究提供了坚实平台

4. 写作清晰度（★★★★☆）

结构清晰，从简单到复杂逐步展开
图示（Figure 1, 2）直观展示核心概念
定理陈述精确，证明详细（附录）
轻微不足：主文中某些证明思路可以更直观

5. 实验验证（★★★★☆）

虽然是理论论文，但提供了有意义的数值验证
周期轨迹分析展示了理论的预测能力
GD vs SGD的对比提供了实际洞察

不足

1. 架构覆盖不完全（★★★☆☆）

RNN缺失：这是当前的主要限制
作者诚实承认，但对于完整性是遗憾
不过，Transformer已在很多任务上替代RNN

2. 实验规模有限（★★★☆☆）

只有简单的2参数示例
未在实际规模网络上验证（虽然理论保证了适用性）
可以增加中等规模实验增强说服力

3. 实践指导有限（★★★☆☆）

理论告诉我们"几乎所有步长"都好，但没有告诉我们如何选择步长
稳定性判据 $\mu$ 和 $\lambda$ 的计算在大规模网络中可行性未知
从理论到实践还有距离

4. "泛型数据"假设（★★★★☆）

对于卷积层需要此假设
虽然合理（噪声数据通常满足），但不是完全无条件
可能在某些特殊应用中需要注意

影响力评估

对领域的贡献（★★★★★）

基础性工作：为优化理论提供了坚实基础
使能作用：使得多个重要理论结果适用于实践
长期价值：预计会被广泛引用

实用价值（★★★★☆）

直接应用有限：不会改变训练实践
间接价值高：为理解训练动力学提供工具
未来潜力：可能启发新的优化算法设计

可复现性（★★★★★）

理论证明完整，可验证
实验设置清晰，代码实现简单
数学工具标准，易于扩展

适用场景

1. 理论研究

优化理论：研究GD/SGD收敛性的基础
泛化理论：连接稳定性与泛化
神经网络理论：理解损失景观几何

2. 算法设计

学习率调度：理解步长对动力学的影响
优化器开发：设计新的一阶方法
架构搜索：理解不同架构的优化性质

3. 实践应用

训练诊断：理解训练中的异常行为（如振荡）
超参数选择：避免导致病态行为的步长
最小值选择：理解GD和SGD的不同偏好

4. 教育价值

优秀的理论分析范例
展示如何将抽象数学工具应用于实际问题
适合高级机器学习课程

总体评价

这是一篇高质量的理论论文，具有以下特点：

重要性：解决了理论机器学习中的一个基本问题
严格性：数学证明严谨，结论可靠
创新性：技术上有真正的创新（链式法则类比）
影响力：预计会成为该领域的基础性引用

适合读者：

优化理论研究者（必读）
深度学习理论研究者（强烈推荐）
关注训练动力学的实践者（推荐）
博士生（优秀的理论研究范例）

不适合读者：

纯工程实践者（短期实用价值有限）
缺乏数学背景者（需要实分析、测度论基础）

历史地位预测：这篇论文很可能成为神经网络优化理论的经典引用，就像Lee et al. (2019) 在避免鞍点方面的地位一样。它为该领域提供了坚实的数学基础，使得后续研究可以在更可靠的假设上进行。

参考文献（关键文献）

Lee et al. (2019): "First-order methods almost always avoid strict saddle points" - 本文验证的核心假设来源
Chemnitz and Engel (2024): "Characterizing dynamical stability of stochastic gradient descent" - 稳定性分析框架
Jentzen and Riekert (2022a,b, 2023): 最接近的前期工作，本文的重要扩展
Wu et al. (2018): "How SGD selects the global minima" - GD vs SGD差异的经验观察
Cooper (2020, 2021): 关于过参数化网络临界点的理论工作

总结：本文通过严格的数学证明，为实际神经网络训练的理论理解提供了坚实基础，是优化理论领域的重要贡献。虽然短期内不会直接改变训练实践，但为长期的理论发展和算法创新奠定了基础。