2025-11-25T01:46:17.329771

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

Milkert, Hyde, Laine

In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.

academic

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

基本信息

论文ID: 2311.18022
标题: Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training
作者: Max Milkert, David Hyde, Forrest Laine
分类: cs.LG cs.AI
发表时间/会议: Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025
论文链接: https://arxiv.org/abs/2311.18022

理论与实践的鸿沟：虽然理论上深度为 $d$ 的ReLU网络可以产生 $2^d$ 个线性区域，但Hanin & Rolnick (2019)证明随机初始化网络的平均线性区域数量与深度无关，只与神经元总数相关。
梯度下降的局限性：梯度下降难以创建新的激活区域，因为线性区域数量不是参数空间中的"局部"属性，无法通过梯度优化直接优化。
网络冗余问题：实践中约95%的权重可能被消除而不显著影响准确性，表明传统训练方法效率低下。

研究动机

本文的核心动机是开发数学算法来避免随机初始化的局限性，强制ReLU网络实现其理论表达能力，从而用更小的网络实现更好的性能。

核心贡献

新颖的重参数化方法：提出了4神经元宽、任意深度ReLU网络的重参数化策略，确保深度 $d$ 网络在初始化时产生 $2^d$ 个激活区域。
预训练策略：开发了在优化过程中强制存在 $2^d$ 个激活区域的预训练方法。
显著性能提升：在一维测试案例中实现了数量级的网络性能改进。
扩展应用：将方法扩展到非凸和多维函数，并作为任意网络中密集层的即插即用替代品。

Ti(x) = {
    x/ai,           0 ≤ x ≤ ai
    1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}

其中 $0 < ai < 1$ 是第 $i$ 层三角函数的峰值位置。

组合波形

每层通过函数组合产生三角波：

Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)

这些波形具有 $2^i$ 个线性区域，每层翻倍。

网络输出

最终网络输出为各层三角波的加权和：

F(x) = Σ(i=0 to ∞) si * Wi(x)

网络架构设计

单层实现

每个三角函数需要两个ReLU神经元实现：

神经元t1：输入权重为1，输出权重为1/a，始终激活
神经元t2：偏置为-a，输出权重为-1/(a-a²)，在x>a时激活

多层组合

通过深度堆叠实现函数组合，每层包含：

t1, t2神经元：实现三角函数
sum神经元：累积前层的三角波输出
bias神经元：处理指数衰减的偏置

权重矩阵形式

隐藏层的矩阵形式为：

[1  ±[Si/ai  -Si/(ai-ai²)]  0    ]   [sum ]
[0   Si/ai   -Si/(ai-ai²)   0    ] × [t1  ]
[0   Si/ai   -Si/(ai-ai²)  -Siai+1]   [t2  ]
[0   0       0              Si   ]   [bias]

可微性约束

定理3.1

为确保网络输出在无限深度极限下可微，缩放系数必须满足：

si+1 = si(1-ai+1)ai+2

这个约束确保了导数的连续性，防止输出成为分形曲线。

训练算法

三阶段训练过程

重参数化和初始化：根据三角峰值位置设置网络权重
预训练：在重参数化约束下训练网络
标准训练：直接优化网络权重

算法流程

Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n)  # 三角峰值位置
while Epochs > 0:
    Network ← Set_Weights(A)  # 根据A设置权重
    Loss ← (Network(x) - y)²
    Network_Gradient ← ∂Loss/∂Network
    A_Gradient ← ∂Network/∂A  # 通过权重设置反向传播
    Gradient ← Network_Gradient × A_Gradient
    A ← A - ε × Gradient  # 更新A而非网络权重

密集数据：0,1区间上500个等间距点
稀疏数据：10个训练点，10个测试点（位于训练点之间）

目标函数

$x^3$ , $x^{11}$ （凸函数，减法组合）
$\sin(x)$ , $\tanh(3x)$ （通过加法组合逼近）

网络配置

4神经元宽，5个隐藏层
Adam优化器，学习率0.001，1000个epoch

对比方法

默认网络：Kaiming初始化
RAAI分布：改进的权重分布初始化
跳过预训练：使用本文初始化但仅标准训练
无正则化预训练：不强制可微性约束
完整方法：预训练+可微性约束

扩展实验

非凸和多维函数

非凸函数： $y = x^3 - x$ （两个网络的差）
二维函数： $z = r^3$ （两个网络的和）

图像分类

ImageNet上的VGG-16：替换分类器的密集层
CIFAR-10：在CNN架构中应用

方法	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming初始化	2.11×10⁻⁵	2.19×10⁻⁵	4.50×10⁻⁵	5.75×10⁻⁵
RAAI分布	2.14×10⁻⁵	4.40×10⁻⁵	3.59×10⁻⁵	1.09×10⁻⁵
跳过预训练	7.63×10⁻⁷	1.86×10⁻⁵	1.96×10⁻⁷	1.07×10⁻⁶
无正则化预训练	1.64×10⁻⁷	3.20×10⁻⁶	4.41×10⁻⁸	1.49×10⁻⁷
完整方法	7.86×10⁻⁸	8.86×10⁻⁷	5.06×10⁻⁸	6.82×10⁻⁸

关键发现

数量级改进：完整方法比默认网络精确3个数量级
预训练重要性：即使跳过预训练，仅初始化改进就有显著提升
可微性约束效果：强制可微性进一步提高稳定性和精度
死ReLU问题：传统方法约50%网络因死ReLU现象崩溃

稀疏数据泛化能力

方法	$x^3$	$x^{11}$	$\sin(x)$	$\tanh(3x)$
Kaiming初始化	2.41×10⁻⁴	2.14×10⁻³	2.27×10⁻⁵	1.60×10⁻⁴
完整方法	5.65×10⁻⁶	6.53×10⁻⁴	7.92×10⁻⁷	5.09×10⁻⁶

扩展应用结果

非凸和多维函数

$x^3-x$ 逼近：本文方法误差5.52×10⁻⁷ vs 标准8×5网络误差8×10⁻⁶
$z=r^3$ 逼近：本文方法误差3.5×10⁻⁶ vs 标准网络误差1.5×10⁻⁴（近两个数量级改进）

图像分类性能

ImageNet VGG-16：训练早期有优势，最终精度相当（73.3%）
CIFAR-10：与标准方法性能相当，显示方法的通用性

结论与讨论

主要结论

理论突破：首次实现了强制ReLU网络产生指数级线性区域的实用方法
显著改进：在一维函数逼近任务上实现了数量级的精度提升
扩展潜力：证明了方法在多维和非凸函数上的适用性
实用价值：可作为现有架构中密集层的即插即用替代品

局限性

架构限制：当前方法限于4神经元宽的特定结构
函数类限制：直接适用于一维凸函数，多维扩展需要组合策略
分类任务效果有限：在图像分类等任务上改进不显著
理论完备性：缺乏对任意ReLU网络的通用理论框架

未来方向

理论扩展：寻找能高效表示的一维函数的稠密集合
多维方法：开发更自然的多维函数表示方法
稀疏结构：克服当前只能创建稀疏块对角矩阵的限制
应用探索：寻找更适合的实用回归任务

深度评价

优点

理论创新：提供了连接理论表达能力与实际实现的桥梁
数学严谨：完整的可微性分析和收敛性证明
实验充分：从一维到多维，从回归到分类的全面验证
实用价值：可直接应用于现有架构，无需重新设计

不足

适用范围有限：主要优势集中在特定类型的函数逼近任务
扩展性问题：多维扩展依赖简单组合，缺乏理论保证
实际应用效果：在实际分类任务上改进有限
计算复杂度：两阶段训练增加了实现复杂性

影响力

理论贡献：为深度学习理论提供了新的视角和工具
方法论意义：展示了数学构造在神经网络设计中的价值
实用潜力：在科学计算和工程应用中可能有重要价值
启发作用：为后续研究提供了新的思路和方向

适用场景

科学计算：需要高精度函数逼近的数值计算任务
工程应用：控制系统、信号处理等需要精确建模的领域
小数据场景：训练数据稀缺但需要良好泛化的任务
理论研究：作为研究神经网络表达能力的工具

参考文献

Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns.
Telgarsky, M. (2015). Representation benefits of deep feedforward networks.
Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks.
Montufar, G. F. et al. (2014). On the number of linear regions of deep neural networks.
Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks.

总体评价：这是一篇理论与实践并重的优秀论文，在ReLU网络的表达能力实现方面取得了重要突破。虽然当前应用范围有限，但为深度学习理论和实践提供了有价值的贡献和启发。