In a neural network with ReLU activations, the number of piecewise linear regions in the output can grow exponentially with depth. However, this is highly unlikely to happen when the initial parameters are sampled randomly, which therefore often leads to the use of networks that are unnecessarily large. To address this problem, we introduce a novel parameterization of the network that restricts its weights so that a depth $d$ network produces exactly $2^d$ linear regions at initialization and maintains those regions throughout training under the parameterization. This approach allows us to learn approximations of convex, one dimensional functions that are several orders of magnitude more accurate than their randomly initialized counterparts. We further demonstrate a preliminary extension of our construction to multidimensional and non-convex functions, allowing the technique to replace traditional dense layers in various architectures.
Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training 论文ID : 2311.18022标题 : Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training作者 : Max Milkert, David Hyde, Forrest Laine分类 : cs.LG cs.AI发表时间/会议 : Proceedings of the 42nd International Conference on Machine Learning, Vancouver, Canada. PMLR 267, 2025论文链接 : https://arxiv.org/abs/2311.18022 在具有ReLU激活函数的神经网络中,输出的分段线性区域数量理论上可以随深度呈指数增长。然而,当初始参数随机采样时,这种情况极不可能发生,这往往导致使用不必要的大网络。为解决这一问题,本文提出了一种新颖的网络参数化方法,约束权重使得深度为d d d 的网络在初始化时产生恰好2 d 2^d 2 d 个线性区域,并在训练过程中维持这些区域。该方法在学习凸一维函数近似时比随机初始化的对应网络精确几个数量级。作者还展示了该构造扩展到多维和非凸函数的初步结果,使该技术能够替代各种架构中的传统密集层。
ReLU网络理论上具有强大的表达能力,线性区域数量可以随深度呈指数增长,但实际应用中存在重大差距:
理论与实践的鸿沟 :虽然理论上深度为d d d 的ReLU网络可以产生2 d 2^d 2 d 个线性区域,但Hanin & Rolnick (2019)证明随机初始化网络的平均线性区域数量与深度无关,只与神经元总数相关。梯度下降的局限性 :梯度下降难以创建新的激活区域,因为线性区域数量不是参数空间中的"局部"属性,无法通过梯度优化直接优化。网络冗余问题 :实践中约95%的权重可能被消除而不显著影响准确性,表明传统训练方法效率低下。本文的核心动机是开发数学算法来避免随机初始化的局限性,强制ReLU网络实现其理论表达能力,从而用更小的网络实现更好的性能。
新颖的重参数化方法 :提出了4神经元宽、任意深度ReLU网络的重参数化策略,确保深度d d d 网络在初始化时产生2 d 2^d 2 d 个激活区域。预训练策略 :开发了在优化过程中强制存在2 d 2^d 2 d 个激活区域的预训练方法。显著性能提升 :在一维测试案例中实现了数量级的网络性能改进。扩展应用 :将方法扩展到非凸和多维函数,并作为任意网络中密集层的即插即用替代品。该方法基于三角波函数的组合来构建具有指数级线性区域的网络:
Ti(x) = {
x/ai, 0 ≤ x ≤ ai
1-(x-ai)/(1-ai), ai ≤ x ≤ 1
}
其中 0 < a i < 1 0 < ai < 1 0 < ai < 1 是第i i i 层三角函数的峰值位置。
每层通过函数组合产生三角波:
Wi(x) = Ti ∘ Ti-1 ∘ ... ∘ T0(x)
这些波形具有2 i 2^i 2 i 个线性区域,每层翻倍。
最终网络输出为各层三角波的加权和:
F(x) = Σ(i=0 to ∞) si * Wi(x)
每个三角函数需要两个ReLU神经元实现:
神经元t1 :输入权重为1,输出权重为1/a,始终激活神经元t2 :偏置为-a,输出权重为-1/(a-a²),在x>a时激活通过深度堆叠实现函数组合,每层包含:
t1, t2神经元 :实现三角函数sum神经元 :累积前层的三角波输出bias神经元 :处理指数衰减的偏置隐藏层的矩阵形式为:
[1 ±[Si/ai -Si/(ai-ai²)] 0 ] [sum ]
[0 Si/ai -Si/(ai-ai²) 0 ] × [t1 ]
[0 Si/ai -Si/(ai-ai²) -Siai+1] [t2 ]
[0 0 0 Si ] [bias]
为确保网络输出在无限深度极限下可微,缩放系数必须满足:
这个约束确保了导数的连续性,防止输出成为分形曲线。
重参数化和初始化 :根据三角峰值位置设置网络权重预训练 :在重参数化约束下训练网络标准训练 :直接优化网络权重Algorithm 1: Initialization and Pretraining
A ← Random((0,1)^n) # 三角峰值位置
while Epochs > 0:
Network ← Set_Weights(A) # 根据A设置权重
Loss ← (Network(x) - y)²
Network_Gradient ← ∂Loss/∂Network
A_Gradient ← ∂Network/∂A # 通过权重设置反向传播
Gradient ← Network_Gradient × A_Gradient
A ← A - ε × Gradient # 更新A而非网络权重
密集数据 :0,1 区间上500个等间距点稀疏数据 :10个训练点,10个测试点(位于训练点之间)x 3 x^3 x 3 , x 11 x^{11} x 11 (凸函数,减法组合)sin ( x ) \sin(x) sin ( x ) , tanh ( 3 x ) \tanh(3x) tanh ( 3 x ) (通过加法组合逼近)4神经元宽,5个隐藏层 Adam优化器,学习率0.001,1000个epoch 默认网络 :Kaiming初始化RAAI分布 :改进的权重分布初始化跳过预训练 :使用本文初始化但仅标准训练无正则化预训练 :不强制可微性约束完整方法 :预训练+可微性约束非凸函数 :y = x 3 − x y = x^3 - x y = x 3 − x (两个网络的差)二维函数 :z = r 3 z = r^3 z = r 3 (两个网络的和)ImageNet上的VGG-16 :替换分类器的密集层CIFAR-10 :在CNN架构中应用方法 x 3 x^3 x 3 x 11 x^{11} x 11 sin ( x ) \sin(x) sin ( x ) tanh ( 3 x ) \tanh(3x) tanh ( 3 x ) Kaiming初始化 2.11×10⁻⁵ 2.19×10⁻⁵ 4.50×10⁻⁵ 5.75×10⁻⁵ RAAI分布 2.14×10⁻⁵ 4.40×10⁻⁵ 3.59×10⁻⁵ 1.09×10⁻⁵ 跳过预训练 7.63×10⁻⁷ 1.86×10⁻⁵ 1.96×10⁻⁷ 1.07×10⁻⁶ 无正则化预训练 1.64×10⁻⁷ 3.20×10⁻⁶ 4.41×10⁻⁸ 1.49×10⁻⁷ 完整方法 7.86×10⁻⁸ 8.86×10⁻⁷ 5.06×10⁻⁸ 6.82×10⁻⁸
数量级改进 :完整方法比默认网络精确3个数量级预训练重要性 :即使跳过预训练,仅初始化改进就有显著提升可微性约束效果 :强制可微性进一步提高稳定性和精度死ReLU问题 :传统方法约50%网络因死ReLU现象崩溃方法 x 3 x^3 x 3 x 11 x^{11} x 11 sin ( x ) \sin(x) sin ( x ) tanh ( 3 x ) \tanh(3x) tanh ( 3 x ) Kaiming初始化 2.41×10⁻⁴ 2.14×10⁻³ 2.27×10⁻⁵ 1.60×10⁻⁴ 完整方法 5.65×10⁻⁶ 6.53×10⁻⁴ 7.92×10⁻⁷ 5.09×10⁻⁶
x 3 − x x^3-x x 3 − x 逼近 :本文方法误差5.52×10⁻⁷ vs 标准8×5网络误差8×10⁻⁶z = r 3 z=r^3 z = r 3 逼近 :本文方法误差3.5×10⁻⁶ vs 标准网络误差1.5×10⁻⁴(近两个数量级改进)ImageNet VGG-16 :训练早期有优势,最终精度相当(73.3%)CIFAR-10 :与标准方法性能相当,显示方法的通用性本文建立在经典的神经网络逼近理论基础上:
通用逼近定理 :无限宽或无限深网络的逼近能力深度优势理论 :某些函数在深网络中需要次指数神经元,在浅网络中需要指数级神经元借鉴了Telgarsky (2015)和Yarotsky (2017)的工作:
对称三角波 :用于构造x 2 x^2 x 2 的指数精度逼近函数组合 :通过层间组合实现复杂函数表示与现有初始化方法的对比:
Kaiming/Xavier初始化 :基于统计分布的同质化方法死ReLU问题 :随机初始化在深网络中的固有问题本文贡献 :基于数学构造的异质化初始化理论突破 :首次实现了强制ReLU网络产生指数级线性区域的实用方法显著改进 :在一维函数逼近任务上实现了数量级的精度提升扩展潜力 :证明了方法在多维和非凸函数上的适用性实用价值 :可作为现有架构中密集层的即插即用替代品架构限制 :当前方法限于4神经元宽的特定结构函数类限制 :直接适用于一维凸函数,多维扩展需要组合策略分类任务效果有限 :在图像分类等任务上改进不显著理论完备性 :缺乏对任意ReLU网络的通用理论框架理论扩展 :寻找能高效表示的一维函数的稠密集合多维方法 :开发更自然的多维函数表示方法稀疏结构 :克服当前只能创建稀疏块对角矩阵的限制应用探索 :寻找更适合的实用回归任务理论创新 :提供了连接理论表达能力与实际实现的桥梁数学严谨 :完整的可微性分析和收敛性证明实验充分 :从一维到多维,从回归到分类的全面验证实用价值 :可直接应用于现有架构,无需重新设计适用范围有限 :主要优势集中在特定类型的函数逼近任务扩展性问题 :多维扩展依赖简单组合,缺乏理论保证实际应用效果 :在实际分类任务上改进有限计算复杂度 :两阶段训练增加了实现复杂性理论贡献 :为深度学习理论提供了新的视角和工具方法论意义 :展示了数学构造在神经网络设计中的价值实用潜力 :在科学计算和工程应用中可能有重要价值启发作用 :为后续研究提供了新的思路和方向科学计算 :需要高精度函数逼近的数值计算任务工程应用 :控制系统、信号处理等需要精确建模的领域小数据场景 :训练数据稀缺但需要良好泛化的任务理论研究 :作为研究神经网络表达能力的工具Hanin, B. & Rolnick, D. (2019). Deep ReLU networks have surprisingly few activation patterns. Telgarsky, M. (2015). Representation benefits of deep feedforward networks. Yarotsky, D. (2017). Error bounds for approximations with deep ReLU networks. Montufar, G. F. et al. (2014). On the number of linear regions of deep neural networks. Perekrestenko, D. et al. (2018). The universal approximation power of finite-width deep ReLU networks. 总体评价 :这是一篇理论与实践并重的优秀论文,在ReLU网络的表达能力实现方面取得了重要突破。虽然当前应用范围有限,但为深度学习理论和实践提供了有价值的贡献和启发。