The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- 论文ID: 2510.09177
- 标题: Distributionally robust approximation property of neural networks
- 作者: Mihriban Ceylan, David J. Prömel
- 分类: stat.ML cs.LG math.FA math.PR
- 发表时间: October 13, 2025
- 论文链接: https://arxiv.org/abs/2510.09177
The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional Lp-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
该研究要解决的核心问题是建立神经网络的分布鲁棒近似性质(distributionally robust approximation property)。具体而言,传统的通用近似定理(Universal Approximation Theorems, UATs)只考虑单一固定分布μ下的Lp(μ)空间中的近似,而本文要证明神经网络能够在弱紧测度族M上一致地近似函数,即对于给定函数f和任意ε>0,存在神经网络η使得:
supν∈M∥f−η∥L1(ν)<ε
- 理论意义:扩展了经典的通用近似定理,从单一分布设定推广到分布族的一致近似
- 实际需求:在机器学习实践中,数据分布的不确定性是普遍存在的挑战,被称为分布不确定性(distributional uncertainty)
- 应用价值:为分布鲁棒学习、对抗训练、噪声数据处理等领域提供理论基础
经典的通用近似定理存在以下局限:
- 单分布限制:仅针对固定的单一测度μ在Lp(μ)空间中建立近似性质
- 空间限制:主要局限在Lp空间框架内,缺乏更一般的函数空间理论
- 鲁棒性缺失:无法处理分布漂移或分布不确定性场景
本文的研究动机源于:
- 现实应用中分布不确定性的普遍存在(如Knightian不确定性、对抗样本等)
- 需要理论支撑分布鲁棒优化和统计学习的发展
- 将神经网络理论从Lp空间扩展到更一般的Orlicz空间的理论需求
- Orlicz空间中的通用近似定理:首次证明了多类神经网络在Orlicz空间中关于Luxemburg范数的稠密性,这是对经典Lp空间结果的重要推广
- 分布鲁棒近似性质:建立了神经网络相对于弱紧测度族的分布鲁棒通用近似定理,提供了处理分布不确定性的理论基础
- 广泛的网络架构覆盖:涵盖了多种重要的神经网络架构:
- 有界非多项式激活函数的前馈网络
- ReLU激活的深窄网络
- 函数输入神经网络
- 理论框架创新:通过Orlicz空间理论,提供了统一处理不同损失函数(如交叉熵、KL散度)的数学框架
给定弱紧测度族M和合适的函数f:RN0→RNL,对于任意ε>0,寻找神经网络η使得:
supν∈M∥f−η∥L1(ν)<ε
论文基于Orlicz空间理论构建数学框架。对于Young函数φ,Orlicz空间定义为:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ for some α>0}
配备gauge范数:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- 前馈神经网络:η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- 函数输入神经网络:η(x)=∑n=1Nynϱ(hn(x)),其中hn∈H为加性族
对于N-函数φ和局部有限Borel测度μ,神经网络在Orlicz心Mφ(μ)中关于gauge范数稠密,涵盖:
- 有界非常数激活函数(有限测度)
- ReLU激活函数(局部有限测度)
- 连续非多项式激活函数(紧支撑测度)
- 函数输入神经网络(满足特定条件)
对于弱紧测度族M及其关联Young对(φM,ψM),对任意f∈MφM(μ;RNL)和ε>0,存在相应类别的神经网络η使得:
supν∈M∥f−η∥L1(ν;RNL)<ε
- Young对构造:利用弱紧测度族的一致可积性,通过De la Vallée Poussin定理构造关联的Young对
- Hölder不等式推广:使用推广的Hölder不等式建立Orlicz空间与L1空间之间的连接
- 密度论证:通过Hahn-Banach定理和Riesz表示定理的推广版本证明神经网络的稠密性
本文为纯理论研究,不包含数值实验。所有结果均通过严格的数学证明建立。
- 反证法:假设神经网络不稠密,利用Hahn-Banach定理得出矛盾
- 构造性证明:对ReLU网络,通过显式构造逼近网络
- 逼近论技术:利用经典逼近理论结果结合测度理论
对于有界非常数激活函数ϱ和L ≥ 2,NNN0,NL,L,∞ϱ在任意有限Borel测度上的Mφ(μ)中稠密。
对于ReLU激活函数,NNN0,NL,∞,N0+NL+1ϱ在任意局部有限Borel测度上的Mφ(μ)中稠密。
对于连续非多项式激活函数,NNN0,NL,L,∞ϱ在紧支撑有限Borel测度上的Mφ(μ)中稠密。
在适当条件下,函数输入神经网络NNRN0,RN2H,ϱ在有限Borel测度上的Mφ(μ)中稠密。
- 空间扩展:成功将经典Lp结果推广到Orlicz空间,为处理非标准增长条件提供框架
- 测度一般化:从Lebesgue测度推广到一般的局部有限Borel测度
- 架构统一:在统一的理论框架下处理多种神经网络架构
- Cybenko (1989):建立了sigmoid激活函数前馈网络的通用近似性质
- Hornik (1991):扩展到更一般的激活函数和Sobolev空间
- Leshno等 (1993):非多项式激活函数的结果
- Kidger & Lyons (2020):深窄ReLU网络的通用近似性质
- Cuchiero等 (2025):函数输入神经网络的全局通用近似
- Costarelli & Vinti (2019):Orlicz空间中的Kantorovich算子
- Ben-Tal等 (2013):不确定概率下的鲁棒优化
- Gao & Kleywegt (2016):Wasserstein距离下的分布鲁棒随机优化
- 建立了神经网络在Orlicz空间中的通用近似性质,显著扩展了经典理论
- 证明了神经网络的分布鲁棒近似能力,为处理分布不确定性提供理论基础
- 涵盖了广泛使用的神经网络架构,具有良好的实用价值
- 测度条件:不同网络架构需要不同的测度条件(有限性、紧支撑等)
- 构造性:虽然证明了存在性,但缺乏显式的网络构造方法
- 计算复杂性:未分析所需网络规模与逼近精度的定量关系
- 定量分析:建立逼近误差与网络复杂度的定量关系
- 算法实现:开发基于理论结果的实际算法
- 应用拓展:将理论应用到具体的机器学习任务中
- 理论深度:在数学上严格且深刻,将神经网络理论推进到新高度
- 统一框架:Orlicz空间框架提供了处理多种问题的统一视角
- 实际意义:为分布鲁棒学习提供了坚实的理论基础
- 技术创新:巧妙结合了泛函分析、测度论和逼近理论的技术
- 实用性差距:纯理论结果,与实际应用存在较大距离
- 条件限制:不同结果需要不同的技术条件,统一性有限
- 构造缺失:缺乏具体的网络构造和训练算法
- 理论贡献:为神经网络理论奠定了新的数学基础
- 跨学科价值:连接了机器学习、泛函分析和测度论
- 长远意义:为未来的分布鲁棒学习研究提供理论指导
- 理论研究:为神经网络理论研究者提供新工具
- 鲁棒学习:指导分布鲁棒优化和对抗训练的理论发展
- 非标准损失:处理交叉熵、KL散度等非Lp型损失函数的理论分析
论文包含了丰富的参考文献,涵盖了逼近理论、泛函分析、神经网络理论和分布鲁棒优化等多个领域的重要工作,为读者提供了全面的背景知识。
总体评价:这是一篇在理论上非常严谨和深刻的论文,成功地将神经网络的通用近似理论从经典的Lp空间推广到Orlicz空间,并建立了分布鲁棒的近似性质。虽然距离实际应用还有距离,但为神经网络理论和分布鲁棒学习提供了重要的数学基础。