2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

Approximation theory for 1-Lipschitz ResNets

基本信息

  • 论文ID: 2505.12003
  • 标题: Approximation theory for 1-Lipschitz ResNets
  • 作者: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • 分类: cs.LG cs.NA math.NA
  • 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2505.12003v2

摘要

本文研究了基于负梯度流显式欧拉步骤的1-Lipschitz残差网络(ResNets)的逼近能力。利用限制性Stone-Weierstrass定理,首先证明了当宽度和深度允许增长时,这些1-Lipschitz ResNets在任何紧致域上的标量1-Lipschitz函数集合中稠密。还证明了这些网络可以精确表示标量分段仿射1-Lipschitz函数。进一步证明了更强的结论:通过在残差块之间插入范数约束的线性映射,在隐藏宽度固定时仍能保持相同的稠密性。由于每层都遵循简单的范数约束,所得模型可以用现成的优化器进行训练。

研究背景与动机

问题重要性

1-Lipschitz神经网络在多个重要领域具有基础性作用:

  • 生成建模:Wasserstein GAN中的判别器必须是1-Lipschitz的,以通过Kantorovich-Rubinstein对偶性提供1-Wasserstein距离的有效估计
  • 逆问题:在Plug-and-Play算法中,1-Lipschitz约束保证了迭代方案的收敛性
  • 鲁棒分类器:控制网络的Lipschitz常数可以提高对对抗攻击的鲁棒性

现有方法局限性

  1. 表达能力下降:约束网络的Lipschitz常数通常会降低其表达能力,导致性能明显下降
  2. 理论缺失:对于约束网络的逼近性质理解不足,不同的约束策略可能产生显著不同的表达能力
  3. 实现困难:现有的1-Lipschitz ResNet缺乏严格的理论保证

研究动机

本文旨在填补1-Lipschitz ResNets理论分析的空白,提供严格的数学基础来理解这类网络的逼近能力,并为实际应用提供理论支撑。

核心贡献

  1. 首个通用逼近定理:为1-Lipschitz ResNets提供了首个通用逼近保证,证明了基于负梯度流的ResNets在标量1-Lipschitz函数集合中的稠密性
  2. 固定宽度的逼近结果:通过引入范数约束的线性映射,证明了即使在固定网络宽度的情况下,仍能保持通用逼近性质
  3. 构造性证明方法:提供了两种证明策略 - 基于限制性Stone-Weierstrass定理和基于分段仿射函数的构造性方法
  4. 实用架构设计:提出的网络架构具有明确的约束条件,可以用标准优化器进行训练

方法详解

任务定义

研究在紧致集 XRdX \subset \mathbb{R}^d 上的1-Lipschitz函数空间: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

目标是构造神经网络集合,使其在 C1(X,R)C_1(X,\mathbb{R}) 中稠密。

核心构建模块

1-Lipschitz残差层

基于负梯度流的显式欧拉步骤: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

其中 σ=ReLU\sigma = \text{ReLU},约束条件:0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2W21\|W_\ell\|_2 \leq 1

网络架构定义

无界宽度和深度的网络集合Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

固定宽度的网络集合G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

其中 AiA_i 是范数约束的仿射映射。

技术创新点

1. 双重证明策略

  • Stone-Weierstrass方法:验证网络集合是分离点的格,满足限制性Stone-Weierstrass定理的条件
  • 构造性方法:证明网络可以精确表示所有分段仿射1-Lipschitz函数

2. 固定宽度的创新设计

通过引入特殊的残差层结构: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. ReLU的关键性质利用

利用ReLU的正齐次性和以下恒等式:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

实验设置

数据集

  1. Two-moon数据集:4000个点,添加标准差为0.1的高斯噪声,20%用于训练
  2. MNIST数据集:标准训练/测试划分,输入归一化处理

评价指标

  • 分类准确率
  • 约束执行时间(每个epoch的平均时间)

实现细节

  • 优化器:Adam优化器配合余弦退火学习率调度
  • 批大小:256
  • 权重约束:通过投影梯度下降方式执行,使用幂方法估计谱范数
  • 初始化:采用动态等距性初始化策略

实验结果

主要结果

Two-moon数据集结果

层数定理3.1架构定理4.1架构
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

MNIST数据集结果(定理4.1架构)

宽度\深度L=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

实验发现

  1. 训练稳定性:两种架构都能稳定训练,不受网络宽度和深度影响
  2. 约束成本:带仿射层的架构约束成本更高,且随深度增长更快
  3. 性能表现:在简单任务上可达到完美分类,在复杂任务上表现良好

理论分析

主要定理

定理3.1(无界宽度深度)

dNd \in \mathbb{N}σ=ReLU\sigma = \text{ReLU}XRdX \subset \mathbb{R}^d 紧致,则 Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) 满足 C1(X,R)C_1(X,\mathbb{R}) 的通用逼近性质。

定理4.1(固定宽度)

dNd \in \mathbb{N}σ=ReLU\sigma = \text{ReLU}XRdX \subset \mathbb{R}^d 紧致,则 G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) 满足 C1(X,R)C_1(X,\mathbb{R}) 的通用逼近性质。

证明关键步骤

Stone-Weierstrass方法

  1. 点分离性:证明网络集合可以分离任意两个不同点
  2. 格性质:证明网络集合在最大值和最小值运算下封闭
  3. 稠密性:由限制性Stone-Weierstrass定理得出

构造性方法

  1. 基本运算:证明可以实现逐坐标的最大值和最小值
  2. 分段仿射表示:利用max-min表示定理
  3. 通用逼近:分段仿射函数在1-Lipschitz函数中稠密

相关工作

1-Lipschitz网络约束方法

  1. 谱归一化:通过控制权重矩阵的谱范数
  2. 正交权重矩阵:使用正交变换保持Lipschitz性质
  3. 梯度流方法:基于动力系统和数值分析的约束策略

约束网络的逼近理论

  • Anil等人使用GroupSort激活函数的前馈网络理论
  • Neumayer等人关于样条激活函数的研究
  • 本文首次针对1-Lipschitz ResNets提供完整理论

结论与讨论

主要结论

  1. 理论突破:首次为1-Lipschitz ResNets建立了严格的通用逼近理论
  2. 实用价值:提出的架构可以用标准优化器训练,具有明确的约束条件
  3. 方法创新:提供了两种互补的证明方法,加深了对Lipschitz连续ResNets的理解

局限性

  1. 激活函数依赖:理论严重依赖ReLU的特殊性质
  2. 实现复杂性:固定宽度架构需要额外的仿射层,增加了实现复杂度
  3. 标量函数限制:主要结果集中在标量值函数,向量值函数的扩展需要进一步研究

未来方向

  1. 其他激活函数:扩展到其他激活函数的理论分析
  2. 现代架构:将理论应用到Transformers和GNNs等现代架构
  3. 逼近速率:研究具体的逼近速率和复杂度分析
  4. 向量值函数:完善多输出函数的理论框架

深度评价

优点

  1. 理论严谨性:提供了完整的数学证明,填补了重要的理论空白
  2. 方法创新性:双重证明策略提供了不同的理论视角
  3. 实用性:所有理论结果都对应可实现的网络架构
  4. 完整性:从理论分析到实验验证,形成了完整的研究链条

不足

  1. 实验规模有限:实验主要集中在简单数据集,缺乏大规模应用验证
  2. 计算复杂度:对于约束执行的计算开销分析不够深入
  3. 比较基准:缺乏与其他1-Lipschitz网络方法的详细比较

影响力

  1. 学术价值:为约束神经网络理论提供了重要基础
  2. 应用前景:在生成建模、逆问题和鲁棒学习领域具有广泛应用潜力
  3. 方法论贡献:证明技术可能启发其他约束网络的理论分析

适用场景

  1. Wasserstein GANs:为判别器设计提供理论支撑
  2. Plug-and-Play算法:保证收敛性的去噪器设计
  3. 对抗鲁棒性:提高分类器对对抗攻击的抗性
  4. 逆问题求解:在医学成像、信号处理等领域的应用

参考文献

本文引用了42篇重要文献,涵盖了通用逼近理论、Lipschitz约束方法、动力系统理论等多个领域的核心工作,为理论分析提供了坚实基础。