1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
论文ID : 2505.12003标题 : Approximation theory for 1-Lipschitz ResNets作者 : Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)分类 : cs.LG cs.NA math.NA发表会议 : 39th Conference on Neural Information Processing Systems (NeurIPS 2025)论文链接 : https://arxiv.org/abs/2505.12003v2 本文研究了基于负梯度流显式欧拉步骤的1-Lipschitz残差网络(ResNets)的逼近能力。利用限制性Stone-Weierstrass定理,首先证明了当宽度和深度允许增长时,这些1-Lipschitz ResNets在任何紧致域上的标量1-Lipschitz函数集合中稠密。还证明了这些网络可以精确表示标量分段仿射1-Lipschitz函数。进一步证明了更强的结论:通过在残差块之间插入范数约束的线性映射,在隐藏宽度固定时仍能保持相同的稠密性。由于每层都遵循简单的范数约束,所得模型可以用现成的优化器进行训练。
1-Lipschitz神经网络在多个重要领域具有基础性作用:
生成建模 :Wasserstein GAN中的判别器必须是1-Lipschitz的,以通过Kantorovich-Rubinstein对偶性提供1-Wasserstein距离的有效估计逆问题 :在Plug-and-Play算法中,1-Lipschitz约束保证了迭代方案的收敛性鲁棒分类器 :控制网络的Lipschitz常数可以提高对对抗攻击的鲁棒性表达能力下降 :约束网络的Lipschitz常数通常会降低其表达能力,导致性能明显下降理论缺失 :对于约束网络的逼近性质理解不足,不同的约束策略可能产生显著不同的表达能力实现困难 :现有的1-Lipschitz ResNet缺乏严格的理论保证本文旨在填补1-Lipschitz ResNets理论分析的空白,提供严格的数学基础来理解这类网络的逼近能力,并为实际应用提供理论支撑。
首个通用逼近定理 :为1-Lipschitz ResNets提供了首个通用逼近保证,证明了基于负梯度流的ResNets在标量1-Lipschitz函数集合中的稠密性固定宽度的逼近结果 :通过引入范数约束的线性映射,证明了即使在固定网络宽度的情况下,仍能保持通用逼近性质构造性证明方法 :提供了两种证明策略 - 基于限制性Stone-Weierstrass定理和基于分段仿射函数的构造性方法实用架构设计 :提出的网络架构具有明确的约束条件,可以用标准优化器进行训练研究在紧致集 X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 上的1-Lipschitz函数空间:
C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X } C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\} C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X }
目标是构造神经网络集合,使其在 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 中稠密。
基于负梯度流的显式欧拉步骤:
Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ ) \Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell) Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ )
其中 σ = ReLU \sigma = \text{ReLU} σ = ReLU ,约束条件:0 ≤ τ ℓ ≤ 2 / ∥ W ℓ ∥ 2 2 0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2 0 ≤ τ ℓ ≤ 2/∥ W ℓ ∥ 2 2 ,∥ W ℓ ∥ 2 ≤ 1 \|W_\ell\|_2 \leq 1 ∥ W ℓ ∥ 2 ≤ 1
无界宽度和深度的网络集合 :
G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R } \mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R }
固定宽度的网络集合 :
G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R } \tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R }
其中 A i A_i A i 是范数约束的仿射映射。
Stone-Weierstrass方法 :验证网络集合是分离点的格,满足限制性Stone-Weierstrass定理的条件构造性方法 :证明网络可以精确表示所有分段仿射1-Lipschitz函数通过引入特殊的残差层结构:
E ~ h , σ = { Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = [ max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ] } \tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\} E ~ h , σ = ⎩ ⎨ ⎧ Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ⎭ ⎬ ⎫
利用ReLU的正齐次性和以下恒等式:
x = σ ( x ) − σ ( − x ) x = \sigma(x) - \sigma(-x) x = σ ( x ) − σ ( − x ) max { x , y } = x + σ ( y − x ) \max\{x,y\} = x + \sigma(y-x) max { x , y } = x + σ ( y − x ) min { x , y } = x − σ ( x − y ) \min\{x,y\} = x - \sigma(x-y) min { x , y } = x − σ ( x − y ) Two-moon数据集 :4000个点,添加标准差为0.1的高斯噪声,20%用于训练MNIST数据集 :标准训练/测试划分,输入归一化处理分类准确率 约束执行时间(每个epoch的平均时间) 优化器 :Adam优化器配合余弦退火学习率调度批大小 :256权重约束 :通过投影梯度下降方式执行,使用幂方法估计谱范数初始化 :采用动态等距性初始化策略层数 定理3.1架构 定理4.1架构 L=2 99.75% 88.25% L=4 99.88% 99.88% L=8 100.00% 99.88% L=16 100.00% 100.00% L=32 99.88% 100.00% L=64 100.00% 100.00%
宽度\深度 L=5 L=10 L=20 h=50 97.85% 97.67% 97.82% h=100 97.94% 97.70% 97.58% h=200 97.68% 97.77% 97.89%
训练稳定性 :两种架构都能稳定训练,不受网络宽度和深度影响约束成本 :带仿射层的架构约束成本更高,且随深度增长更快性能表现 :在简单任务上可达到完美分类,在复杂任务上表现良好设 d ∈ N d \in \mathbb{N} d ∈ N ,σ = ReLU \sigma = \text{ReLU} σ = ReLU ,X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 紧致,则 G d , σ ( X , R ) \mathcal{G}_{d,\sigma}(X,\mathbb{R}) G d , σ ( X , R ) 满足 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 的通用逼近性质。
设 d ∈ N d \in \mathbb{N} d ∈ N ,σ = ReLU \sigma = \text{ReLU} σ = ReLU ,X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 紧致,则 G ~ d , σ , d + 3 ( X , R ) \tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) G ~ d , σ , d + 3 ( X , R ) 满足 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 的通用逼近性质。
点分离性 :证明网络集合可以分离任意两个不同点格性质 :证明网络集合在最大值和最小值运算下封闭稠密性 :由限制性Stone-Weierstrass定理得出基本运算 :证明可以实现逐坐标的最大值和最小值分段仿射表示 :利用max-min表示定理通用逼近 :分段仿射函数在1-Lipschitz函数中稠密谱归一化 :通过控制权重矩阵的谱范数正交权重矩阵 :使用正交变换保持Lipschitz性质梯度流方法 :基于动力系统和数值分析的约束策略Anil等人使用GroupSort激活函数的前馈网络理论 Neumayer等人关于样条激活函数的研究 本文首次针对1-Lipschitz ResNets提供完整理论 理论突破 :首次为1-Lipschitz ResNets建立了严格的通用逼近理论实用价值 :提出的架构可以用标准优化器训练,具有明确的约束条件方法创新 :提供了两种互补的证明方法,加深了对Lipschitz连续ResNets的理解激活函数依赖 :理论严重依赖ReLU的特殊性质实现复杂性 :固定宽度架构需要额外的仿射层,增加了实现复杂度标量函数限制 :主要结果集中在标量值函数,向量值函数的扩展需要进一步研究其他激活函数 :扩展到其他激活函数的理论分析现代架构 :将理论应用到Transformers和GNNs等现代架构逼近速率 :研究具体的逼近速率和复杂度分析向量值函数 :完善多输出函数的理论框架理论严谨性 :提供了完整的数学证明,填补了重要的理论空白方法创新性 :双重证明策略提供了不同的理论视角实用性 :所有理论结果都对应可实现的网络架构完整性 :从理论分析到实验验证,形成了完整的研究链条实验规模有限 :实验主要集中在简单数据集,缺乏大规模应用验证计算复杂度 :对于约束执行的计算开销分析不够深入比较基准 :缺乏与其他1-Lipschitz网络方法的详细比较学术价值 :为约束神经网络理论提供了重要基础应用前景 :在生成建模、逆问题和鲁棒学习领域具有广泛应用潜力方法论贡献 :证明技术可能启发其他约束网络的理论分析Wasserstein GANs :为判别器设计提供理论支撑Plug-and-Play算法 :保证收敛性的去噪器设计对抗鲁棒性 :提高分类器对对抗攻击的抗性逆问题求解 :在医学成像、信号处理等领域的应用本文引用了42篇重要文献,涵盖了通用逼近理论、Lipschitz约束方法、动力系统理论等多个领域的核心工作,为理论分析提供了坚实基础。