1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
論文ID : 2505.12003タイトル : Approximation theory for 1-Lipschitz ResNets著者 : Davide Murari(ケンブリッジ大学)、Takashi Furuya(同志社大学、理研AIP)、Carola-Bibiane Schönlieb(ケンブリッジ大学)分類 : cs.LG cs.NA math.NA発表会議 : 第39回ニューラル情報処理システム会議(NeurIPS 2025)論文リンク : https://arxiv.org/abs/2505.12003v2 本論文は、負勾配流の明示的オイラーステップに基づく1-Lipschitz残差ネットワーク(ResNets)の近似能力を研究している。制限付きStone-Weierstrass定理を利用して、幅と深さの増加を許容する場合、これらの1-Lipschitz ResNetsが任意のコンパクト領域上のスカラー1-Lipschitz関数の集合で稠密であることを証明した。さらに、これらのネットワークがスカラー区分的アフィン1-Lipschitz関数を正確に表現できることを示した。残差ブロック間にノルム制約付き線形写像を挿入することで、隠れ層の幅が固定されている場合でも同じ稠密性を保つことができるというより強い結論も証明した。各層が単純なノルム制約に従うため、得られたモデルは既存の最適化器で訓練可能である。
1-Lipschitz神経ネットワークは複数の重要な分野で基礎的な役割を果たしている:
生成モデリング :Wasserstein GANの判別器は1-Lipschitz制約を満たす必要があり、Kantorovich-Rubinstein双対性を通じて1-Wasserstein距離の有効な推定値を提供する逆問題 :Plug-and-Play アルゴリズムにおいて、1-Lipschitz制約は反復スキームの収束性を保証するロバスト分類器 :ネットワークのLipschitz定数を制御することで、敵対的攻撃に対するロバスト性を向上させることができる表現能力の低下 :ネットワークのLipschitz定数を制約することは通常、その表現能力を低下させ、性能の著しい低下をもたらす理論的空白 :制約付きネットワークの近似特性に関する理解が不足しており、異なる制約戦略は大きく異なる表現能力をもたらす可能性がある実装の困難さ :既存の1-Lipschitz ResNetsは厳密な理論的保証を欠いている本論文は、1-Lipschitz ResNetsの理論的分析の空白を埋め、このクラスのネットワークの近似能力を理解するための厳密な数学的基礎を提供し、実際の応用に理論的支援を与えることを目指している。
初の汎用近似定理 :1-Lipschitz ResNetsに対する初の汎用近似保証を提供し、負勾配流に基づくResNetsがスカラー1-Lipschitz関数の集合で稠密であることを証明した固定幅での近似結果 :ノルム制約付き線形写像を導入することで、ネットワーク幅が固定されている場合でも汎用近似特性を保つことができることを証明した構成的証明方法 :制限付きStone-Weierstrass定理に基づく方法と区分的アフィン関数の構成的方法の2つの証明戦略を提供した実用的なアーキテクチャ設計 :明確な制約条件を持つネットワークアーキテクチャを提案し、標準的な最適化器で訓練可能であるコンパクト集合 X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 上の1-Lipschitz関数空間を研究する:
C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X } C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\} C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X }
目標は、C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) で稠密となるニューラルネットワークの集合を構築することである。
負勾配流の明示的オイラーステップに基づく:
Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ ) \Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell) Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ )
ここで σ = ReLU \sigma = \text{ReLU} σ = ReLU 、制約条件:0 ≤ τ ℓ ≤ 2 / ∥ W ℓ ∥ 2 2 0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2 0 ≤ τ ℓ ≤ 2/∥ W ℓ ∥ 2 2 、∥ W ℓ ∥ 2 ≤ 1 \|W_\ell\|_2 \leq 1 ∥ W ℓ ∥ 2 ≤ 1
無制限の幅と深さを持つネットワークの集合 :
G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R } \mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R }
固定幅のネットワークの集合 :
G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R } \tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R }
ここで A i A_i A i はノルム制約付きアフィン写像である。
Stone-Weierstrass方法 :ネットワークの集合が点を分離する格であり、制限付きStone-Weierstrass定理の条件を満たすことを検証する構成的方法 :ネットワークがすべての区分的アフィン1-Lipschitz関数を正確に表現できることを証明する特殊な残差層構造を導入することで:
E ~ h , σ = { Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = [ max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ] } \tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\} E ~ h , σ = ⎩ ⎨ ⎧ Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ⎭ ⎬ ⎫
ReLUの正同次性と以下の恒等式を利用する:
x = σ ( x ) − σ ( − x ) x = \sigma(x) - \sigma(-x) x = σ ( x ) − σ ( − x ) max { x , y } = x + σ ( y − x ) \max\{x,y\} = x + \sigma(y-x) max { x , y } = x + σ ( y − x ) min { x , y } = x − σ ( x − y ) \min\{x,y\} = x - \sigma(x-y) min { x , y } = x − σ ( x − y ) Two-moonデータセット :4000個のポイント、標準偏差0.1のガウスノイズを追加、20%を訓練用に使用MNISTデータセット :標準的な訓練/テスト分割、入力は正規化処理最適化器 :コサイン焼きなまし学習率スケジューリングを備えたAdam最適化器バッチサイズ :256重み制約 :投影勾配降下法により実行、べき乗法を使用してスペクトル範数を推定初期化 :動的等距初期化戦略を採用層数 定理3.1アーキテクチャ 定理4.1アーキテクチャ L=2 99.75% 88.25% L=4 99.88% 99.88% L=8 100.00% 99.88% L=16 100.00% 100.00% L=32 99.88% 100.00% L=64 100.00% 100.00%
幅\深さ L=5 L=10 L=20 h=50 97.85% 97.67% 97.82% h=100 97.94% 97.70% 97.58% h=200 97.68% 97.77% 97.89%
訓練の安定性 :両方のアーキテクチャともネットワークの幅と深さに影響されず安定して訓練できる制約コスト :アフィン層を備えたアーキテクチャはより高い制約コストを持ち、深さとともに増加する傾向が強い性能表現 :単純なタスクでは完全な分類を達成でき、複雑なタスクでも良好な性能を示すd ∈ N d \in \mathbb{N} d ∈ N 、σ = ReLU \sigma = \text{ReLU} σ = ReLU 、X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d がコンパクトであるとき、G d , σ ( X , R ) \mathcal{G}_{d,\sigma}(X,\mathbb{R}) G d , σ ( X , R ) は C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) の汎用近似特性を満たす。
d ∈ N d \in \mathbb{N} d ∈ N 、σ = ReLU \sigma = \text{ReLU} σ = ReLU 、X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d がコンパクトであるとき、G ~ d , σ , d + 3 ( X , R ) \tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) G ~ d , σ , d + 3 ( X , R ) は C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) の汎用近似特性を満たす。
点分離性 :ネットワークの集合が任意の2つの異なるポイントを分離できることを証明する格の性質 :ネットワークの集合が最大値と最小値の演算で閉じていることを証明する稠密性 :制限付きStone-Weierstrass定理から導出される基本演算 :座標ごとの最大値と最小値を実装できることを証明する区分的アフィン表現 :max-min表現定理を利用する汎用近似 :区分的アフィン関数は1-Lipschitz関数で稠密であるスペクトル正規化 :重み行列のスペクトル範数を制御することで実現直交重み行列 :直交変換を使用してLipschitz特性を保持勾配流方法 :動力学系と数値解析に基づく制約戦略AnilらによるGroupSort活性化関数を使用した前向きネットワーク理論 Neumauerらによるスプライン活性化関数に関する研究 本論文は1-Lipschitz ResNetsに対する完全な理論を初めて提供する 理論的ブレークスルー :1-Lipschitz ResNetsに対する初の厳密な汎用近似理論を確立した実用的価値 :提案されたアーキテクチャは標準的な最適化器で訓練可能であり、明確な制約条件を持つ方法論的革新 :2つの相補的な証明方法を提供し、Lipschitz連続ResNetsの理解を深める活性化関数への依存 :理論はReLUの特殊な性質に大きく依存している実装の複雑さ :固定幅アーキテクチャは追加のアフィン層を必要とし、実装の複雑さが増すスカラー関数の制限 :主要な結果はスカラー値関数に集中しており、ベクトル値関数への拡張にはさらなる研究が必要である他の活性化関数 :他の活性化関数への理論的分析の拡張現代的アーキテクチャ :TransformersやGNNsなどの現代的アーキテクチャへの理論の応用近似速度 :具体的な近似速度と複雑度分析の研究ベクトル値関数 :多出力関数の理論的枠組みの完成理論的厳密性 :完全な数学的証明を提供し、重要な理論的空白を埋める方法論的革新性 :二重証明戦略は異なる理論的視点を提供する実用性 :すべての理論的結果は実装可能なネットワークアーキテクチャに対応している完全性 :理論的分析から実験的検証まで、完全な研究チェーンを形成している実験規模の限定 :実験は主に単純なデータセットに集中しており、大規模な応用検証が不足している計算複雑度 :制約実行の計算オーバーヘッドに関する分析が十分ではない比較基準 :他の1-Lipschitzネットワーク方法との詳細な比較が不足している学術的価値 :制約付き神経ネットワーク理論に重要な基礎を提供する応用の見通し :生成モデリング、逆問題、ロバスト学習分野での広範な応用の可能性方法論的貢献 :証明技術は他の制約付きネットワークの理論的分析に触発を与える可能性があるWasserstein GAN :判別器設計に理論的支援を提供するPlug-and-Play アルゴリズム :収束性を保証するデノイザー設計敵対的ロバスト性 :分類器の敵対的攻撃に対する抗性を向上させる逆問題の解法 :医療画像処理、信号処理などの分野での応用本論文は42の重要な参考文献を引用しており、汎用近似理論、Lipschitz制約方法、動力学系理論など複数の分野の中核的な研究をカバーしており、理論的分析のための堅実な基礎を提供している。