1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
논문 ID : 2505.12003제목 : Approximation theory for 1-Lipschitz ResNets저자 : Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)분류 : cs.LG cs.NA math.NA발표 학회 : 39th Conference on Neural Information Processing Systems (NeurIPS 2025)논문 링크 : https://arxiv.org/abs/2505.12003v2 본 논문은 음의 기울기 흐름의 명시적 오일러 단계를 기반으로 하는 1-Lipschitz 잔차 신경망(ResNets)의 근사 능력을 연구한다. 제한된 Stone-Weierstrass 정리를 활용하여, 너비와 깊이가 증가할 수 있을 때 이러한 1-Lipschitz ResNets이 임의의 컴팩트 영역에서 스칼라 1-Lipschitz 함수 집합에서 조밀함을 먼저 증명한다. 또한 이러한 네트워크가 스칼라 구간별 아핀 1-Lipschitz 함수를 정확히 표현할 수 있음을 증명한다. 더욱이 잔차 블록 사이에 노름 제약이 있는 선형 매핑을 삽입함으로써 숨겨진 너비가 고정되었을 때도 동일한 조밀성을 유지할 수 있다는 더 강한 결론을 증명한다. 각 계층이 간단한 노름 제약을 따르므로, 결과 모델은 기성 최적화기로 훈련될 수 있다.
1-Lipschitz 신경망은 여러 중요한 분야에서 기초적인 역할을 한다:
생성 모델링 : Wasserstein GAN의 판별기는 Kantorovich-Rubinstein 쌍대성을 통해 1-Wasserstein 거리의 효율적인 추정을 제공하기 위해 1-Lipschitz이어야 한다역 문제 : Plug-and-Play 알고리즘에서 1-Lipschitz 제약은 반복 방식의 수렴성을 보장한다견고한 분류기 : 네트워크의 Lipschitz 상수를 제어하면 적대적 공격에 대한 견고성을 향상시킬 수 있다표현 능력 저하 : 네트워크의 Lipschitz 상수를 제약하면 일반적으로 표현 능력이 감소하여 성능이 현저히 저하된다이론 부재 : 제약된 네트워크의 근사 특성에 대한 이해가 부족하며, 서로 다른 제약 전략은 현저히 다른 표현 능력을 생성할 수 있다구현 어려움 : 기존의 1-Lipschitz ResNet은 엄격한 이론적 보장이 부족하다본 논문은 1-Lipschitz ResNets의 이론적 분석 공백을 메우고, 이러한 종류의 네트워크의 근사 능력을 이해하기 위한 엄격한 수학적 기초를 제공하며, 실제 응용을 위한 이론적 지원을 제공하는 것을 목표로 한다.
첫 번째 통용 근사 정리 : 1-Lipschitz ResNets에 대한 첫 번째 통용 근사 보장을 제공하며, 음의 기울기 흐름 기반 ResNets이 스칼라 1-Lipschitz 함수 집합에서 조밀함을 증명한다고정 너비의 근사 결과 : 노름 제약이 있는 선형 매핑을 도입함으로써, 고정된 네트워크 너비의 경우에도 통용 근사 특성을 유지할 수 있음을 증명한다구성적 증명 방법 : 제한된 Stone-Weierstrass 정리 기반 및 구간별 아핀 함수 기반의 두 가지 증명 전략을 제공한다실용적 아키텍처 설계 : 명확한 제약 조건을 가진 제안된 네트워크 아키텍처는 표준 최적화기로 훈련될 수 있다컴팩트 집합 X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 에서의 1-Lipschitz 함수 공간 연구:
C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X } C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\} C 1 ( X , R ) = { g : X → R ∣ ∥ g ( y ) − g ( x ) ∥ 2 ≤ ∥ y − x ∥ 2 , ∀ x , y ∈ X }
목표는 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 에서 조밀한 신경망 집합을 구성하는 것이다.
음의 기울기 흐름의 명시적 오일러 단계 기반:
Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ ) \Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell) Φ θ ℓ ( x ) = x − τ ℓ W ℓ T σ ( W ℓ x + b ℓ )
여기서 σ = ReLU \sigma = \text{ReLU} σ = ReLU 이고, 제약 조건: 0 ≤ τ ℓ ≤ 2 / ∥ W ℓ ∥ 2 2 0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2 0 ≤ τ ℓ ≤ 2/∥ W ℓ ∥ 2 2 , ∥ W ℓ ∥ 2 ≤ 1 \|W_\ell\|_2 \leq 1 ∥ W ℓ ∥ 2 ≤ 1
무제한 너비 및 깊이의 네트워크 집합 :
G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R } \mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G d , σ ( X , R ) = C 1 ( X , R ) ∩ { v T ∘ Φ θ L ∘ ⋯ ∘ Φ θ 1 ∘ Q : X → R }
고정 너비의 네트워크 집합 :
G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R } \tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\} G ~ d , σ , h ( X , R ) = { v T ∘ Φ θ L ∘ A L − 1 ∘ ⋯ ∘ A 1 ∘ Φ θ 1 ∘ Q : X → R }
여기서 A i A_i A i 는 노름 제약이 있는 아핀 매핑이다.
Stone-Weierstrass 방법 : 네트워크 집합이 점을 분리하는 격자이며 제한된 Stone-Weierstrass 정리의 조건을 만족함을 검증한다구성적 방법 : 네트워크가 모든 구간별 아핀 1-Lipschitz 함수를 정확히 표현할 수 있음을 증명한다특수한 잔차 계층 구조를 도입함으로써:
E ~ h , σ = { Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = [ max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ] } \tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\} E ~ h , σ = ⎩ ⎨ ⎧ Φ θ : R h + 3 → R h + 3 ∣ Φ θ ( x ) = max { x 1 , x 2 } min { x 1 , x 2 } x 3 Φ ~ θ ( x 4 : ) ⎭ ⎬ ⎫
ReLU의 양의 동차성과 다음 항등식을 활용한다:
x = σ ( x ) − σ ( − x ) x = \sigma(x) - \sigma(-x) x = σ ( x ) − σ ( − x ) max { x , y } = x + σ ( y − x ) \max\{x,y\} = x + \sigma(y-x) max { x , y } = x + σ ( y − x ) min { x , y } = x − σ ( x − y ) \min\{x,y\} = x - \sigma(x-y) min { x , y } = x − σ ( x − y ) Two-moon 데이터셋 : 4000개 포인트, 표준편차 0.1의 가우시안 노이즈 추가, 20%를 훈련용으로 사용MNIST 데이터셋 : 표준 훈련/테스트 분할, 입력 정규화 처리분류 정확도 제약 실행 시간 (에포크당 평균 시간) 최적화기 : 코사인 어닐링 학습률 스케줄을 사용한 Adam 최적화기배치 크기 : 256가중치 제약 : 멱 방법을 사용한 스펙트럼 노름 추정으로 투영 기울기 하강을 통해 실행초기화 : 동적 등거리성 초기화 전략 채택계층 수 정리 3.1 아키텍처 정리 4.1 아키텍처 L=2 99.75% 88.25% L=4 99.88% 99.88% L=8 100.00% 99.88% L=16 100.00% 100.00% L=32 99.88% 100.00% L=64 100.00% 100.00%
너비\깊이 L=5 L=10 L=20 h=50 97.85% 97.67% 97.82% h=100 97.94% 97.70% 97.58% h=200 97.68% 97.77% 97.89%
훈련 안정성 : 두 아키텍처 모두 안정적으로 훈련되며 네트워크 너비와 깊이의 영향을 받지 않는다제약 비용 : 아핀 계층이 있는 아키텍처는 더 높은 제약 비용을 가지며 깊이에 따라 더 빠르게 증가한다성능 표현 : 간단한 작업에서 완벽한 분류에 도달할 수 있으며 복잡한 작업에서도 좋은 성능을 보인다d ∈ N d \in \mathbb{N} d ∈ N , σ = ReLU \sigma = \text{ReLU} σ = ReLU , X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 컴팩트라 하자. 그러면 G d , σ ( X , R ) \mathcal{G}_{d,\sigma}(X,\mathbb{R}) G d , σ ( X , R ) 는 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 의 통용 근사 특성을 만족한다.
d ∈ N d \in \mathbb{N} d ∈ N , σ = ReLU \sigma = \text{ReLU} σ = ReLU , X ⊂ R d X \subset \mathbb{R}^d X ⊂ R d 컴팩트라 하자. 그러면 G ~ d , σ , d + 3 ( X , R ) \tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) G ~ d , σ , d + 3 ( X , R ) 는 C 1 ( X , R ) C_1(X,\mathbb{R}) C 1 ( X , R ) 의 통용 근사 특성을 만족한다.
점 분리성 : 네트워크 집합이 임의의 두 개의 서로 다른 점을 분리할 수 있음을 증명한다격자 특성 : 네트워크 집합이 최댓값 및 최솟값 연산에서 닫혀 있음을 증명한다조밀성 : 제한된 Stone-Weierstrass 정리에서 도출된다기본 연산 : 좌표별 최댓값 및 최솟값을 구현할 수 있음을 증명한다구간별 아핀 표현 : 최대-최소 표현 정리를 활용한다통용 근사 : 구간별 아핀 함수는 1-Lipschitz 함수에서 조밀하다스펙트럼 정규화 : 가중치 행렬의 스펙트럼 노름을 제어함으로써직교 가중치 행렬 : 직교 변환을 사용하여 Lipschitz 특성을 유지한다기울기 흐름 방법 : 동역학계 및 수치 분석 기반의 제약 전략Anil 등의 GroupSort 활성화 함수를 사용한 전방향 네트워크 이론 Neumayer 등의 스플라인 활성화 함수에 관한 연구 본 논문은 1-Lipschitz ResNets에 대한 완전한 이론을 처음으로 제공한다 이론적 돌파 : 1-Lipschitz ResNets에 대한 엄격한 통용 근사 이론을 처음으로 수립했다실용적 가치 : 제안된 아키텍처는 표준 최적화기로 훈련될 수 있으며 명확한 제약 조건을 가진다방법론적 혁신 : 두 가지 상호 보완적인 증명 방법을 제공하여 Lipschitz 연속 ResNets에 대한 이해를 심화시킨다활성화 함수 의존성 : 이론은 ReLU의 특수한 특성에 크게 의존한다구현 복잡성 : 고정 너비 아키텍처는 추가 아핀 계층이 필요하여 구현 복잡도가 증가한다스칼라 함수 제한 : 주요 결과는 스칼라 값 함수에 집중되어 있으며, 벡터 값 함수로의 확장은 추가 연구가 필요하다다른 활성화 함수 : 다른 활성화 함수의 이론적 분석으로 확장현대 아키텍처 : Transformers 및 GNNs 등 현대 아키텍처에 이론 적용근사 속도 : 구체적인 근사 속도 및 복잡도 분석 연구벡터 값 함수 : 다중 출력 함수의 이론적 프레임워크 완성이론적 엄밀성 : 완전한 수학적 증명을 제공하여 중요한 이론적 공백을 메운다방법론적 혁신성 : 이중 증명 전략은 서로 다른 이론적 관점을 제공한다실용성 : 모든 이론적 결과는 구현 가능한 네트워크 아키텍처에 대응된다완전성 : 이론적 분석에서 실험적 검증까지 완전한 연구 체인을 형성한다제한된 실험 규모 : 실험은 주로 간단한 데이터셋에 집중되어 있으며 대규모 응용 검증이 부족하다계산 복잡도 : 제약 실행의 계산 오버헤드 분석이 충분하지 않다비교 기준 : 다른 1-Lipschitz 네트워크 방법과의 상세한 비교가 부족하다학술적 가치 : 제약된 신경망 이론에 중요한 기초를 제공한다응용 전망 : 생성 모델링, 역 문제 및 견고한 학습 분야에서 광범위한 응용 가능성이 있다방법론적 기여 : 증명 기법은 다른 제약된 네트워크의 이론적 분석에 영감을 줄 수 있다Wasserstein GANs : 판별기 설계에 대한 이론적 지원 제공Plug-and-Play 알고리즘 : 수렴성을 보장하는 디노이저 설계적대적 견고성 : 분류기의 적대적 공격에 대한 저항성 향상역 문제 해결 : 의료 영상, 신호 처리 등 분야의 응용본 논문은 42개의 중요 참고문헌을 인용하며, 통용 근사 이론, Lipschitz 제약 방법, 동역학계 이론 등 여러 분야의 핵심 연구를 포함하여 이론적 분석을 위한 견고한 기초를 제공한다.