2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

1-Lipschitz ResNets의 근사 이론

기본 정보

  • 논문 ID: 2505.12003
  • 제목: Approximation theory for 1-Lipschitz ResNets
  • 저자: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • 분류: cs.LG cs.NA math.NA
  • 발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 논문 링크: https://arxiv.org/abs/2505.12003v2

초록

본 논문은 음의 기울기 흐름의 명시적 오일러 단계를 기반으로 하는 1-Lipschitz 잔차 신경망(ResNets)의 근사 능력을 연구한다. 제한된 Stone-Weierstrass 정리를 활용하여, 너비와 깊이가 증가할 수 있을 때 이러한 1-Lipschitz ResNets이 임의의 컴팩트 영역에서 스칼라 1-Lipschitz 함수 집합에서 조밀함을 먼저 증명한다. 또한 이러한 네트워크가 스칼라 구간별 아핀 1-Lipschitz 함수를 정확히 표현할 수 있음을 증명한다. 더욱이 잔차 블록 사이에 노름 제약이 있는 선형 매핑을 삽입함으로써 숨겨진 너비가 고정되었을 때도 동일한 조밀성을 유지할 수 있다는 더 강한 결론을 증명한다. 각 계층이 간단한 노름 제약을 따르므로, 결과 모델은 기성 최적화기로 훈련될 수 있다.

연구 배경 및 동기

문제의 중요성

1-Lipschitz 신경망은 여러 중요한 분야에서 기초적인 역할을 한다:

  • 생성 모델링: Wasserstein GAN의 판별기는 Kantorovich-Rubinstein 쌍대성을 통해 1-Wasserstein 거리의 효율적인 추정을 제공하기 위해 1-Lipschitz이어야 한다
  • 역 문제: Plug-and-Play 알고리즘에서 1-Lipschitz 제약은 반복 방식의 수렴성을 보장한다
  • 견고한 분류기: 네트워크의 Lipschitz 상수를 제어하면 적대적 공격에 대한 견고성을 향상시킬 수 있다

기존 방법의 한계

  1. 표현 능력 저하: 네트워크의 Lipschitz 상수를 제약하면 일반적으로 표현 능력이 감소하여 성능이 현저히 저하된다
  2. 이론 부재: 제약된 네트워크의 근사 특성에 대한 이해가 부족하며, 서로 다른 제약 전략은 현저히 다른 표현 능력을 생성할 수 있다
  3. 구현 어려움: 기존의 1-Lipschitz ResNet은 엄격한 이론적 보장이 부족하다

연구 동기

본 논문은 1-Lipschitz ResNets의 이론적 분석 공백을 메우고, 이러한 종류의 네트워크의 근사 능력을 이해하기 위한 엄격한 수학적 기초를 제공하며, 실제 응용을 위한 이론적 지원을 제공하는 것을 목표로 한다.

핵심 기여

  1. 첫 번째 통용 근사 정리: 1-Lipschitz ResNets에 대한 첫 번째 통용 근사 보장을 제공하며, 음의 기울기 흐름 기반 ResNets이 스칼라 1-Lipschitz 함수 집합에서 조밀함을 증명한다
  2. 고정 너비의 근사 결과: 노름 제약이 있는 선형 매핑을 도입함으로써, 고정된 네트워크 너비의 경우에도 통용 근사 특성을 유지할 수 있음을 증명한다
  3. 구성적 증명 방법: 제한된 Stone-Weierstrass 정리 기반 및 구간별 아핀 함수 기반의 두 가지 증명 전략을 제공한다
  4. 실용적 아키텍처 설계: 명확한 제약 조건을 가진 제안된 네트워크 아키텍처는 표준 최적화기로 훈련될 수 있다

방법 상세 설명

작업 정의

컴팩트 집합 XRdX \subset \mathbb{R}^d에서의 1-Lipschitz 함수 공간 연구: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

목표는 C1(X,R)C_1(X,\mathbb{R})에서 조밀한 신경망 집합을 구성하는 것이다.

핵심 구성 블록

1-Lipschitz 잔차 계층

음의 기울기 흐름의 명시적 오일러 단계 기반: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

여기서 σ=ReLU\sigma = \text{ReLU}이고, 제약 조건: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

네트워크 아키텍처 정의

무제한 너비 및 깊이의 네트워크 집합: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

고정 너비의 네트워크 집합: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

여기서 AiA_i는 노름 제약이 있는 아핀 매핑이다.

기술적 혁신점

1. 이중 증명 전략

  • Stone-Weierstrass 방법: 네트워크 집합이 점을 분리하는 격자이며 제한된 Stone-Weierstrass 정리의 조건을 만족함을 검증한다
  • 구성적 방법: 네트워크가 모든 구간별 아핀 1-Lipschitz 함수를 정확히 표현할 수 있음을 증명한다

2. 고정 너비의 혁신적 설계

특수한 잔차 계층 구조를 도입함으로써: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. ReLU의 핵심 특성 활용

ReLU의 양의 동차성과 다음 항등식을 활용한다:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

실험 설정

데이터셋

  1. Two-moon 데이터셋: 4000개 포인트, 표준편차 0.1의 가우시안 노이즈 추가, 20%를 훈련용으로 사용
  2. MNIST 데이터셋: 표준 훈련/테스트 분할, 입력 정규화 처리

평가 지표

  • 분류 정확도
  • 제약 실행 시간 (에포크당 평균 시간)

구현 세부사항

  • 최적화기: 코사인 어닐링 학습률 스케줄을 사용한 Adam 최적화기
  • 배치 크기: 256
  • 가중치 제약: 멱 방법을 사용한 스펙트럼 노름 추정으로 투영 기울기 하강을 통해 실행
  • 초기화: 동적 등거리성 초기화 전략 채택

실험 결과

주요 결과

Two-moon 데이터셋 결과

계층 수정리 3.1 아키텍처정리 4.1 아키텍처
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

MNIST 데이터셋 결과 (정리 4.1 아키텍처)

너비\깊이L=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

실험 발견

  1. 훈련 안정성: 두 아키텍처 모두 안정적으로 훈련되며 네트워크 너비와 깊이의 영향을 받지 않는다
  2. 제약 비용: 아핀 계층이 있는 아키텍처는 더 높은 제약 비용을 가지며 깊이에 따라 더 빠르게 증가한다
  3. 성능 표현: 간단한 작업에서 완벽한 분류에 도달할 수 있으며 복잡한 작업에서도 좋은 성능을 보인다

이론적 분석

주요 정리

정리 3.1 (무제한 너비 깊이)

dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d 컴팩트라 하자. 그러면 Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R})C1(X,R)C_1(X,\mathbb{R})의 통용 근사 특성을 만족한다.

정리 4.1 (고정 너비)

dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d 컴팩트라 하자. 그러면 G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R})C1(X,R)C_1(X,\mathbb{R})의 통용 근사 특성을 만족한다.

증명의 핵심 단계

Stone-Weierstrass 방법

  1. 점 분리성: 네트워크 집합이 임의의 두 개의 서로 다른 점을 분리할 수 있음을 증명한다
  2. 격자 특성: 네트워크 집합이 최댓값 및 최솟값 연산에서 닫혀 있음을 증명한다
  3. 조밀성: 제한된 Stone-Weierstrass 정리에서 도출된다

구성적 방법

  1. 기본 연산: 좌표별 최댓값 및 최솟값을 구현할 수 있음을 증명한다
  2. 구간별 아핀 표현: 최대-최소 표현 정리를 활용한다
  3. 통용 근사: 구간별 아핀 함수는 1-Lipschitz 함수에서 조밀하다

관련 연구

1-Lipschitz 네트워크 제약 방법

  1. 스펙트럼 정규화: 가중치 행렬의 스펙트럼 노름을 제어함으로써
  2. 직교 가중치 행렬: 직교 변환을 사용하여 Lipschitz 특성을 유지한다
  3. 기울기 흐름 방법: 동역학계 및 수치 분석 기반의 제약 전략

제약된 네트워크의 근사 이론

  • Anil 등의 GroupSort 활성화 함수를 사용한 전방향 네트워크 이론
  • Neumayer 등의 스플라인 활성화 함수에 관한 연구
  • 본 논문은 1-Lipschitz ResNets에 대한 완전한 이론을 처음으로 제공한다

결론 및 논의

주요 결론

  1. 이론적 돌파: 1-Lipschitz ResNets에 대한 엄격한 통용 근사 이론을 처음으로 수립했다
  2. 실용적 가치: 제안된 아키텍처는 표준 최적화기로 훈련될 수 있으며 명확한 제약 조건을 가진다
  3. 방법론적 혁신: 두 가지 상호 보완적인 증명 방법을 제공하여 Lipschitz 연속 ResNets에 대한 이해를 심화시킨다

한계

  1. 활성화 함수 의존성: 이론은 ReLU의 특수한 특성에 크게 의존한다
  2. 구현 복잡성: 고정 너비 아키텍처는 추가 아핀 계층이 필요하여 구현 복잡도가 증가한다
  3. 스칼라 함수 제한: 주요 결과는 스칼라 값 함수에 집중되어 있으며, 벡터 값 함수로의 확장은 추가 연구가 필요하다

향후 방향

  1. 다른 활성화 함수: 다른 활성화 함수의 이론적 분석으로 확장
  2. 현대 아키텍처: Transformers 및 GNNs 등 현대 아키텍처에 이론 적용
  3. 근사 속도: 구체적인 근사 속도 및 복잡도 분석 연구
  4. 벡터 값 함수: 다중 출력 함수의 이론적 프레임워크 완성

심층 평가

장점

  1. 이론적 엄밀성: 완전한 수학적 증명을 제공하여 중요한 이론적 공백을 메운다
  2. 방법론적 혁신성: 이중 증명 전략은 서로 다른 이론적 관점을 제공한다
  3. 실용성: 모든 이론적 결과는 구현 가능한 네트워크 아키텍처에 대응된다
  4. 완전성: 이론적 분석에서 실험적 검증까지 완전한 연구 체인을 형성한다

부족한 점

  1. 제한된 실험 규모: 실험은 주로 간단한 데이터셋에 집중되어 있으며 대규모 응용 검증이 부족하다
  2. 계산 복잡도: 제약 실행의 계산 오버헤드 분석이 충분하지 않다
  3. 비교 기준: 다른 1-Lipschitz 네트워크 방법과의 상세한 비교가 부족하다

영향력

  1. 학술적 가치: 제약된 신경망 이론에 중요한 기초를 제공한다
  2. 응용 전망: 생성 모델링, 역 문제 및 견고한 학습 분야에서 광범위한 응용 가능성이 있다
  3. 방법론적 기여: 증명 기법은 다른 제약된 네트워크의 이론적 분석에 영감을 줄 수 있다

적용 시나리오

  1. Wasserstein GANs: 판별기 설계에 대한 이론적 지원 제공
  2. Plug-and-Play 알고리즘: 수렴성을 보장하는 디노이저 설계
  3. 적대적 견고성: 분류기의 적대적 공격에 대한 저항성 향상
  4. 역 문제 해결: 의료 영상, 신호 처리 등 분야의 응용

참고문헌

본 논문은 42개의 중요 참고문헌을 인용하며, 통용 근사 이론, Lipschitz 제약 방법, 동역학계 이론 등 여러 분야의 핵심 연구를 포함하여 이론적 분석을 위한 견고한 기초를 제공한다.