2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

Approximationstheorie für 1-Lipschitz ResNets

Grundinformationen

  • Paper-ID: 2505.12003
  • Titel: Approximationstheorie für 1-Lipschitz ResNets
  • Autoren: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • Klassifizierung: cs.LG cs.NA math.NA
  • Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025)
  • Paper-Link: https://arxiv.org/abs/2505.12003v2

Zusammenfassung

In dieser Arbeit werden die Approximationsfähigkeiten von 1-Lipschitz-Residualnetzwerken (ResNets) untersucht, die auf expliziten Euler-Schritten des negativen Gradientenflusses basieren. Mit Hilfe des eingeschränkten Stone-Weierstrass-Theorems wird zunächst bewiesen, dass diese 1-Lipschitz-ResNets in der Menge der skalaren 1-Lipschitz-Funktionen auf jeder kompakten Domäne dicht sind, wenn Breite und Tiefe wachsen dürfen. Es wird auch bewiesen, dass diese Netzwerke skalare stückweise affine 1-Lipschitz-Funktionen exakt darstellen können. Darüber hinaus wird ein stärkeres Ergebnis nachgewiesen: Durch das Einfügen von normgebundenen linearen Abbildungen zwischen Residualblöcken bleibt die gleiche Dichtheit auch bei fester verborgener Breite erhalten. Da jede Schicht einfachen Normbeschränkungen unterliegt, kann das resultierende Modell mit handelsüblichen Optimierern trainiert werden.

Forschungshintergrund und Motivation

Bedeutung des Problems

1-Lipschitz-Neuronale Netze spielen eine grundlegende Rolle in mehreren wichtigen Bereichen:

  • Generative Modellierung: Der Diskriminator in Wasserstein-GANs muss 1-Lipschitz sein, um durch die Kantorovich-Rubinstein-Dualität eine effektive Schätzung der 1-Wasserstein-Distanz zu liefern
  • Inverse Probleme: In Plug-and-Play-Algorithmen garantiert die 1-Lipschitz-Beschränkung die Konvergenz des iterativen Schemas
  • Robuste Klassifikatoren: Die Kontrolle der Lipschitz-Konstante des Netzwerks kann die Robustheit gegen adversarische Angriffe verbessern

Einschränkungen bestehender Methoden

  1. Verringerte Ausdruckskraft: Die Beschränkung der Lipschitz-Konstante eines Netzwerks führt typischerweise zu einer Verringerung seiner Ausdruckskraft, was zu deutlich schlechterer Leistung führt
  2. Fehlende Theorie: Das Verständnis der Approximationseigenschaften beschränkter Netzwerke ist unzureichend; unterschiedliche Beschränkungsstrategien können erheblich unterschiedliche Ausdruckskraft erzeugen
  3. Implementierungsschwierigkeiten: Bestehende 1-Lipschitz-ResNets fehlen strenge theoretische Garantien

Forschungsmotivation

Diese Arbeit zielt darauf ab, die Lücke in der theoretischen Analyse von 1-Lipschitz-ResNets zu schließen und eine strenge mathematische Grundlage zum Verständnis der Approximationsfähigkeiten dieser Netzwerkklasse zu schaffen sowie theoretische Unterstützung für praktische Anwendungen zu bieten.

Kernbeiträge

  1. Erstes universelles Approximationstheorem: Liefert die erste universelle Approximationsgarantie für 1-Lipschitz-ResNets und beweist die Dichtheit von auf negativem Gradientenfluss basierenden ResNets in der Menge der skalaren 1-Lipschitz-Funktionen
  2. Approximationsergebnisse bei fester Breite: Durch die Einführung von normgebundenen linearen Abbildungen wird bewiesen, dass die universelle Approximationseigenschaft auch bei fester Netzwerkbreite erhalten bleibt
  3. Konstruktive Beweismethoden: Bietet zwei Beweisstrategien – basierend auf dem eingeschränkten Stone-Weierstrass-Theorem und auf konstruktiven Methoden mit stückweise affinen Funktionen
  4. Praktisches Architekturdesign: Die vorgeschlagene Netzwerkarchitektur hat explizite Beschränkungen und kann mit Standard-Optimierern trainiert werden

Methodische Details

Aufgabendefinition

Untersuchung des Raums der 1-Lipschitz-Funktionen auf der kompakten Menge XRdX \subset \mathbb{R}^d: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

Das Ziel besteht darin, eine Netzwerkfamilie zu konstruieren, die in C1(X,R)C_1(X,\mathbb{R}) dicht ist.

Kernbausteine

1-Lipschitz-Residualschicht

Basierend auf expliziten Euler-Schritten des negativen Gradientenflusses: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

wobei σ=ReLU\sigma = \text{ReLU}, mit Beschränkungen: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

Netzwerkarchitektur-Definition

Netzwerkfamilie mit unbegrenzter Breite und Tiefe: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

Netzwerkfamilie mit fester Breite: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

wobei AiA_i normgebundene affine Abbildungen sind.

Technische Innovationen

1. Duale Beweismethode

  • Stone-Weierstrass-Methode: Verifikation, dass die Netzwerkfamilie ein Punkte-trennendes Gitter ist und die Bedingungen des eingeschränkten Stone-Weierstrass-Theorems erfüllt
  • Konstruktive Methode: Beweis, dass Netzwerke alle stückweise affinen 1-Lipschitz-Funktionen exakt darstellen können

2. Innovatives Design bei fester Breite

Durch Einführung einer speziellen Residualschichtstruktur: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. Ausnutzung von ReLU-Schlüsseleigenschaften

Nutzung der positiven Homogenität von ReLU und folgender Identitäten:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

Experimentelle Einrichtung

Datensätze

  1. Two-Moon-Datensatz: 4000 Punkte, Gaußsches Rauschen mit Standardabweichung 0,1 hinzugefügt, 20% für Training verwendet
  2. MNIST-Datensatz: Standard-Trainings-/Testteilung, Eingaben normalisiert

Bewertungsmetriken

  • Klassifizierungsgenauigkeit
  • Beschränkungsausführungszeit (durchschnittliche Zeit pro Epoche)

Implementierungsdetails

  • Optimierer: Adam-Optimierer mit Cosine-Annealing-Lernratenplanung
  • Batch-Größe: 256
  • Gewichtsbeschränkungen: Durchgesetzt durch projizierte Gradientenabstieg, Spektralnorm geschätzt mit Potenzverfahren
  • Initialisierung: Dynamische Isometrie-Initialisierungsstrategie

Experimentelle Ergebnisse

Hauptergebnisse

Two-Moon-Datensatz-Ergebnisse

SchichtenTheorem-3.1-ArchitekturTheorem-4.1-Architektur
L=299,75%88,25%
L=499,88%99,88%
L=8100,00%99,88%
L=16100,00%100,00%
L=3299,88%100,00%
L=64100,00%100,00%

MNIST-Datensatz-Ergebnisse (Theorem-4.1-Architektur)

Breite\TiefeL=5L=10L=20
h=5097,85%97,67%97,82%
h=10097,94%97,70%97,58%
h=20097,68%97,77%97,89%

Experimentelle Erkenntnisse

  1. Trainingsstabilität: Beide Architekturen trainieren stabil, unbeeinflusst von Netzwerkbreite und -tiefe
  2. Beschränkungskosten: Die Architektur mit affinen Schichten hat höhere Beschränkungskosten, die schneller mit der Tiefe wachsen
  3. Leistung: Perfekte Klassifizierung bei einfachen Aufgaben erreichbar, gute Leistung bei komplexeren Aufgaben

Theoretische Analyse

Haupttheoreme

Theorem 3.1 (Unbegrenzte Breite und Tiefe)

Sei dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d kompakt, dann erfüllt Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) die universelle Approximationseigenschaft für C1(X,R)C_1(X,\mathbb{R}).

Theorem 4.1 (Feste Breite)

Sei dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d kompakt, dann erfüllt G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) die universelle Approximationseigenschaft für C1(X,R)C_1(X,\mathbb{R}).

Schlüsselschritte des Beweises

Stone-Weierstrass-Methode

  1. Punkttrennung: Beweis, dass die Netzwerkfamilie beliebige zwei verschiedene Punkte trennen kann
  2. Gittereigenschaft: Beweis, dass die Netzwerkfamilie unter Maximum- und Minimumoperationen abgeschlossen ist
  3. Dichtheit: Folgt aus dem eingeschränkten Stone-Weierstrass-Theorem

Konstruktive Methode

  1. Grundoperationen: Beweis, dass koordinatenweise Maximum- und Minimumoperationen implementiert werden können
  2. Stückweise affine Darstellung: Nutzung des Max-Min-Darstellungstheorems
  3. Universelle Approximation: Stückweise affine Funktionen sind in 1-Lipschitz-Funktionen dicht

Verwandte Arbeiten

Beschränkungsmethoden für 1-Lipschitz-Netzwerke

  1. Spektrale Normalisierung: Kontrolle der Spektralnorm der Gewichtsmatrizen
  2. Orthogonale Gewichtsmatrizen: Verwendung orthogonaler Transformationen zur Beibehaltung der Lipschitz-Eigenschaft
  3. Gradientenfluss-Methoden: Beschränkungsstrategien basierend auf dynamischen Systemen und numerischer Analyse

Approximationstheorie für beschränkte Netzwerke

  • Theorie von Anil et al. zu Feedforward-Netzwerken mit GroupSort-Aktivierungsfunktionen
  • Forschung von Neumayer et al. zu Spline-Aktivierungsfunktionen
  • Diese Arbeit bietet erstmals eine vollständige Theorie für 1-Lipschitz-ResNets

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Durchbruch: Erste strenge universelle Approximationstheorie für 1-Lipschitz-ResNets etabliert
  2. Praktischer Wert: Die vorgeschlagene Architektur kann mit Standard-Optimierern trainiert werden und hat explizite Beschränkungen
  3. Methodische Innovation: Zwei komplementäre Beweismethoden bieten unterschiedliche theoretische Perspektiven und vertiefen das Verständnis von Lipschitz-kontinuierlichen ResNets

Einschränkungen

  1. Abhängigkeit von Aktivierungsfunktion: Die Theorie hängt stark von den speziellen Eigenschaften von ReLU ab
  2. Implementierungskomplexität: Die Architektur mit fester Breite erfordert zusätzliche affine Schichten, was die Implementierungskomplexität erhöht
  3. Beschränkung auf skalare Funktionen: Hauptergebnisse konzentrieren sich auf skalarwertige Funktionen; die Erweiterung auf vektorwertige Funktionen erfordert weitere Forschung

Zukünftige Richtungen

  1. Andere Aktivierungsfunktionen: Erweiterung der theoretischen Analyse auf andere Aktivierungsfunktionen
  2. Moderne Architekturen: Anwendung der Theorie auf moderne Architekturen wie Transformers und GNNs
  3. Approximationsraten: Untersuchung konkreter Approximationsraten und Komplexitätsanalyse
  4. Vektorwertige Funktionen: Verbesserung des theoretischen Rahmens für Funktionen mit mehreren Ausgaben

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Bietet vollständige mathematische Beweise und füllt eine wichtige theoretische Lücke
  2. Methodische Innovation: Die duale Beweismethode bietet unterschiedliche theoretische Perspektiven
  3. Praktikalität: Alle theoretischen Ergebnisse entsprechen realisierbaren Netzwerkarchitekturen
  4. Vollständigkeit: Von theoretischer Analyse bis experimenteller Validierung bildet sich eine vollständige Forschungskette

Mängel

  1. Begrenzte Experimentgröße: Experimente konzentrieren sich hauptsächlich auf einfache Datensätze, es fehlt eine Validierung in großem Maßstab
  2. Rechenkomplexität: Die Analyse des Rechenaufwands für die Beschränkungsausführung ist nicht ausreichend tiefgreifend
  3. Vergleichsmaßstäbe: Es fehlt ein detaillierter Vergleich mit anderen 1-Lipschitz-Netzwerk-Methoden

Auswirkungen

  1. Akademischer Wert: Bietet wichtige Grundlagen für die Theorie beschränkter neuronaler Netze
  2. Anwendungsperspektiven: Breites Anwendungspotenzial in generativer Modellierung, inversen Problemen und robustem Lernen
  3. Methodologischer Beitrag: Beweistechniken könnten die theoretische Analyse anderer beschränkter Netzwerke inspirieren

Anwendungsszenarien

  1. Wasserstein-GANs: Theoretische Unterstützung für das Design von Diskriminatoren
  2. Plug-and-Play-Algorithmen: Design von Denoisern, die Konvergenz garantieren
  3. Adversarische Robustheit: Verbesserung der Widerstandsfähigkeit von Klassifikatoren gegen adversarische Angriffe
  4. Lösung inverser Probleme: Anwendungen in medizinischer Bildgebung, Signalverarbeitung und anderen Bereichen

Literaturverzeichnis

Diese Arbeit zitiert 42 wichtige Arbeiten, die Kernarbeiten aus mehreren Bereichen abdecken, einschließlich universeller Approximationstheorie, Lipschitz-Beschränkungsmethoden und Theorie dynamischer Systeme, und bietet eine solide Grundlage für die theoretische Analyse.