2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, SchÃ¶nlieb

1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.

academic

Approximationstheorie für 1-Lipschitz ResNets

Grundinformationen

Paper-ID: 2505.12003
Titel: Approximationstheorie für 1-Lipschitz ResNets
Autoren: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
Klassifizierung: cs.LG cs.NA math.NA
Konferenz: 39. Konferenz zu Neuronalen Informationsverarbeitungssystemen (NeurIPS 2025)
Paper-Link: https://arxiv.org/abs/2505.12003v2

Zusammenfassung

In dieser Arbeit werden die Approximationsfähigkeiten von 1-Lipschitz-Residualnetzwerken (ResNets) untersucht, die auf expliziten Euler-Schritten des negativen Gradientenflusses basieren. Mit Hilfe des eingeschränkten Stone-Weierstrass-Theorems wird zunächst bewiesen, dass diese 1-Lipschitz-ResNets in der Menge der skalaren 1-Lipschitz-Funktionen auf jeder kompakten Domäne dicht sind, wenn Breite und Tiefe wachsen dürfen. Es wird auch bewiesen, dass diese Netzwerke skalare stückweise affine 1-Lipschitz-Funktionen exakt darstellen können. Darüber hinaus wird ein stärkeres Ergebnis nachgewiesen: Durch das Einfügen von normgebundenen linearen Abbildungen zwischen Residualblöcken bleibt die gleiche Dichtheit auch bei fester verborgener Breite erhalten. Da jede Schicht einfachen Normbeschränkungen unterliegt, kann das resultierende Modell mit handelsüblichen Optimierern trainiert werden.

Forschungshintergrund und Motivation

Bedeutung des Problems

1-Lipschitz-Neuronale Netze spielen eine grundlegende Rolle in mehreren wichtigen Bereichen:

Generative Modellierung: Der Diskriminator in Wasserstein-GANs muss 1-Lipschitz sein, um durch die Kantorovich-Rubinstein-Dualität eine effektive Schätzung der 1-Wasserstein-Distanz zu liefern
Inverse Probleme: In Plug-and-Play-Algorithmen garantiert die 1-Lipschitz-Beschränkung die Konvergenz des iterativen Schemas
Robuste Klassifikatoren: Die Kontrolle der Lipschitz-Konstante des Netzwerks kann die Robustheit gegen adversarische Angriffe verbessern

Einschränkungen bestehender Methoden

Verringerte Ausdruckskraft: Die Beschränkung der Lipschitz-Konstante eines Netzwerks führt typischerweise zu einer Verringerung seiner Ausdruckskraft, was zu deutlich schlechterer Leistung führt
Fehlende Theorie: Das Verständnis der Approximationseigenschaften beschränkter Netzwerke ist unzureichend; unterschiedliche Beschränkungsstrategien können erheblich unterschiedliche Ausdruckskraft erzeugen
Implementierungsschwierigkeiten: Bestehende 1-Lipschitz-ResNets fehlen strenge theoretische Garantien

Forschungsmotivation

Diese Arbeit zielt darauf ab, die Lücke in der theoretischen Analyse von 1-Lipschitz-ResNets zu schließen und eine strenge mathematische Grundlage zum Verständnis der Approximationsfähigkeiten dieser Netzwerkklasse zu schaffen sowie theoretische Unterstützung für praktische Anwendungen zu bieten.

Kernbeiträge

Erstes universelles Approximationstheorem: Liefert die erste universelle Approximationsgarantie für 1-Lipschitz-ResNets und beweist die Dichtheit von auf negativem Gradientenfluss basierenden ResNets in der Menge der skalaren 1-Lipschitz-Funktionen
Approximationsergebnisse bei fester Breite: Durch die Einführung von normgebundenen linearen Abbildungen wird bewiesen, dass die universelle Approximationseigenschaft auch bei fester Netzwerkbreite erhalten bleibt
Konstruktive Beweismethoden: Bietet zwei Beweisstrategien – basierend auf dem eingeschränkten Stone-Weierstrass-Theorem und auf konstruktiven Methoden mit stückweise affinen Funktionen
Praktisches Architekturdesign: Die vorgeschlagene Netzwerkarchitektur hat explizite Beschränkungen und kann mit Standard-Optimierern trainiert werden

Methodische Details

Aufgabendefinition

Untersuchung des Raums der 1-Lipschitz-Funktionen auf der kompakten Menge $X \subset \mathbb{R}^d$ : $C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}$

Das Ziel besteht darin, eine Netzwerkfamilie zu konstruieren, die in $C_1(X,\mathbb{R})$ dicht ist.

Kernbausteine

1-Lipschitz-Residualschicht

Basierend auf expliziten Euler-Schritten des negativen Gradientenflusses: $\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)$

wobei $\sigma = \text{ReLU}$ , mit Beschränkungen: $0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2$ , $\|W_\ell\|_2 \leq 1$

Netzwerkarchitektur-Definition

Netzwerkfamilie mit unbegrenzter Breite und Tiefe: $\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

Netzwerkfamilie mit fester Breite: $\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

wobei $A_i$ normgebundene affine Abbildungen sind.

Technische Innovationen

1. Duale Beweismethode

Stone-Weierstrass-Methode: Verifikation, dass die Netzwerkfamilie ein Punkte-trennendes Gitter ist und die Bedingungen des eingeschränkten Stone-Weierstrass-Theorems erfüllt
Konstruktive Methode: Beweis, dass Netzwerke alle stückweise affinen 1-Lipschitz-Funktionen exakt darstellen können

2. Innovatives Design bei fester Breite

Durch Einführung einer speziellen Residualschichtstruktur: $\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}$

3. Ausnutzung von ReLU-Schlüsseleigenschaften

Nutzung der positiven Homogenität von ReLU und folgender Identitäten:

$x = \sigma(x) - \sigma(-x)$
$\max\{x,y\} = x + \sigma(y-x)$
$\min\{x,y\} = x - \sigma(x-y)$

Experimentelle Einrichtung

Datensätze

Two-Moon-Datensatz: 4000 Punkte, Gaußsches Rauschen mit Standardabweichung 0,1 hinzugefügt, 20% für Training verwendet
MNIST-Datensatz: Standard-Trainings-/Testteilung, Eingaben normalisiert

Bewertungsmetriken

Klassifizierungsgenauigkeit
Beschränkungsausführungszeit (durchschnittliche Zeit pro Epoche)

Implementierungsdetails

Optimierer: Adam-Optimierer mit Cosine-Annealing-Lernratenplanung
Batch-Größe: 256
Gewichtsbeschränkungen: Durchgesetzt durch projizierte Gradientenabstieg, Spektralnorm geschätzt mit Potenzverfahren
Initialisierung: Dynamische Isometrie-Initialisierungsstrategie

Experimentelle Ergebnisse

Hauptergebnisse

Two-Moon-Datensatz-Ergebnisse

Schichten	Theorem-3.1-Architektur	Theorem-4.1-Architektur
L=2	99,75%	88,25%
L=4	99,88%	99,88%
L=8	100,00%	99,88%
L=16	100,00%	100,00%
L=32	99,88%	100,00%
L=64	100,00%	100,00%

MNIST-Datensatz-Ergebnisse (Theorem-4.1-Architektur)

Breite\Tiefe	L=5	L=10	L=20
h=50	97,85%	97,67%	97,82%
h=100	97,94%	97,70%	97,58%
h=200	97,68%	97,77%	97,89%

Experimentelle Erkenntnisse

Trainingsstabilität: Beide Architekturen trainieren stabil, unbeeinflusst von Netzwerkbreite und -tiefe
Beschränkungskosten: Die Architektur mit affinen Schichten hat höhere Beschränkungskosten, die schneller mit der Tiefe wachsen
Leistung: Perfekte Klassifizierung bei einfachen Aufgaben erreichbar, gute Leistung bei komplexeren Aufgaben

Theoretische Analyse

Haupttheoreme

Theorem 3.1 (Unbegrenzte Breite und Tiefe)

Sei $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ kompakt, dann erfüllt $\mathcal{G}_{d,\sigma}(X,\mathbb{R})$ die universelle Approximationseigenschaft für $C_1(X,\mathbb{R})$ .

Theorem 4.1 (Feste Breite)

Sei $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ kompakt, dann erfüllt $\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R})$ die universelle Approximationseigenschaft für $C_1(X,\mathbb{R})$ .

Schlüsselschritte des Beweises

Stone-Weierstrass-Methode

Punkttrennung: Beweis, dass die Netzwerkfamilie beliebige zwei verschiedene Punkte trennen kann
Gittereigenschaft: Beweis, dass die Netzwerkfamilie unter Maximum- und Minimumoperationen abgeschlossen ist
Dichtheit: Folgt aus dem eingeschränkten Stone-Weierstrass-Theorem

Konstruktive Methode

Grundoperationen: Beweis, dass koordinatenweise Maximum- und Minimumoperationen implementiert werden können
Stückweise affine Darstellung: Nutzung des Max-Min-Darstellungstheorems
Universelle Approximation: Stückweise affine Funktionen sind in 1-Lipschitz-Funktionen dicht

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Durchbruch: Erste strenge universelle Approximationstheorie für 1-Lipschitz-ResNets etabliert
Praktischer Wert: Die vorgeschlagene Architektur kann mit Standard-Optimierern trainiert werden und hat explizite Beschränkungen
Methodische Innovation: Zwei komplementäre Beweismethoden bieten unterschiedliche theoretische Perspektiven und vertiefen das Verständnis von Lipschitz-kontinuierlichen ResNets

Einschränkungen

Abhängigkeit von Aktivierungsfunktion: Die Theorie hängt stark von den speziellen Eigenschaften von ReLU ab
Implementierungskomplexität: Die Architektur mit fester Breite erfordert zusätzliche affine Schichten, was die Implementierungskomplexität erhöht
Beschränkung auf skalare Funktionen: Hauptergebnisse konzentrieren sich auf skalarwertige Funktionen; die Erweiterung auf vektorwertige Funktionen erfordert weitere Forschung

Zukünftige Richtungen

Andere Aktivierungsfunktionen: Erweiterung der theoretischen Analyse auf andere Aktivierungsfunktionen
Moderne Architekturen: Anwendung der Theorie auf moderne Architekturen wie Transformers und GNNs
Approximationsraten: Untersuchung konkreter Approximationsraten und Komplexitätsanalyse
Vektorwertige Funktionen: Verbesserung des theoretischen Rahmens für Funktionen mit mehreren Ausgaben

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Bietet vollständige mathematische Beweise und füllt eine wichtige theoretische Lücke
Methodische Innovation: Die duale Beweismethode bietet unterschiedliche theoretische Perspektiven
Praktikalität: Alle theoretischen Ergebnisse entsprechen realisierbaren Netzwerkarchitekturen
Vollständigkeit: Von theoretischer Analyse bis experimenteller Validierung bildet sich eine vollständige Forschungskette

Mängel

Begrenzte Experimentgröße: Experimente konzentrieren sich hauptsächlich auf einfache Datensätze, es fehlt eine Validierung in großem Maßstab
Rechenkomplexität: Die Analyse des Rechenaufwands für die Beschränkungsausführung ist nicht ausreichend tiefgreifend
Vergleichsmaßstäbe: Es fehlt ein detaillierter Vergleich mit anderen 1-Lipschitz-Netzwerk-Methoden

Auswirkungen

Akademischer Wert: Bietet wichtige Grundlagen für die Theorie beschränkter neuronaler Netze
Anwendungsperspektiven: Breites Anwendungspotenzial in generativer Modellierung, inversen Problemen und robustem Lernen
Methodologischer Beitrag: Beweistechniken könnten die theoretische Analyse anderer beschränkter Netzwerke inspirieren

Anwendungsszenarien

Wasserstein-GANs: Theoretische Unterstützung für das Design von Diskriminatoren
Plug-and-Play-Algorithmen: Design von Denoisern, die Konvergenz garantieren
Adversarische Robustheit: Verbesserung der Widerstandsfähigkeit von Klassifikatoren gegen adversarische Angriffe
Lösung inverser Probleme: Anwendungen in medizinischer Bildgebung, Signalverarbeitung und anderen Bereichen

Literaturverzeichnis

Diese Arbeit zitiert 42 wichtige Arbeiten, die Kernarbeiten aus mehreren Bereichen abdecken, einschließlich universeller Approximationstheorie, Lipschitz-Beschränkungsmethoden und Theorie dynamischer Systeme, und bietet eine solide Grundlage für die theoretische Analyse.