1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
In dieser Arbeit werden die Approximationsfähigkeiten von 1-Lipschitz-Residualnetzwerken (ResNets) untersucht, die auf expliziten Euler-Schritten des negativen Gradientenflusses basieren. Mit Hilfe des eingeschränkten Stone-Weierstrass-Theorems wird zunächst bewiesen, dass diese 1-Lipschitz-ResNets in der Menge der skalaren 1-Lipschitz-Funktionen auf jeder kompakten Domäne dicht sind, wenn Breite und Tiefe wachsen dürfen. Es wird auch bewiesen, dass diese Netzwerke skalare stückweise affine 1-Lipschitz-Funktionen exakt darstellen können. Darüber hinaus wird ein stärkeres Ergebnis nachgewiesen: Durch das Einfügen von normgebundenen linearen Abbildungen zwischen Residualblöcken bleibt die gleiche Dichtheit auch bei fester verborgener Breite erhalten. Da jede Schicht einfachen Normbeschränkungen unterliegt, kann das resultierende Modell mit handelsüblichen Optimierern trainiert werden.
1-Lipschitz-Neuronale Netze spielen eine grundlegende Rolle in mehreren wichtigen Bereichen:
Generative Modellierung: Der Diskriminator in Wasserstein-GANs muss 1-Lipschitz sein, um durch die Kantorovich-Rubinstein-Dualität eine effektive Schätzung der 1-Wasserstein-Distanz zu liefern
Inverse Probleme: In Plug-and-Play-Algorithmen garantiert die 1-Lipschitz-Beschränkung die Konvergenz des iterativen Schemas
Robuste Klassifikatoren: Die Kontrolle der Lipschitz-Konstante des Netzwerks kann die Robustheit gegen adversarische Angriffe verbessern
Verringerte Ausdruckskraft: Die Beschränkung der Lipschitz-Konstante eines Netzwerks führt typischerweise zu einer Verringerung seiner Ausdruckskraft, was zu deutlich schlechterer Leistung führt
Fehlende Theorie: Das Verständnis der Approximationseigenschaften beschränkter Netzwerke ist unzureichend; unterschiedliche Beschränkungsstrategien können erheblich unterschiedliche Ausdruckskraft erzeugen
Diese Arbeit zielt darauf ab, die Lücke in der theoretischen Analyse von 1-Lipschitz-ResNets zu schließen und eine strenge mathematische Grundlage zum Verständnis der Approximationsfähigkeiten dieser Netzwerkklasse zu schaffen sowie theoretische Unterstützung für praktische Anwendungen zu bieten.
Erstes universelles Approximationstheorem: Liefert die erste universelle Approximationsgarantie für 1-Lipschitz-ResNets und beweist die Dichtheit von auf negativem Gradientenfluss basierenden ResNets in der Menge der skalaren 1-Lipschitz-Funktionen
Approximationsergebnisse bei fester Breite: Durch die Einführung von normgebundenen linearen Abbildungen wird bewiesen, dass die universelle Approximationseigenschaft auch bei fester Netzwerkbreite erhalten bleibt
Konstruktive Beweismethoden: Bietet zwei Beweisstrategien – basierend auf dem eingeschränkten Stone-Weierstrass-Theorem und auf konstruktiven Methoden mit stückweise affinen Funktionen
Praktisches Architekturdesign: Die vorgeschlagene Netzwerkarchitektur hat explizite Beschränkungen und kann mit Standard-Optimierern trainiert werden
Stone-Weierstrass-Methode: Verifikation, dass die Netzwerkfamilie ein Punkte-trennendes Gitter ist und die Bedingungen des eingeschränkten Stone-Weierstrass-Theorems erfüllt
Konstruktive Methode: Beweis, dass Netzwerke alle stückweise affinen 1-Lipschitz-Funktionen exakt darstellen können
Theoretischer Durchbruch: Erste strenge universelle Approximationstheorie für 1-Lipschitz-ResNets etabliert
Praktischer Wert: Die vorgeschlagene Architektur kann mit Standard-Optimierern trainiert werden und hat explizite Beschränkungen
Methodische Innovation: Zwei komplementäre Beweismethoden bieten unterschiedliche theoretische Perspektiven und vertiefen das Verständnis von Lipschitz-kontinuierlichen ResNets
Abhängigkeit von Aktivierungsfunktion: Die Theorie hängt stark von den speziellen Eigenschaften von ReLU ab
Implementierungskomplexität: Die Architektur mit fester Breite erfordert zusätzliche affine Schichten, was die Implementierungskomplexität erhöht
Beschränkung auf skalare Funktionen: Hauptergebnisse konzentrieren sich auf skalarwertige Funktionen; die Erweiterung auf vektorwertige Funktionen erfordert weitere Forschung
Diese Arbeit zitiert 42 wichtige Arbeiten, die Kernarbeiten aus mehreren Bereichen abdecken, einschließlich universeller Approximationstheorie, Lipschitz-Beschränkungsmethoden und Theorie dynamischer Systeme, und bietet eine solide Grundlage für die theoretische Analyse.