2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, SchÃ¶nlieb

1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.

academic

Théorie de l'approximation pour les ResNets 1-Lipschitz

Informations fondamentales

ID de l'article: 2505.12003
Titre: Approximation theory for 1-Lipschitz ResNets
Auteurs: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
Classification: cs.LG cs.NA math.NA
Conférence de publication: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Lien de l'article: https://arxiv.org/abs/2505.12003v2

Résumé

Cet article étudie la capacité d'approximation des réseaux de neurones résiduels (ResNets) 1-Lipschitz basés sur les étapes d'Euler explicites du flux de gradient négatif. En utilisant le théorème de Stone-Weierstrass restreint, nous établissons d'abord que ces ResNets 1-Lipschitz sont denses dans l'ensemble des fonctions scalaires 1-Lipschitz sur tout domaine compact lorsque la largeur et la profondeur sont autorisées à croître. Nous démontrons également que ces réseaux peuvent représenter exactement les fonctions scalaires affines par morceaux 1-Lipschitz. De plus, nous établissons un résultat plus fort : en insérant des applications linéaires avec contraintes de norme entre les blocs résiduels, nous conservons la même densité même lorsque la largeur cachée est fixée. Puisque chaque couche suit des contraintes de norme simples, le modèle résultant peut être entraîné avec des optimiseurs prêts à l'emploi.

Contexte et motivation de la recherche

Importance du problème

Les réseaux de neurones 1-Lipschitz jouent un rôle fondamental dans plusieurs domaines importants :

Modélisation générative: Le discriminateur dans les Wasserstein GAN doit être 1-Lipschitz pour fournir une estimation efficace de la distance 1-Wasserstein via la dualité de Kantorovich-Rubinstein
Problèmes inverses: Dans les algorithmes Plug-and-Play, la contrainte 1-Lipschitz garantit la convergence du schéma itératif
Classificateurs robustes: Contrôler la constante de Lipschitz du réseau améliore la robustesse aux attaques adversariales

Limitations des méthodes existantes

Réduction de la capacité d'expression: Contraindre la constante de Lipschitz du réseau réduit généralement sa capacité d'expression, entraînant une baisse notable de performance
Absence de théorie: La compréhension des propriétés d'approximation des réseaux contraints est insuffisante, et différentes stratégies de contrainte peuvent produire des capacités d'expression significativement différentes
Difficultés d'implémentation: Les ResNets 1-Lipschitz existants manquent de garanties théoriques rigoureuses

Motivation de la recherche

Cet article vise à combler le vide dans l'analyse théorique des ResNets 1-Lipschitz, en fournissant une base mathématique rigoureuse pour comprendre la capacité d'approximation de ces réseaux et en offrant un soutien théorique pour les applications pratiques.

Contributions principales

Premier théorème d'approximation universelle: Fournit la première garantie d'approximation universelle pour les ResNets 1-Lipschitz, démontrant la densité des ResNets basés sur le flux de gradient négatif dans l'ensemble des fonctions scalaires 1-Lipschitz
Résultats d'approximation à largeur fixe: En introduisant des applications linéaires avec contraintes de norme, nous démontrons que la propriété d'approximation universelle est conservée même avec une largeur de réseau fixe
Méthode de preuve constructive: Fournit deux stratégies de preuve - basée sur le théorème de Stone-Weierstrass restreint et basée sur une méthode constructive utilisant des fonctions affines par morceaux
Conception d'architecture pratique: L'architecture de réseau proposée possède des conditions de contrainte explicites et peut être entraînée avec des optimiseurs standard

Détails de la méthode

Définition de la tâche

Étude de l'espace des fonctions 1-Lipschitz sur un ensemble compact $X \subset \mathbb{R}^d$ : $C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}$

L'objectif est de construire une famille de réseaux de neurones qui soit dense dans $C_1(X,\mathbb{R})$ .

Modules de construction principaux

Couche résiduelle 1-Lipschitz

Basée sur l'étape d'Euler explicite du flux de gradient négatif : $\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)$

où $\sigma = \text{ReLU}$ , avec les contraintes : $0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2$ , $\|W_\ell\|_2 \leq 1$

Définition de l'architecture du réseau

Ensemble de réseaux avec largeur et profondeur non bornées : $\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

Ensemble de réseaux avec largeur fixe : $\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

où $A_i$ sont des applications affines avec contraintes de norme.

Points d'innovation technique

1. Stratégie de preuve double

Méthode de Stone-Weierstrass: Vérification que l'ensemble de réseaux est un treillis séparant les points, satisfaisant les conditions du théorème de Stone-Weierstrass restreint
Méthode constructive: Démonstration que le réseau peut représenter exactement toutes les fonctions affines par morceaux 1-Lipschitz

2. Conception innovante à largeur fixe

Introduction d'une structure de couche résiduelle spéciale : $\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}$

3. Exploitation des propriétés clés de ReLU

Utilisation de l'homogénéité positive de ReLU et des identités suivantes :

$x = \sigma(x) - \sigma(-x)$
$\max\{x,y\} = x + \sigma(y-x)$
$\min\{x,y\} = x - \sigma(x-y)$

Configuration expérimentale

Ensembles de données

Ensemble de données Two-moon: 4000 points, bruit gaussien ajouté avec écart-type 0,1, 20% utilisés pour l'entraînement
Ensemble de données MNIST: Division standard entraînement/test, traitement de normalisation des entrées

Métriques d'évaluation

Précision de classification
Temps d'exécution des contraintes (temps moyen par époque)

Détails d'implémentation

Optimiseur: Optimiseur Adam avec planification du taux d'apprentissage par recuit cosinus
Taille de lot: 256
Contraintes de poids: Exécutées via descente de gradient projetée, utilisant la méthode de puissance pour estimer la norme spectrale
Initialisation: Stratégie d'initialisation isométrique dynamique

Résultats expérimentaux

Résultats principaux

Résultats sur l'ensemble de données Two-moon

Couches	Architecture Théorème 3.1	Architecture Théorème 4.1
L=2	99,75%	88,25%
L=4	99,88%	99,88%
L=8	100,00%	99,88%
L=16	100,00%	100,00%
L=32	99,88%	100,00%
L=64	100,00%	100,00%

Résultats sur l'ensemble de données MNIST (Architecture Théorème 4.1)

Largeur\Profondeur	L=5	L=10	L=20
h=50	97,85%	97,67%	97,82%
h=100	97,94%	97,70%	97,58%
h=200	97,68%	97,77%	97,89%

Découvertes expérimentales

Stabilité d'entraînement: Les deux architectures peuvent être entraînées de manière stable, sans être affectées par la largeur et la profondeur du réseau
Coût des contraintes: L'architecture avec couches affines a un coût de contrainte plus élevé, augmentant plus rapidement avec la profondeur
Performance: Peut atteindre une classification parfaite sur des tâches simples et montre de bonnes performances sur des tâches complexes

Analyse théorique

Théorèmes principaux

Théorème 3.1 (Largeur et profondeur non bornées)

Soit $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compact, alors $\mathcal{G}_{d,\sigma}(X,\mathbb{R})$ satisfait la propriété d'approximation universelle pour $C_1(X,\mathbb{R})$ .

Théorème 4.1 (Largeur fixe)

Soit $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compact, alors $\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R})$ satisfait la propriété d'approximation universelle pour $C_1(X,\mathbb{R})$ .

Étapes clés de la preuve

Méthode de Stone-Weierstrass

Séparation des points: Démonstration que l'ensemble de réseaux peut séparer deux points distincts quelconques
Propriété de treillis: Démonstration que l'ensemble de réseaux est fermé sous les opérations de maximum et minimum
Densité: Résultant du théorème de Stone-Weierstrass restreint

Méthode constructive

Opérations élémentaires: Démonstration que le maximum et le minimum coordonnée par coordonnée peuvent être implémentés
Représentation affine par morceaux: Utilisation du théorème de représentation max-min
Approximation universelle: Les fonctions affines par morceaux sont denses dans les fonctions 1-Lipschitz

Travaux connexes

Méthodes de contrainte pour réseaux 1-Lipschitz

Normalisation spectrale: Contrôle de la norme spectrale des matrices de poids
Matrices de poids orthogonales: Utilisation de transformations orthogonales pour préserver la propriété de Lipschitz
Méthodes de flux de gradient: Stratégies de contrainte basées sur les systèmes dynamiques et l'analyse numérique

Théorie d'approximation pour réseaux contraints

Théorie des réseaux feedforward utilisant la fonction d'activation GroupSort par Anil et al.
Recherche sur les fonctions d'activation spline par Neumayer et al.
Cet article fournit pour la première fois une théorie complète spécifique aux ResNets 1-Lipschitz

Conclusion et discussion

Conclusions principales

Percée théorique: Établissement pour la première fois d'une théorie rigoureuse d'approximation universelle pour les ResNets 1-Lipschitz
Valeur pratique: L'architecture proposée peut être entraînée avec des optimiseurs standard et possède des conditions de contrainte explicites
Innovation méthodologique: Fournit deux méthodes de preuve complémentaires, approfondissant la compréhension des ResNets continus de Lipschitz

Limitations

Dépendance à la fonction d'activation: La théorie dépend fortement des propriétés spéciales de ReLU
Complexité d'implémentation: L'architecture à largeur fixe nécessite des couches affines supplémentaires, augmentant la complexité d'implémentation
Restriction aux fonctions scalaires: Les résultats principaux se concentrent sur les fonctions à valeurs scalaires, l'extension aux fonctions à valeurs vectorielles nécessite des recherches supplémentaires

Directions futures

Autres fonctions d'activation: Extension de l'analyse théorique à d'autres fonctions d'activation
Architectures modernes: Application de la théorie aux architectures modernes comme les Transformers et les GNNs
Taux d'approximation: Étude des taux d'approximation spécifiques et de l'analyse de complexité
Fonctions à valeurs vectorielles: Perfectionnement du cadre théorique pour les fonctions multi-sorties

Évaluation approfondie

Avantages

Rigueur théorique: Fournit des preuves mathématiques complètes, comblant un vide théorique important
Innovativité méthodologique: La stratégie de preuve double offre différentes perspectives théoriques
Praticité: Tous les résultats théoriques correspondent à des architectures de réseau réalisables
Complétude: De l'analyse théorique à la validation expérimentale, formant une chaîne de recherche complète

Insuffisances

Échelle expérimentale limitée: Les expériences se concentrent principalement sur des ensembles de données simples, manquant de validation d'applications à grande échelle
Complexité computationnelle: L'analyse du surcoût computationnel de l'exécution des contraintes n'est pas suffisamment approfondie
Références de comparaison: Manque de comparaisons détaillées avec d'autres méthodes de réseaux 1-Lipschitz

Impact

Valeur académique: Fournit une base importante pour la théorie des réseaux de neurones contraints
Perspectives d'application: Potentiel d'application large dans la modélisation générative, les problèmes inverses et l'apprentissage robuste
Contribution méthodologique: Les techniques de preuve peuvent inspirer l'analyse théorique d'autres réseaux contraints

Scénarios d'application

Wasserstein GANs: Fournit un soutien théorique pour la conception du discriminateur
Algorithmes Plug-and-Play: Conception de débruiteurs garantissant la convergence
Robustesse adversariale: Amélioration de la résistance des classificateurs aux attaques adversariales
Résolution de problèmes inverses: Applications dans l'imagerie médicale, le traitement du signal et autres domaines

Références

Cet article cite 42 références importantes couvrant la théorie de l'approximation universelle, les méthodes de contrainte de Lipschitz, la théorie des systèmes dynamiques et d'autres domaines clés, fournissant une base solide pour l'analyse théorique.