2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

Théorie de l'approximation pour les ResNets 1-Lipschitz

Informations fondamentales

  • ID de l'article: 2505.12003
  • Titre: Approximation theory for 1-Lipschitz ResNets
  • Auteurs: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • Classification: cs.LG cs.NA math.NA
  • Conférence de publication: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Lien de l'article: https://arxiv.org/abs/2505.12003v2

Résumé

Cet article étudie la capacité d'approximation des réseaux de neurones résiduels (ResNets) 1-Lipschitz basés sur les étapes d'Euler explicites du flux de gradient négatif. En utilisant le théorème de Stone-Weierstrass restreint, nous établissons d'abord que ces ResNets 1-Lipschitz sont denses dans l'ensemble des fonctions scalaires 1-Lipschitz sur tout domaine compact lorsque la largeur et la profondeur sont autorisées à croître. Nous démontrons également que ces réseaux peuvent représenter exactement les fonctions scalaires affines par morceaux 1-Lipschitz. De plus, nous établissons un résultat plus fort : en insérant des applications linéaires avec contraintes de norme entre les blocs résiduels, nous conservons la même densité même lorsque la largeur cachée est fixée. Puisque chaque couche suit des contraintes de norme simples, le modèle résultant peut être entraîné avec des optimiseurs prêts à l'emploi.

Contexte et motivation de la recherche

Importance du problème

Les réseaux de neurones 1-Lipschitz jouent un rôle fondamental dans plusieurs domaines importants :

  • Modélisation générative: Le discriminateur dans les Wasserstein GAN doit être 1-Lipschitz pour fournir une estimation efficace de la distance 1-Wasserstein via la dualité de Kantorovich-Rubinstein
  • Problèmes inverses: Dans les algorithmes Plug-and-Play, la contrainte 1-Lipschitz garantit la convergence du schéma itératif
  • Classificateurs robustes: Contrôler la constante de Lipschitz du réseau améliore la robustesse aux attaques adversariales

Limitations des méthodes existantes

  1. Réduction de la capacité d'expression: Contraindre la constante de Lipschitz du réseau réduit généralement sa capacité d'expression, entraînant une baisse notable de performance
  2. Absence de théorie: La compréhension des propriétés d'approximation des réseaux contraints est insuffisante, et différentes stratégies de contrainte peuvent produire des capacités d'expression significativement différentes
  3. Difficultés d'implémentation: Les ResNets 1-Lipschitz existants manquent de garanties théoriques rigoureuses

Motivation de la recherche

Cet article vise à combler le vide dans l'analyse théorique des ResNets 1-Lipschitz, en fournissant une base mathématique rigoureuse pour comprendre la capacité d'approximation de ces réseaux et en offrant un soutien théorique pour les applications pratiques.

Contributions principales

  1. Premier théorème d'approximation universelle: Fournit la première garantie d'approximation universelle pour les ResNets 1-Lipschitz, démontrant la densité des ResNets basés sur le flux de gradient négatif dans l'ensemble des fonctions scalaires 1-Lipschitz
  2. Résultats d'approximation à largeur fixe: En introduisant des applications linéaires avec contraintes de norme, nous démontrons que la propriété d'approximation universelle est conservée même avec une largeur de réseau fixe
  3. Méthode de preuve constructive: Fournit deux stratégies de preuve - basée sur le théorème de Stone-Weierstrass restreint et basée sur une méthode constructive utilisant des fonctions affines par morceaux
  4. Conception d'architecture pratique: L'architecture de réseau proposée possède des conditions de contrainte explicites et peut être entraînée avec des optimiseurs standard

Détails de la méthode

Définition de la tâche

Étude de l'espace des fonctions 1-Lipschitz sur un ensemble compact XRdX \subset \mathbb{R}^d : C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

L'objectif est de construire une famille de réseaux de neurones qui soit dense dans C1(X,R)C_1(X,\mathbb{R}).

Modules de construction principaux

Couche résiduelle 1-Lipschitz

Basée sur l'étape d'Euler explicite du flux de gradient négatif : Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

σ=ReLU\sigma = \text{ReLU}, avec les contraintes : 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

Définition de l'architecture du réseau

Ensemble de réseaux avec largeur et profondeur non bornées : Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

Ensemble de réseaux avec largeur fixe : G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

AiA_i sont des applications affines avec contraintes de norme.

Points d'innovation technique

1. Stratégie de preuve double

  • Méthode de Stone-Weierstrass: Vérification que l'ensemble de réseaux est un treillis séparant les points, satisfaisant les conditions du théorème de Stone-Weierstrass restreint
  • Méthode constructive: Démonstration que le réseau peut représenter exactement toutes les fonctions affines par morceaux 1-Lipschitz

2. Conception innovante à largeur fixe

Introduction d'une structure de couche résiduelle spéciale : E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. Exploitation des propriétés clés de ReLU

Utilisation de l'homogénéité positive de ReLU et des identités suivantes :

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

Configuration expérimentale

Ensembles de données

  1. Ensemble de données Two-moon: 4000 points, bruit gaussien ajouté avec écart-type 0,1, 20% utilisés pour l'entraînement
  2. Ensemble de données MNIST: Division standard entraînement/test, traitement de normalisation des entrées

Métriques d'évaluation

  • Précision de classification
  • Temps d'exécution des contraintes (temps moyen par époque)

Détails d'implémentation

  • Optimiseur: Optimiseur Adam avec planification du taux d'apprentissage par recuit cosinus
  • Taille de lot: 256
  • Contraintes de poids: Exécutées via descente de gradient projetée, utilisant la méthode de puissance pour estimer la norme spectrale
  • Initialisation: Stratégie d'initialisation isométrique dynamique

Résultats expérimentaux

Résultats principaux

Résultats sur l'ensemble de données Two-moon

CouchesArchitecture Théorème 3.1Architecture Théorème 4.1
L=299,75%88,25%
L=499,88%99,88%
L=8100,00%99,88%
L=16100,00%100,00%
L=3299,88%100,00%
L=64100,00%100,00%

Résultats sur l'ensemble de données MNIST (Architecture Théorème 4.1)

Largeur\ProfondeurL=5L=10L=20
h=5097,85%97,67%97,82%
h=10097,94%97,70%97,58%
h=20097,68%97,77%97,89%

Découvertes expérimentales

  1. Stabilité d'entraînement: Les deux architectures peuvent être entraînées de manière stable, sans être affectées par la largeur et la profondeur du réseau
  2. Coût des contraintes: L'architecture avec couches affines a un coût de contrainte plus élevé, augmentant plus rapidement avec la profondeur
  3. Performance: Peut atteindre une classification parfaite sur des tâches simples et montre de bonnes performances sur des tâches complexes

Analyse théorique

Théorèmes principaux

Théorème 3.1 (Largeur et profondeur non bornées)

Soit dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compact, alors Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) satisfait la propriété d'approximation universelle pour C1(X,R)C_1(X,\mathbb{R}).

Théorème 4.1 (Largeur fixe)

Soit dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compact, alors G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) satisfait la propriété d'approximation universelle pour C1(X,R)C_1(X,\mathbb{R}).

Étapes clés de la preuve

Méthode de Stone-Weierstrass

  1. Séparation des points: Démonstration que l'ensemble de réseaux peut séparer deux points distincts quelconques
  2. Propriété de treillis: Démonstration que l'ensemble de réseaux est fermé sous les opérations de maximum et minimum
  3. Densité: Résultant du théorème de Stone-Weierstrass restreint

Méthode constructive

  1. Opérations élémentaires: Démonstration que le maximum et le minimum coordonnée par coordonnée peuvent être implémentés
  2. Représentation affine par morceaux: Utilisation du théorème de représentation max-min
  3. Approximation universelle: Les fonctions affines par morceaux sont denses dans les fonctions 1-Lipschitz

Travaux connexes

Méthodes de contrainte pour réseaux 1-Lipschitz

  1. Normalisation spectrale: Contrôle de la norme spectrale des matrices de poids
  2. Matrices de poids orthogonales: Utilisation de transformations orthogonales pour préserver la propriété de Lipschitz
  3. Méthodes de flux de gradient: Stratégies de contrainte basées sur les systèmes dynamiques et l'analyse numérique

Théorie d'approximation pour réseaux contraints

  • Théorie des réseaux feedforward utilisant la fonction d'activation GroupSort par Anil et al.
  • Recherche sur les fonctions d'activation spline par Neumayer et al.
  • Cet article fournit pour la première fois une théorie complète spécifique aux ResNets 1-Lipschitz

Conclusion et discussion

Conclusions principales

  1. Percée théorique: Établissement pour la première fois d'une théorie rigoureuse d'approximation universelle pour les ResNets 1-Lipschitz
  2. Valeur pratique: L'architecture proposée peut être entraînée avec des optimiseurs standard et possède des conditions de contrainte explicites
  3. Innovation méthodologique: Fournit deux méthodes de preuve complémentaires, approfondissant la compréhension des ResNets continus de Lipschitz

Limitations

  1. Dépendance à la fonction d'activation: La théorie dépend fortement des propriétés spéciales de ReLU
  2. Complexité d'implémentation: L'architecture à largeur fixe nécessite des couches affines supplémentaires, augmentant la complexité d'implémentation
  3. Restriction aux fonctions scalaires: Les résultats principaux se concentrent sur les fonctions à valeurs scalaires, l'extension aux fonctions à valeurs vectorielles nécessite des recherches supplémentaires

Directions futures

  1. Autres fonctions d'activation: Extension de l'analyse théorique à d'autres fonctions d'activation
  2. Architectures modernes: Application de la théorie aux architectures modernes comme les Transformers et les GNNs
  3. Taux d'approximation: Étude des taux d'approximation spécifiques et de l'analyse de complexité
  4. Fonctions à valeurs vectorielles: Perfectionnement du cadre théorique pour les fonctions multi-sorties

Évaluation approfondie

Avantages

  1. Rigueur théorique: Fournit des preuves mathématiques complètes, comblant un vide théorique important
  2. Innovativité méthodologique: La stratégie de preuve double offre différentes perspectives théoriques
  3. Praticité: Tous les résultats théoriques correspondent à des architectures de réseau réalisables
  4. Complétude: De l'analyse théorique à la validation expérimentale, formant une chaîne de recherche complète

Insuffisances

  1. Échelle expérimentale limitée: Les expériences se concentrent principalement sur des ensembles de données simples, manquant de validation d'applications à grande échelle
  2. Complexité computationnelle: L'analyse du surcoût computationnel de l'exécution des contraintes n'est pas suffisamment approfondie
  3. Références de comparaison: Manque de comparaisons détaillées avec d'autres méthodes de réseaux 1-Lipschitz

Impact

  1. Valeur académique: Fournit une base importante pour la théorie des réseaux de neurones contraints
  2. Perspectives d'application: Potentiel d'application large dans la modélisation générative, les problèmes inverses et l'apprentissage robuste
  3. Contribution méthodologique: Les techniques de preuve peuvent inspirer l'analyse théorique d'autres réseaux contraints

Scénarios d'application

  1. Wasserstein GANs: Fournit un soutien théorique pour la conception du discriminateur
  2. Algorithmes Plug-and-Play: Conception de débruiteurs garantissant la convergence
  3. Robustesse adversariale: Amélioration de la résistance des classificateurs aux attaques adversariales
  4. Résolution de problèmes inverses: Applications dans l'imagerie médicale, le traitement du signal et autres domaines

Références

Cet article cite 42 références importantes couvrant la théorie de l'approximation universelle, les méthodes de contrainte de Lipschitz, la théorie des systèmes dynamiques et d'autres domaines clés, fournissant une base solide pour l'analyse théorique.