1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic
Théorie de l'approximation pour les ResNets 1-Lipschitz
Cet article étudie la capacité d'approximation des réseaux de neurones résiduels (ResNets) 1-Lipschitz basés sur les étapes d'Euler explicites du flux de gradient négatif. En utilisant le théorème de Stone-Weierstrass restreint, nous établissons d'abord que ces ResNets 1-Lipschitz sont denses dans l'ensemble des fonctions scalaires 1-Lipschitz sur tout domaine compact lorsque la largeur et la profondeur sont autorisées à croître. Nous démontrons également que ces réseaux peuvent représenter exactement les fonctions scalaires affines par morceaux 1-Lipschitz. De plus, nous établissons un résultat plus fort : en insérant des applications linéaires avec contraintes de norme entre les blocs résiduels, nous conservons la même densité même lorsque la largeur cachée est fixée. Puisque chaque couche suit des contraintes de norme simples, le modèle résultant peut être entraîné avec des optimiseurs prêts à l'emploi.
Les réseaux de neurones 1-Lipschitz jouent un rôle fondamental dans plusieurs domaines importants :
Modélisation générative: Le discriminateur dans les Wasserstein GAN doit être 1-Lipschitz pour fournir une estimation efficace de la distance 1-Wasserstein via la dualité de Kantorovich-Rubinstein
Problèmes inverses: Dans les algorithmes Plug-and-Play, la contrainte 1-Lipschitz garantit la convergence du schéma itératif
Classificateurs robustes: Contrôler la constante de Lipschitz du réseau améliore la robustesse aux attaques adversariales
Réduction de la capacité d'expression: Contraindre la constante de Lipschitz du réseau réduit généralement sa capacité d'expression, entraînant une baisse notable de performance
Absence de théorie: La compréhension des propriétés d'approximation des réseaux contraints est insuffisante, et différentes stratégies de contrainte peuvent produire des capacités d'expression significativement différentes
Difficultés d'implémentation: Les ResNets 1-Lipschitz existants manquent de garanties théoriques rigoureuses
Cet article vise à combler le vide dans l'analyse théorique des ResNets 1-Lipschitz, en fournissant une base mathématique rigoureuse pour comprendre la capacité d'approximation de ces réseaux et en offrant un soutien théorique pour les applications pratiques.
Premier théorème d'approximation universelle: Fournit la première garantie d'approximation universelle pour les ResNets 1-Lipschitz, démontrant la densité des ResNets basés sur le flux de gradient négatif dans l'ensemble des fonctions scalaires 1-Lipschitz
Résultats d'approximation à largeur fixe: En introduisant des applications linéaires avec contraintes de norme, nous démontrons que la propriété d'approximation universelle est conservée même avec une largeur de réseau fixe
Méthode de preuve constructive: Fournit deux stratégies de preuve - basée sur le théorème de Stone-Weierstrass restreint et basée sur une méthode constructive utilisant des fonctions affines par morceaux
Conception d'architecture pratique: L'architecture de réseau proposée possède des conditions de contrainte explicites et peut être entraînée avec des optimiseurs standard
Méthode de Stone-Weierstrass: Vérification que l'ensemble de réseaux est un treillis séparant les points, satisfaisant les conditions du théorème de Stone-Weierstrass restreint
Méthode constructive: Démonstration que le réseau peut représenter exactement toutes les fonctions affines par morceaux 1-Lipschitz
Stabilité d'entraînement: Les deux architectures peuvent être entraînées de manière stable, sans être affectées par la largeur et la profondeur du réseau
Coût des contraintes: L'architecture avec couches affines a un coût de contrainte plus élevé, augmentant plus rapidement avec la profondeur
Performance: Peut atteindre une classification parfaite sur des tâches simples et montre de bonnes performances sur des tâches complexes
Dépendance à la fonction d'activation: La théorie dépend fortement des propriétés spéciales de ReLU
Complexité d'implémentation: L'architecture à largeur fixe nécessite des couches affines supplémentaires, augmentant la complexité d'implémentation
Restriction aux fonctions scalaires: Les résultats principaux se concentrent sur les fonctions à valeurs scalaires, l'extension aux fonctions à valeurs vectorielles nécessite des recherches supplémentaires
Échelle expérimentale limitée: Les expériences se concentrent principalement sur des ensembles de données simples, manquant de validation d'applications à grande échelle
Complexité computationnelle: L'analyse du surcoût computationnel de l'exécution des contraintes n'est pas suffisamment approfondie
Références de comparaison: Manque de comparaisons détaillées avec d'autres méthodes de réseaux 1-Lipschitz
Cet article cite 42 références importantes couvrant la théorie de l'approximation universelle, les méthodes de contrainte de Lipschitz, la théorie des systèmes dynamiques et d'autres domaines clés, fournissant une base solide pour l'analyse théorique.