2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, SchÃ¶nlieb

1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.

academic

Teoria dell'approssimazione per ResNet 1-Lipschitz

Informazioni Fondamentali

ID Articolo: 2505.12003
Titolo: Approximation theory for 1-Lipschitz ResNets
Autori: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
Classificazione: cs.LG cs.NA math.NA
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Link Articolo: https://arxiv.org/abs/2505.12003v2

Riassunto

Questo articolo esamina la capacità di approssimazione delle reti residuali (ResNet) 1-Lipschitz basate su passi espliciti di Eulero del flusso di gradiente negativo. Utilizzando il teorema di Stone-Weierstrass ristretto, gli autori dimostrano innanzitutto che queste ResNet 1-Lipschitz sono dense nell'insieme delle funzioni scalari 1-Lipschitz su qualsiasi dominio compatto quando la larghezza e la profondità possono aumentare. Inoltre, provano che queste reti possono rappresentare esattamente le funzioni scalari affini a tratti 1-Lipschitz. Viene inoltre stabilito un risultato più forte: mantenendo la stessa densità con larghezza nascosta fissa inserendo mappe lineari con vincoli di norma tra i blocchi residuali. Poiché ogni strato segue semplici vincoli di norma, il modello risultante può essere addestrato con ottimizzatori standard.

Contesto di Ricerca e Motivazione

Importanza del Problema

Le reti neurali 1-Lipschitz svolgono un ruolo fondamentale in diversi campi importanti:

Modellazione Generativa: Il discriminatore nelle Wasserstein GAN deve essere 1-Lipschitz per fornire una stima efficace della distanza 1-Wasserstein attraverso la dualità di Kantorovich-Rubinstein
Problemi Inversi: Negli algoritmi Plug-and-Play, il vincolo 1-Lipschitz garantisce la convergenza dello schema iterativo
Classificatori Robusti: Il controllo della costante di Lipschitz della rete migliora la robustezza agli attacchi avversariali

Limitazioni dei Metodi Esistenti

Riduzione della Capacità Espressiva: Vincolare la costante di Lipschitz della rete generalmente riduce la sua capacità espressiva, determinando un calo significativo delle prestazioni
Carenza Teorica: Comprensione insufficiente delle proprietà di approssimazione delle reti vincolate; diverse strategie di vincolo possono produrre capacità espressive significativamente diverse
Difficoltà di Implementazione: Le ResNet 1-Lipschitz esistenti mancano di garanzie teoriche rigorose

Motivazione della Ricerca

Questo articolo mira a colmare il vuoto nell'analisi teorica delle ResNet 1-Lipschitz, fornendo fondamenti matematici rigorosi per comprendere la capacità di approssimazione di queste reti e fornire supporto teorico per applicazioni pratiche.

Contributi Principali

Primo Teorema di Approssimazione Universale: Fornisce le prime garanzie di approssimazione universale per le ResNet 1-Lipschitz, dimostrando la densità delle ResNet basate su flusso di gradiente negativo nell'insieme delle funzioni scalari 1-Lipschitz
Risultati di Approssimazione a Larghezza Fissa: Introducendo mappe lineari con vincoli di norma, dimostra che la proprietà di approssimazione universale si mantiene anche con larghezza di rete fissa
Metodo di Prova Costruttivo: Fornisce due strategie di prova - basata sul teorema di Stone-Weierstrass ristretto e basata su un metodo costruttivo con funzioni affini a tratti
Progettazione di Architettura Pratica: Propone un'architettura di rete con condizioni di vincolo esplicite, addestrabile con ottimizzatori standard

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio dello spazio delle funzioni 1-Lipschitz su un insieme compatto $X \subset \mathbb{R}^d$ : $C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}$

L'obiettivo è costruire un insieme di reti neurali che sia denso in $C_1(X,\mathbb{R})$ .

Blocchi Costruttivi Fondamentali

Strato Residuale 1-Lipschitz

Basato su passi espliciti di Eulero del flusso di gradiente negativo: $\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)$

dove $\sigma = \text{ReLU}$ , con vincoli: $0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2$ , $\|W_\ell\|_2 \leq 1$

Definizione dell'Architettura di Rete

Insieme di reti con larghezza e profondità illimitate: $\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

Insieme di reti con larghezza fissa: $\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

dove $A_i$ sono mappe affini con vincoli di norma.

Punti di Innovazione Tecnica

1. Doppia Strategia di Prova

Metodo di Stone-Weierstrass: Verifica che l'insieme di reti sia un reticolo che separa i punti, soddisfacendo le condizioni del teorema di Stone-Weierstrass ristretto
Metodo Costruttivo: Dimostra che la rete può rappresentare esattamente tutte le funzioni affini a tratti 1-Lipschitz

2. Progettazione Innovativa a Larghezza Fissa

Attraverso l'introduzione di una struttura di strato residuale speciale: $\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}$

3. Sfruttamento delle Proprietà Chiave di ReLU

Utilizza l'omogeneità positiva di ReLU e le seguenti identità:

$x = \sigma(x) - \sigma(-x)$
$\max\{x,y\} = x + \sigma(y-x)$
$\min\{x,y\} = x - \sigma(x-y)$

Configurazione Sperimentale

Dataset

Dataset Two-moon: 4000 punti, con rumore gaussiano di deviazione standard 0.1, 20% utilizzato per l'addestramento
Dataset MNIST: Divisione standard di addestramento/test, elaborazione di normalizzazione dell'input

Metriche di Valutazione

Accuratezza di classificazione
Tempo di esecuzione del vincolo (tempo medio per epoch)

Dettagli di Implementazione

Ottimizzatore: Ottimizzatore Adam con pianificazione del tasso di apprendimento con annealing cosinusoidale
Dimensione del Batch: 256
Vincoli di Peso: Eseguiti tramite discesa del gradiente proiettato, stima della norma spettrale mediante metodo della potenza
Inizializzazione: Strategia di inizializzazione dinamica isometrica

Risultati Sperimentali

Risultati Principali

Risultati sul Dataset Two-moon

Strati	Architettura Teorema 3.1	Architettura Teorema 4.1
L=2	99.75%	88.25%
L=4	99.88%	99.88%
L=8	100.00%	99.88%
L=16	100.00%	100.00%
L=32	99.88%	100.00%
L=64	100.00%	100.00%

Risultati sul Dataset MNIST (Architettura Teorema 4.1)

Larghezza\Profondità	L=5	L=10	L=20
h=50	97.85%	97.67%	97.82%
h=100	97.94%	97.70%	97.58%
h=200	97.68%	97.77%	97.89%

Scoperte Sperimentali

Stabilità dell'Addestramento: Entrambe le architetture si addestrano stabilmente, senza essere influenzate dalla larghezza e profondità della rete
Costo del Vincolo: L'architettura con strati affini ha un costo di vincolo più elevato, che aumenta più rapidamente con la profondità
Prestazioni: Raggiunge classificazione perfetta su compiti semplici e prestazioni buone su compiti complessi

Analisi Teorica

Teoremi Principali

Teorema 3.1 (Larghezza e Profondità Illimitate)

Sia $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compatto, allora $\mathcal{G}_{d,\sigma}(X,\mathbb{R})$ soddisfa la proprietà di approssimazione universale in $C_1(X,\mathbb{R})$ .

Teorema 4.1 (Larghezza Fissa)

Sia $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compatto, allora $\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R})$ soddisfa la proprietà di approssimazione universale in $C_1(X,\mathbb{R})$ .

Passaggi Chiave della Prova

Metodo di Stone-Weierstrass

Separazione dei Punti: Dimostra che l'insieme di reti può separare qualsiasi coppia di punti distinti
Proprietà di Reticolo: Dimostra che l'insieme di reti è chiuso rispetto alle operazioni di massimo e minimo
Densità: Segue dal teorema di Stone-Weierstrass ristretto

Metodo Costruttivo

Operazioni Fondamentali: Dimostra che è possibile implementare il massimo e il minimo coordinata per coordinata
Rappresentazione Affine a Tratti: Utilizza il teorema di rappresentazione max-min
Approssimazione Universale: Le funzioni affini a tratti sono dense nelle funzioni 1-Lipschitz

Lavori Correlati

Metodi di Vincolo per Reti 1-Lipschitz

Normalizzazione Spettrale: Controllo della norma spettrale della matrice di peso
Matrici di Peso Ortogonali: Utilizzo di trasformazioni ortogonali per preservare la proprietà di Lipschitz
Metodo del Flusso di Gradiente: Strategie di vincolo basate su sistemi dinamici e analisi numerica

Teoria dell'Approssimazione per Reti Vincolate

Teoria delle reti feedforward di Anil et al. con funzione di attivazione GroupSort
Ricerca di Neumayer et al. su funzioni di attivazione spline
Questo articolo fornisce per la prima volta una teoria completa per le ResNet 1-Lipschitz

Conclusioni e Discussione

Conclusioni Principali

Avanzamento Teorico: Primo stabilimento di una teoria rigorosa di approssimazione universale per le ResNet 1-Lipschitz
Valore Pratico: L'architettura proposta può essere addestrata con ottimizzatori standard e ha condizioni di vincolo esplicite
Innovazione Metodologica: Fornisce due metodi di prova complementari, approfondendo la comprensione delle ResNet Lipschitz continue

Limitazioni

Dipendenza dalla Funzione di Attivazione: La teoria dipende fortemente dalle proprietà speciali di ReLU
Complessità di Implementazione: L'architettura a larghezza fissa richiede strati affini aggiuntivi, aumentando la complessità di implementazione
Restrizione a Funzioni Scalari: I risultati principali si concentrano su funzioni a valori scalari; l'estensione a funzioni a valori vettoriali richiede ulteriori ricerche

Direzioni Future

Altre Funzioni di Attivazione: Estensione dell'analisi teorica ad altre funzioni di attivazione
Architetture Moderne: Applicazione della teoria a architetture moderne come Transformer e GNN
Velocità di Approssimazione: Studio di velocità di approssimazione specifiche e analisi di complessità
Funzioni a Valori Vettoriali: Perfezionamento del framework teorico per funzioni multi-output

Valutazione Approfondita

Punti di Forza

Rigore Teorico: Fornisce prove matematiche complete, colmando un importante vuoto teorico
Innovazione Metodologica: La doppia strategia di prova fornisce diverse prospettive teoriche
Praticità: Tutti i risultati teorici corrispondono ad architetture di rete implementabili
Completezza: Forma una catena di ricerca completa dall'analisi teorica alla verifica sperimentale

Carenze

Scala Sperimentale Limitata: Gli esperimenti si concentrano principalmente su dataset semplici, mancando di verifica su applicazioni su larga scala
Analisi della Complessità Computazionale: L'analisi del sovraccarico computazionale dell'esecuzione dei vincoli non è sufficientemente approfondita
Benchmark di Confronto: Manca un confronto dettagliato con altri metodi di reti 1-Lipschitz

Impatto

Valore Accademico: Fornisce fondamenti importanti per la teoria delle reti neurali vincolate
Prospettive di Applicazione: Ampio potenziale di applicazione nella modellazione generativa, problemi inversi e apprendimento robusto
Contributo Metodologico: Le tecniche di prova potrebbero ispirare l'analisi teorica di altre reti vincolate

Scenari di Applicazione

Wasserstein GAN: Fornisce supporto teorico per la progettazione del discriminatore
Algoritmi Plug-and-Play: Progettazione di denoiser che garantisce la convergenza
Robustezza Avversariale: Miglioramento della resistenza del classificatore agli attacchi avversariali
Risoluzione di Problemi Inversi: Applicazioni in imaging medico, elaborazione dei segnali e altri campi

Bibliografia

Questo articolo cita 42 importanti riferimenti, coprendo lavori fondamentali in teoria dell'approssimazione universale, metodi di vincolo Lipschitz, teoria dei sistemi dinamici e altri campi, fornendo una base solida per l'analisi teorica.