2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

Teoria dell'approssimazione per ResNet 1-Lipschitz

Informazioni Fondamentali

  • ID Articolo: 2505.12003
  • Titolo: Approximation theory for 1-Lipschitz ResNets
  • Autori: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • Classificazione: cs.LG cs.NA math.NA
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Link Articolo: https://arxiv.org/abs/2505.12003v2

Riassunto

Questo articolo esamina la capacità di approssimazione delle reti residuali (ResNet) 1-Lipschitz basate su passi espliciti di Eulero del flusso di gradiente negativo. Utilizzando il teorema di Stone-Weierstrass ristretto, gli autori dimostrano innanzitutto che queste ResNet 1-Lipschitz sono dense nell'insieme delle funzioni scalari 1-Lipschitz su qualsiasi dominio compatto quando la larghezza e la profondità possono aumentare. Inoltre, provano che queste reti possono rappresentare esattamente le funzioni scalari affini a tratti 1-Lipschitz. Viene inoltre stabilito un risultato più forte: mantenendo la stessa densità con larghezza nascosta fissa inserendo mappe lineari con vincoli di norma tra i blocchi residuali. Poiché ogni strato segue semplici vincoli di norma, il modello risultante può essere addestrato con ottimizzatori standard.

Contesto di Ricerca e Motivazione

Importanza del Problema

Le reti neurali 1-Lipschitz svolgono un ruolo fondamentale in diversi campi importanti:

  • Modellazione Generativa: Il discriminatore nelle Wasserstein GAN deve essere 1-Lipschitz per fornire una stima efficace della distanza 1-Wasserstein attraverso la dualità di Kantorovich-Rubinstein
  • Problemi Inversi: Negli algoritmi Plug-and-Play, il vincolo 1-Lipschitz garantisce la convergenza dello schema iterativo
  • Classificatori Robusti: Il controllo della costante di Lipschitz della rete migliora la robustezza agli attacchi avversariali

Limitazioni dei Metodi Esistenti

  1. Riduzione della Capacità Espressiva: Vincolare la costante di Lipschitz della rete generalmente riduce la sua capacità espressiva, determinando un calo significativo delle prestazioni
  2. Carenza Teorica: Comprensione insufficiente delle proprietà di approssimazione delle reti vincolate; diverse strategie di vincolo possono produrre capacità espressive significativamente diverse
  3. Difficoltà di Implementazione: Le ResNet 1-Lipschitz esistenti mancano di garanzie teoriche rigorose

Motivazione della Ricerca

Questo articolo mira a colmare il vuoto nell'analisi teorica delle ResNet 1-Lipschitz, fornendo fondamenti matematici rigorosi per comprendere la capacità di approssimazione di queste reti e fornire supporto teorico per applicazioni pratiche.

Contributi Principali

  1. Primo Teorema di Approssimazione Universale: Fornisce le prime garanzie di approssimazione universale per le ResNet 1-Lipschitz, dimostrando la densità delle ResNet basate su flusso di gradiente negativo nell'insieme delle funzioni scalari 1-Lipschitz
  2. Risultati di Approssimazione a Larghezza Fissa: Introducendo mappe lineari con vincoli di norma, dimostra che la proprietà di approssimazione universale si mantiene anche con larghezza di rete fissa
  3. Metodo di Prova Costruttivo: Fornisce due strategie di prova - basata sul teorema di Stone-Weierstrass ristretto e basata su un metodo costruttivo con funzioni affini a tratti
  4. Progettazione di Architettura Pratica: Propone un'architettura di rete con condizioni di vincolo esplicite, addestrabile con ottimizzatori standard

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio dello spazio delle funzioni 1-Lipschitz su un insieme compatto XRdX \subset \mathbb{R}^d: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

L'obiettivo è costruire un insieme di reti neurali che sia denso in C1(X,R)C_1(X,\mathbb{R}).

Blocchi Costruttivi Fondamentali

Strato Residuale 1-Lipschitz

Basato su passi espliciti di Eulero del flusso di gradiente negativo: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

dove σ=ReLU\sigma = \text{ReLU}, con vincoli: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

Definizione dell'Architettura di Rete

Insieme di reti con larghezza e profondità illimitate: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

Insieme di reti con larghezza fissa: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

dove AiA_i sono mappe affini con vincoli di norma.

Punti di Innovazione Tecnica

1. Doppia Strategia di Prova

  • Metodo di Stone-Weierstrass: Verifica che l'insieme di reti sia un reticolo che separa i punti, soddisfacendo le condizioni del teorema di Stone-Weierstrass ristretto
  • Metodo Costruttivo: Dimostra che la rete può rappresentare esattamente tutte le funzioni affini a tratti 1-Lipschitz

2. Progettazione Innovativa a Larghezza Fissa

Attraverso l'introduzione di una struttura di strato residuale speciale: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. Sfruttamento delle Proprietà Chiave di ReLU

Utilizza l'omogeneità positiva di ReLU e le seguenti identità:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

Configurazione Sperimentale

Dataset

  1. Dataset Two-moon: 4000 punti, con rumore gaussiano di deviazione standard 0.1, 20% utilizzato per l'addestramento
  2. Dataset MNIST: Divisione standard di addestramento/test, elaborazione di normalizzazione dell'input

Metriche di Valutazione

  • Accuratezza di classificazione
  • Tempo di esecuzione del vincolo (tempo medio per epoch)

Dettagli di Implementazione

  • Ottimizzatore: Ottimizzatore Adam con pianificazione del tasso di apprendimento con annealing cosinusoidale
  • Dimensione del Batch: 256
  • Vincoli di Peso: Eseguiti tramite discesa del gradiente proiettato, stima della norma spettrale mediante metodo della potenza
  • Inizializzazione: Strategia di inizializzazione dinamica isometrica

Risultati Sperimentali

Risultati Principali

Risultati sul Dataset Two-moon

StratiArchitettura Teorema 3.1Architettura Teorema 4.1
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

Risultati sul Dataset MNIST (Architettura Teorema 4.1)

Larghezza\ProfonditàL=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

Scoperte Sperimentali

  1. Stabilità dell'Addestramento: Entrambe le architetture si addestrano stabilmente, senza essere influenzate dalla larghezza e profondità della rete
  2. Costo del Vincolo: L'architettura con strati affini ha un costo di vincolo più elevato, che aumenta più rapidamente con la profondità
  3. Prestazioni: Raggiunge classificazione perfetta su compiti semplici e prestazioni buone su compiti complessi

Analisi Teorica

Teoremi Principali

Teorema 3.1 (Larghezza e Profondità Illimitate)

Sia dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compatto, allora Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) soddisfa la proprietà di approssimazione universale in C1(X,R)C_1(X,\mathbb{R}).

Teorema 4.1 (Larghezza Fissa)

Sia dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compatto, allora G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) soddisfa la proprietà di approssimazione universale in C1(X,R)C_1(X,\mathbb{R}).

Passaggi Chiave della Prova

Metodo di Stone-Weierstrass

  1. Separazione dei Punti: Dimostra che l'insieme di reti può separare qualsiasi coppia di punti distinti
  2. Proprietà di Reticolo: Dimostra che l'insieme di reti è chiuso rispetto alle operazioni di massimo e minimo
  3. Densità: Segue dal teorema di Stone-Weierstrass ristretto

Metodo Costruttivo

  1. Operazioni Fondamentali: Dimostra che è possibile implementare il massimo e il minimo coordinata per coordinata
  2. Rappresentazione Affine a Tratti: Utilizza il teorema di rappresentazione max-min
  3. Approssimazione Universale: Le funzioni affini a tratti sono dense nelle funzioni 1-Lipschitz

Lavori Correlati

Metodi di Vincolo per Reti 1-Lipschitz

  1. Normalizzazione Spettrale: Controllo della norma spettrale della matrice di peso
  2. Matrici di Peso Ortogonali: Utilizzo di trasformazioni ortogonali per preservare la proprietà di Lipschitz
  3. Metodo del Flusso di Gradiente: Strategie di vincolo basate su sistemi dinamici e analisi numerica

Teoria dell'Approssimazione per Reti Vincolate

  • Teoria delle reti feedforward di Anil et al. con funzione di attivazione GroupSort
  • Ricerca di Neumayer et al. su funzioni di attivazione spline
  • Questo articolo fornisce per la prima volta una teoria completa per le ResNet 1-Lipschitz

Conclusioni e Discussione

Conclusioni Principali

  1. Avanzamento Teorico: Primo stabilimento di una teoria rigorosa di approssimazione universale per le ResNet 1-Lipschitz
  2. Valore Pratico: L'architettura proposta può essere addestrata con ottimizzatori standard e ha condizioni di vincolo esplicite
  3. Innovazione Metodologica: Fornisce due metodi di prova complementari, approfondendo la comprensione delle ResNet Lipschitz continue

Limitazioni

  1. Dipendenza dalla Funzione di Attivazione: La teoria dipende fortemente dalle proprietà speciali di ReLU
  2. Complessità di Implementazione: L'architettura a larghezza fissa richiede strati affini aggiuntivi, aumentando la complessità di implementazione
  3. Restrizione a Funzioni Scalari: I risultati principali si concentrano su funzioni a valori scalari; l'estensione a funzioni a valori vettoriali richiede ulteriori ricerche

Direzioni Future

  1. Altre Funzioni di Attivazione: Estensione dell'analisi teorica ad altre funzioni di attivazione
  2. Architetture Moderne: Applicazione della teoria a architetture moderne come Transformer e GNN
  3. Velocità di Approssimazione: Studio di velocità di approssimazione specifiche e analisi di complessità
  4. Funzioni a Valori Vettoriali: Perfezionamento del framework teorico per funzioni multi-output

Valutazione Approfondita

Punti di Forza

  1. Rigore Teorico: Fornisce prove matematiche complete, colmando un importante vuoto teorico
  2. Innovazione Metodologica: La doppia strategia di prova fornisce diverse prospettive teoriche
  3. Praticità: Tutti i risultati teorici corrispondono ad architetture di rete implementabili
  4. Completezza: Forma una catena di ricerca completa dall'analisi teorica alla verifica sperimentale

Carenze

  1. Scala Sperimentale Limitata: Gli esperimenti si concentrano principalmente su dataset semplici, mancando di verifica su applicazioni su larga scala
  2. Analisi della Complessità Computazionale: L'analisi del sovraccarico computazionale dell'esecuzione dei vincoli non è sufficientemente approfondita
  3. Benchmark di Confronto: Manca un confronto dettagliato con altri metodi di reti 1-Lipschitz

Impatto

  1. Valore Accademico: Fornisce fondamenti importanti per la teoria delle reti neurali vincolate
  2. Prospettive di Applicazione: Ampio potenziale di applicazione nella modellazione generativa, problemi inversi e apprendimento robusto
  3. Contributo Metodologico: Le tecniche di prova potrebbero ispirare l'analisi teorica di altre reti vincolate

Scenari di Applicazione

  1. Wasserstein GAN: Fornisce supporto teorico per la progettazione del discriminatore
  2. Algoritmi Plug-and-Play: Progettazione di denoiser che garantisce la convergenza
  3. Robustezza Avversariale: Miglioramento della resistenza del classificatore agli attacchi avversariali
  4. Risoluzione di Problemi Inversi: Applicazioni in imaging medico, elaborazione dei segnali e altri campi

Bibliografia

Questo articolo cita 42 importanti riferimenti, coprendo lavori fondamentali in teoria dell'approssimazione universale, metodi di vincolo Lipschitz, teoria dei sistemi dinamici e altri campi, fornendo una base solida per l'analisi teorica.