1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic
Teoria dell'approssimazione per ResNet 1-Lipschitz
Questo articolo esamina la capacità di approssimazione delle reti residuali (ResNet) 1-Lipschitz basate su passi espliciti di Eulero del flusso di gradiente negativo. Utilizzando il teorema di Stone-Weierstrass ristretto, gli autori dimostrano innanzitutto che queste ResNet 1-Lipschitz sono dense nell'insieme delle funzioni scalari 1-Lipschitz su qualsiasi dominio compatto quando la larghezza e la profondità possono aumentare. Inoltre, provano che queste reti possono rappresentare esattamente le funzioni scalari affini a tratti 1-Lipschitz. Viene inoltre stabilito un risultato più forte: mantenendo la stessa densità con larghezza nascosta fissa inserendo mappe lineari con vincoli di norma tra i blocchi residuali. Poiché ogni strato segue semplici vincoli di norma, il modello risultante può essere addestrato con ottimizzatori standard.
Le reti neurali 1-Lipschitz svolgono un ruolo fondamentale in diversi campi importanti:
Modellazione Generativa: Il discriminatore nelle Wasserstein GAN deve essere 1-Lipschitz per fornire una stima efficace della distanza 1-Wasserstein attraverso la dualità di Kantorovich-Rubinstein
Problemi Inversi: Negli algoritmi Plug-and-Play, il vincolo 1-Lipschitz garantisce la convergenza dello schema iterativo
Classificatori Robusti: Il controllo della costante di Lipschitz della rete migliora la robustezza agli attacchi avversariali
Riduzione della Capacità Espressiva: Vincolare la costante di Lipschitz della rete generalmente riduce la sua capacità espressiva, determinando un calo significativo delle prestazioni
Carenza Teorica: Comprensione insufficiente delle proprietà di approssimazione delle reti vincolate; diverse strategie di vincolo possono produrre capacità espressive significativamente diverse
Difficoltà di Implementazione: Le ResNet 1-Lipschitz esistenti mancano di garanzie teoriche rigorose
Questo articolo mira a colmare il vuoto nell'analisi teorica delle ResNet 1-Lipschitz, fornendo fondamenti matematici rigorosi per comprendere la capacità di approssimazione di queste reti e fornire supporto teorico per applicazioni pratiche.
Primo Teorema di Approssimazione Universale: Fornisce le prime garanzie di approssimazione universale per le ResNet 1-Lipschitz, dimostrando la densità delle ResNet basate su flusso di gradiente negativo nell'insieme delle funzioni scalari 1-Lipschitz
Risultati di Approssimazione a Larghezza Fissa: Introducendo mappe lineari con vincoli di norma, dimostra che la proprietà di approssimazione universale si mantiene anche con larghezza di rete fissa
Metodo di Prova Costruttivo: Fornisce due strategie di prova - basata sul teorema di Stone-Weierstrass ristretto e basata su un metodo costruttivo con funzioni affini a tratti
Progettazione di Architettura Pratica: Propone un'architettura di rete con condizioni di vincolo esplicite, addestrabile con ottimizzatori standard
Metodo di Stone-Weierstrass: Verifica che l'insieme di reti sia un reticolo che separa i punti, soddisfacendo le condizioni del teorema di Stone-Weierstrass ristretto
Metodo Costruttivo: Dimostra che la rete può rappresentare esattamente tutte le funzioni affini a tratti 1-Lipschitz
Dipendenza dalla Funzione di Attivazione: La teoria dipende fortemente dalle proprietà speciali di ReLU
Complessità di Implementazione: L'architettura a larghezza fissa richiede strati affini aggiuntivi, aumentando la complessità di implementazione
Restrizione a Funzioni Scalari: I risultati principali si concentrano su funzioni a valori scalari; l'estensione a funzioni a valori vettoriali richiede ulteriori ricerche
Questo articolo cita 42 importanti riferimenti, coprendo lavori fondamentali in teoria dell'approssimazione universale, metodi di vincolo Lipschitz, teoria dei sistemi dinamici e altri campi, fornendo una base solida per l'analisi teorica.