The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- ID articolo: 2510.09177
- Titolo: Proprietà di approssimazione distributivamente robusta delle reti neurali
- Autori: Mihriban Ceylan, David J. Prömel
- Classificazione: stat.ML cs.LG math.FA math.PR
- Data di pubblicazione: 13 ottobre 2025
- Link articolo: https://arxiv.org/abs/2510.09177
La proprietà di approssimazione universale, uniformemente rispetto a famiglie debolmente compatte di misure, è stabilita per diverse classi di reti neurali. A tal fine, dimostriamo che queste reti neurali sono dense negli spazi di Orlicz, estendendo così i teoremi classici di approssimazione universale anche al di là dell'impostazione tradizionale Lp. Le classi di reti neurali coperte includono architetture ampiamente utilizzate come reti neurali feedforward con funzioni di attivazione non polinomiali, reti profonde strette con funzioni di attivazione ReLU e reti neurali con input funzionali.
Il problema centrale che questa ricerca affronta è l'istituzione della proprietà di approssimazione distributivamente robusta (distributionally robust approximation property) delle reti neurali. Nello specifico, i teoremi classici di approssimazione universale (Universal Approximation Theorems, UATs) considerano solo l'approssimazione nello spazio Lp(μ) sotto una singola distribuzione fissa μ, mentre questo articolo dimostra che le reti neurali possono approssimare funzioni uniformemente su una famiglia di misure debolmente compatta M, cioè per una data funzione f e qualsiasi ε>0, esiste una rete neurale η tale che:
supν∈M∥f−η∥L1(ν)<ε
- Significato teorico: Estende i teoremi classici di approssimazione universale, generalizzando dall'impostazione di una singola distribuzione all'approssimazione uniforme su una famiglia di distribuzioni
- Esigenze pratiche: Nella pratica dell'apprendimento automatico, l'incertezza sulla distribuzione dei dati è una sfida universalmente presente, denominata incertezza distributiva (distributional uncertainty)
- Valore applicativo: Fornisce fondamenti teorici per l'apprendimento distributivamente robusto, l'addestramento avversariale, la gestione di dati rumorosi e altri campi
I teoremi classici di approssimazione universale presentano le seguenti limitazioni:
- Restrizione a singola distribuzione: Stabilisce la proprietà di approssimazione solo nello spazio Lp(μ) per una singola misura fissa μ
- Restrizione dello spazio: Principalmente limitato al quadro dello spazio Lp, mancando di una teoria dello spazio funzionale più generale
- Mancanza di robustezza: Non può gestire scenari di drift distributivo o incertezza distributiva
La motivazione di questo articolo deriva da:
- L'ubiquità dell'incertezza distributiva nelle applicazioni reali (come l'incertezza knightiana, campioni avversariali, ecc.)
- La necessità di supporto teorico per lo sviluppo dell'ottimizzazione distributivamente robusta e dell'apprendimento statistico
- L'esigenza teorica di estendere la teoria delle reti neurali dallo spazio Lp a spazi di Orlicz più generali
- Teorema di approssimazione universale nello spazio di Orlicz: Dimostra per la prima volta la densità di più classi di reti neurali negli spazi di Orlicz rispetto alla norma di Luxemburg, rappresentando un'importante generalizzazione dei risultati classici dello spazio Lp
- Proprietà di approssimazione distributivamente robusta: Stabilisce il teorema di approssimazione universale distributivamente robusto delle reti neurali rispetto a famiglie di misure debolmente compatte, fornendo fondamenti teorici per affrontare l'incertezza distributiva
- Copertura di architetture di rete ampia: Copre diverse importanti architetture di reti neurali:
- Reti feedforward con funzioni di attivazione non polinomiali limitate
- Reti profonde strette con attivazione ReLU
- Reti neurali con input funzionali
- Innovazione del quadro teorico: Attraverso la teoria dello spazio di Orlicz, fornisce un quadro matematico unificato per gestire diverse funzioni di perdita (come entropia incrociata, divergenza KL)
Data una famiglia di misure debolmente compatta M e una funzione appropriata f:RN0→RNL, per qualsiasi ε>0, trovare una rete neurale η tale che:
supν∈M∥f−η∥L1(ν)<ε
L'articolo costruisce il quadro matematico basato sulla teoria dello spazio di Orlicz. Per una funzione di Young φ, lo spazio di Orlicz è definito come:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ per qualche α>0}
equipaggiato con la norma gauge:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- Rete neurale feedforward: η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- Rete neurale con input funzionali: η(x)=∑n=1Nynϱ(hn(x)), dove hn∈H è una famiglia additiva
Per una N-funzione φ e una misura di Borel localmente finita μ, le reti neurali sono dense nel nucleo di Orlicz Mφ(μ) rispetto alla norma gauge, coprendo:
- Funzioni di attivazione limitate non costanti (misura finita)
- Funzioni di attivazione ReLU (misura localmente finita)
- Funzioni di attivazione continue non polinomiali (misura a supporto compatto)
- Reti neurali con input funzionali (soddisfacendo condizioni specifiche)
Per una famiglia di misure debolmente compatta M e la sua coppia di Young associata (φM,ψM), per qualsiasi f∈MφM(μ;RNL) e ε>0, esiste una rete neurale η della classe corrispondente tale che:
supν∈M∥f−η∥L1(ν;RNL)<ε
- Costruzione della coppia di Young: Utilizza l'uniforme integrabilità della famiglia di misure debolmente compatte, costruendo la coppia di Young associata attraverso il teorema di De la Vallée Poussin
- Generalizzazione della disuguaglianza di Hölder: Utilizza la disuguaglianza di Hölder generalizzata per stabilire la connessione tra lo spazio di Orlicz e lo spazio L1
- Argomento di densità: Dimostra la densità delle reti neurali attraverso versioni generalizzate del teorema di Hahn-Banach e del teorema di rappresentazione di Riesz
Questo articolo è una ricerca puramente teorica e non contiene esperimenti numerici. Tutti i risultati sono stabiliti attraverso dimostrazioni matematiche rigorose.
- Metodo per assurdo: Assume che le reti neurali non siano dense, utilizzando il teorema di Hahn-Banach per derivare una contraddizione
- Dimostrazione costruttiva: Per le reti ReLU, costruisce esplicitamente reti di approssimazione
- Tecniche di teoria dell'approssimazione: Utilizza risultati classici della teoria dell'approssimazione combinati con la teoria della misura
Per una funzione di attivazione limitata non costante ϱ e L ≥ 2, NNN0,NL,L,∞ϱ è densa in Mφ(μ) su qualsiasi misura di Borel finita.
Per la funzione di attivazione ReLU, NNN0,NL,∞,N0+NL+1ϱ è densa in Mφ(μ) su qualsiasi misura di Borel localmente finita.
Per una funzione di attivazione continua non polinomiale, NNN0,NL,L,∞ϱ è densa in Mφ(μ) su misure di Borel finite a supporto compatto.
Sotto condizioni appropriate, la rete neurale con input funzionali NNRN0,RN2H,ϱ è densa in Mφ(μ) su misure di Borel finite.
- Estensione dello spazio: Generalizza con successo i risultati classici Lp allo spazio di Orlicz, fornendo un quadro per gestire condizioni di crescita non standard
- Generalizzazione della misura: Generalizza dalla misura di Lebesgue a misure di Borel localmente finite generali
- Unificazione dell'architettura: Gestisce diverse architetture di reti neurali sotto un quadro teorico unificato
- Cybenko (1989): Stabilisce la proprietà di approssimazione universale per reti feedforward con funzione di attivazione sigmoide
- Hornik (1991): Estende a funzioni di attivazione più generali e spazi di Sobolev
- Leshno et al. (1993): Risultati per funzioni di attivazione non polinomiali
- Kidger & Lyons (2020): Proprietà di approssimazione universale per reti ReLU profonde strette
- Cuchiero et al. (2025): Approssimazione universale globale per reti neurali con input funzionali
- Costarelli & Vinti (2019): Operatori di Kantorovich nello spazio di Orlicz
- Ben-Tal et al. (2013): Ottimizzazione robusta sotto probabilità incerte
- Gao & Kleywegt (2016): Ottimizzazione stocastica distributivamente robusta sotto distanza di Wasserstein
- Stabilisce la proprietà di approssimazione universale delle reti neurali nello spazio di Orlicz, estendendo significativamente la teoria classica
- Dimostra la capacità di approssimazione distributivamente robusta delle reti neurali, fornendo fondamenti teorici per affrontare l'incertezza distributiva
- Copre architetture di reti neurali ampiamente utilizzate, con buon valore pratico
- Condizioni sulla misura: Diverse architetture di rete richiedono diverse condizioni sulla misura (finitezza, supporto compatto, ecc.)
- Costruttività: Sebbene dimostri l'esistenza, manca di metodi espliciti di costruzione della rete
- Complessità computazionale: Non analizza le relazioni quantitative tra la dimensione della rete richiesta e la precisione dell'approssimazione
- Analisi quantitativa: Stabilire relazioni quantitative tra errore di approssimazione e complessità della rete
- Implementazione algoritmica: Sviluppare algoritmi pratici basati sui risultati teorici
- Estensione applicativa: Applicare la teoria a compiti specifici di apprendimento automatico
- Profondità teorica: Rigoroso e profondo dal punto di vista matematico, portando la teoria delle reti neurali a un nuovo livello
- Quadro unificato: Il quadro dello spazio di Orlicz fornisce una prospettiva unificata per affrontare molteplici problemi
- Significato pratico: Fornisce fondamenti teorici solidi per l'apprendimento distributivamente robusto
- Innovazione tecnica: Combina abilmente tecniche di analisi funzionale, teoria della misura e teoria dell'approssimazione
- Divario di applicabilità pratica: Risultati puramente teorici, con notevole distanza dalle applicazioni pratiche
- Limitazioni delle condizioni: Diversi risultati richiedono diverse condizioni tecniche, con limitata uniformità
- Mancanza di costruzione: Mancano costruzioni esplicite di reti e algoritmi di addestramento
- Contributo teorico: Pone nuove fondazioni matematiche per la teoria delle reti neurali
- Valore interdisciplinare: Connette l'apprendimento automatico, l'analisi funzionale e la teoria della misura
- Significato a lungo termine: Fornisce guida teorica per la ricerca futura sull'apprendimento distributivamente robusto
- Ricerca teorica: Fornisce nuovi strumenti ai ricercatori di teoria delle reti neurali
- Apprendimento robusto: Guida lo sviluppo teorico dell'ottimizzazione distributivamente robusta e dell'addestramento avversariale
- Perdite non standard: Analisi teorica per gestire funzioni di perdita non di tipo Lp come entropia incrociata e divergenza KL
L'articolo contiene una ricca bibliografia che copre importanti lavori in più campi tra cui teoria dell'approssimazione, analisi funzionale, teoria delle reti neurali e ottimizzazione distributivamente robusta, fornendo ai lettori una conoscenza di base completa.
Valutazione complessiva: Questo è un articolo teoricamente molto rigoroso e profondo, che generalizza con successo la teoria di approssimazione universale delle reti neurali dallo spazio classico Lp allo spazio di Orlicz e stabilisce proprietà di approssimazione distributivamente robusta. Sebbene vi sia ancora una distanza dalle applicazioni pratiche, fornisce importanti fondamenti matematici per la teoria delle reti neurali e l'apprendimento distributivamente robusto.