2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, PrÃ¶mel

The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.

academic

Propriété d'approximation distributionnellement robuste des réseaux de neurones

Informations de base

ID de l'article: 2510.09177
Titre: Propriété d'approximation distributionnellement robuste des réseaux de neurones
Auteurs: Mihriban Ceylan, David J. Prömel
Classification: stat.ML cs.LG math.FA math.PR
Date de publication: 13 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.09177

Résumé

La propriété d'approximation universelle uniformément par rapport aux familles de mesures faiblement compactes est établie pour plusieurs classes de réseaux de neurones. À cette fin, nous prouvons que ces réseaux de neurones sont denses dans les espaces d'Orlicz, étendant ainsi les théorèmes d'approximation universelle classiques au-delà du cadre traditionnel $L^p$ . Les classes de réseaux de neurones couverts incluent des architectures largement utilisées comme les réseaux de neurones feedforward avec des fonctions d'activation non polynomiales, les réseaux profonds étroits avec des fonctions d'activation ReLU et les réseaux de neurones à entrée fonctionnelle.

Contexte de recherche et motivation

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est l'établissement de la propriété d'approximation distributionnellement robuste (distributionally robust approximation property) des réseaux de neurones. Plus précisément, les théorèmes d'approximation universelle classiques (Universal Approximation Theorems, UATs) ne considèrent l'approximation que dans l'espace $L^p(μ)$ sous une distribution fixe unique μ, tandis que cet article vise à prouver que les réseaux de neurones peuvent approximer des fonctions uniformément sur une famille de mesures faiblement compactes $\mathcal{M}$ , c'est-à-dire que pour une fonction donnée $f$ et tout $ε > 0$ , il existe un réseau de neurones $η$ tel que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Importance de la recherche

Signification théorique: Extension des théorèmes d'approximation universelle classiques, généralisant du cadre de distribution unique à l'approximation uniforme sur une famille de distributions
Besoin pratique: Dans la pratique du machine learning, l'incertitude sur la distribution des données est un défi omniprésent, appelé incertitude distributionnelle (distributional uncertainty)
Valeur applicative: Fournit une base théorique pour l'apprentissage distributionnellement robuste, l'entraînement adversarial, le traitement des données bruitées et autres domaines connexes

Limitations des méthodes existantes

Les théorèmes d'approximation universelle classiques présentent les limitations suivantes:

Restriction à une distribution unique: Établit la propriété d'approximation uniquement pour une mesure fixe unique μ dans l'espace $L^p(μ)$
Limitation d'espace: Principalement limité au cadre des espaces $L^p$ , manquant de théorie générale des espaces fonctionnels
Absence de robustesse: Incapable de traiter les scénarios de dérive distributionnelle ou d'incertitude distributionnelle

Motivation de la recherche

La motivation de cet article provient de:

L'omniprésence de l'incertitude distributionnelle dans les applications réelles (comme l'incertitude de Knight, les exemples adversariaux, etc.)
Le besoin de support théorique pour le développement de l'optimisation distributionnellement robuste et de l'apprentissage statistique
Le besoin théorique d'étendre la théorie des réseaux de neurones des espaces $L^p$ aux espaces d'Orlicz plus généraux

Contributions principales

Théorème d'approximation universelle dans les espaces d'Orlicz: Première preuve que plusieurs classes de réseaux de neurones sont denses dans les espaces d'Orlicz par rapport à la norme de Luxemburg, ce qui constitue une généralisation importante des résultats classiques dans les espaces $L^p$
Propriété d'approximation distributionnellement robuste: Établissement d'un théorème d'approximation universelle distributionnellement robuste pour les réseaux de neurones par rapport aux familles de mesures faiblement compactes, fournissant une base théorique pour traiter l'incertitude distributionnelle
Couverture d'architectures de réseau étendues: Couvre plusieurs architectures importantes de réseaux de neurones:
- Réseaux feedforward avec fonctions d'activation non polynomiales bornées
- Réseaux profonds étroits avec activation ReLU
- Réseaux de neurones à entrée fonctionnelle
Innovation du cadre théorique: Par la théorie des espaces d'Orlicz, fournit un cadre mathématique unifié pour traiter différentes fonctions de perte (comme l'entropie croisée, la divergence KL)

Détails méthodologiques

Définition de la tâche

Étant donné une famille de mesures faiblement compactes $\mathcal{M}$ et une fonction appropriée $f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}$ , pour tout $ε > 0$ , trouver un réseau de neurones $η$ tel que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Architecture théorique

Cadre des espaces d'Orlicz

L'article construit un cadre mathématique basé sur la théorie des espaces d'Orlicz. Pour une fonction de Young φ, l'espace d'Orlicz est défini comme: $L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ pour un certain } α > 0\}$

équipé de la norme de jauge: $N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}$

Définition des réseaux de neurones

Réseaux feedforward: $η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1$
Réseaux de neurones à entrée fonctionnelle: $η(x) = \sum_{n=1}^N y_n ϱ(h_n(x))$ , où $h_n \in \mathcal{H}$ est une famille additive

Théorèmes fondamentaux

Théorème 2.3 (Théorème d'approximation universelle dans les espaces d'Orlicz)

Pour une N-fonction φ et une mesure de Borel localement finie μ, les réseaux de neurones sont denses dans le cœur d'Orlicz $M^φ(μ)$ par rapport à la norme de jauge, couvrant:

Les fonctions d'activation bornées non constantes (mesure finie)
Les fonctions d'activation ReLU (mesure localement finie)
Les fonctions d'activation continues non polynomiales (mesure à support compact)
Les réseaux de neurones à entrée fonctionnelle (satisfaisant certaines conditions)

Théorème 3.1 (Théorème d'approximation universelle distributionnellement robuste)

Pour une famille de mesures faiblement compactes $\mathcal{M}$ et sa paire de Young associée $(φ_\mathcal{M}, ψ_\mathcal{M})$ , pour tout $f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L})$ et $ε > 0$ , il existe un réseau de neurones η de la classe correspondante tel que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε$

Points d'innovation technique

Construction de paires de Young: Utilisation de l'intégrabilité uniforme des familles de mesures faiblement compactes, construction de paires de Young associées via le théorème de De la Vallée Poussin
Généralisation de l'inégalité de Hölder: Utilisation de l'inégalité de Hölder généralisée pour établir la connexion entre les espaces d'Orlicz et l'espace $L^1$
Arguments de densité: Preuve de la densité des réseaux de neurones via des versions généralisées du théorème de Hahn-Banach et du théorème de représentation de Riesz

Configuration expérimentale

Cet article est une recherche purement théorique et ne contient pas d'expériences numériques. Tous les résultats sont établis par des preuves mathématiques rigoureuses.

Stratégie de preuve

Preuve par l'absurde: Hypothèse que les réseaux de neurones ne sont pas denses, dérivation d'une contradiction via le théorème de Hahn-Banach
Preuve constructive: Pour les réseaux ReLU, construction explicite de réseaux d'approximation
Techniques de théorie d'approximation: Utilisation de résultats classiques de théorie d'approximation combinés avec la théorie de la mesure

Résultats expérimentaux

Résultats théoriques principaux

Proposition 2.4 (Fonctions d'activation bornées)

Pour une fonction d'activation bornée non constante ϱ et $L ≥ 2$ , $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ est dense dans $M^φ(μ)$ sur toute mesure de Borel finie.

Proposition 2.6 (Fonction d'activation ReLU)

Pour la fonction d'activation ReLU, $\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1}$ est dense dans $M^φ(μ)$ sur toute mesure de Borel localement finie.

Proposition 2.8 (Fonctions d'activation non polynomiales)

Pour une fonction d'activation continue non polynomiale, $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ est dense dans $M^φ(μ)$ sur les mesures de Borel finies à support compact.

Proposition 2.10 (Réseaux de neurones à entrée fonctionnelle)

Sous des conditions appropriées, les réseaux de neurones à entrée fonctionnelle $\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}}$ sont denses dans $M^φ(μ)$ sur les mesures de Borel finies.

Découvertes théoriques

Extension d'espace: Généralisation réussie des résultats classiques $L^p$ aux espaces d'Orlicz, fournissant un cadre pour traiter les conditions de croissance non standard
Généralisation de mesure: Généralisation des mesures de Lebesgue aux mesures de Borel localement finies générales
Unification d'architecture: Traitement de plusieurs architectures de réseaux de neurones dans un cadre théorique unifié

Travaux connexes

Théorie classique d'approximation universelle

Cybenko (1989): Établissement de la propriété d'approximation universelle pour les réseaux feedforward avec fonction d'activation sigmoïde
Hornik (1991): Extension à des fonctions d'activation plus générales et aux espaces de Sobolev
Leshno et al. (1993): Résultats pour les fonctions d'activation non polynomiales

Développements modernes

Kidger & Lyons (2020): Propriété d'approximation universelle pour les réseaux ReLU profonds étroits
Cuchiero et al. (2025): Approximation universelle globale pour les réseaux de neurones à entrée fonctionnelle
Costarelli & Vinti (2019): Opérateurs de Kantorovich dans les espaces d'Orlicz

Optimisation distributionnellement robuste

Ben-Tal et al. (2013): Optimisation robuste sous probabilités incertaines
Gao & Kleywegt (2016): Optimisation stochastique distributionnellement robuste sous distance de Wasserstein

Conclusion et discussion

Conclusions principales

Établissement de la propriété d'approximation universelle des réseaux de neurones dans les espaces d'Orlicz, extension significative de la théorie classique
Preuve de la capacité d'approximation distributionnellement robuste des réseaux de neurones, fournissant une base théorique pour traiter l'incertitude distributionnelle
Couverture d'architectures de réseaux de neurones largement utilisées, avec une bonne valeur pratique

Limitations

Conditions de mesure: Différentes architectures de réseau nécessitent différentes conditions de mesure (finitude, support compact, etc.)
Constructivité: Bien que l'existence soit prouvée, il manque des méthodes de construction explicite de réseau
Complexité computationnelle: Pas d'analyse des relations quantitatives entre la taille du réseau requise et la précision d'approximation

Directions futures

Analyse quantitative: Établissement de relations quantitatives entre l'erreur d'approximation et la complexité du réseau
Implémentation algorithmique: Développement d'algorithmes pratiques basés sur les résultats théoriques
Extension applicative: Application de la théorie à des tâches spécifiques de machine learning

Évaluation approfondie

Avantages

Profondeur théorique: Rigoureux et profond mathématiquement, faisant progresser la théorie des réseaux de neurones à un nouveau niveau
Cadre unifié: Le cadre des espaces d'Orlicz fournit une perspective unifiée pour traiter plusieurs problèmes
Signification pratique: Fournit une base théorique solide pour l'apprentissage distributionnellement robuste
Innovation technique: Combinaison ingénieuse de techniques d'analyse fonctionnelle, théorie de la mesure et théorie d'approximation

Insuffisances

Écart d'applicabilité: Résultats purement théoriques, écart considérable avec les applications pratiques
Restrictions de conditions: Différents résultats nécessitent différentes conditions techniques, uniformité limitée
Absence de construction: Manque de construction explicite de réseau et d'algorithmes d'entraînement

Impact

Contribution théorique: Établissement de nouvelles bases mathématiques pour la théorie des réseaux de neurones
Valeur interdisciplinaire: Connexion du machine learning, de l'analyse fonctionnelle et de la théorie de la mesure
Signification à long terme: Fourniture de guidance théorique pour la recherche future en apprentissage distributionnellement robuste

Scénarios applicables

Recherche théorique: Fourniture de nouveaux outils pour les chercheurs en théorie des réseaux de neurones
Apprentissage robuste: Guidance du développement théorique de l'optimisation distributionnellement robuste et de l'entraînement adversarial
Pertes non standard: Analyse théorique du traitement des fonctions de perte non $L^p$ comme l'entropie croisée et la divergence KL

Références bibliographiques

L'article contient des références bibliographiques abondantes, couvrant des travaux importants dans plusieurs domaines incluant la théorie d'approximation, l'analyse fonctionnelle, la théorie des réseaux de neurones et l'optimisation distributionnellement robuste, fournissant aux lecteurs des connaissances contextuelles complètes.

Évaluation globale: Cet article est très rigoureux et profond sur le plan théorique, généralisant avec succès la théorie d'approximation universelle des réseaux de neurones des espaces $L^p$ classiques aux espaces d'Orlicz, et établissant la propriété d'approximation distributionnellement robuste. Bien qu'il existe une distance avec les applications pratiques, il fournit une base mathématique importante pour la théorie des réseaux de neurones et l'apprentissage distributionnellement robuste.