The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- ID de l'article: 2510.09177
- Titre: Propriété d'approximation distributionnellement robuste des réseaux de neurones
- Auteurs: Mihriban Ceylan, David J. Prömel
- Classification: stat.ML cs.LG math.FA math.PR
- Date de publication: 13 octobre 2025
- Lien de l'article: https://arxiv.org/abs/2510.09177
La propriété d'approximation universelle uniformément par rapport aux familles de mesures faiblement compactes est établie pour plusieurs classes de réseaux de neurones. À cette fin, nous prouvons que ces réseaux de neurones sont denses dans les espaces d'Orlicz, étendant ainsi les théorèmes d'approximation universelle classiques au-delà du cadre traditionnel Lp. Les classes de réseaux de neurones couverts incluent des architectures largement utilisées comme les réseaux de neurones feedforward avec des fonctions d'activation non polynomiales, les réseaux profonds étroits avec des fonctions d'activation ReLU et les réseaux de neurones à entrée fonctionnelle.
Le problème fondamental que cette recherche vise à résoudre est l'établissement de la propriété d'approximation distributionnellement robuste (distributionally robust approximation property) des réseaux de neurones. Plus précisément, les théorèmes d'approximation universelle classiques (Universal Approximation Theorems, UATs) ne considèrent l'approximation que dans l'espace Lp(μ) sous une distribution fixe unique μ, tandis que cet article vise à prouver que les réseaux de neurones peuvent approximer des fonctions uniformément sur une famille de mesures faiblement compactes M, c'est-à-dire que pour une fonction donnée f et tout ε>0, il existe un réseau de neurones η tel que:
supν∈M∥f−η∥L1(ν)<ε
- Signification théorique: Extension des théorèmes d'approximation universelle classiques, généralisant du cadre de distribution unique à l'approximation uniforme sur une famille de distributions
- Besoin pratique: Dans la pratique du machine learning, l'incertitude sur la distribution des données est un défi omniprésent, appelé incertitude distributionnelle (distributional uncertainty)
- Valeur applicative: Fournit une base théorique pour l'apprentissage distributionnellement robuste, l'entraînement adversarial, le traitement des données bruitées et autres domaines connexes
Les théorèmes d'approximation universelle classiques présentent les limitations suivantes:
- Restriction à une distribution unique: Établit la propriété d'approximation uniquement pour une mesure fixe unique μ dans l'espace Lp(μ)
- Limitation d'espace: Principalement limité au cadre des espaces Lp, manquant de théorie générale des espaces fonctionnels
- Absence de robustesse: Incapable de traiter les scénarios de dérive distributionnelle ou d'incertitude distributionnelle
La motivation de cet article provient de:
- L'omniprésence de l'incertitude distributionnelle dans les applications réelles (comme l'incertitude de Knight, les exemples adversariaux, etc.)
- Le besoin de support théorique pour le développement de l'optimisation distributionnellement robuste et de l'apprentissage statistique
- Le besoin théorique d'étendre la théorie des réseaux de neurones des espaces Lp aux espaces d'Orlicz plus généraux
- Théorème d'approximation universelle dans les espaces d'Orlicz: Première preuve que plusieurs classes de réseaux de neurones sont denses dans les espaces d'Orlicz par rapport à la norme de Luxemburg, ce qui constitue une généralisation importante des résultats classiques dans les espaces Lp
- Propriété d'approximation distributionnellement robuste: Établissement d'un théorème d'approximation universelle distributionnellement robuste pour les réseaux de neurones par rapport aux familles de mesures faiblement compactes, fournissant une base théorique pour traiter l'incertitude distributionnelle
- Couverture d'architectures de réseau étendues: Couvre plusieurs architectures importantes de réseaux de neurones:
- Réseaux feedforward avec fonctions d'activation non polynomiales bornées
- Réseaux profonds étroits avec activation ReLU
- Réseaux de neurones à entrée fonctionnelle
- Innovation du cadre théorique: Par la théorie des espaces d'Orlicz, fournit un cadre mathématique unifié pour traiter différentes fonctions de perte (comme l'entropie croisée, la divergence KL)
Étant donné une famille de mesures faiblement compactes M et une fonction appropriée f:RN0→RNL, pour tout ε>0, trouver un réseau de neurones η tel que:
supν∈M∥f−η∥L1(ν)<ε
L'article construit un cadre mathématique basé sur la théorie des espaces d'Orlicz. Pour une fonction de Young φ, l'espace d'Orlicz est défini comme:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ pour un certain α>0}
équipé de la norme de jauge:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- Réseaux feedforward: η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- Réseaux de neurones à entrée fonctionnelle: η(x)=∑n=1Nynϱ(hn(x)), où hn∈H est une famille additive
Pour une N-fonction φ et une mesure de Borel localement finie μ, les réseaux de neurones sont denses dans le cœur d'Orlicz Mφ(μ) par rapport à la norme de jauge, couvrant:
- Les fonctions d'activation bornées non constantes (mesure finie)
- Les fonctions d'activation ReLU (mesure localement finie)
- Les fonctions d'activation continues non polynomiales (mesure à support compact)
- Les réseaux de neurones à entrée fonctionnelle (satisfaisant certaines conditions)
Pour une famille de mesures faiblement compactes M et sa paire de Young associée (φM,ψM), pour tout f∈MφM(μ;RNL) et ε>0, il existe un réseau de neurones η de la classe correspondante tel que:
supν∈M∥f−η∥L1(ν;RNL)<ε
- Construction de paires de Young: Utilisation de l'intégrabilité uniforme des familles de mesures faiblement compactes, construction de paires de Young associées via le théorème de De la Vallée Poussin
- Généralisation de l'inégalité de Hölder: Utilisation de l'inégalité de Hölder généralisée pour établir la connexion entre les espaces d'Orlicz et l'espace L1
- Arguments de densité: Preuve de la densité des réseaux de neurones via des versions généralisées du théorème de Hahn-Banach et du théorème de représentation de Riesz
Cet article est une recherche purement théorique et ne contient pas d'expériences numériques. Tous les résultats sont établis par des preuves mathématiques rigoureuses.
- Preuve par l'absurde: Hypothèse que les réseaux de neurones ne sont pas denses, dérivation d'une contradiction via le théorème de Hahn-Banach
- Preuve constructive: Pour les réseaux ReLU, construction explicite de réseaux d'approximation
- Techniques de théorie d'approximation: Utilisation de résultats classiques de théorie d'approximation combinés avec la théorie de la mesure
Pour une fonction d'activation bornée non constante ϱ et L≥2, NNN0,NL,L,∞ϱ est dense dans Mφ(μ) sur toute mesure de Borel finie.
Pour la fonction d'activation ReLU, NNN0,NL,∞,N0+NL+1ϱ est dense dans Mφ(μ) sur toute mesure de Borel localement finie.
Pour une fonction d'activation continue non polynomiale, NNN0,NL,L,∞ϱ est dense dans Mφ(μ) sur les mesures de Borel finies à support compact.
Sous des conditions appropriées, les réseaux de neurones à entrée fonctionnelle NNRN0,RN2H,ϱ sont denses dans Mφ(μ) sur les mesures de Borel finies.
- Extension d'espace: Généralisation réussie des résultats classiques Lp aux espaces d'Orlicz, fournissant un cadre pour traiter les conditions de croissance non standard
- Généralisation de mesure: Généralisation des mesures de Lebesgue aux mesures de Borel localement finies générales
- Unification d'architecture: Traitement de plusieurs architectures de réseaux de neurones dans un cadre théorique unifié
- Cybenko (1989): Établissement de la propriété d'approximation universelle pour les réseaux feedforward avec fonction d'activation sigmoïde
- Hornik (1991): Extension à des fonctions d'activation plus générales et aux espaces de Sobolev
- Leshno et al. (1993): Résultats pour les fonctions d'activation non polynomiales
- Kidger & Lyons (2020): Propriété d'approximation universelle pour les réseaux ReLU profonds étroits
- Cuchiero et al. (2025): Approximation universelle globale pour les réseaux de neurones à entrée fonctionnelle
- Costarelli & Vinti (2019): Opérateurs de Kantorovich dans les espaces d'Orlicz
- Ben-Tal et al. (2013): Optimisation robuste sous probabilités incertaines
- Gao & Kleywegt (2016): Optimisation stochastique distributionnellement robuste sous distance de Wasserstein
- Établissement de la propriété d'approximation universelle des réseaux de neurones dans les espaces d'Orlicz, extension significative de la théorie classique
- Preuve de la capacité d'approximation distributionnellement robuste des réseaux de neurones, fournissant une base théorique pour traiter l'incertitude distributionnelle
- Couverture d'architectures de réseaux de neurones largement utilisées, avec une bonne valeur pratique
- Conditions de mesure: Différentes architectures de réseau nécessitent différentes conditions de mesure (finitude, support compact, etc.)
- Constructivité: Bien que l'existence soit prouvée, il manque des méthodes de construction explicite de réseau
- Complexité computationnelle: Pas d'analyse des relations quantitatives entre la taille du réseau requise et la précision d'approximation
- Analyse quantitative: Établissement de relations quantitatives entre l'erreur d'approximation et la complexité du réseau
- Implémentation algorithmique: Développement d'algorithmes pratiques basés sur les résultats théoriques
- Extension applicative: Application de la théorie à des tâches spécifiques de machine learning
- Profondeur théorique: Rigoureux et profond mathématiquement, faisant progresser la théorie des réseaux de neurones à un nouveau niveau
- Cadre unifié: Le cadre des espaces d'Orlicz fournit une perspective unifiée pour traiter plusieurs problèmes
- Signification pratique: Fournit une base théorique solide pour l'apprentissage distributionnellement robuste
- Innovation technique: Combinaison ingénieuse de techniques d'analyse fonctionnelle, théorie de la mesure et théorie d'approximation
- Écart d'applicabilité: Résultats purement théoriques, écart considérable avec les applications pratiques
- Restrictions de conditions: Différents résultats nécessitent différentes conditions techniques, uniformité limitée
- Absence de construction: Manque de construction explicite de réseau et d'algorithmes d'entraînement
- Contribution théorique: Établissement de nouvelles bases mathématiques pour la théorie des réseaux de neurones
- Valeur interdisciplinaire: Connexion du machine learning, de l'analyse fonctionnelle et de la théorie de la mesure
- Signification à long terme: Fourniture de guidance théorique pour la recherche future en apprentissage distributionnellement robuste
- Recherche théorique: Fourniture de nouveaux outils pour les chercheurs en théorie des réseaux de neurones
- Apprentissage robuste: Guidance du développement théorique de l'optimisation distributionnellement robuste et de l'entraînement adversarial
- Pertes non standard: Analyse théorique du traitement des fonctions de perte non Lp comme l'entropie croisée et la divergence KL
L'article contient des références bibliographiques abondantes, couvrant des travaux importants dans plusieurs domaines incluant la théorie d'approximation, l'analyse fonctionnelle, la théorie des réseaux de neurones et l'optimisation distributionnellement robuste, fournissant aux lecteurs des connaissances contextuelles complètes.
Évaluation globale: Cet article est très rigoureux et profond sur le plan théorique, généralisant avec succès la théorie d'approximation universelle des réseaux de neurones des espaces Lp classiques aux espaces d'Orlicz, et établissant la propriété d'approximation distributionnellement robuste. Bien qu'il existe une distance avec les applications pratiques, il fournit une base mathématique importante pour la théorie des réseaux de neurones et l'apprentissage distributionnellement robuste.