2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, Prömel
The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
academic

Propriété d'approximation distributionnellement robuste des réseaux de neurones

Informations de base

  • ID de l'article: 2510.09177
  • Titre: Propriété d'approximation distributionnellement robuste des réseaux de neurones
  • Auteurs: Mihriban Ceylan, David J. Prömel
  • Classification: stat.ML cs.LG math.FA math.PR
  • Date de publication: 13 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.09177

Résumé

La propriété d'approximation universelle uniformément par rapport aux familles de mesures faiblement compactes est établie pour plusieurs classes de réseaux de neurones. À cette fin, nous prouvons que ces réseaux de neurones sont denses dans les espaces d'Orlicz, étendant ainsi les théorèmes d'approximation universelle classiques au-delà du cadre traditionnel LpL^p. Les classes de réseaux de neurones couverts incluent des architectures largement utilisées comme les réseaux de neurones feedforward avec des fonctions d'activation non polynomiales, les réseaux profonds étroits avec des fonctions d'activation ReLU et les réseaux de neurones à entrée fonctionnelle.

Contexte de recherche et motivation

Définition du problème

Le problème fondamental que cette recherche vise à résoudre est l'établissement de la propriété d'approximation distributionnellement robuste (distributionally robust approximation property) des réseaux de neurones. Plus précisément, les théorèmes d'approximation universelle classiques (Universal Approximation Theorems, UATs) ne considèrent l'approximation que dans l'espace Lp(μ)L^p(μ) sous une distribution fixe unique μ, tandis que cet article vise à prouver que les réseaux de neurones peuvent approximer des fonctions uniformément sur une famille de mesures faiblement compactes M\mathcal{M}, c'est-à-dire que pour une fonction donnée ff et tout ε>0ε > 0, il existe un réseau de neurones ηη tel que: supνMfηL1(ν)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε

Importance de la recherche

  1. Signification théorique: Extension des théorèmes d'approximation universelle classiques, généralisant du cadre de distribution unique à l'approximation uniforme sur une famille de distributions
  2. Besoin pratique: Dans la pratique du machine learning, l'incertitude sur la distribution des données est un défi omniprésent, appelé incertitude distributionnelle (distributional uncertainty)
  3. Valeur applicative: Fournit une base théorique pour l'apprentissage distributionnellement robuste, l'entraînement adversarial, le traitement des données bruitées et autres domaines connexes

Limitations des méthodes existantes

Les théorèmes d'approximation universelle classiques présentent les limitations suivantes:

  1. Restriction à une distribution unique: Établit la propriété d'approximation uniquement pour une mesure fixe unique μ dans l'espace Lp(μ)L^p(μ)
  2. Limitation d'espace: Principalement limité au cadre des espaces LpL^p, manquant de théorie générale des espaces fonctionnels
  3. Absence de robustesse: Incapable de traiter les scénarios de dérive distributionnelle ou d'incertitude distributionnelle

Motivation de la recherche

La motivation de cet article provient de:

  1. L'omniprésence de l'incertitude distributionnelle dans les applications réelles (comme l'incertitude de Knight, les exemples adversariaux, etc.)
  2. Le besoin de support théorique pour le développement de l'optimisation distributionnellement robuste et de l'apprentissage statistique
  3. Le besoin théorique d'étendre la théorie des réseaux de neurones des espaces LpL^p aux espaces d'Orlicz plus généraux

Contributions principales

  1. Théorème d'approximation universelle dans les espaces d'Orlicz: Première preuve que plusieurs classes de réseaux de neurones sont denses dans les espaces d'Orlicz par rapport à la norme de Luxemburg, ce qui constitue une généralisation importante des résultats classiques dans les espaces LpL^p
  2. Propriété d'approximation distributionnellement robuste: Établissement d'un théorème d'approximation universelle distributionnellement robuste pour les réseaux de neurones par rapport aux familles de mesures faiblement compactes, fournissant une base théorique pour traiter l'incertitude distributionnelle
  3. Couverture d'architectures de réseau étendues: Couvre plusieurs architectures importantes de réseaux de neurones:
    • Réseaux feedforward avec fonctions d'activation non polynomiales bornées
    • Réseaux profonds étroits avec activation ReLU
    • Réseaux de neurones à entrée fonctionnelle
  4. Innovation du cadre théorique: Par la théorie des espaces d'Orlicz, fournit un cadre mathématique unifié pour traiter différentes fonctions de perte (comme l'entropie croisée, la divergence KL)

Détails méthodologiques

Définition de la tâche

Étant donné une famille de mesures faiblement compactes M\mathcal{M} et une fonction appropriée f:RN0RNLf: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}, pour tout ε>0ε > 0, trouver un réseau de neurones ηη tel que: supνMfηL1(ν)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε

Architecture théorique

Cadre des espaces d'Orlicz

L'article construit un cadre mathématique basé sur la théorie des espaces d'Orlicz. Pour une fonction de Young φ, l'espace d'Orlicz est défini comme: Lφ(μ;RNL):={f:RN0RNL:RN0φ(αf)dμ< pour un certain α>0}L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ pour un certain } α > 0\}

équipé de la norme de jauge: Nφ,μ(f):=inf{k>0:RN0φ(f/k)dμ1}N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}

Définition des réseaux de neurones

  1. Réseaux feedforward: η=wLϱwL1ϱw1η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1
  2. Réseaux de neurones à entrée fonctionnelle: η(x)=n=1Nynϱ(hn(x))η(x) = \sum_{n=1}^N y_n ϱ(h_n(x)), où hnHh_n \in \mathcal{H} est une famille additive

Théorèmes fondamentaux

Théorème 2.3 (Théorème d'approximation universelle dans les espaces d'Orlicz)

Pour une N-fonction φ et une mesure de Borel localement finie μ, les réseaux de neurones sont denses dans le cœur d'Orlicz Mφ(μ)M^φ(μ) par rapport à la norme de jauge, couvrant:

  1. Les fonctions d'activation bornées non constantes (mesure finie)
  2. Les fonctions d'activation ReLU (mesure localement finie)
  3. Les fonctions d'activation continues non polynomiales (mesure à support compact)
  4. Les réseaux de neurones à entrée fonctionnelle (satisfaisant certaines conditions)

Théorème 3.1 (Théorème d'approximation universelle distributionnellement robuste)

Pour une famille de mesures faiblement compactes M\mathcal{M} et sa paire de Young associée (φM,ψM)(φ_\mathcal{M}, ψ_\mathcal{M}), pour tout fMφM(μ;RNL)f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L}) et ε>0ε > 0, il existe un réseau de neurones η de la classe correspondante tel que: supνMfηL1(ν;RNL)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε

Points d'innovation technique

  1. Construction de paires de Young: Utilisation de l'intégrabilité uniforme des familles de mesures faiblement compactes, construction de paires de Young associées via le théorème de De la Vallée Poussin
  2. Généralisation de l'inégalité de Hölder: Utilisation de l'inégalité de Hölder généralisée pour établir la connexion entre les espaces d'Orlicz et l'espace L1L^1
  3. Arguments de densité: Preuve de la densité des réseaux de neurones via des versions généralisées du théorème de Hahn-Banach et du théorème de représentation de Riesz

Configuration expérimentale

Cet article est une recherche purement théorique et ne contient pas d'expériences numériques. Tous les résultats sont établis par des preuves mathématiques rigoureuses.

Stratégie de preuve

  1. Preuve par l'absurde: Hypothèse que les réseaux de neurones ne sont pas denses, dérivation d'une contradiction via le théorème de Hahn-Banach
  2. Preuve constructive: Pour les réseaux ReLU, construction explicite de réseaux d'approximation
  3. Techniques de théorie d'approximation: Utilisation de résultats classiques de théorie d'approximation combinés avec la théorie de la mesure

Résultats expérimentaux

Résultats théoriques principaux

Proposition 2.4 (Fonctions d'activation bornées)

Pour une fonction d'activation bornée non constante ϱ et L2L ≥ 2, NNN0,NL,L,ϱ\mathcal{NN}^ϱ_{N_0,N_L,L,∞} est dense dans Mφ(μ)M^φ(μ) sur toute mesure de Borel finie.

Proposition 2.6 (Fonction d'activation ReLU)

Pour la fonction d'activation ReLU, NNN0,NL,,N0+NL+1ϱ\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1} est dense dans Mφ(μ)M^φ(μ) sur toute mesure de Borel localement finie.

Proposition 2.8 (Fonctions d'activation non polynomiales)

Pour une fonction d'activation continue non polynomiale, NNN0,NL,L,ϱ\mathcal{NN}^ϱ_{N_0,N_L,L,∞} est dense dans Mφ(μ)M^φ(μ) sur les mesures de Borel finies à support compact.

Proposition 2.10 (Réseaux de neurones à entrée fonctionnelle)

Sous des conditions appropriées, les réseaux de neurones à entrée fonctionnelle NNRN0,RN2H,ϱ\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}} sont denses dans Mφ(μ)M^φ(μ) sur les mesures de Borel finies.

Découvertes théoriques

  1. Extension d'espace: Généralisation réussie des résultats classiques LpL^p aux espaces d'Orlicz, fournissant un cadre pour traiter les conditions de croissance non standard
  2. Généralisation de mesure: Généralisation des mesures de Lebesgue aux mesures de Borel localement finies générales
  3. Unification d'architecture: Traitement de plusieurs architectures de réseaux de neurones dans un cadre théorique unifié

Travaux connexes

Théorie classique d'approximation universelle

  • Cybenko (1989): Établissement de la propriété d'approximation universelle pour les réseaux feedforward avec fonction d'activation sigmoïde
  • Hornik (1991): Extension à des fonctions d'activation plus générales et aux espaces de Sobolev
  • Leshno et al. (1993): Résultats pour les fonctions d'activation non polynomiales

Développements modernes

  • Kidger & Lyons (2020): Propriété d'approximation universelle pour les réseaux ReLU profonds étroits
  • Cuchiero et al. (2025): Approximation universelle globale pour les réseaux de neurones à entrée fonctionnelle
  • Costarelli & Vinti (2019): Opérateurs de Kantorovich dans les espaces d'Orlicz

Optimisation distributionnellement robuste

  • Ben-Tal et al. (2013): Optimisation robuste sous probabilités incertaines
  • Gao & Kleywegt (2016): Optimisation stochastique distributionnellement robuste sous distance de Wasserstein

Conclusion et discussion

Conclusions principales

  1. Établissement de la propriété d'approximation universelle des réseaux de neurones dans les espaces d'Orlicz, extension significative de la théorie classique
  2. Preuve de la capacité d'approximation distributionnellement robuste des réseaux de neurones, fournissant une base théorique pour traiter l'incertitude distributionnelle
  3. Couverture d'architectures de réseaux de neurones largement utilisées, avec une bonne valeur pratique

Limitations

  1. Conditions de mesure: Différentes architectures de réseau nécessitent différentes conditions de mesure (finitude, support compact, etc.)
  2. Constructivité: Bien que l'existence soit prouvée, il manque des méthodes de construction explicite de réseau
  3. Complexité computationnelle: Pas d'analyse des relations quantitatives entre la taille du réseau requise et la précision d'approximation

Directions futures

  1. Analyse quantitative: Établissement de relations quantitatives entre l'erreur d'approximation et la complexité du réseau
  2. Implémentation algorithmique: Développement d'algorithmes pratiques basés sur les résultats théoriques
  3. Extension applicative: Application de la théorie à des tâches spécifiques de machine learning

Évaluation approfondie

Avantages

  1. Profondeur théorique: Rigoureux et profond mathématiquement, faisant progresser la théorie des réseaux de neurones à un nouveau niveau
  2. Cadre unifié: Le cadre des espaces d'Orlicz fournit une perspective unifiée pour traiter plusieurs problèmes
  3. Signification pratique: Fournit une base théorique solide pour l'apprentissage distributionnellement robuste
  4. Innovation technique: Combinaison ingénieuse de techniques d'analyse fonctionnelle, théorie de la mesure et théorie d'approximation

Insuffisances

  1. Écart d'applicabilité: Résultats purement théoriques, écart considérable avec les applications pratiques
  2. Restrictions de conditions: Différents résultats nécessitent différentes conditions techniques, uniformité limitée
  3. Absence de construction: Manque de construction explicite de réseau et d'algorithmes d'entraînement

Impact

  1. Contribution théorique: Établissement de nouvelles bases mathématiques pour la théorie des réseaux de neurones
  2. Valeur interdisciplinaire: Connexion du machine learning, de l'analyse fonctionnelle et de la théorie de la mesure
  3. Signification à long terme: Fourniture de guidance théorique pour la recherche future en apprentissage distributionnellement robuste

Scénarios applicables

  1. Recherche théorique: Fourniture de nouveaux outils pour les chercheurs en théorie des réseaux de neurones
  2. Apprentissage robuste: Guidance du développement théorique de l'optimisation distributionnellement robuste et de l'entraînement adversarial
  3. Pertes non standard: Analyse théorique du traitement des fonctions de perte non LpL^p comme l'entropie croisée et la divergence KL

Références bibliographiques

L'article contient des références bibliographiques abondantes, couvrant des travaux importants dans plusieurs domaines incluant la théorie d'approximation, l'analyse fonctionnelle, la théorie des réseaux de neurones et l'optimisation distributionnellement robuste, fournissant aux lecteurs des connaissances contextuelles complètes.


Évaluation globale: Cet article est très rigoureux et profond sur le plan théorique, généralisant avec succès la théorie d'approximation universelle des réseaux de neurones des espaces LpL^p classiques aux espaces d'Orlicz, et établissant la propriété d'approximation distributionnellement robuste. Bien qu'il existe une distance avec les applications pratiques, il fournit une base mathématique importante pour la théorie des réseaux de neurones et l'apprentissage distributionnellement robuste.