2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, Prömel
The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
academic

Propiedad de aproximación distributivamente robusta de redes neuronales

Información Básica

  • ID del Artículo: 2510.09177
  • Título: Propiedad de aproximación distributivamente robusta de redes neuronales
  • Autores: Mihriban Ceylan, David J. Prömel
  • Clasificación: stat.ML cs.LG math.FA math.PR
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09177

Resumen

Se establece la propiedad de aproximación universal de manera uniforme con respecto a familias débilmente compactas de medidas para varias clases de redes neuronales. Con este fin, probamos que estas redes neuronales son densas en espacios de Orlicz, extendiendo así los teoremas clásicos de aproximación universal más allá del contexto tradicional de LpL^p. Las clases de redes neuronales cubiertas incluyen arquitecturas ampliamente utilizadas como redes neuronales de retroalimentación con funciones de activación no polinómicas, redes profundas estrechas con funciones de activación ReLU y redes neuronales con entrada funcional.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es establecer la propiedad de aproximación distributivamente robusta (distributionally robust approximation property) de redes neuronales. Específicamente, los teoremas clásicos de aproximación universal (Universal Approximation Theorems, UATs) solo consideran la aproximación en espacios Lp(μ)L^p(μ) bajo una única distribución fija μ, mientras que este artículo demuestra que las redes neuronales pueden aproximar funciones uniformemente sobre familias débilmente compactas de medidas M\mathcal{M}, es decir, para una función dada ff y cualquier ε>0ε > 0, existe una red neuronal ηη tal que: supνMfηL1(ν)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε

Importancia de la Investigación

  1. Significado Teórico: Extiende los teoremas clásicos de aproximación universal, generalizando desde configuraciones de distribución única a aproximación uniforme sobre familias de distribuciones
  2. Demanda Práctica: En la práctica del aprendizaje automático, la incertidumbre en la distribución de datos es un desafío omnipresente, conocido como incertidumbre distribucional (distributional uncertainty)
  3. Valor Aplicado: Proporciona fundamentos teóricos para aprendizaje distributivamente robusto, entrenamiento adversarial, procesamiento de datos ruidosos y otros campos relacionados

Limitaciones de Métodos Existentes

Los teoremas clásicos de aproximación universal presentan las siguientes limitaciones:

  1. Restricción de Distribución Única: Solo se aplican a una medida única y fija μ en espacios Lp(μ)L^p(μ)
  2. Restricción de Espacio: Se limitan principalmente al marco de espacios LpL^p, careciendo de teoría de espacios funcionales más generales
  3. Ausencia de Robustez: No pueden manejar escenarios de cambio distribucional o incertidumbre distribucional

Motivación de la Investigación

La motivación de este trabajo surge de:

  1. La existencia omnipresente de incertidumbre distribucional en aplicaciones reales (como incertidumbre de Knight, muestras adversariales, etc.)
  2. La necesidad de apoyo teórico para el desarrollo de optimización distributivamente robusta y aprendizaje estadístico
  3. La necesidad teórica de extender la teoría de redes neuronales desde espacios LpL^p a espacios de Orlicz más generales

Contribuciones Principales

  1. Teorema de Aproximación Universal en Espacios de Orlicz: Se prueba por primera vez la densidad de múltiples clases de redes neuronales en espacios de Orlicz con respecto a la norma de Luxemburgo, lo que representa una extensión importante de los resultados clásicos en espacios LpL^p
  2. Propiedad de Aproximación Distributivamente Robusta: Se establece el teorema de aproximación universal distributivamente robusto de redes neuronales con respecto a familias débilmente compactas de medidas, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
  3. Cobertura Amplia de Arquitecturas de Red: Abarca múltiples arquitecturas importantes de redes neuronales:
    • Redes de retroalimentación con funciones de activación no polinómicas acotadas
    • Redes profundas estrechas con activación ReLU
    • Redes neuronales con entrada funcional
  4. Innovación del Marco Teórico: A través de la teoría de espacios de Orlicz, proporciona un marco matemático unificado para manejar diferentes funciones de pérdida (como entropía cruzada, divergencia KL)

Explicación Detallada de Métodos

Definición de la Tarea

Dada una familia débilmente compacta de medidas M\mathcal{M} y una función apropiada f:RN0RNLf: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}, para cualquier ε>0ε > 0, se busca encontrar una red neuronal ηη tal que: supνMfηL1(ν)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε

Arquitectura Teórica

Marco de Espacios de Orlicz

El artículo construye el marco matemático basado en la teoría de espacios de Orlicz. Para una función de Young φ, el espacio de Orlicz se define como: Lφ(μ;RNL):={f:RN0RNL:RN0φ(αf)dμ< para alguˊα>0}L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ para algún } α > 0\}

equipado con la norma gauge: Nφ,μ(f):=inf{k>0:RN0φ(f/k)dμ1}N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}

Definición de Redes Neuronales

  1. Redes Neuronales de Retroalimentación: η=wLϱwL1ϱw1η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1
  2. Redes Neuronales con Entrada Funcional: η(x)=n=1Nynϱ(hn(x))η(x) = \sum_{n=1}^N y_n ϱ(h_n(x)), donde hnHh_n \in \mathcal{H} es una familia aditiva

Teoremas Principales

Teorema 2.3 (Teorema de Aproximación Universal en Espacios de Orlicz)

Para una N-función φ y una medida de Borel localmente finita μ, las redes neuronales son densas en el núcleo de Orlicz Mφ(μ)M^φ(μ) con respecto a la norma gauge, cubriendo:

  1. Funciones de activación acotadas no constantes (medidas finitas)
  2. Funciones de activación ReLU (medidas localmente finitas)
  3. Funciones de activación continuas no polinómicas (medidas con soporte compacto)
  4. Redes neuronales con entrada funcional (satisfaciendo condiciones específicas)

Teorema 3.1 (Teorema de Aproximación Universal Distributivamente Robusto)

Para una familia débilmente compacta de medidas M\mathcal{M} y su par de Young asociado (φM,ψM)(φ_\mathcal{M}, ψ_\mathcal{M}), para cualquier fMφM(μ;RNL)f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L}) y ε>0ε > 0, existe una red neuronal η de la clase correspondiente tal que: supνMfηL1(ν;RNL)<ε\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε

Puntos de Innovación Técnica

  1. Construcción de Pares de Young: Se utiliza la integrabilidad uniforme de familias débilmente compactas de medidas, construyendo pares de Young asociados mediante el teorema de De la Vallée Poussin
  2. Generalización de la Desigualdad de Hölder: Se emplea la desigualdad de Hölder generalizada para establecer conexiones entre espacios de Orlicz y espacios L1L^1
  3. Argumentos de Densidad: Se prueba la densidad de redes neuronales mediante versiones generalizadas del teorema de Hahn-Banach y el teorema de representación de Riesz

Configuración Experimental

Este artículo es una investigación puramente teórica que no incluye experimentos numéricos. Todos los resultados se establecen mediante pruebas matemáticas rigurosas.

Estrategia de Prueba

  1. Prueba por Contradicción: Se asume que las redes neuronales no son densas, utilizando el teorema de Hahn-Banach para derivar una contradicción
  2. Prueba Constructiva: Para redes ReLU, se construyen explícitamente redes de aproximación
  3. Técnicas de Teoría de Aproximación: Se utilizan resultados clásicos de teoría de aproximación combinados con teoría de medidas

Resultados Experimentales

Resultados Teóricos Principales

Proposición 2.4 (Funciones de Activación Acotadas)

Para una función de activación acotada no constante ϱ y L2L ≥ 2, NNN0,NL,L,ϱ\mathcal{NN}^ϱ_{N_0,N_L,L,∞} es densa en Mφ(μ)M^φ(μ) sobre cualquier medida de Borel finita.

Proposición 2.6 (Función de Activación ReLU)

Para la función de activación ReLU, NNN0,NL,,N0+NL+1ϱ\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1} es densa en Mφ(μ)M^φ(μ) sobre cualquier medida de Borel localmente finita.

Proposición 2.8 (Funciones de Activación No Polinómicas)

Para una función de activación continua no polinómica, NNN0,NL,L,ϱ\mathcal{NN}^ϱ_{N_0,N_L,L,∞} es densa en Mφ(μ)M^φ(μ) sobre medidas de Borel finitas con soporte compacto.

Proposición 2.10 (Redes Neuronales con Entrada Funcional)

Bajo condiciones apropiadas, las redes neuronales con entrada funcional NNRN0,RN2H,ϱ\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}} son densas en Mφ(μ)M^φ(μ) sobre medidas de Borel finitas.

Hallazgos Teóricos

  1. Extensión de Espacios: Se generaliza exitosamente los resultados clásicos de LpL^p a espacios de Orlicz, proporcionando un marco para manejar condiciones de crecimiento no estándar
  2. Generalización de Medidas: Se generaliza desde medidas de Lebesgue a medidas de Borel localmente finitas generales
  3. Unificación de Arquitecturas: Se manejan múltiples arquitecturas de redes neuronales bajo un marco teórico unificado

Trabajo Relacionado

Teoría Clásica de Aproximación Universal

  • Cybenko (1989): Establece la propiedad de aproximación universal para redes de retroalimentación con funciones de activación sigmoide
  • Hornik (1991): Extiende a funciones de activación más generales y espacios de Sobolev
  • Leshno et al. (1993): Resultados para funciones de activación no polinómicas

Desarrollos Modernos

  • Kidger & Lyons (2020): Propiedad de aproximación universal para redes ReLU profundas estrechas
  • Cuchiero et al. (2025): Aproximación universal global para redes neuronales con entrada funcional
  • Costarelli & Vinti (2019): Operadores de Kantorovich en espacios de Orlicz

Optimización Distributivamente Robusta

  • Ben-Tal et al. (2013): Optimización robusta bajo probabilidades inciertas
  • Gao & Kleywegt (2016): Optimización estocástica distributivamente robusta bajo distancia de Wasserstein

Conclusiones y Discusión

Conclusiones Principales

  1. Se establece la propiedad de aproximación universal de redes neuronales en espacios de Orlicz, extendiendo significativamente la teoría clásica
  2. Se prueba la capacidad de aproximación distributivamente robusta de redes neuronales, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
  3. Se cubren arquitecturas de redes neuronales ampliamente utilizadas, con buen valor práctico

Limitaciones

  1. Condiciones de Medida: Diferentes arquitecturas de red requieren diferentes condiciones de medida (finitud, soporte compacto, etc.)
  2. Constructividad: Aunque se prueba la existencia, faltan métodos explícitos de construcción de redes
  3. Complejidad Computacional: No se analiza la relación cuantitativa entre el tamaño de red requerido y la precisión de aproximación

Direcciones Futuras

  1. Análisis Cuantitativo: Establecer relaciones cuantitativas entre error de aproximación y complejidad de red
  2. Implementación Algorítmica: Desarrollar algoritmos prácticos basados en resultados teóricos
  3. Extensión de Aplicaciones: Aplicar la teoría a tareas específicas de aprendizaje automático

Evaluación Profunda

Fortalezas

  1. Profundidad Teórica: Rigurosa y profunda matemáticamente, avanzando la teoría de redes neuronales a nuevas alturas
  2. Marco Unificado: El marco de espacios de Orlicz proporciona una perspectiva unificada para manejar múltiples problemas
  3. Significado Práctico: Proporciona fundamentos teóricos sólidos para aprendizaje distributivamente robusto
  4. Innovación Técnica: Combina ingeniosamente técnicas de análisis funcional, teoría de medidas y teoría de aproximación

Deficiencias

  1. Brecha de Aplicabilidad: Resultados puramente teóricos con distancia considerable de aplicaciones prácticas
  2. Restricciones de Condiciones: Diferentes resultados requieren diferentes condiciones técnicas, con limitada uniformidad
  3. Ausencia de Construcción: Falta de construcción explícita de redes y algoritmos de entrenamiento

Impacto

  1. Contribución Teórica: Establece nuevos fundamentos matemáticos para la teoría de redes neuronales
  2. Valor Interdisciplinario: Conecta aprendizaje automático, análisis funcional y teoría de medidas
  3. Significado a Largo Plazo: Proporciona orientación teórica para futuras investigaciones en aprendizaje distributivamente robusto

Escenarios Aplicables

  1. Investigación Teórica: Proporciona nuevas herramientas para investigadores en teoría de redes neuronales
  2. Aprendizaje Robusto: Orienta el desarrollo teórico de optimización distributivamente robusta y entrenamiento adversarial
  3. Pérdidas No Estándar: Análisis teórico para manejar funciones de pérdida tipo entropía cruzada, divergencia KL, etc.

Referencias

El artículo incluye referencias abundantes que abarcan múltiples campos incluyendo teoría de aproximación, análisis funcional, teoría de redes neuronales y optimización distributivamente robusta, proporcionando a los lectores conocimientos de fondo comprehensivos.


Evaluación General: Este es un artículo teóricamente muy riguroso y profundo que generaliza exitosamente la teoría de aproximación universal de redes neuronales desde espacios LpL^p clásicos a espacios de Orlicz, y establece propiedades de aproximación distributivamente robusta. Aunque existe distancia de aplicaciones prácticas, proporciona fundamentos matemáticos importantes para la teoría de redes neuronales y aprendizaje distributivamente robusto.