The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- ID del Artículo: 2510.09177
- Título: Propiedad de aproximación distributivamente robusta de redes neuronales
- Autores: Mihriban Ceylan, David J. Prömel
- Clasificación: stat.ML cs.LG math.FA math.PR
- Fecha de Publicación: 13 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.09177
Se establece la propiedad de aproximación universal de manera uniforme con respecto a familias débilmente compactas de medidas para varias clases de redes neuronales. Con este fin, probamos que estas redes neuronales son densas en espacios de Orlicz, extendiendo así los teoremas clásicos de aproximación universal más allá del contexto tradicional de Lp. Las clases de redes neuronales cubiertas incluyen arquitecturas ampliamente utilizadas como redes neuronales de retroalimentación con funciones de activación no polinómicas, redes profundas estrechas con funciones de activación ReLU y redes neuronales con entrada funcional.
El problema central que esta investigación aborda es establecer la propiedad de aproximación distributivamente robusta (distributionally robust approximation property) de redes neuronales. Específicamente, los teoremas clásicos de aproximación universal (Universal Approximation Theorems, UATs) solo consideran la aproximación en espacios Lp(μ) bajo una única distribución fija μ, mientras que este artículo demuestra que las redes neuronales pueden aproximar funciones uniformemente sobre familias débilmente compactas de medidas M, es decir, para una función dada f y cualquier ε>0, existe una red neuronal η tal que:
supν∈M∥f−η∥L1(ν)<ε
- Significado Teórico: Extiende los teoremas clásicos de aproximación universal, generalizando desde configuraciones de distribución única a aproximación uniforme sobre familias de distribuciones
- Demanda Práctica: En la práctica del aprendizaje automático, la incertidumbre en la distribución de datos es un desafío omnipresente, conocido como incertidumbre distribucional (distributional uncertainty)
- Valor Aplicado: Proporciona fundamentos teóricos para aprendizaje distributivamente robusto, entrenamiento adversarial, procesamiento de datos ruidosos y otros campos relacionados
Los teoremas clásicos de aproximación universal presentan las siguientes limitaciones:
- Restricción de Distribución Única: Solo se aplican a una medida única y fija μ en espacios Lp(μ)
- Restricción de Espacio: Se limitan principalmente al marco de espacios Lp, careciendo de teoría de espacios funcionales más generales
- Ausencia de Robustez: No pueden manejar escenarios de cambio distribucional o incertidumbre distribucional
La motivación de este trabajo surge de:
- La existencia omnipresente de incertidumbre distribucional en aplicaciones reales (como incertidumbre de Knight, muestras adversariales, etc.)
- La necesidad de apoyo teórico para el desarrollo de optimización distributivamente robusta y aprendizaje estadístico
- La necesidad teórica de extender la teoría de redes neuronales desde espacios Lp a espacios de Orlicz más generales
- Teorema de Aproximación Universal en Espacios de Orlicz: Se prueba por primera vez la densidad de múltiples clases de redes neuronales en espacios de Orlicz con respecto a la norma de Luxemburgo, lo que representa una extensión importante de los resultados clásicos en espacios Lp
- Propiedad de Aproximación Distributivamente Robusta: Se establece el teorema de aproximación universal distributivamente robusto de redes neuronales con respecto a familias débilmente compactas de medidas, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
- Cobertura Amplia de Arquitecturas de Red: Abarca múltiples arquitecturas importantes de redes neuronales:
- Redes de retroalimentación con funciones de activación no polinómicas acotadas
- Redes profundas estrechas con activación ReLU
- Redes neuronales con entrada funcional
- Innovación del Marco Teórico: A través de la teoría de espacios de Orlicz, proporciona un marco matemático unificado para manejar diferentes funciones de pérdida (como entropía cruzada, divergencia KL)
Dada una familia débilmente compacta de medidas M y una función apropiada f:RN0→RNL, para cualquier ε>0, se busca encontrar una red neuronal η tal que:
supν∈M∥f−η∥L1(ν)<ε
El artículo construye el marco matemático basado en la teoría de espacios de Orlicz. Para una función de Young φ, el espacio de Orlicz se define como:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ para alguˊn α>0}
equipado con la norma gauge:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- Redes Neuronales de Retroalimentación: η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- Redes Neuronales con Entrada Funcional: η(x)=∑n=1Nynϱ(hn(x)), donde hn∈H es una familia aditiva
Para una N-función φ y una medida de Borel localmente finita μ, las redes neuronales son densas en el núcleo de Orlicz Mφ(μ) con respecto a la norma gauge, cubriendo:
- Funciones de activación acotadas no constantes (medidas finitas)
- Funciones de activación ReLU (medidas localmente finitas)
- Funciones de activación continuas no polinómicas (medidas con soporte compacto)
- Redes neuronales con entrada funcional (satisfaciendo condiciones específicas)
Para una familia débilmente compacta de medidas M y su par de Young asociado (φM,ψM), para cualquier f∈MφM(μ;RNL) y ε>0, existe una red neuronal η de la clase correspondiente tal que:
supν∈M∥f−η∥L1(ν;RNL)<ε
- Construcción de Pares de Young: Se utiliza la integrabilidad uniforme de familias débilmente compactas de medidas, construyendo pares de Young asociados mediante el teorema de De la Vallée Poussin
- Generalización de la Desigualdad de Hölder: Se emplea la desigualdad de Hölder generalizada para establecer conexiones entre espacios de Orlicz y espacios L1
- Argumentos de Densidad: Se prueba la densidad de redes neuronales mediante versiones generalizadas del teorema de Hahn-Banach y el teorema de representación de Riesz
Este artículo es una investigación puramente teórica que no incluye experimentos numéricos. Todos los resultados se establecen mediante pruebas matemáticas rigurosas.
- Prueba por Contradicción: Se asume que las redes neuronales no son densas, utilizando el teorema de Hahn-Banach para derivar una contradicción
- Prueba Constructiva: Para redes ReLU, se construyen explícitamente redes de aproximación
- Técnicas de Teoría de Aproximación: Se utilizan resultados clásicos de teoría de aproximación combinados con teoría de medidas
Para una función de activación acotada no constante ϱ y L≥2, NNN0,NL,L,∞ϱ es densa en Mφ(μ) sobre cualquier medida de Borel finita.
Para la función de activación ReLU, NNN0,NL,∞,N0+NL+1ϱ es densa en Mφ(μ) sobre cualquier medida de Borel localmente finita.
Para una función de activación continua no polinómica, NNN0,NL,L,∞ϱ es densa en Mφ(μ) sobre medidas de Borel finitas con soporte compacto.
Bajo condiciones apropiadas, las redes neuronales con entrada funcional NNRN0,RN2H,ϱ son densas en Mφ(μ) sobre medidas de Borel finitas.
- Extensión de Espacios: Se generaliza exitosamente los resultados clásicos de Lp a espacios de Orlicz, proporcionando un marco para manejar condiciones de crecimiento no estándar
- Generalización de Medidas: Se generaliza desde medidas de Lebesgue a medidas de Borel localmente finitas generales
- Unificación de Arquitecturas: Se manejan múltiples arquitecturas de redes neuronales bajo un marco teórico unificado
- Cybenko (1989): Establece la propiedad de aproximación universal para redes de retroalimentación con funciones de activación sigmoide
- Hornik (1991): Extiende a funciones de activación más generales y espacios de Sobolev
- Leshno et al. (1993): Resultados para funciones de activación no polinómicas
- Kidger & Lyons (2020): Propiedad de aproximación universal para redes ReLU profundas estrechas
- Cuchiero et al. (2025): Aproximación universal global para redes neuronales con entrada funcional
- Costarelli & Vinti (2019): Operadores de Kantorovich en espacios de Orlicz
- Ben-Tal et al. (2013): Optimización robusta bajo probabilidades inciertas
- Gao & Kleywegt (2016): Optimización estocástica distributivamente robusta bajo distancia de Wasserstein
- Se establece la propiedad de aproximación universal de redes neuronales en espacios de Orlicz, extendiendo significativamente la teoría clásica
- Se prueba la capacidad de aproximación distributivamente robusta de redes neuronales, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
- Se cubren arquitecturas de redes neuronales ampliamente utilizadas, con buen valor práctico
- Condiciones de Medida: Diferentes arquitecturas de red requieren diferentes condiciones de medida (finitud, soporte compacto, etc.)
- Constructividad: Aunque se prueba la existencia, faltan métodos explícitos de construcción de redes
- Complejidad Computacional: No se analiza la relación cuantitativa entre el tamaño de red requerido y la precisión de aproximación
- Análisis Cuantitativo: Establecer relaciones cuantitativas entre error de aproximación y complejidad de red
- Implementación Algorítmica: Desarrollar algoritmos prácticos basados en resultados teóricos
- Extensión de Aplicaciones: Aplicar la teoría a tareas específicas de aprendizaje automático
- Profundidad Teórica: Rigurosa y profunda matemáticamente, avanzando la teoría de redes neuronales a nuevas alturas
- Marco Unificado: El marco de espacios de Orlicz proporciona una perspectiva unificada para manejar múltiples problemas
- Significado Práctico: Proporciona fundamentos teóricos sólidos para aprendizaje distributivamente robusto
- Innovación Técnica: Combina ingeniosamente técnicas de análisis funcional, teoría de medidas y teoría de aproximación
- Brecha de Aplicabilidad: Resultados puramente teóricos con distancia considerable de aplicaciones prácticas
- Restricciones de Condiciones: Diferentes resultados requieren diferentes condiciones técnicas, con limitada uniformidad
- Ausencia de Construcción: Falta de construcción explícita de redes y algoritmos de entrenamiento
- Contribución Teórica: Establece nuevos fundamentos matemáticos para la teoría de redes neuronales
- Valor Interdisciplinario: Conecta aprendizaje automático, análisis funcional y teoría de medidas
- Significado a Largo Plazo: Proporciona orientación teórica para futuras investigaciones en aprendizaje distributivamente robusto
- Investigación Teórica: Proporciona nuevas herramientas para investigadores en teoría de redes neuronales
- Aprendizaje Robusto: Orienta el desarrollo teórico de optimización distributivamente robusta y entrenamiento adversarial
- Pérdidas No Estándar: Análisis teórico para manejar funciones de pérdida tipo entropía cruzada, divergencia KL, etc.
El artículo incluye referencias abundantes que abarcan múltiples campos incluyendo teoría de aproximación, análisis funcional, teoría de redes neuronales y optimización distributivamente robusta, proporcionando a los lectores conocimientos de fondo comprehensivos.
Evaluación General: Este es un artículo teóricamente muy riguroso y profundo que generaliza exitosamente la teoría de aproximación universal de redes neuronales desde espacios Lp clásicos a espacios de Orlicz, y establece propiedades de aproximación distributivamente robusta. Aunque existe distancia de aplicaciones prácticas, proporciona fundamentos matemáticos importantes para la teoría de redes neuronales y aprendizaje distributivamente robusto.