2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, PrÃ¶mel

The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.

academic

Propiedad de aproximación distributivamente robusta de redes neuronales

Información Básica

ID del Artículo: 2510.09177
Título: Propiedad de aproximación distributivamente robusta de redes neuronales
Autores: Mihriban Ceylan, David J. Prömel
Clasificación: stat.ML cs.LG math.FA math.PR
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09177

Resumen

Se establece la propiedad de aproximación universal de manera uniforme con respecto a familias débilmente compactas de medidas para varias clases de redes neuronales. Con este fin, probamos que estas redes neuronales son densas en espacios de Orlicz, extendiendo así los teoremas clásicos de aproximación universal más allá del contexto tradicional de $L^p$ . Las clases de redes neuronales cubiertas incluyen arquitecturas ampliamente utilizadas como redes neuronales de retroalimentación con funciones de activación no polinómicas, redes profundas estrechas con funciones de activación ReLU y redes neuronales con entrada funcional.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que esta investigación aborda es establecer la propiedad de aproximación distributivamente robusta (distributionally robust approximation property) de redes neuronales. Específicamente, los teoremas clásicos de aproximación universal (Universal Approximation Theorems, UATs) solo consideran la aproximación en espacios $L^p(μ)$ bajo una única distribución fija μ, mientras que este artículo demuestra que las redes neuronales pueden aproximar funciones uniformemente sobre familias débilmente compactas de medidas $\mathcal{M}$ , es decir, para una función dada $f$ y cualquier $ε > 0$ , existe una red neuronal $η$ tal que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Importancia de la Investigación

Significado Teórico: Extiende los teoremas clásicos de aproximación universal, generalizando desde configuraciones de distribución única a aproximación uniforme sobre familias de distribuciones
Demanda Práctica: En la práctica del aprendizaje automático, la incertidumbre en la distribución de datos es un desafío omnipresente, conocido como incertidumbre distribucional (distributional uncertainty)
Valor Aplicado: Proporciona fundamentos teóricos para aprendizaje distributivamente robusto, entrenamiento adversarial, procesamiento de datos ruidosos y otros campos relacionados

Limitaciones de Métodos Existentes

Los teoremas clásicos de aproximación universal presentan las siguientes limitaciones:

Restricción de Distribución Única: Solo se aplican a una medida única y fija μ en espacios $L^p(μ)$
Restricción de Espacio: Se limitan principalmente al marco de espacios $L^p$ , careciendo de teoría de espacios funcionales más generales
Ausencia de Robustez: No pueden manejar escenarios de cambio distribucional o incertidumbre distribucional

Motivación de la Investigación

La motivación de este trabajo surge de:

La existencia omnipresente de incertidumbre distribucional en aplicaciones reales (como incertidumbre de Knight, muestras adversariales, etc.)
La necesidad de apoyo teórico para el desarrollo de optimización distributivamente robusta y aprendizaje estadístico
La necesidad teórica de extender la teoría de redes neuronales desde espacios $L^p$ a espacios de Orlicz más generales

Contribuciones Principales

Teorema de Aproximación Universal en Espacios de Orlicz: Se prueba por primera vez la densidad de múltiples clases de redes neuronales en espacios de Orlicz con respecto a la norma de Luxemburgo, lo que representa una extensión importante de los resultados clásicos en espacios $L^p$
Propiedad de Aproximación Distributivamente Robusta: Se establece el teorema de aproximación universal distributivamente robusto de redes neuronales con respecto a familias débilmente compactas de medidas, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
Cobertura Amplia de Arquitecturas de Red: Abarca múltiples arquitecturas importantes de redes neuronales:
- Redes de retroalimentación con funciones de activación no polinómicas acotadas
- Redes profundas estrechas con activación ReLU
- Redes neuronales con entrada funcional
Innovación del Marco Teórico: A través de la teoría de espacios de Orlicz, proporciona un marco matemático unificado para manejar diferentes funciones de pérdida (como entropía cruzada, divergencia KL)

Explicación Detallada de Métodos

Definición de la Tarea

Dada una familia débilmente compacta de medidas $\mathcal{M}$ y una función apropiada $f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}$ , para cualquier $ε > 0$ , se busca encontrar una red neuronal $η$ tal que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Arquitectura Teórica

Marco de Espacios de Orlicz

El artículo construye el marco matemático basado en la teoría de espacios de Orlicz. Para una función de Young φ, el espacio de Orlicz se define como: $L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ para algún } α > 0\}$

equipado con la norma gauge: $N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}$

Definición de Redes Neuronales

Redes Neuronales de Retroalimentación: $η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1$
Redes Neuronales con Entrada Funcional: $η(x) = \sum_{n=1}^N y_n ϱ(h_n(x))$ , donde $h_n \in \mathcal{H}$ es una familia aditiva

Teoremas Principales

Teorema 2.3 (Teorema de Aproximación Universal en Espacios de Orlicz)

Para una N-función φ y una medida de Borel localmente finita μ, las redes neuronales son densas en el núcleo de Orlicz $M^φ(μ)$ con respecto a la norma gauge, cubriendo:

Funciones de activación acotadas no constantes (medidas finitas)
Funciones de activación ReLU (medidas localmente finitas)
Funciones de activación continuas no polinómicas (medidas con soporte compacto)
Redes neuronales con entrada funcional (satisfaciendo condiciones específicas)

Teorema 3.1 (Teorema de Aproximación Universal Distributivamente Robusto)

Para una familia débilmente compacta de medidas $\mathcal{M}$ y su par de Young asociado $(φ_\mathcal{M}, ψ_\mathcal{M})$ , para cualquier $f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L})$ y $ε > 0$ , existe una red neuronal η de la clase correspondiente tal que: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε$

Puntos de Innovación Técnica

Construcción de Pares de Young: Se utiliza la integrabilidad uniforme de familias débilmente compactas de medidas, construyendo pares de Young asociados mediante el teorema de De la Vallée Poussin
Generalización de la Desigualdad de Hölder: Se emplea la desigualdad de Hölder generalizada para establecer conexiones entre espacios de Orlicz y espacios $L^1$
Argumentos de Densidad: Se prueba la densidad de redes neuronales mediante versiones generalizadas del teorema de Hahn-Banach y el teorema de representación de Riesz

Configuración Experimental

Este artículo es una investigación puramente teórica que no incluye experimentos numéricos. Todos los resultados se establecen mediante pruebas matemáticas rigurosas.

Estrategia de Prueba

Prueba por Contradicción: Se asume que las redes neuronales no son densas, utilizando el teorema de Hahn-Banach para derivar una contradicción
Prueba Constructiva: Para redes ReLU, se construyen explícitamente redes de aproximación
Técnicas de Teoría de Aproximación: Se utilizan resultados clásicos de teoría de aproximación combinados con teoría de medidas

Resultados Experimentales

Resultados Teóricos Principales

Proposición 2.4 (Funciones de Activación Acotadas)

Para una función de activación acotada no constante ϱ y $L ≥ 2$ , $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ es densa en $M^φ(μ)$ sobre cualquier medida de Borel finita.

Proposición 2.6 (Función de Activación ReLU)

Para la función de activación ReLU, $\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1}$ es densa en $M^φ(μ)$ sobre cualquier medida de Borel localmente finita.

Proposición 2.8 (Funciones de Activación No Polinómicas)

Para una función de activación continua no polinómica, $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ es densa en $M^φ(μ)$ sobre medidas de Borel finitas con soporte compacto.

Proposición 2.10 (Redes Neuronales con Entrada Funcional)

Bajo condiciones apropiadas, las redes neuronales con entrada funcional $\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}}$ son densas en $M^φ(μ)$ sobre medidas de Borel finitas.

Hallazgos Teóricos

Extensión de Espacios: Se generaliza exitosamente los resultados clásicos de $L^p$ a espacios de Orlicz, proporcionando un marco para manejar condiciones de crecimiento no estándar
Generalización de Medidas: Se generaliza desde medidas de Lebesgue a medidas de Borel localmente finitas generales
Unificación de Arquitecturas: Se manejan múltiples arquitecturas de redes neuronales bajo un marco teórico unificado

Trabajo Relacionado

Teoría Clásica de Aproximación Universal

Cybenko (1989): Establece la propiedad de aproximación universal para redes de retroalimentación con funciones de activación sigmoide
Hornik (1991): Extiende a funciones de activación más generales y espacios de Sobolev
Leshno et al. (1993): Resultados para funciones de activación no polinómicas

Desarrollos Modernos

Kidger & Lyons (2020): Propiedad de aproximación universal para redes ReLU profundas estrechas
Cuchiero et al. (2025): Aproximación universal global para redes neuronales con entrada funcional
Costarelli & Vinti (2019): Operadores de Kantorovich en espacios de Orlicz

Optimización Distributivamente Robusta

Ben-Tal et al. (2013): Optimización robusta bajo probabilidades inciertas
Gao & Kleywegt (2016): Optimización estocástica distributivamente robusta bajo distancia de Wasserstein

Conclusiones y Discusión

Conclusiones Principales

Se establece la propiedad de aproximación universal de redes neuronales en espacios de Orlicz, extendiendo significativamente la teoría clásica
Se prueba la capacidad de aproximación distributivamente robusta de redes neuronales, proporcionando fundamentos teóricos para manejar incertidumbre distribucional
Se cubren arquitecturas de redes neuronales ampliamente utilizadas, con buen valor práctico

Limitaciones

Condiciones de Medida: Diferentes arquitecturas de red requieren diferentes condiciones de medida (finitud, soporte compacto, etc.)
Constructividad: Aunque se prueba la existencia, faltan métodos explícitos de construcción de redes
Complejidad Computacional: No se analiza la relación cuantitativa entre el tamaño de red requerido y la precisión de aproximación

Direcciones Futuras

Análisis Cuantitativo: Establecer relaciones cuantitativas entre error de aproximación y complejidad de red
Implementación Algorítmica: Desarrollar algoritmos prácticos basados en resultados teóricos
Extensión de Aplicaciones: Aplicar la teoría a tareas específicas de aprendizaje automático

Evaluación Profunda

Fortalezas

Profundidad Teórica: Rigurosa y profunda matemáticamente, avanzando la teoría de redes neuronales a nuevas alturas
Marco Unificado: El marco de espacios de Orlicz proporciona una perspectiva unificada para manejar múltiples problemas
Significado Práctico: Proporciona fundamentos teóricos sólidos para aprendizaje distributivamente robusto
Innovación Técnica: Combina ingeniosamente técnicas de análisis funcional, teoría de medidas y teoría de aproximación

Deficiencias

Brecha de Aplicabilidad: Resultados puramente teóricos con distancia considerable de aplicaciones prácticas
Restricciones de Condiciones: Diferentes resultados requieren diferentes condiciones técnicas, con limitada uniformidad
Ausencia de Construcción: Falta de construcción explícita de redes y algoritmos de entrenamiento

Impacto

Contribución Teórica: Establece nuevos fundamentos matemáticos para la teoría de redes neuronales
Valor Interdisciplinario: Conecta aprendizaje automático, análisis funcional y teoría de medidas
Significado a Largo Plazo: Proporciona orientación teórica para futuras investigaciones en aprendizaje distributivamente robusto

Escenarios Aplicables

Investigación Teórica: Proporciona nuevas herramientas para investigadores en teoría de redes neuronales
Aprendizaje Robusto: Orienta el desarrollo teórico de optimización distributivamente robusta y entrenamiento adversarial
Pérdidas No Estándar: Análisis teórico para manejar funciones de pérdida tipo entropía cruzada, divergencia KL, etc.

Referencias

El artículo incluye referencias abundantes que abarcan múltiples campos incluyendo teoría de aproximación, análisis funcional, teoría de redes neuronales y optimización distributivamente robusta, proporcionando a los lectores conocimientos de fondo comprehensivos.

Evaluación General: Este es un artículo teóricamente muy riguroso y profundo que generaliza exitosamente la teoría de aproximación universal de redes neuronales desde espacios $L^p$ clásicos a espacios de Orlicz, y establece propiedades de aproximación distributivamente robusta. Aunque existe distancia de aplicaciones prácticas, proporciona fundamentos matemáticos importantes para la teoría de redes neuronales y aprendizaje distributivamente robusto.