2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, SchÃ¶nlieb

1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.

academic

Teoría de aproximación para ResNets 1-Lipschitz

Información Básica

ID del Artículo: 2505.12003
Título: Approximation theory for 1-Lipschitz ResNets
Autores: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
Clasificación: cs.LG cs.NA math.NA
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2505.12003v2

Resumen

Este artículo investiga la capacidad de aproximación de redes residuales (ResNets) 1-Lipschitz basadas en pasos explícitos de Euler del flujo de gradiente negativo. Utilizando el teorema de Stone-Weierstrass restringido, se demuestra primero que estas ResNets 1-Lipschitz son densas en el conjunto de funciones 1-Lipschitz escalares en cualquier dominio compacto cuando se permite que el ancho y la profundidad aumenten. También se prueba que estas redes pueden representar exactamente funciones 1-Lipschitz afines por partes escalares. Se establece además una conclusión más fuerte: al insertar mapeos lineales con restricción de norma entre bloques residuales, se mantiene la misma densidad incluso cuando el ancho oculto es fijo. Dado que cada capa sigue una restricción de norma simple, el modelo resultante puede entrenarse con optimizadores estándar disponibles.

Antecedentes de Investigación y Motivación

Importancia del Problema

Las redes neuronales 1-Lipschitz juegan un papel fundamental en varios campos importantes:

Modelado Generativo: El discriminador en Wasserstein GAN debe ser 1-Lipschitz para proporcionar una estimación válida de la distancia 1-Wasserstein a través de la dualidad de Kantorovich-Rubinstein
Problemas Inversos: En algoritmos Plug-and-Play, la restricción 1-Lipschitz garantiza la convergencia del esquema iterativo
Clasificadores Robustos: Controlar la constante de Lipschitz de la red mejora la robustez contra ataques adversariales

Limitaciones de Métodos Existentes

Reducción de Capacidad Expresiva: Restringir la constante de Lipschitz de la red típicamente reduce su capacidad expresiva, resultando en una disminución notable del desempeño
Deficiencia Teórica: Existe comprensión insuficiente de las propiedades de aproximación de redes restringidas; diferentes estrategias de restricción pueden producir capacidades expresivas significativamente diferentes
Dificultad de Implementación: Las ResNets 1-Lipschitz existentes carecen de garantías teóricas rigurosas

Motivación de la Investigación

Este artículo tiene como objetivo cerrar la brecha en el análisis teórico de ResNets 1-Lipschitz, proporcionando fundamentos matemáticos rigurosos para comprender la capacidad de aproximación de estas redes y ofreciendo apoyo teórico para aplicaciones prácticas.

Contribuciones Principales

Primer Teorema de Aproximación Universal: Proporciona la primera garantía de aproximación universal para ResNets 1-Lipschitz, demostrando la densidad de ResNets basadas en flujo de gradiente negativo en el conjunto de funciones 1-Lipschitz escalares
Resultados de Aproximación con Ancho Fijo: Al introducir mapeos lineales con restricción de norma, se demuestra que se mantiene la propiedad de aproximación universal incluso cuando el ancho de la red es fijo
Método de Prueba Constructivo: Se proporcionan dos estrategias de prueba - basada en el teorema de Stone-Weierstrass restringido y basada en un método constructivo con funciones afines por partes
Diseño de Arquitectura Práctica: La arquitectura de red propuesta tiene condiciones de restricción explícitas y puede entrenarse con optimizadores estándar

Explicación Detallada de Métodos

Definición de la Tarea

Se estudia el espacio de funciones 1-Lipschitz en un conjunto compacto $X \subset \mathbb{R}^d$ : $C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}$

El objetivo es construir un conjunto de redes neuronales que sea denso en $C_1(X,\mathbb{R})$ .

Bloques Constructivos Principales

Capa Residual 1-Lipschitz

Basada en el paso explícito de Euler del flujo de gradiente negativo: $\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)$

donde $\sigma = \text{ReLU}$ , con restricciones: $0 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2$ , $\|W_\ell\|_2 \leq 1$

Definición de Arquitectura de Red

Conjunto de redes con ancho y profundidad no acotados: $\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

Conjunto de redes con ancho fijo: $\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}$

donde $A_i$ son mapeos afines con restricción de norma.

Puntos de Innovación Técnica

1. Estrategia de Prueba Dual

Método de Stone-Weierstrass: Verifica que el conjunto de redes es una red que separa puntos, satisfaciendo las condiciones del teorema de Stone-Weierstrass restringido
Método Constructivo: Demuestra que las redes pueden representar exactamente todas las funciones 1-Lipschitz afines por partes

2. Diseño Innovador con Ancho Fijo

Mediante la introducción de una estructura de capa residual especial: $\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}$

3. Explotación de Propiedades Clave de ReLU

Se utilizan la homogeneidad positiva de ReLU y las siguientes identidades:

$x = \sigma(x) - \sigma(-x)$
$\max\{x,y\} = x + \sigma(y-x)$
$\min\{x,y\} = x - \sigma(x-y)$

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos Two-moon: 4000 puntos, ruido gaussiano con desviación estándar de 0.1 agregado, 20% utilizado para entrenamiento
Conjunto de Datos MNIST: División estándar de entrenamiento/prueba, procesamiento de normalización de entrada

Métricas de Evaluación

Precisión de clasificación
Tiempo de ejecución de restricción (tiempo promedio por época)

Detalles de Implementación

Optimizador: Optimizador Adam con programación de tasa de aprendizaje de recocido por coseno
Tamaño de Lote: 256
Restricción de Pesos: Ejecutada mediante descenso de gradiente proyectado, estimación de norma espectral usando el método de potencia
Inicialización: Estrategia de inicialización dinámica isométrica

Resultados Experimentales

Resultados Principales

Resultados del Conjunto de Datos Two-moon

Capas	Arquitectura Teorema 3.1	Arquitectura Teorema 4.1
L=2	99.75%	88.25%
L=4	99.88%	99.88%
L=8	100.00%	99.88%
L=16	100.00%	100.00%
L=32	99.88%	100.00%
L=64	100.00%	100.00%

Resultados del Conjunto de Datos MNIST (Arquitectura Teorema 4.1)

Ancho\Profundidad	L=5	L=10	L=20
h=50	97.85%	97.67%	97.82%
h=100	97.94%	97.70%	97.58%
h=200	97.68%	97.77%	97.89%

Hallazgos Experimentales

Estabilidad de Entrenamiento: Ambas arquitecturas pueden entrenarse de manera estable, sin verse afectadas por el ancho y la profundidad de la red
Costo de Restricción: La arquitectura con capas afines tiene un costo de restricción más alto, que aumenta más rápidamente con la profundidad
Desempeño: Puede lograr clasificación perfecta en tareas simples y muestra buen desempeño en tareas complejas

Análisis Teórico

Teoremas Principales

Teorema 3.1 (Ancho y Profundidad No Acotados)

Sea $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compacto, entonces $\mathcal{G}_{d,\sigma}(X,\mathbb{R})$ satisface la propiedad de aproximación universal en $C_1(X,\mathbb{R})$ .

Teorema 4.1 (Ancho Fijo)

Sea $d \in \mathbb{N}$ , $\sigma = \text{ReLU}$ , $X \subset \mathbb{R}^d$ compacto, entonces $\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R})$ satisface la propiedad de aproximación universal en $C_1(X,\mathbb{R})$ .

Pasos Clave de la Prueba

Método de Stone-Weierstrass

Separación de Puntos: Se demuestra que el conjunto de redes puede separar dos puntos distintos cualesquiera
Propiedad de Red: Se demuestra que el conjunto de redes es cerrado bajo operaciones de máximo y mínimo
Densidad: Se obtiene mediante el teorema de Stone-Weierstrass restringido

Método Constructivo

Operaciones Básicas: Se demuestra que se pueden implementar máximo y mínimo coordenada a coordenada
Representación Afín por Partes: Se utiliza el teorema de representación max-min
Aproximación Universal: Las funciones afines por partes son densas en funciones 1-Lipschitz

Trabajo Relacionado

Métodos de Restricción de Redes 1-Lipschitz

Normalización Espectral: Control de la norma espectral de matrices de pesos
Matrices de Pesos Ortogonales: Uso de transformaciones ortogonales para preservar la propiedad de Lipschitz
Método de Flujo de Gradiente: Estrategias de restricción basadas en sistemas dinámicos y análisis numérico

Teoría de Aproximación de Redes Restringidas

Teoría de redes de retroalimentación con función de activación GroupSort de Anil et al.
Investigación sobre funciones de activación spline de Neumayer et al.
Este artículo proporciona por primera vez una teoría completa específicamente para ResNets 1-Lipschitz

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico: Establece por primera vez una teoría rigurosa de aproximación universal para ResNets 1-Lipschitz
Valor Práctico: La arquitectura propuesta puede entrenarse con optimizadores estándar y tiene condiciones de restricción explícitas
Innovación Metodológica: Proporciona dos métodos de prueba complementarios, profundizando la comprensión de ResNets 1-Lipschitz continuas

Limitaciones

Dependencia de Función de Activación: La teoría depende fuertemente de las propiedades especiales de ReLU
Complejidad de Implementación: La arquitectura de ancho fijo requiere capas afines adicionales, aumentando la complejidad de implementación
Restricción a Funciones Escalares: Los resultados principales se concentran en funciones de valor escalar; la extensión a funciones de valor vectorial requiere investigación adicional

Direcciones Futuras

Otras Funciones de Activación: Extender el análisis teórico a otras funciones de activación
Arquitecturas Modernas: Aplicar la teoría a arquitecturas modernas como Transformers y GNNs
Tasas de Aproximación: Investigar tasas de aproximación específicas y análisis de complejidad
Funciones de Valor Vectorial: Perfeccionar el marco teórico para funciones de múltiples salidas

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona pruebas matemáticas completas, cerrando una brecha teórica importante
Innovación Metodológica: La estrategia de prueba dual proporciona diferentes perspectivas teóricas
Practicidad: Todos los resultados teóricos corresponden a arquitecturas de red implementables
Integridad: Forma una cadena de investigación completa desde análisis teórico hasta validación experimental

Insuficiencias

Escala Experimental Limitada: Los experimentos se concentran principalmente en conjuntos de datos simples, careciendo de validación en aplicaciones a gran escala
Análisis de Complejidad Computacional: El análisis del costo computacional de la ejecución de restricciones no es suficientemente profundo
Comparación de Referencia: Falta comparación detallada con otros métodos de redes 1-Lipschitz

Impacto

Valor Académico: Proporciona fundamentos importantes para la teoría de redes neuronales restringidas
Perspectivas de Aplicación: Tiene amplio potencial de aplicación en modelado generativo, problemas inversos y aprendizaje robusto
Contribución Metodológica: Las técnicas de prueba pueden inspirar análisis teóricos de otras redes restringidas

Escenarios de Aplicación

Wasserstein GANs: Proporciona apoyo teórico para el diseño del discriminador
Algoritmos Plug-and-Play: Diseño de desruidores que garantiza convergencia
Robustez Adversarial: Mejora la resistencia del clasificador contra ataques adversariales
Resolución de Problemas Inversos: Aplicaciones en imágenes médicas, procesamiento de señales y otros campos

Referencias

Este artículo cita 42 referencias importantes que abarcan múltiples campos incluyendo teoría de aproximación universal, métodos de restricción de Lipschitz, teoría de sistemas dinámicos y otros trabajos fundamentales, proporcionando una base sólida para el análisis teórico.