2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

Teoría de aproximación para ResNets 1-Lipschitz

Información Básica

  • ID del Artículo: 2505.12003
  • Título: Approximation theory for 1-Lipschitz ResNets
  • Autores: Davide Murari (University of Cambridge), Takashi Furuya (Doshisha University, RIKEN AIP), Carola-Bibiane Schönlieb (University of Cambridge)
  • Clasificación: cs.LG cs.NA math.NA
  • Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2505.12003v2

Resumen

Este artículo investiga la capacidad de aproximación de redes residuales (ResNets) 1-Lipschitz basadas en pasos explícitos de Euler del flujo de gradiente negativo. Utilizando el teorema de Stone-Weierstrass restringido, se demuestra primero que estas ResNets 1-Lipschitz son densas en el conjunto de funciones 1-Lipschitz escalares en cualquier dominio compacto cuando se permite que el ancho y la profundidad aumenten. También se prueba que estas redes pueden representar exactamente funciones 1-Lipschitz afines por partes escalares. Se establece además una conclusión más fuerte: al insertar mapeos lineales con restricción de norma entre bloques residuales, se mantiene la misma densidad incluso cuando el ancho oculto es fijo. Dado que cada capa sigue una restricción de norma simple, el modelo resultante puede entrenarse con optimizadores estándar disponibles.

Antecedentes de Investigación y Motivación

Importancia del Problema

Las redes neuronales 1-Lipschitz juegan un papel fundamental en varios campos importantes:

  • Modelado Generativo: El discriminador en Wasserstein GAN debe ser 1-Lipschitz para proporcionar una estimación válida de la distancia 1-Wasserstein a través de la dualidad de Kantorovich-Rubinstein
  • Problemas Inversos: En algoritmos Plug-and-Play, la restricción 1-Lipschitz garantiza la convergencia del esquema iterativo
  • Clasificadores Robustos: Controlar la constante de Lipschitz de la red mejora la robustez contra ataques adversariales

Limitaciones de Métodos Existentes

  1. Reducción de Capacidad Expresiva: Restringir la constante de Lipschitz de la red típicamente reduce su capacidad expresiva, resultando en una disminución notable del desempeño
  2. Deficiencia Teórica: Existe comprensión insuficiente de las propiedades de aproximación de redes restringidas; diferentes estrategias de restricción pueden producir capacidades expresivas significativamente diferentes
  3. Dificultad de Implementación: Las ResNets 1-Lipschitz existentes carecen de garantías teóricas rigurosas

Motivación de la Investigación

Este artículo tiene como objetivo cerrar la brecha en el análisis teórico de ResNets 1-Lipschitz, proporcionando fundamentos matemáticos rigurosos para comprender la capacidad de aproximación de estas redes y ofreciendo apoyo teórico para aplicaciones prácticas.

Contribuciones Principales

  1. Primer Teorema de Aproximación Universal: Proporciona la primera garantía de aproximación universal para ResNets 1-Lipschitz, demostrando la densidad de ResNets basadas en flujo de gradiente negativo en el conjunto de funciones 1-Lipschitz escalares
  2. Resultados de Aproximación con Ancho Fijo: Al introducir mapeos lineales con restricción de norma, se demuestra que se mantiene la propiedad de aproximación universal incluso cuando el ancho de la red es fijo
  3. Método de Prueba Constructivo: Se proporcionan dos estrategias de prueba - basada en el teorema de Stone-Weierstrass restringido y basada en un método constructivo con funciones afines por partes
  4. Diseño de Arquitectura Práctica: La arquitectura de red propuesta tiene condiciones de restricción explícitas y puede entrenarse con optimizadores estándar

Explicación Detallada de Métodos

Definición de la Tarea

Se estudia el espacio de funciones 1-Lipschitz en un conjunto compacto XRdX \subset \mathbb{R}^d: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

El objetivo es construir un conjunto de redes neuronales que sea denso en C1(X,R)C_1(X,\mathbb{R}).

Bloques Constructivos Principales

Capa Residual 1-Lipschitz

Basada en el paso explícito de Euler del flujo de gradiente negativo: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

donde σ=ReLU\sigma = \text{ReLU}, con restricciones: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2, W21\|W_\ell\|_2 \leq 1

Definición de Arquitectura de Red

Conjunto de redes con ancho y profundidad no acotados: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

Conjunto de redes con ancho fijo: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

donde AiA_i son mapeos afines con restricción de norma.

Puntos de Innovación Técnica

1. Estrategia de Prueba Dual

  • Método de Stone-Weierstrass: Verifica que el conjunto de redes es una red que separa puntos, satisfaciendo las condiciones del teorema de Stone-Weierstrass restringido
  • Método Constructivo: Demuestra que las redes pueden representar exactamente todas las funciones 1-Lipschitz afines por partes

2. Diseño Innovador con Ancho Fijo

Mediante la introducción de una estructura de capa residual especial: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. Explotación de Propiedades Clave de ReLU

Se utilizan la homogeneidad positiva de ReLU y las siguientes identidades:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos Two-moon: 4000 puntos, ruido gaussiano con desviación estándar de 0.1 agregado, 20% utilizado para entrenamiento
  2. Conjunto de Datos MNIST: División estándar de entrenamiento/prueba, procesamiento de normalización de entrada

Métricas de Evaluación

  • Precisión de clasificación
  • Tiempo de ejecución de restricción (tiempo promedio por época)

Detalles de Implementación

  • Optimizador: Optimizador Adam con programación de tasa de aprendizaje de recocido por coseno
  • Tamaño de Lote: 256
  • Restricción de Pesos: Ejecutada mediante descenso de gradiente proyectado, estimación de norma espectral usando el método de potencia
  • Inicialización: Estrategia de inicialización dinámica isométrica

Resultados Experimentales

Resultados Principales

Resultados del Conjunto de Datos Two-moon

CapasArquitectura Teorema 3.1Arquitectura Teorema 4.1
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

Resultados del Conjunto de Datos MNIST (Arquitectura Teorema 4.1)

Ancho\ProfundidadL=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

Hallazgos Experimentales

  1. Estabilidad de Entrenamiento: Ambas arquitecturas pueden entrenarse de manera estable, sin verse afectadas por el ancho y la profundidad de la red
  2. Costo de Restricción: La arquitectura con capas afines tiene un costo de restricción más alto, que aumenta más rápidamente con la profundidad
  3. Desempeño: Puede lograr clasificación perfecta en tareas simples y muestra buen desempeño en tareas complejas

Análisis Teórico

Teoremas Principales

Teorema 3.1 (Ancho y Profundidad No Acotados)

Sea dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compacto, entonces Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) satisface la propiedad de aproximación universal en C1(X,R)C_1(X,\mathbb{R}).

Teorema 4.1 (Ancho Fijo)

Sea dNd \in \mathbb{N}, σ=ReLU\sigma = \text{ReLU}, XRdX \subset \mathbb{R}^d compacto, entonces G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) satisface la propiedad de aproximación universal en C1(X,R)C_1(X,\mathbb{R}).

Pasos Clave de la Prueba

Método de Stone-Weierstrass

  1. Separación de Puntos: Se demuestra que el conjunto de redes puede separar dos puntos distintos cualesquiera
  2. Propiedad de Red: Se demuestra que el conjunto de redes es cerrado bajo operaciones de máximo y mínimo
  3. Densidad: Se obtiene mediante el teorema de Stone-Weierstrass restringido

Método Constructivo

  1. Operaciones Básicas: Se demuestra que se pueden implementar máximo y mínimo coordenada a coordenada
  2. Representación Afín por Partes: Se utiliza el teorema de representación max-min
  3. Aproximación Universal: Las funciones afines por partes son densas en funciones 1-Lipschitz

Trabajo Relacionado

Métodos de Restricción de Redes 1-Lipschitz

  1. Normalización Espectral: Control de la norma espectral de matrices de pesos
  2. Matrices de Pesos Ortogonales: Uso de transformaciones ortogonales para preservar la propiedad de Lipschitz
  3. Método de Flujo de Gradiente: Estrategias de restricción basadas en sistemas dinámicos y análisis numérico

Teoría de Aproximación de Redes Restringidas

  • Teoría de redes de retroalimentación con función de activación GroupSort de Anil et al.
  • Investigación sobre funciones de activación spline de Neumayer et al.
  • Este artículo proporciona por primera vez una teoría completa específicamente para ResNets 1-Lipschitz

Conclusiones y Discusión

Conclusiones Principales

  1. Avance Teórico: Establece por primera vez una teoría rigurosa de aproximación universal para ResNets 1-Lipschitz
  2. Valor Práctico: La arquitectura propuesta puede entrenarse con optimizadores estándar y tiene condiciones de restricción explícitas
  3. Innovación Metodológica: Proporciona dos métodos de prueba complementarios, profundizando la comprensión de ResNets 1-Lipschitz continuas

Limitaciones

  1. Dependencia de Función de Activación: La teoría depende fuertemente de las propiedades especiales de ReLU
  2. Complejidad de Implementación: La arquitectura de ancho fijo requiere capas afines adicionales, aumentando la complejidad de implementación
  3. Restricción a Funciones Escalares: Los resultados principales se concentran en funciones de valor escalar; la extensión a funciones de valor vectorial requiere investigación adicional

Direcciones Futuras

  1. Otras Funciones de Activación: Extender el análisis teórico a otras funciones de activación
  2. Arquitecturas Modernas: Aplicar la teoría a arquitecturas modernas como Transformers y GNNs
  3. Tasas de Aproximación: Investigar tasas de aproximación específicas y análisis de complejidad
  4. Funciones de Valor Vectorial: Perfeccionar el marco teórico para funciones de múltiples salidas

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Proporciona pruebas matemáticas completas, cerrando una brecha teórica importante
  2. Innovación Metodológica: La estrategia de prueba dual proporciona diferentes perspectivas teóricas
  3. Practicidad: Todos los resultados teóricos corresponden a arquitecturas de red implementables
  4. Integridad: Forma una cadena de investigación completa desde análisis teórico hasta validación experimental

Insuficiencias

  1. Escala Experimental Limitada: Los experimentos se concentran principalmente en conjuntos de datos simples, careciendo de validación en aplicaciones a gran escala
  2. Análisis de Complejidad Computacional: El análisis del costo computacional de la ejecución de restricciones no es suficientemente profundo
  3. Comparación de Referencia: Falta comparación detallada con otros métodos de redes 1-Lipschitz

Impacto

  1. Valor Académico: Proporciona fundamentos importantes para la teoría de redes neuronales restringidas
  2. Perspectivas de Aplicación: Tiene amplio potencial de aplicación en modelado generativo, problemas inversos y aprendizaje robusto
  3. Contribución Metodológica: Las técnicas de prueba pueden inspirar análisis teóricos de otras redes restringidas

Escenarios de Aplicación

  1. Wasserstein GANs: Proporciona apoyo teórico para el diseño del discriminador
  2. Algoritmos Plug-and-Play: Diseño de desruidores que garantiza convergencia
  3. Robustez Adversarial: Mejora la resistencia del clasificador contra ataques adversariales
  4. Resolución de Problemas Inversos: Aplicaciones en imágenes médicas, procesamiento de señales y otros campos

Referencias

Este artículo cita 42 referencias importantes que abarcan múltiples campos incluyendo teoría de aproximación universal, métodos de restricción de Lipschitz, teoría de sistemas dinámicos y otros trabajos fundamentales, proporcionando una base sólida para el análisis teórico.