1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
Este artículo investiga la capacidad de aproximación de redes residuales (ResNets) 1-Lipschitz basadas en pasos explícitos de Euler del flujo de gradiente negativo. Utilizando el teorema de Stone-Weierstrass restringido, se demuestra primero que estas ResNets 1-Lipschitz son densas en el conjunto de funciones 1-Lipschitz escalares en cualquier dominio compacto cuando se permite que el ancho y la profundidad aumenten. También se prueba que estas redes pueden representar exactamente funciones 1-Lipschitz afines por partes escalares. Se establece además una conclusión más fuerte: al insertar mapeos lineales con restricción de norma entre bloques residuales, se mantiene la misma densidad incluso cuando el ancho oculto es fijo. Dado que cada capa sigue una restricción de norma simple, el modelo resultante puede entrenarse con optimizadores estándar disponibles.
Las redes neuronales 1-Lipschitz juegan un papel fundamental en varios campos importantes:
Modelado Generativo: El discriminador en Wasserstein GAN debe ser 1-Lipschitz para proporcionar una estimación válida de la distancia 1-Wasserstein a través de la dualidad de Kantorovich-Rubinstein
Problemas Inversos: En algoritmos Plug-and-Play, la restricción 1-Lipschitz garantiza la convergencia del esquema iterativo
Clasificadores Robustos: Controlar la constante de Lipschitz de la red mejora la robustez contra ataques adversariales
Reducción de Capacidad Expresiva: Restringir la constante de Lipschitz de la red típicamente reduce su capacidad expresiva, resultando en una disminución notable del desempeño
Deficiencia Teórica: Existe comprensión insuficiente de las propiedades de aproximación de redes restringidas; diferentes estrategias de restricción pueden producir capacidades expresivas significativamente diferentes
Dificultad de Implementación: Las ResNets 1-Lipschitz existentes carecen de garantías teóricas rigurosas
Este artículo tiene como objetivo cerrar la brecha en el análisis teórico de ResNets 1-Lipschitz, proporcionando fundamentos matemáticos rigurosos para comprender la capacidad de aproximación de estas redes y ofreciendo apoyo teórico para aplicaciones prácticas.
Primer Teorema de Aproximación Universal: Proporciona la primera garantía de aproximación universal para ResNets 1-Lipschitz, demostrando la densidad de ResNets basadas en flujo de gradiente negativo en el conjunto de funciones 1-Lipschitz escalares
Resultados de Aproximación con Ancho Fijo: Al introducir mapeos lineales con restricción de norma, se demuestra que se mantiene la propiedad de aproximación universal incluso cuando el ancho de la red es fijo
Método de Prueba Constructivo: Se proporcionan dos estrategias de prueba - basada en el teorema de Stone-Weierstrass restringido y basada en un método constructivo con funciones afines por partes
Diseño de Arquitectura Práctica: La arquitectura de red propuesta tiene condiciones de restricción explícitas y puede entrenarse con optimizadores estándar
Método de Stone-Weierstrass: Verifica que el conjunto de redes es una red que separa puntos, satisfaciendo las condiciones del teorema de Stone-Weierstrass restringido
Método Constructivo: Demuestra que las redes pueden representar exactamente todas las funciones 1-Lipschitz afines por partes
Dependencia de Función de Activación: La teoría depende fuertemente de las propiedades especiales de ReLU
Complejidad de Implementación: La arquitectura de ancho fijo requiere capas afines adicionales, aumentando la complejidad de implementación
Restricción a Funciones Escalares: Los resultados principales se concentran en funciones de valor escalar; la extensión a funciones de valor vectorial requiere investigación adicional
Escala Experimental Limitada: Los experimentos se concentran principalmente en conjuntos de datos simples, careciendo de validación en aplicaciones a gran escala
Análisis de Complejidad Computacional: El análisis del costo computacional de la ejecución de restricciones no es suficientemente profundo
Comparación de Referencia: Falta comparación detallada con otros métodos de redes 1-Lipschitz
Este artículo cita 42 referencias importantes que abarcan múltiples campos incluyendo teoría de aproximación universal, métodos de restricción de Lipschitz, teoría de sistemas dinámicos y otros trabajos fundamentales, proporcionando una base sólida para el análisis teórico.