1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
В данной работе исследуется аппроксимационная способность 1-липшицевых остаточных сетей (ResNets), основанных на явных шагах Эйлера отрицательного градиентного потока. Используя ограниченную теорему Стоуна-Вейерштрасса, авторы доказывают, что при возрастании ширины и глубины эти 1-липшицевы ResNets плотны в множестве скалярных 1-липшицевых функций на любом компактном множестве. Кроме того, доказано, что эти сети могут точно представлять скалярные кусочно-аффинные 1-липшицевы функции. Получен более сильный результат: путём вставки линейных отображений с ограничением нормы между остаточными блоками сохраняется та же плотность при фиксированной ширине скрытого слоя. Поскольку каждый слой следует простому ограничению нормы, полученная модель может быть обучена с использованием стандартных оптимизаторов.
1-липшицевы нейронные сети играют фундаментальную роль в нескольких важных областях:
Генеративное моделирование: Дискриминатор в Wasserstein GAN должен быть 1-липшицевым для обеспечения эффективной оценки 1-расстояния Вассерштейна через двойственность Канторовича-Рубинштейна
Снижение выразительной способности: Ограничение константы Липшица сети обычно снижает её выразительную способность, приводя к значительному падению производительности
Недостаток теории: Недостаточное понимание аппроксимационных свойств ограниченных сетей; различные стратегии ограничения могут привести к существенно различной выразительной способности
Трудности реализации: Существующие 1-липшицевы ResNets не имеют строгих теоретических гарантий
Данная работа направлена на заполнение пробела в теоретическом анализе 1-липшицевых ResNets, обеспечение строгого математического основания для понимания аппроксимационной способности этого класса сетей и предоставление теоретической поддержки для практических приложений.
Первая универсальная теорема аппроксимации: Предоставляет первую универсальную гарантию аппроксимации для 1-липшицевых ResNets, доказывая плотность ResNets на основе отрицательного градиентного потока в множестве скалярных 1-липшицевых функций
Результаты аппроксимации при фиксированной ширине: Путём введения линейных отображений с ограничением нормы доказано, что универсальное аппроксимационное свойство сохраняется даже при фиксированной ширине сети
Конструктивный метод доказательства: Предоставлены две стратегии доказательства — на основе ограниченной теоремы Стоуна-Вейерштрасса и конструктивный метод на основе кусочно-аффинных функций
Практическое проектирование архитектуры: Предложенная архитектура сети имеет явные ограничения и может быть обучена с использованием стандартных оптимизаторов
Метод Стоуна-Вейерштрасса: Проверка того, что семейство сетей является решёткой, разделяющей точки, и удовлетворяет условиям ограниченной теоремы Стоуна-Вейерштрасса
Конструктивный метод: Доказательство того, что сети могут точно представлять все кусочно-аффинные 1-липшицевы функции
Зависимость от функции активации: Теория сильно зависит от специальных свойств ReLU
Сложность реализации: Архитектура с фиксированной шириной требует дополнительных аффинных слоёв, что усложняет реализацию
Ограничение на скалярные функции: Основные результаты сосредоточены на скалярных функциях; расширение на векторные функции требует дальнейших исследований
Данная работа цитирует 42 важные публикации, охватывающие теорию универсальной аппроксимации, методы липшицева ограничения, теорию динамических систем и другие области, обеспечивая прочную основу для теоретического анализа.