2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, PrÃ¶mel

The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.

academic

Свойство распределительно-робастной аппроксимации нейронных сетей

Основная информация

ID статьи: 2510.09177
Название: Distributionally robust approximation property of neural networks
Авторы: Mihriban Ceylan, David J. Prömel
Классификация: stat.ML cs.LG math.FA math.PR
Дата публикации: 13 октября 2025
Ссылка на статью: https://arxiv.org/abs/2510.09177

Аннотация

Свойство универсальной аппроксимации, равномерное относительно слабо компактных семейств мер, установлено для нескольких классов нейронных сетей. Для этого доказывается, что эти нейронные сети плотны в пространствах Орлича, что расширяет классические теоремы универсальной аппроксимации даже за пределы традиционного $L^p$ -пространства. Рассматриваемые классы нейронных сетей включают широко используемые архитектуры, такие как полносвязные нейронные сети с неполиномиальными функциями активации, глубокие узкие сети с функциями активации ReLU и нейронные сети с функциональным входом.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, — это установление свойства распределительно-робастной аппроксимации (distributionally robust approximation property) нейронных сетей. Конкретно, традиционные теоремы универсальной аппроксимации (Universal Approximation Theorems, UATs) рассматривают аппроксимацию в пространстве $L^p(μ)$ только для одной фиксированной меры μ, тогда как данная работа доказывает, что нейронные сети могут равномерно аппроксимировать функции на слабо компактных семействах мер $\mathcal{M}$ , то есть для заданной функции $f$ и любого $ε > 0$ существует нейронная сеть $η$ такая, что: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Значимость исследования

Теоретическое значение: расширение классических теорем универсальной аппроксимации от одной меры к равномерной аппроксимации на семействе распределений
Практическая необходимость: в практике машинного обучения неопределённость распределения данных является повсеместной проблемой, известной как распределительная неопределённость (distributional uncertainty)
Прикладная ценность: предоставление теоретической базы для распределительно-робастного обучения, состязательного обучения, обработки зашумленных данных и других областей

Ограничения существующих методов

Классические теоремы универсальной аппроксимации имеют следующие ограничения:

Ограничение одной мерой: применимы только к фиксированной единственной мере μ в пространстве $L^p(μ)$
Ограничение пространства: в основном ограничены рамками пространства $L^p$ , отсутствует более общая теория функциональных пространств
Отсутствие робастности: неспособность обработки сдвига распределения или распределительной неопределённости

Мотивация исследования

Мотивация данной работы исходит из:

Повсеместного существования распределительной неопределённости в реальных приложениях (например, неопределённость Найта, состязательные примеры)
Необходимости теоретической поддержки развития распределительно-робастной оптимизации и статистического обучения
Теоретической необходимости расширения теории нейронных сетей от пространства $L^p$ к более общим пространствам Орлича

Основные вклады

Теорема универсальной аппроксимации в пространствах Орлича: впервые доказана плотность нескольких классов нейронных сетей в пространствах Орлича относительно нормы Люксембурга, что является важным обобщением классических результатов для пространства $L^p$
Свойство распределительно-робастной аппроксимации: установлена теорема распределительно-робастной универсальной аппроксимации нейронных сетей относительно слабо компактных семейств мер, обеспечивающая теоретическую базу для обработки распределительной неопределённости
Охват широкого спектра архитектур сетей: включение нескольких важных архитектур нейронных сетей:
- Полносвязные сети с ограниченными неполиномиальными функциями активации
- Глубокие узкие сети с функциями активации ReLU
- Нейронные сети с функциональным входом
Инновация теоретического каркаса: через теорию пространств Орлича предоставляется единый математический каркас для обработки различных функций потерь (таких как кросс-энтропия, дивергенция Кульбака-Лейблера)

Подробное описание методов

Определение задачи

Для слабо компактного семейства мер $\mathcal{M}$ и подходящей функции $f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}$ , для любого $ε > 0$ найти нейронную сеть $η$ такую, что: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

Теоретический каркас

Каркас пространств Орлича

Работа построена на основе теории пространств Орлича. Для функции Янга φ пространство Орлича определяется как: $L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ для некоторого } α > 0\}$

оснащённое калибровочной нормой: $N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}$

Определение нейронных сетей

Полносвязные нейронные сети: $η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1$
Нейронные сети с функциональным входом: $η(x) = \sum_{n=1}^N y_n ϱ(h_n(x))$ , где $h_n \in \mathcal{H}$ — аддитивное семейство

Основные теоремы

Теорема 2.3 (Теорема универсальной аппроксимации в пространствах Орлича)

Для N-функции φ и локально конечной борелевской меры μ нейронные сети плотны в ядре Орлича $M^φ(μ)$ относительно калибровочной нормы, охватывая:

Ограниченные непостоянные функции активации (конечные меры)
Функции активации ReLU (локально конечные меры)
Непрерывные неполиномиальные функции активации (меры с компактным носителем)
Нейронные сети с функциональным входом (при выполнении специальных условий)

Теорема 3.1 (Теорема распределительно-робастной универсальной аппроксимации)

Для слабо компактного семейства мер $\mathcal{M}$ и ассоциированной пары Янга $(φ_\mathcal{M}, ψ_\mathcal{M})$ , для любой $f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L})$ и $ε > 0$ существует нейронная сеть η соответствующего класса такая, что: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε$

Технические инновации

Конструкция пары Янга: использование равномерной интегрируемости слабо компактного семейства мер, конструирование ассоциированной пары Янга через теорему де ла Vallée Poussin
Обобщённое неравенство Гёльдера: использование обобщённого неравенства Гёльдера для установления связи между пространствами Орлича и пространством $L^1$
Аргумент плотности: доказательство плотности нейронных сетей через обобщённые версии теоремы Хана-Банаха и теоремы представления Рисца

Экспериментальная установка

Данная работа является чисто теоретическим исследованием и не содержит численных экспериментов. Все результаты установлены посредством строгих математических доказательств.

Стратегия доказательства

Доказательство от противного: предположение о неплотности нейронных сетей, получение противоречия с помощью теоремы Хана-Банаха
Конструктивное доказательство: для сетей ReLU через явную конструкцию аппроксимирующей сети
Техники теории аппроксимации: использование классических результатов теории аппроксимации в сочетании с теорией мер

Экспериментальные результаты

Основные теоретические результаты

Предложение 2.4 (Ограниченные функции активации)

Для ограниченной непостоянной функции активации ϱ и L ≥ 2, $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ плотна в $M^φ(μ)$ на любой конечной борелевской мере.

Предложение 2.6 (Функции активации ReLU)

Для функции активации ReLU, $\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1}$ плотна в $M^φ(μ)$ на любой локально конечной борелевской мере.

Предложение 2.8 (Неполиномиальные функции активации)

Для непрерывной неполиномиальной функции активации, $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ плотна в $M^φ(μ)$ на конечной борелевской мере с компактным носителем.

Предложение 2.10 (Нейронные сети с функциональным входом)

При надлежащих условиях нейронные сети с функциональным входом $\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}}$ плотны в $M^φ(μ)$ на конечной борелевской мере.

Теоретические находки

Расширение пространства: успешное обобщение классических результатов $L^p$ на пространства Орлича, предоставление каркаса для обработки нестандартных условий роста
Обобщение меры: расширение от меры Лебега к общим локально конечным борелевским мерам
Унификация архитектур: обработка различных архитектур нейронных сетей в едином теоретическом каркасе

Связанные работы

Классическая теория универсальной аппроксимации

Cybenko (1989): установление свойства универсальной аппроксимации для полносвязных сетей с сигмоидной функцией активации
Hornik (1991): расширение на более общие функции активации и пространства Соболева
Leshno и др. (1993): результаты для неполиномиальных функций активации

Современные разработки

Kidger & Lyons (2020): свойство универсальной аппроксимации для глубоких узких сетей ReLU
Cuchiero и др. (2025): глобальная универсальная аппроксимация для нейронных сетей с функциональным входом
Costarelli & Vinti (2019): операторы Канторовича в пространствах Орлича

Распределительно-робастная оптимизация

Ben-Tal и др. (2013): робастная оптимизация при неопределённых вероятностях
Gao & Kleywegt (2016): распределительно-робастная стохастическая оптимизация в расстоянии Вассерштейна

Заключение и обсуждение

Основные выводы

Установлено свойство универсальной аппроксимации нейронных сетей в пространствах Орлича, значительно расширяющее классическую теорию
Доказана способность нейронных сетей к распределительно-робастной аппроксимации, обеспечивающая теоретическую базу для обработки распределительной неопределённости
Охват широко используемых архитектур нейронных сетей с хорошей практической ценностью

Ограничения

Условия на меры: различные архитектуры сетей требуют различных условий на меры (конечность, компактный носитель и т.д.)
Конструктивность: хотя доказана существованность, отсутствуют явные методы конструкции сетей
Вычислительная сложность: не проанализирована количественная связь между ошибкой аппроксимации и сложностью сети

Направления будущих исследований

Количественный анализ: установление количественных соотношений между ошибкой аппроксимации и сложностью сети
Алгоритмическая реализация: разработка практических алгоритмов на основе теоретических результатов
Расширение приложений: применение теории к конкретным задачам машинного обучения

Глубокая оценка

Преимущества

Теоретическая глубина: математически строгая и глубокая работа, продвигающая теорию нейронных сетей на новый уровень
Единый каркас: каркас пространств Орлича предоставляет единую перспективу для решения множества проблем
Практическое значение: предоставление прочной теоретической базы для распределительно-робастного обучения
Техническая инновация: искусное сочетание техник функционального анализа, теории мер и теории аппроксимации

Недостатки

Разрыв с практикой: чисто теоретические результаты, значительное расстояние от практических приложений
Ограничения условий: различные результаты требуют различных технических условий, ограниченная универсальность
Отсутствие конструкции: недостаток конкретных методов конструкции сетей и алгоритмов обучения

Влияние

Теоретический вклад: закладывание новой математической базы для теории нейронных сетей
Междисциплинарная ценность: связь машинного обучения, функционального анализа и теории мер
Долгосрочное значение: предоставление теоретического руководства для будущих исследований в области распределительно-робастного обучения

Применимые сценарии

Теоретические исследования: предоставление новых инструментов для исследователей теории нейронных сетей
Робастное обучение: руководство теоретического развития распределительно-робастной оптимизации и состязательного обучения
Нестандартные функции потерь: теоретический анализ обработки функций потерь типа кросс-энтропии, дивергенции Кульбака-Лейблера и других, не являющихся типом $L^p$

Библиография

Работа содержит богатую библиографию, охватывающую важные работы в нескольких областях, включая теорию аппроксимации, функциональный анализ, теорию нейронных сетей и распределительно-робастную оптимизацию, предоставляя читателям полный фон знаний.

Общая оценка: Это теоретически очень строгая и глубокая работа, успешно обобщившая теорию универсальной аппроксимации нейронных сетей от классического пространства $L^p$ к пространствам Орлича и установившая свойство распределительно-робастной аппроксимации. Хотя расстояние до практических приложений остаётся значительным, работа предоставляет важную математическую базу для теории нейронных сетей и распределительно-робастного обучения.