The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- ID статьи: 2510.09177
- Название: Distributionally robust approximation property of neural networks
- Авторы: Mihriban Ceylan, David J. Prömel
- Классификация: stat.ML cs.LG math.FA math.PR
- Дата публикации: 13 октября 2025
- Ссылка на статью: https://arxiv.org/abs/2510.09177
Свойство универсальной аппроксимации, равномерное относительно слабо компактных семейств мер, установлено для нескольких классов нейронных сетей. Для этого доказывается, что эти нейронные сети плотны в пространствах Орлича, что расширяет классические теоремы универсальной аппроксимации даже за пределы традиционного Lp-пространства. Рассматриваемые классы нейронных сетей включают широко используемые архитектуры, такие как полносвязные нейронные сети с неполиномиальными функциями активации, глубокие узкие сети с функциями активации ReLU и нейронные сети с функциональным входом.
Основная проблема, которую решает данное исследование, — это установление свойства распределительно-робастной аппроксимации (distributionally robust approximation property) нейронных сетей. Конкретно, традиционные теоремы универсальной аппроксимации (Universal Approximation Theorems, UATs) рассматривают аппроксимацию в пространстве Lp(μ) только для одной фиксированной меры μ, тогда как данная работа доказывает, что нейронные сети могут равномерно аппроксимировать функции на слабо компактных семействах мер M, то есть для заданной функции f и любого ε>0 существует нейронная сеть η такая, что:
supν∈M∥f−η∥L1(ν)<ε
- Теоретическое значение: расширение классических теорем универсальной аппроксимации от одной меры к равномерной аппроксимации на семействе распределений
- Практическая необходимость: в практике машинного обучения неопределённость распределения данных является повсеместной проблемой, известной как распределительная неопределённость (distributional uncertainty)
- Прикладная ценность: предоставление теоретической базы для распределительно-робастного обучения, состязательного обучения, обработки зашумленных данных и других областей
Классические теоремы универсальной аппроксимации имеют следующие ограничения:
- Ограничение одной мерой: применимы только к фиксированной единственной мере μ в пространстве Lp(μ)
- Ограничение пространства: в основном ограничены рамками пространства Lp, отсутствует более общая теория функциональных пространств
- Отсутствие робастности: неспособность обработки сдвига распределения или распределительной неопределённости
Мотивация данной работы исходит из:
- Повсеместного существования распределительной неопределённости в реальных приложениях (например, неопределённость Найта, состязательные примеры)
- Необходимости теоретической поддержки развития распределительно-робастной оптимизации и статистического обучения
- Теоретической необходимости расширения теории нейронных сетей от пространства Lp к более общим пространствам Орлича
- Теорема универсальной аппроксимации в пространствах Орлича: впервые доказана плотность нескольких классов нейронных сетей в пространствах Орлича относительно нормы Люксембурга, что является важным обобщением классических результатов для пространства Lp
- Свойство распределительно-робастной аппроксимации: установлена теорема распределительно-робастной универсальной аппроксимации нейронных сетей относительно слабо компактных семейств мер, обеспечивающая теоретическую базу для обработки распределительной неопределённости
- Охват широкого спектра архитектур сетей: включение нескольких важных архитектур нейронных сетей:
- Полносвязные сети с ограниченными неполиномиальными функциями активации
- Глубокие узкие сети с функциями активации ReLU
- Нейронные сети с функциональным входом
- Инновация теоретического каркаса: через теорию пространств Орлича предоставляется единый математический каркас для обработки различных функций потерь (таких как кросс-энтропия, дивергенция Кульбака-Лейблера)
Для слабо компактного семейства мер M и подходящей функции f:RN0→RNL, для любого ε>0 найти нейронную сеть η такую, что:
supν∈M∥f−η∥L1(ν)<ε
Работа построена на основе теории пространств Орлича. Для функции Янга φ пространство Орлича определяется как:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ для некоторого α>0}
оснащённое калибровочной нормой:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- Полносвязные нейронные сети: η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- Нейронные сети с функциональным входом: η(x)=∑n=1Nynϱ(hn(x)), где hn∈H — аддитивное семейство
Для N-функции φ и локально конечной борелевской меры μ нейронные сети плотны в ядре Орлича Mφ(μ) относительно калибровочной нормы, охватывая:
- Ограниченные непостоянные функции активации (конечные меры)
- Функции активации ReLU (локально конечные меры)
- Непрерывные неполиномиальные функции активации (меры с компактным носителем)
- Нейронные сети с функциональным входом (при выполнении специальных условий)
Для слабо компактного семейства мер M и ассоциированной пары Янга (φM,ψM), для любой f∈MφM(μ;RNL) и ε>0 существует нейронная сеть η соответствующего класса такая, что:
supν∈M∥f−η∥L1(ν;RNL)<ε
- Конструкция пары Янга: использование равномерной интегрируемости слабо компактного семейства мер, конструирование ассоциированной пары Янга через теорему де ла Vallée Poussin
- Обобщённое неравенство Гёльдера: использование обобщённого неравенства Гёльдера для установления связи между пространствами Орлича и пространством L1
- Аргумент плотности: доказательство плотности нейронных сетей через обобщённые версии теоремы Хана-Банаха и теоремы представления Рисца
Данная работа является чисто теоретическим исследованием и не содержит численных экспериментов. Все результаты установлены посредством строгих математических доказательств.
- Доказательство от противного: предположение о неплотности нейронных сетей, получение противоречия с помощью теоремы Хана-Банаха
- Конструктивное доказательство: для сетей ReLU через явную конструкцию аппроксимирующей сети
- Техники теории аппроксимации: использование классических результатов теории аппроксимации в сочетании с теорией мер
Для ограниченной непостоянной функции активации ϱ и L ≥ 2, NNN0,NL,L,∞ϱ плотна в Mφ(μ) на любой конечной борелевской мере.
Для функции активации ReLU, NNN0,NL,∞,N0+NL+1ϱ плотна в Mφ(μ) на любой локально конечной борелевской мере.
Для непрерывной неполиномиальной функции активации, NNN0,NL,L,∞ϱ плотна в Mφ(μ) на конечной борелевской мере с компактным носителем.
При надлежащих условиях нейронные сети с функциональным входом NNRN0,RN2H,ϱ плотны в Mφ(μ) на конечной борелевской мере.
- Расширение пространства: успешное обобщение классических результатов Lp на пространства Орлича, предоставление каркаса для обработки нестандартных условий роста
- Обобщение меры: расширение от меры Лебега к общим локально конечным борелевским мерам
- Унификация архитектур: обработка различных архитектур нейронных сетей в едином теоретическом каркасе
- Cybenko (1989): установление свойства универсальной аппроксимации для полносвязных сетей с сигмоидной функцией активации
- Hornik (1991): расширение на более общие функции активации и пространства Соболева
- Leshno и др. (1993): результаты для неполиномиальных функций активации
- Kidger & Lyons (2020): свойство универсальной аппроксимации для глубоких узких сетей ReLU
- Cuchiero и др. (2025): глобальная универсальная аппроксимация для нейронных сетей с функциональным входом
- Costarelli & Vinti (2019): операторы Канторовича в пространствах Орлича
- Ben-Tal и др. (2013): робастная оптимизация при неопределённых вероятностях
- Gao & Kleywegt (2016): распределительно-робастная стохастическая оптимизация в расстоянии Вассерштейна
- Установлено свойство универсальной аппроксимации нейронных сетей в пространствах Орлича, значительно расширяющее классическую теорию
- Доказана способность нейронных сетей к распределительно-робастной аппроксимации, обеспечивающая теоретическую базу для обработки распределительной неопределённости
- Охват широко используемых архитектур нейронных сетей с хорошей практической ценностью
- Условия на меры: различные архитектуры сетей требуют различных условий на меры (конечность, компактный носитель и т.д.)
- Конструктивность: хотя доказана существованность, отсутствуют явные методы конструкции сетей
- Вычислительная сложность: не проанализирована количественная связь между ошибкой аппроксимации и сложностью сети
- Количественный анализ: установление количественных соотношений между ошибкой аппроксимации и сложностью сети
- Алгоритмическая реализация: разработка практических алгоритмов на основе теоретических результатов
- Расширение приложений: применение теории к конкретным задачам машинного обучения
- Теоретическая глубина: математически строгая и глубокая работа, продвигающая теорию нейронных сетей на новый уровень
- Единый каркас: каркас пространств Орлича предоставляет единую перспективу для решения множества проблем
- Практическое значение: предоставление прочной теоретической базы для распределительно-робастного обучения
- Техническая инновация: искусное сочетание техник функционального анализа, теории мер и теории аппроксимации
- Разрыв с практикой: чисто теоретические результаты, значительное расстояние от практических приложений
- Ограничения условий: различные результаты требуют различных технических условий, ограниченная универсальность
- Отсутствие конструкции: недостаток конкретных методов конструкции сетей и алгоритмов обучения
- Теоретический вклад: закладывание новой математической базы для теории нейронных сетей
- Междисциплинарная ценность: связь машинного обучения, функционального анализа и теории мер
- Долгосрочное значение: предоставление теоретического руководства для будущих исследований в области распределительно-робастного обучения
- Теоретические исследования: предоставление новых инструментов для исследователей теории нейронных сетей
- Робастное обучение: руководство теоретического развития распределительно-робастной оптимизации и состязательного обучения
- Нестандартные функции потерь: теоретический анализ обработки функций потерь типа кросс-энтропии, дивергенции Кульбака-Лейблера и других, не являющихся типом Lp
Работа содержит богатую библиографию, охватывающую важные работы в нескольких областях, включая теорию аппроксимации, функциональный анализ, теорию нейронных сетей и распределительно-робастную оптимизацию, предоставляя читателям полный фон знаний.
Общая оценка: Это теоретически очень строгая и глубокая работа, успешно обобщившая теорию универсальной аппроксимации нейронных сетей от классического пространства Lp к пространствам Орлича и установившая свойство распределительно-робастной аппроксимации. Хотя расстояние до практических приложений остаётся значительным, работа предоставляет важную математическую базу для теории нейронных сетей и распределительно-робастного обучения.