The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- 論文ID: 2510.09177
- タイトル: Distributionally robust approximation property of neural networks
- 著者: Mihriban Ceylan, David J. Prömel
- 分類: stat.ML cs.LG math.FA math.PR
- 発表日: 2025年10月13日
- 論文リンク: https://arxiv.org/abs/2510.09177
弱コンパクト測度族に関して一様な普遍近似性質が、複数のクラスのニューラルネットワークに対して確立される。そのために、これらのニューラルネットワークがオルリッツ空間において稠密であることを証明し、従来のLp設定を超えて古典的な普遍近似定理を拡張する。対象となるニューラルネットワークのクラスには、非多項式活性化関数を持つ前向きニューラルネットワーク、ReLU活性化関数を持つ深い狭いネットワーク、関数入力ニューラルネットワークなどの広く使用されているアーキテクチャが含まれる。
本研究が解決しようとする中核的な問題は、ニューラルネットワークの分布ロバスト近似性質(distributionally robust approximation property)を確立することである。具体的には、従来の普遍近似定理(Universal Approximation Theorems, UATs)は単一の固定分布μの下でのLp(μ)空間における近似のみを考慮していたが、本論文は、ニューラルネットワークが弱コンパクト測度族M上で一様に関数を近似できることを証明する。すなわち、与えられた関数fと任意のε>0に対して、ニューラルネットワークηが存在して以下を満たす:
supν∈M∥f−η∥L1(ν)<ε
- 理論的意義:古典的な普遍近似定理を単一分布の設定から測度族の一様近似へと一般化する
- 実践的必要性:機械学習の実践において、データ分布の不確実性は普遍的な課題であり、分布不確実性(distributional uncertainty)と呼ばれている
- 応用価値:分布ロバスト学習、対抗的訓練、ノイズデータ処理などの分野に理論的基礎を提供する
古典的な普遍近似定理には以下の限界が存在する:
- 単一分布の制限:固定された単一の測度μに対してのみLp(μ)空間における近似性質を確立する
- 空間の制限:主にLp空間の枠組みに限定され、より一般的な関数空間理論が欠けている
- ロバスト性の欠如:分布シフトまたは分布不確実性のシナリオに対応できない
本論文の研究動機は以下に由来する:
- 現実の応用における分布不確実性の普遍的存在(ナイト不確実性、対抗的サンプルなど)
- 分布ロバスト最適化と統計学習の発展を支援する理論の必要性
- ニューラルネットワーク理論をLp空間からより一般的なオルリッツ空間へ拡張する理論的必要性
- オルリッツ空間における普遍近似定理:複数のクラスのニューラルネットワークがオルリッツ空間においてルクスブルク範数に関して稠密であることを初めて証明し、古典的なLp空間の結果の重要な一般化を実現した
- 分布ロバスト近似性質:弱コンパクト測度族に関するニューラルネットワークの分布ロバスト普遍近似定理を確立し、分布不確実性に対処するための理論的基礎を提供した
- 広範なネットワークアーキテクチャのカバレッジ:複数の重要なニューラルネットワークアーキテクチャを包含:
- 有界非多項式活性化関数を持つ前向きネットワーク
- ReLU活性化を持つ深い狭いネットワーク
- 関数入力ニューラルネットワーク
- 理論的枠組みの革新:オルリッツ空間理論を通じて、交差エントロピーやKL発散などの異なる損失関数を統一的に処理するための数学的枠組みを提供した
弱コンパクト測度族Mと適切な関数f:RN0→RNLが与えられたとき、任意のε>0に対して、ニューラルネットワークηを探索して以下を満たす:
supν∈M∥f−η∥L1(ν)<ε
論文はオルリッツ空間理論に基づいて数学的枠組みを構築する。ヤング関数φに対して、オルリッツ空間は以下のように定義される:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ for some α>0}
ゲージ範数を備えて:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- 前向きニューラルネットワーク:η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- 関数入力ニューラルネットワーク:η(x)=∑n=1Nynϱ(hn(x))、ここでhn∈Hは加法族
N-関数φと局所有限ボレル測度μに対して、ニューラルネットワークはオルリッツコアMφ(μ)においてゲージ範数に関して稠密であり、以下を包含する:
- 有界非定数活性化関数(有限測度)
- ReLU活性化関数(局所有限測度)
- 連続非多項式活性化関数(コンパクト台測度)
- 関数入力ニューラルネットワーク(特定条件を満たす)
弱コンパクト測度族Mおよびその関連ヤング対(φM,ψM)に対して、任意のf∈MφM(μ;RNL)とε>0に対して、対応するクラスのニューラルネットワークηが存在して以下を満たす:
supν∈M∥f−η∥L1(ν;RNL)<ε
- ヤング対の構成:弱コンパクト測度族の一様可積分性を利用し、デ・ラ・ヴァレ・プッサン定理を通じて関連するヤング対を構成する
- ヘルダー不等式の一般化:一般化されたヘルダー不等式を使用してオルリッツ空間とL1空間の間の接続を確立する
- 密度論証:ハーン・バナッハ定理とリースの表現定理の一般化版を通じてニューラルネットワークの稠密性を証明する
本論文は純粋な理論研究であり、数値実験は含まれていない。すべての結果は厳密な数学的証明を通じて確立される。
- 背理法:ニューラルネットワークが稠密でないと仮定し、ハーン・バナッハ定理を利用して矛盾を導く
- 構成的証明:ReLUネットワークに対して、近似ネットワークを明示的に構成する
- 近似理論技法:古典的な近似理論の結果と測度論を組み合わせて利用する
有界非定数活性化関数ϱとL ≥ 2に対して、NNN0,NL,L,∞ϱは任意の有限ボレル測度上のMφ(μ)において稠密である。
ReLU活性化関数に対して、NNN0,NL,∞,N0+NL+1ϱは任意の局所有限ボレル測度上のMφ(μ)において稠密である。
連続非多項式活性化関数に対して、NNN0,NL,L,∞ϱはコンパクト台有限ボレル測度上のMφ(μ)において稠密である。
適切な条件の下で、関数入力ニューラルネットワークNNRN0,RN2H,ϱは有限ボレル測度上のMφ(μ)において稠密である。
- 空間の拡張:古典的なLp結果をオルリッツ空間へ成功裏に一般化し、非標準増長条件を処理するための枠組みを提供した
- 測度の一般化:ルベスグ測度から一般的な局所有限ボレル測度へと一般化した
- アーキテクチャの統一:統一された理論的枠組みの下で複数のニューラルネットワークアーキテクチャを処理した
- Cybenko (1989):シグモイド活性化関数を持つ前向きネットワークの普遍近似性質を確立
- Hornik (1991):より一般的な活性化関数とソボレフ空間へ拡張
- Leshno等 (1993):非多項式活性化関数の結果
- Kidger & Lyons (2020):深い狭いReLUネットワークの普遍近似性質
- Cuchiero等 (2025):関数入力ニューラルネットワークの大域的普遍近似
- Costarelli & Vinti (2019):オルリッツ空間におけるカントロヴィッチ作用素
- Ben-Tal等 (2013):不確実確率下のロバスト最適化
- Gao & Kleywegt (2016):ワッサーシュタイン距離下の分布ロバスト確率最適化
- オルリッツ空間におけるニューラルネットワークの普遍近似性質を確立し、古典的理論を大幅に拡張した
- ニューラルネットワークの分布ロバスト近似能力を証明し、分布不確実性に対処するための理論的基礎を提供した
- 広く使用されているニューラルネットワークアーキテクチャを包含し、良好な実用的価値を有する
- 測度条件:異なるネットワークアーキテクチャは異なる測度条件(有限性、コンパクト台など)を必要とする
- 構成性:存在性は証明されたが、明示的なネットワーク構成方法が欠けている
- 計算複雑性:必要なネットワーク規模と近似精度の定量的関係が分析されていない
- 定量分析:近似誤差とネットワーク複雑度の定量的関係を確立する
- アルゴリズム実装:理論的結果に基づいた実用的なアルゴリズムを開発する
- 応用拡張:理論を具体的な機械学習タスクに応用する
- 理論的深さ:数学的に厳密かつ深刻であり、ニューラルネットワーク理論を新しい高さへ推し進める
- 統一的枠組み:オルリッツ空間の枠組みは複数の問題に対処するための統一的視点を提供する
- 実践的意義:分布ロバスト学習に対して堅実な理論的基礎を提供する
- 技術的革新:関数解析、測度論、近似理論の技法を巧みに組み合わせている
- 実用性のギャップ:純粋な理論的結果であり、実際の応用との間に大きな距離がある
- 条件の制限:異なる結果は異なる技術的条件を必要とし、統一性が限定的である
- 構成の欠如:具体的なネットワーク構成と訓練アルゴリズムが欠けている
- 理論的貢献:ニューラルネットワーク理論に新しい数学的基礎を確立する
- 学際的価値:機械学習、関数解析、測度論を結びつける
- 長期的意義:将来の分布ロバスト学習研究に理論的指導を提供する
- 理論研究:ニューラルネットワーク理論研究者に新しいツールを提供する
- ロバスト学習:分布ロバスト最適化と対抗的訓練の理論的発展を指導する
- 非標準損失:交差エントロピー、KL発散などの非Lp型損失関数の理論的分析を処理する
論文は豊富な参考文献を含み、近似理論、関数解析、ニューラルネットワーク理論、分布ロバスト最適化など複数の分野の重要な研究をカバーし、読者に包括的な背景知識を提供している。
総合評価:これは理論的に非常に厳密かつ深刻な論文であり、ニューラルネットワークの普遍近似理論を古典的なLp空間からオルリッツ空間へ成功裏に一般化し、分布ロバスト近似性質を確立している。実際の応用までの距離はまだあるが、ニューラルネットワーク理論と分布ロバスト学習に対して重要な数学的基礎を提供している。