2025-11-10T02:37:09.167057

Distributionally robust approximation property of neural networks

Ceylan, PrÃ¶mel

The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.

academic

خاصية التقريب القوي من حيث التوزيع للشبكات العصبية

المعلومات الأساسية

معرّف الورقة: 2510.09177
العنوان: خاصية التقريب القوي من حيث التوزيع للشبكات العصبية
المؤلفون: Mihriban Ceylan, David J. Prömel
التصنيف: stat.ML cs.LG math.FA math.PR
تاريخ النشر: 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09177

الملخص

تم إثبات خاصية التقريب العام بشكل منتظم فيما يتعلق بعائلات المقاييس الضعيفة المدمجة لعدة فئات من الشبكات العصبية. لتحقيق ذلك، نثبت أن هذه الشبكات العصبية كثيفة في فضاءات أورليتش، مما يوسع نطاق نظريات التقريب العام الكلاسيكية حتى خارج الإطار التقليدي للفضاءات $L^p$ . تشمل فئات الشبكات العصبية المغطاة المعماريات المستخدمة على نطاق واسع مثل الشبكات العصبية ذات التغذية الأمامية مع دوال التفعيل غير متعددة الحدود، والشبكات العميقة الضيقة مع دوال تفعيل ReLU، والشبكات العصبية ذات المدخلات الدالية.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث لحلها هي إثبات خاصية التقريب القوي من حيث التوزيع (distributionally robust approximation property) للشبكات العصبية. بشكل محدد، تأخذ نظريات التقريب العام التقليدية (Universal Approximation Theorems, UATs) في الاعتبار فقط التقريب في فضاء $L^p(μ)$ تحت توزيع واحد ثابت μ، بينما تسعى هذه الورقة لإثبات أن الشبكات العصبية يمكنها تقريب الدوال بشكل منتظم على عائلة من المقاييس الضعيفة المدمجة $\mathcal{M}$ ، أي أنه لأي دالة معطاة $f$ وأي $ε > 0$ ، يوجد شبكة عصبية $η$ بحيث: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

أهمية البحث

الأهمية النظرية: توسيع نطاق نظريات التقريب العام الكلاسيكية من إعداد التوزيع الواحد إلى التقريب المنتظم على عائلة من التوزيعات
الاحتياجات العملية: في ممارسة التعلم الآلي، عدم اليقين في توزيع البيانات هو تحدٍ منتشر على نطاق واسع، يُعرف باسم عدم اليقين التوزيعي (distributional uncertainty)
القيمة التطبيقية: توفير أساس نظري للتعلم القوي من حيث التوزيع، والتدريب الخصومي، ومعالجة البيانات الضوضائية وغيرها من المجالات

قيود الطرق الموجودة

تعاني نظريات التقريب العام الكلاسيكية من القيود التالية:

قيد التوزيع الواحد: تنطبق فقط على التقريب في فضاء $L^p(μ)$ تحت مقياس واحد ثابت
قيود الفضاء: تقتصر بشكل أساسي على إطار فضاء $L^p$ ، وتفتقر إلى نظرية فضاء دالي أكثر عمومية
غياب المتانة: غير قادرة على التعامل مع سيناريوهات الانجراف التوزيعي أو عدم اليقين التوزيعي

دافع البحث

ينبع دافع هذا البحث من:

الوجود الشامل لعدم اليقين التوزيعي في التطبيقات الواقعية (مثل عدم اليقين من نوع Knight، العينات الخصومية، وما إلى ذلك)
الحاجة إلى دعم نظري لتطوير التحسين القوي من حيث التوزيع والتعلم الإحصائي
الحاجة النظرية لتوسيع نطاق نظرية الشبكات العصبية من فضاء $L^p$ إلى فضاءات أورليتش الأكثر عمومية

المساهمات الأساسية

نظرية التقريب العام في فضاءات أورليتش: إثبات لأول مرة كثافة عدة فئات من الشبكات العصبية في فضاءات أورليتش فيما يتعلق بمعيار Luxemburg، وهو توسيع مهم للنتائج الكلاسيكية في فضاء $L^p$
خاصية التقريب القوي من حيث التوزيع: إثبات نظرية التقريب العام القوي من حيث التوزيع للشبكات العصبية فيما يتعلق بعائلات المقاييس الضعيفة المدمجة، مما يوفر أساساً نظرياً للتعامل مع عدم اليقين التوزيعي
تغطية واسعة لمعماريات الشبكات: تشمل عدة معماريات شبكات عصبية مهمة:
- الشبكات الأمامية مع دوال تفعيل غير متعددة الحدود المحدودة
- الشبكات العميقة الضيقة مع تفعيل ReLU
- الشبكات العصبية ذات المدخلات الدالية
ابتكار الإطار النظري: من خلال نظرية فضاء أورليتش، توفير إطار رياضي موحد للتعامل مع دوال الخسارة المختلفة (مثل الإنتروبيا المتقاطعة، تباعد KL)

شرح الطريقة

تعريف المهمة

بالنظر إلى عائلة من المقاييس الضعيفة المدمجة $\mathcal{M}$ ودالة مناسبة $f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L}$ ، لأي $ε > 0$ ، ابحث عن شبكة عصبية $η$ بحيث: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν)} < ε$

الإطار النظري

إطار فضاء أورليتش

تبني الورقة الإطار الرياضي على نظرية فضاء أورليتش. بالنسبة لدالة Young φ، يُعرّف فضاء أورليتش على النحو التالي: $L^φ(μ; \mathbb{R}^{N_L}) := \{f: \mathbb{R}^{N_0} \to \mathbb{R}^{N_L} : \int_{\mathbb{R}^{N_0}} φ(α\|f\|) dμ < ∞ \text{ لبعض } α > 0\}$

مزود بمعيار المقياس: $N_{φ,μ}(f) := \inf\{k > 0: \int_{\mathbb{R}^{N_0}} φ(\|f\|/k) dμ ≤ 1\}$

تعريف الشبكات العصبية

الشبكات العصبية ذات التغذية الأمامية: $η = w_L ∘ ϱ ∘ w_{L-1} ∘ \cdots ∘ ϱ ∘ w_1$
الشبكات العصبية ذات المدخلات الدالية: $η(x) = \sum_{n=1}^N y_n ϱ(h_n(x))$ ، حيث $h_n \in \mathcal{H}$ عائلة إضافية

النظريات الأساسية

النظرية 2.3 (نظرية التقريب العام في فضاء أورليتش)

بالنسبة لدالة N φ والمقياس Borel المحلي المحدود μ، تكون الشبكات العصبية كثيفة في قلب أورليتش $M^φ(μ)$ فيما يتعلق بمعيار المقياس، وتشمل:

دوال التفعيل المحدودة غير الثابتة (المقاييس المحدودة)
دوال تفعيل ReLU (المقاييس المحلية المحدودة)
دوال التفعيل المستمرة غير متعددة الحدود (المقاييس ذات الدعم المدمج)
الشبكات العصبية ذات المدخلات الدالية (تحت شروط محددة)

النظرية 3.1 (نظرية التقريب العام القوي من حيث التوزيع)

بالنسبة لعائلة من المقاييس الضعيفة المدمجة $\mathcal{M}$ وزوج Young المرتبط بها $(φ_\mathcal{M}, ψ_\mathcal{M})$ ، لأي $f \in M^{φ_\mathcal{M}}(μ; \mathbb{R}^{N_L})$ و $ε > 0$ ، يوجد شبكة عصبية η من الفئة المناسبة بحيث: $\sup_{ν \in \mathcal{M}} \|f - η\|_{L^1(ν; \mathbb{R}^{N_L})} < ε$

نقاط الابتكار التقني

بناء زوج Young: الاستفادة من التكامل المنتظم للعائلات المقاييس الضعيفة المدمجة، وبناء زوج Young المرتبط من خلال نظرية De la Vallée Poussin
تعميم عدم المساواة في Hölder: استخدام نسخة معممة من عدم المساواة في Hölder لإنشاء اتصال بين فضاء أورليتش وفضاء $L^1$
حجة الكثافة: إثبات كثافة الشبكات العصبية من خلال نسخ معممة من نظرية Hahn-Banach ونظرية تمثيل Riesz

الإعداد التجريبي

هذه ورقة بحثية نظرية بحتة لا تتضمن تجارب عددية. يتم إثبات جميع النتائج من خلال إثبات رياضي صارم.

استراتيجية الإثبات

الإثبات بالتناقض: افترض أن الشبكات العصبية ليست كثيفة، واستخدم نظرية Hahn-Banach للوصول إلى تناقض
الإثبات البناء: بالنسبة لشبكات ReLU، من خلال بناء شبكة تقريب صريحة
تقنيات نظرية التقريب: الاستفادة من نتائج نظرية التقريب الكلاسيكية مع نظرية القياس

النتائج التجريبية

النتائج النظرية الرئيسية

الاقتراح 2.4 (دوال التفعيل المحدودة)

بالنسبة لدالة تفعيل محدودة غير ثابتة ϱ و L ≥ 2، فإن $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ كثيفة في $M^φ(μ)$ على أي مقياس Borel محدود.

الاقتراح 2.6 (دوال تفعيل ReLU)

بالنسبة لدوال تفعيل ReLU، فإن $\mathcal{NN}^ϱ_{N_0,N_L,∞,N_0+N_L+1}$ كثيفة في $M^φ(μ)$ على أي مقياس Borel محلي محدود.

الاقتراح 2.8 (دوال التفعيل المستمرة غير متعددة الحدود)

بالنسبة لدوال التفعيل المستمرة غير متعددة الحدود، فإن $\mathcal{NN}^ϱ_{N_0,N_L,L,∞}$ كثيفة في $M^φ(μ)$ على مقاييس Borel المحدودة ذات الدعم المدمج.

الاقتراح 2.10 (الشبكات العصبية ذات المدخلات الدالية)

تحت الشروط المناسبة، فإن الشبكات العصبية ذات المدخلات الدالية $\mathcal{NN}^{\mathcal{H},ϱ}_{\mathbb{R}^{N_0},\mathbb{R}^{N_2}}$ كثيفة في $M^φ(μ)$ على مقاييس Borel المحدودة.

الاكتشافات النظرية

توسيع الفضاء: توسيع نطاق النتائج الكلاسيكية $L^p$ بنجاح إلى فضاء أورليتش، مما يوفر إطاراً للتعامل مع شروط النمو غير القياسية
تعميم المقياس: التعميم من مقياس Lebesgue إلى مقاييس Borel المحلية المحدودة بشكل عام
توحيد المعمارية: التعامل مع معماريات شبكات عصبية متعددة تحت إطار نظري موحد

الأعمال ذات الصلة

نظرية التقريب العام الكلاسيكية

Cybenko (1989): إثبات خاصية التقريب العام لشبكات التغذية الأمامية مع دوال تفعيل sigmoid
Hornik (1991): التوسيع إلى دوال تفعيل أكثر عمومية وفضاءات Sobolev
Leshno وآخرون (1993): نتائج دوال التفعيل غير متعددة الحدود

التطورات الحديثة

Kidger & Lyons (2020): خاصية التقريب العام للشبكات العميقة الضيقة مع ReLU
Cuchiero وآخرون (2025): التقريب العام الشامل للشبكات العصبية ذات المدخلات الدالية
Costarelli & Vinti (2019): مشغلات Kantorovich في فضاء أورليتش

التحسين القوي من حيث التوزيع

Ben-Tal وآخرون (2013): التحسين القوي تحت عدم اليقين الاحتمالي
Gao & Kleywegt (2016): التحسين العشوائي القوي من حيث التوزيع تحت مسافة Wasserstein

الخلاصة والمناقشة

الاستنتاجات الرئيسية

إثبات خاصية التقريب العام للشبكات العصبية في فضاء أورليتش، مما يوسع نطاق النظرية الكلاسيكية بشكل كبير
إثبات القدرة على التقريب القوي من حيث التوزيع للشبكات العصبية، مما يوفر أساساً نظرياً للتعامل مع عدم اليقين التوزيعي
تغطية معماريات شبكات عصبية مستخدمة على نطاق واسع، مع قيمة عملية جيدة

القيود

شروط المقياس: تتطلب معماريات الشبكات المختلفة شروطاً مختلفة للمقياس (المحدودية، الدعم المدمج، وما إلى ذلك)
البناء: على الرغم من إثبات الوجود، إلا أنه يفتقر إلى طرق بناء شبكة صريحة
التعقيد الحسابي: لم يتم تحليل العلاقة الكمية بين حجم الشبكة المطلوب ودقة التقريب

الاتجاهات المستقبلية

التحليل الكمي: إثبات العلاقات الكمية بين خطأ التقريب وتعقيد الشبكة
التنفيذ الخوارزمي: تطوير خوارزميات عملية بناءً على النتائج النظرية
توسيع التطبيقات: تطبيق النظرية على مهام التعلم الآلي المحددة

التقييم المتعمق

المزايا

العمق النظري: صارم وعميق رياضياً، مما يدفع نظرية الشبكات العصبية إلى ارتفاعات جديدة
الإطار الموحد: يوفر إطار فضاء أورليتش منظوراً موحداً للتعامل مع مشاكل متعددة
الأهمية العملية: توفير أساس نظري قوي للتعلم القوي من حيث التوزيع
الابتكار التقني: دمج ماهر لتقنيات التحليل الدالي ونظرية القياس ونظرية التقريب

أوجه القصور

فجوة الجدوى: نتائج نظرية بحتة، مع وجود فجوة كبيرة بين التطبيق العملي
قيود الشروط: تتطلب نتائج مختلفة شروطاً تقنية مختلفة، مع توحيد محدود
غياب البناء: افتقار إلى بناء شبكة محدد وخوارزميات تدريب

التأثير

المساهمة النظرية: وضع أساس رياضي جديد لنظرية الشبكات العصبية
القيمة متعددة التخصصات: ربط التعلم الآلي والتحليل الدالي ونظرية القياس
الأهمية طويلة الأجل: توفير إرشادات نظرية لأبحاث التعلم القوي من حيث التوزيع في المستقبل

السيناريوهات المطبقة

البحث النظري: توفير أدوات جديدة لباحثي نظرية الشبكات العصبية
التعلم القوي: توجيه التطور النظري للتحسين القوي من حيث التوزيع والتدريب الخصومي
الخسائر غير القياسية: تحليل نظري للتعامل مع دوال الخسارة مثل الإنتروبيا المتقاطعة وتباعد KL

المراجع

تتضمن الورقة مراجع غنية تغطي نظرية التقريب والتحليل الدالي ونظرية الشبكات العصبية والتحسين القوي من حيث التوزيع وغيرها من المجالات المهمة، مما يوفر للقارئ معرفة خلفية شاملة.

التقييم الشامل: هذه ورقة بحثية صارمة وعميقة جداً من الناحية النظرية، وقد نجحت في توسيع نطاق نظرية التقريب العام للشبكات العصبية من فضاء $L^p$ الكلاسيكي إلى فضاء أورليتش، وإثبات خاصية التقريب القوي من حيث التوزيع. على الرغم من أن هناك مسافة من التطبيق العملي، إلا أنها توفر أساساً رياضياً مهماً لنظرية الشبكات العصبية والتعلم القوي من حيث التوزيع.