The universal approximation property uniformly with respect to weakly compact families of measures is established for several classes of neural networks. To that end, we prove that these neural networks are dense in Orlicz spaces, thereby extending classical universal approximation theorems even beyond the traditional $L^p$-setting. The covered classes of neural networks include widely used architectures like feedforward neural networks with non-polynomial activation functions, deep narrow networks with ReLU activation functions and functional input neural networks.
- معرّف الورقة: 2510.09177
- العنوان: خاصية التقريب القوي من حيث التوزيع للشبكات العصبية
- المؤلفون: Mihriban Ceylan, David J. Prömel
- التصنيف: stat.ML cs.LG math.FA math.PR
- تاريخ النشر: 13 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.09177
تم إثبات خاصية التقريب العام بشكل منتظم فيما يتعلق بعائلات المقاييس الضعيفة المدمجة لعدة فئات من الشبكات العصبية. لتحقيق ذلك، نثبت أن هذه الشبكات العصبية كثيفة في فضاءات أورليتش، مما يوسع نطاق نظريات التقريب العام الكلاسيكية حتى خارج الإطار التقليدي للفضاءات Lp. تشمل فئات الشبكات العصبية المغطاة المعماريات المستخدمة على نطاق واسع مثل الشبكات العصبية ذات التغذية الأمامية مع دوال التفعيل غير متعددة الحدود، والشبكات العميقة الضيقة مع دوال تفعيل ReLU، والشبكات العصبية ذات المدخلات الدالية.
المشكلة الأساسية التي يسعى هذا البحث لحلها هي إثبات خاصية التقريب القوي من حيث التوزيع (distributionally robust approximation property) للشبكات العصبية. بشكل محدد، تأخذ نظريات التقريب العام التقليدية (Universal Approximation Theorems, UATs) في الاعتبار فقط التقريب في فضاء Lp(μ) تحت توزيع واحد ثابت μ، بينما تسعى هذه الورقة لإثبات أن الشبكات العصبية يمكنها تقريب الدوال بشكل منتظم على عائلة من المقاييس الضعيفة المدمجة M، أي أنه لأي دالة معطاة f وأي ε>0، يوجد شبكة عصبية η بحيث:
supν∈M∥f−η∥L1(ν)<ε
- الأهمية النظرية: توسيع نطاق نظريات التقريب العام الكلاسيكية من إعداد التوزيع الواحد إلى التقريب المنتظم على عائلة من التوزيعات
- الاحتياجات العملية: في ممارسة التعلم الآلي، عدم اليقين في توزيع البيانات هو تحدٍ منتشر على نطاق واسع، يُعرف باسم عدم اليقين التوزيعي (distributional uncertainty)
- القيمة التطبيقية: توفير أساس نظري للتعلم القوي من حيث التوزيع، والتدريب الخصومي، ومعالجة البيانات الضوضائية وغيرها من المجالات
تعاني نظريات التقريب العام الكلاسيكية من القيود التالية:
- قيد التوزيع الواحد: تنطبق فقط على التقريب في فضاء Lp(μ) تحت مقياس واحد ثابت
- قيود الفضاء: تقتصر بشكل أساسي على إطار فضاء Lp، وتفتقر إلى نظرية فضاء دالي أكثر عمومية
- غياب المتانة: غير قادرة على التعامل مع سيناريوهات الانجراف التوزيعي أو عدم اليقين التوزيعي
ينبع دافع هذا البحث من:
- الوجود الشامل لعدم اليقين التوزيعي في التطبيقات الواقعية (مثل عدم اليقين من نوع Knight، العينات الخصومية، وما إلى ذلك)
- الحاجة إلى دعم نظري لتطوير التحسين القوي من حيث التوزيع والتعلم الإحصائي
- الحاجة النظرية لتوسيع نطاق نظرية الشبكات العصبية من فضاء Lp إلى فضاءات أورليتش الأكثر عمومية
- نظرية التقريب العام في فضاءات أورليتش: إثبات لأول مرة كثافة عدة فئات من الشبكات العصبية في فضاءات أورليتش فيما يتعلق بمعيار Luxemburg، وهو توسيع مهم للنتائج الكلاسيكية في فضاء Lp
- خاصية التقريب القوي من حيث التوزيع: إثبات نظرية التقريب العام القوي من حيث التوزيع للشبكات العصبية فيما يتعلق بعائلات المقاييس الضعيفة المدمجة، مما يوفر أساساً نظرياً للتعامل مع عدم اليقين التوزيعي
- تغطية واسعة لمعماريات الشبكات: تشمل عدة معماريات شبكات عصبية مهمة:
- الشبكات الأمامية مع دوال تفعيل غير متعددة الحدود المحدودة
- الشبكات العميقة الضيقة مع تفعيل ReLU
- الشبكات العصبية ذات المدخلات الدالية
- ابتكار الإطار النظري: من خلال نظرية فضاء أورليتش، توفير إطار رياضي موحد للتعامل مع دوال الخسارة المختلفة (مثل الإنتروبيا المتقاطعة، تباعد KL)
بالنظر إلى عائلة من المقاييس الضعيفة المدمجة M ودالة مناسبة f:RN0→RNL، لأي ε>0، ابحث عن شبكة عصبية η بحيث:
supν∈M∥f−η∥L1(ν)<ε
تبني الورقة الإطار الرياضي على نظرية فضاء أورليتش. بالنسبة لدالة Young φ، يُعرّف فضاء أورليتش على النحو التالي:
Lφ(μ;RNL):={f:RN0→RNL:∫RN0φ(α∥f∥)dμ<∞ لبعض α>0}
مزود بمعيار المقياس:
Nφ,μ(f):=inf{k>0:∫RN0φ(∥f∥/k)dμ≤1}
- الشبكات العصبية ذات التغذية الأمامية: η=wL∘ϱ∘wL−1∘⋯∘ϱ∘w1
- الشبكات العصبية ذات المدخلات الدالية: η(x)=∑n=1Nynϱ(hn(x))، حيث hn∈H عائلة إضافية
بالنسبة لدالة N φ والمقياس Borel المحلي المحدود μ، تكون الشبكات العصبية كثيفة في قلب أورليتش Mφ(μ) فيما يتعلق بمعيار المقياس، وتشمل:
- دوال التفعيل المحدودة غير الثابتة (المقاييس المحدودة)
- دوال تفعيل ReLU (المقاييس المحلية المحدودة)
- دوال التفعيل المستمرة غير متعددة الحدود (المقاييس ذات الدعم المدمج)
- الشبكات العصبية ذات المدخلات الدالية (تحت شروط محددة)
بالنسبة لعائلة من المقاييس الضعيفة المدمجة M وزوج Young المرتبط بها (φM,ψM)، لأي f∈MφM(μ;RNL) و ε>0، يوجد شبكة عصبية η من الفئة المناسبة بحيث:
supν∈M∥f−η∥L1(ν;RNL)<ε
- بناء زوج Young: الاستفادة من التكامل المنتظم للعائلات المقاييس الضعيفة المدمجة، وبناء زوج Young المرتبط من خلال نظرية De la Vallée Poussin
- تعميم عدم المساواة في Hölder: استخدام نسخة معممة من عدم المساواة في Hölder لإنشاء اتصال بين فضاء أورليتش وفضاء L1
- حجة الكثافة: إثبات كثافة الشبكات العصبية من خلال نسخ معممة من نظرية Hahn-Banach ونظرية تمثيل Riesz
هذه ورقة بحثية نظرية بحتة لا تتضمن تجارب عددية. يتم إثبات جميع النتائج من خلال إثبات رياضي صارم.
- الإثبات بالتناقض: افترض أن الشبكات العصبية ليست كثيفة، واستخدم نظرية Hahn-Banach للوصول إلى تناقض
- الإثبات البناء: بالنسبة لشبكات ReLU، من خلال بناء شبكة تقريب صريحة
- تقنيات نظرية التقريب: الاستفادة من نتائج نظرية التقريب الكلاسيكية مع نظرية القياس
بالنسبة لدالة تفعيل محدودة غير ثابتة ϱ و L ≥ 2، فإن NNN0,NL,L,∞ϱ كثيفة في Mφ(μ) على أي مقياس Borel محدود.
بالنسبة لدوال تفعيل ReLU، فإن NNN0,NL,∞,N0+NL+1ϱ كثيفة في Mφ(μ) على أي مقياس Borel محلي محدود.
بالنسبة لدوال التفعيل المستمرة غير متعددة الحدود، فإن NNN0,NL,L,∞ϱ كثيفة في Mφ(μ) على مقاييس Borel المحدودة ذات الدعم المدمج.
تحت الشروط المناسبة، فإن الشبكات العصبية ذات المدخلات الدالية NNRN0,RN2H,ϱ كثيفة في Mφ(μ) على مقاييس Borel المحدودة.
- توسيع الفضاء: توسيع نطاق النتائج الكلاسيكية Lp بنجاح إلى فضاء أورليتش، مما يوفر إطاراً للتعامل مع شروط النمو غير القياسية
- تعميم المقياس: التعميم من مقياس Lebesgue إلى مقاييس Borel المحلية المحدودة بشكل عام
- توحيد المعمارية: التعامل مع معماريات شبكات عصبية متعددة تحت إطار نظري موحد
- Cybenko (1989): إثبات خاصية التقريب العام لشبكات التغذية الأمامية مع دوال تفعيل sigmoid
- Hornik (1991): التوسيع إلى دوال تفعيل أكثر عمومية وفضاءات Sobolev
- Leshno وآخرون (1993): نتائج دوال التفعيل غير متعددة الحدود
- Kidger & Lyons (2020): خاصية التقريب العام للشبكات العميقة الضيقة مع ReLU
- Cuchiero وآخرون (2025): التقريب العام الشامل للشبكات العصبية ذات المدخلات الدالية
- Costarelli & Vinti (2019): مشغلات Kantorovich في فضاء أورليتش
- Ben-Tal وآخرون (2013): التحسين القوي تحت عدم اليقين الاحتمالي
- Gao & Kleywegt (2016): التحسين العشوائي القوي من حيث التوزيع تحت مسافة Wasserstein
- إثبات خاصية التقريب العام للشبكات العصبية في فضاء أورليتش، مما يوسع نطاق النظرية الكلاسيكية بشكل كبير
- إثبات القدرة على التقريب القوي من حيث التوزيع للشبكات العصبية، مما يوفر أساساً نظرياً للتعامل مع عدم اليقين التوزيعي
- تغطية معماريات شبكات عصبية مستخدمة على نطاق واسع، مع قيمة عملية جيدة
- شروط المقياس: تتطلب معماريات الشبكات المختلفة شروطاً مختلفة للمقياس (المحدودية، الدعم المدمج، وما إلى ذلك)
- البناء: على الرغم من إثبات الوجود، إلا أنه يفتقر إلى طرق بناء شبكة صريحة
- التعقيد الحسابي: لم يتم تحليل العلاقة الكمية بين حجم الشبكة المطلوب ودقة التقريب
- التحليل الكمي: إثبات العلاقات الكمية بين خطأ التقريب وتعقيد الشبكة
- التنفيذ الخوارزمي: تطوير خوارزميات عملية بناءً على النتائج النظرية
- توسيع التطبيقات: تطبيق النظرية على مهام التعلم الآلي المحددة
- العمق النظري: صارم وعميق رياضياً، مما يدفع نظرية الشبكات العصبية إلى ارتفاعات جديدة
- الإطار الموحد: يوفر إطار فضاء أورليتش منظوراً موحداً للتعامل مع مشاكل متعددة
- الأهمية العملية: توفير أساس نظري قوي للتعلم القوي من حيث التوزيع
- الابتكار التقني: دمج ماهر لتقنيات التحليل الدالي ونظرية القياس ونظرية التقريب
- فجوة الجدوى: نتائج نظرية بحتة، مع وجود فجوة كبيرة بين التطبيق العملي
- قيود الشروط: تتطلب نتائج مختلفة شروطاً تقنية مختلفة، مع توحيد محدود
- غياب البناء: افتقار إلى بناء شبكة محدد وخوارزميات تدريب
- المساهمة النظرية: وضع أساس رياضي جديد لنظرية الشبكات العصبية
- القيمة متعددة التخصصات: ربط التعلم الآلي والتحليل الدالي ونظرية القياس
- الأهمية طويلة الأجل: توفير إرشادات نظرية لأبحاث التعلم القوي من حيث التوزيع في المستقبل
- البحث النظري: توفير أدوات جديدة لباحثي نظرية الشبكات العصبية
- التعلم القوي: توجيه التطور النظري للتحسين القوي من حيث التوزيع والتدريب الخصومي
- الخسائر غير القياسية: تحليل نظري للتعامل مع دوال الخسارة مثل الإنتروبيا المتقاطعة وتباعد KL
تتضمن الورقة مراجع غنية تغطي نظرية التقريب والتحليل الدالي ونظرية الشبكات العصبية والتحسين القوي من حيث التوزيع وغيرها من المجالات المهمة، مما يوفر للقارئ معرفة خلفية شاملة.
التقييم الشامل: هذه ورقة بحثية صارمة وعميقة جداً من الناحية النظرية، وقد نجحت في توسيع نطاق نظرية التقريب العام للشبكات العصبية من فضاء Lp الكلاسيكي إلى فضاء أورليتش، وإثبات خاصية التقريب القوي من حيث التوزيع. على الرغم من أن هناك مسافة من التطبيق العملي، إلا أنها توفر أساساً رياضياً مهماً لنظرية الشبكات العصبية والتعلم القوي من حيث التوزيع.