2025-11-16T06:16:12.477685

Approximation theory for 1-Lipschitz ResNets

Murari, Furuya, Schönlieb
1-Lipschitz neural networks are fundamental for generative modelling, inverse problems, and robust classifiers. In this paper, we focus on 1-Lipschitz residual networks (ResNets) based on explicit Euler steps of negative gradient flows and study their approximation capabilities. Leveraging the Restricted Stone-Weierstrass Theorem, we first show that these 1-Lipschitz ResNets are dense in the set of scalar 1-Lipschitz functions on any compact domain when width and depth are allowed to grow. We also show that these networks can exactly represent scalar piecewise affine 1-Lipschitz functions. We then prove a stronger statement: by inserting norm-constrained linear maps between the residual blocks, the same density holds when the hidden width is fixed. Because every layer obeys simple norm constraints, the resulting models can be trained with off-the-shelf optimisers. This paper provides the first universal approximation guarantees for 1-Lipschitz ResNets, laying a rigorous foundation for their practical use.
academic

نظرية التقريب لشبكات ResNets ذات Lipschitz-1

المعلومات الأساسية

  • معرّف الورقة: 2505.12003
  • العنوان: نظرية التقريب لشبكات ResNets ذات Lipschitz-1
  • المؤلفون: Davide Murari (جامعة كامبريدج)، Takashi Furuya (جامعة دوشيشا، RIKEN AIP)، Carola-Bibiane Schönlieb (جامعة كامبريدج)
  • التصنيف: cs.LG cs.NA math.NA
  • المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2505.12003v2

الملخص

تدرس هذه الورقة قدرة التقريب لشبكات ResNets ذات Lipschitz-1 القائمة على خطوات أويلر الصريحة لتدفق التدرج السالب. باستخدام نظرية Stone-Weierstrass المقيدة، يثبت المؤلفون أولاً أن هذه الشبكات ذات Lipschitz-1 تكون كثيفة في مجموعة الدوال العددية ذات Lipschitz-1 على أي مجال مضغوط عندما يُسمح للعرض والعمق بالنمو. كما يثبتون أن هذه الشبكات يمكنها تمثيل الدوال العددية الخطية متعددة الأجزاء ذات Lipschitz-1 بدقة. علاوة على ذلك، يثبتون نتيجة أقوى: من خلال إدراج تعيينات خطية مقيدة بالقاعدة بين كتل البواقي، يمكن الحفاظ على نفس الكثافة حتى عندما يكون العرض المخفي ثابتاً. نظراً لأن كل طبقة تتبع قيوداً بسيطة على القاعدة، يمكن تدريب النموذج الناتج باستخدام محسّنات جاهزة.

السياق البحثي والدافع

أهمية المشكلة

تلعب الشبكات العصبية ذات Lipschitz-1 دوراً أساسياً في عدة مجالات مهمة:

  • النمذجة التوليدية: يجب أن يكون المميز في Wasserstein GAN ذا Lipschitz-1 لتوفير تقدير فعال لمسافة 1-Wasserstein من خلال ثنائية Kantorovich-Rubinstein
  • المسائل العكسية: في خوارزميات Plug-and-Play، تضمن قيود Lipschitz-1 تقارب المخطط التكراري
  • المصنفات القوية: يمكن للتحكم في ثابت Lipschitz للشبكة أن يحسّن المتانة ضد الهجمات الخصومية

حدود الطرق الموجودة

  1. انخفاض القدرة التعبيرية: عادة ما يؤدي تقييد ثابت Lipschitz للشبكة إلى تقليل قدرتها التعبيرية، مما يسبب انخفاضاً ملحوظاً في الأداء
  2. نقص نظري: الفهم غير كافٍ لخصائص التقريب للشبكات المقيدة، وقد تنتج استراتيجيات القيد المختلفة عن قدرات تعبيرية مختلفة بشكل كبير
  3. صعوبة التنفيذ: تفتقر شبكات ResNets ذات Lipschitz-1 الموجودة إلى ضمانات نظرية صارمة

الدافع البحثي

تهدف هذه الورقة إلى ملء الفراغ في التحليل النظري لشبكات ResNets ذات Lipschitz-1، وتوفير أساس رياضي صارم لفهم قدرة التقريب لهذه الفئة من الشبكات، وتوفير دعم نظري للتطبيقات العملية.

المساهمات الأساسية

  1. أول نظرية تقريب عامة: توفير أول ضمان تقريب عام لشبكات ResNets ذات Lipschitz-1، مع إثبات كثافة شبكات ResNets القائمة على تدفق التدرج السالب في مجموعة الدوال العددية ذات Lipschitz-1
  2. نتائج التقريب بعرض ثابت: من خلال إدراج تعيينات خطية مقيدة بالقاعدة، يثبت أن الخاصية العامة للتقريب يمكن الحفاظ عليها حتى مع عرض الشبكة الثابت
  3. طريقة إثبات بناءة: توفير استراتيجيتي إثبات - واحدة قائمة على نظرية Stone-Weierstrass المقيدة وأخرى قائمة على طريقة بناءة للدوال الخطية متعددة الأجزاء
  4. تصميم معمارية عملية: اقتراح معمارية شبكة بها شروط قيد واضحة يمكن تدريبها باستخدام محسّنات قياسية

شرح الطريقة

تعريف المهمة

البحث في فضاء الدوال ذات Lipschitz-1 على مجموعة مضغوطة XRdX \subset \mathbb{R}^d: C1(X,R)={g:XRg(y)g(x)2yx2,x,yX}C_1(X,\mathbb{R}) = \{g : X \to \mathbb{R} \mid \|g(y) - g(x)\|_2 \leq \|y - x\|_2, \forall x,y \in X\}

الهدف هو بناء مجموعة شبكات عصبية تكون كثيفة في C1(X,R)C_1(X,\mathbb{R}).

وحدات البناء الأساسية

طبقة البواقي ذات Lipschitz-1

بناءً على خطوات أويلر الصريحة لتدفق التدرج السالب: Φθ(x)=xτWTσ(Wx+b)\Phi_{\theta_\ell}(x) = x - \tau_\ell W_\ell^T \sigma(W_\ell x + b_\ell)

حيث σ=ReLU\sigma = \text{ReLU}، مع القيود: 0τ2/W220 \leq \tau_\ell \leq 2/\|W_\ell\|_2^2، W21\|W_\ell\|_2 \leq 1

تعريف المعمارية

مجموعة الشبكات ذات العرض والعمق غير المحدود: Gd,σ(X,R)=C1(X,R){vTΦθLΦθ1Q:XR}\mathcal{G}_{d,\sigma}(X,\mathbb{R}) = C_1(X,\mathbb{R}) \cap \{v^T \circ \Phi_{\theta_L} \circ \cdots \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

مجموعة الشبكات ذات العرض الثابت: G~d,σ,h(X,R)={vTΦθLAL1A1Φθ1Q:XR}\tilde{\mathcal{G}}_{d,\sigma,h}(X,\mathbb{R}) = \{v^T \circ \Phi_{\theta_L} \circ A_{L-1} \circ \cdots \circ A_1 \circ \Phi_{\theta_1} \circ Q : X \to \mathbb{R}\}

حيث AiA_i هي تعيينات أفينية مقيدة بالقاعدة.

نقاط الابتكار التقني

1. استراتيجية الإثبات المزدوجة

  • طريقة Stone-Weierstrass: التحقق من أن مجموعة الشبكات هي شبكة تفصل النقاط، مما يستوفي شروط نظرية Stone-Weierstrass المقيدة
  • الطريقة البناءة: إثبات أن الشبكات يمكنها تمثيل جميع الدوال الخطية متعددة الأجزاء ذات Lipschitz-1 بدقة

2. تصميم مبتكر بعرض ثابت

من خلال إدراج هيكل طبقة بواقي خاص: E~h,σ={Φθ:Rh+3Rh+3Φθ(x)=[max{x1,x2}min{x1,x2}x3Φ~θ(x4:)]}\tilde{\mathcal{E}}_{h,\sigma} = \left\{\Phi_\theta : \mathbb{R}^{h+3} \to \mathbb{R}^{h+3} \mid \Phi_\theta(x) = \begin{bmatrix} \max\{x_1, x_2\} \\ \min\{x_1, x_2\} \\ x_3 \\ \tilde{\Phi}_\theta(x_{4:}) \end{bmatrix}\right\}

3. الاستفادة من الخصائص الرئيسية لـ ReLU

الاستفادة من التجانس الموجب لـ ReLU والمتطابقات التالية:

  • x=σ(x)σ(x)x = \sigma(x) - \sigma(-x)
  • max{x,y}=x+σ(yx)\max\{x,y\} = x + \sigma(y-x)
  • min{x,y}=xσ(xy)\min\{x,y\} = x - \sigma(x-y)

إعداد التجارب

مجموعات البيانات

  1. مجموعة Two-moon: 4000 نقطة، مع إضافة ضوضاء غاوسية بانحراف معياري 0.1، 20% للتدريب
  2. مجموعة MNIST: تقسيم التدريب/الاختبار القياسي، معالجة التطبيع للمدخلات

مقاييس التقييم

  • دقة التصنيف
  • وقت تنفيذ القيد (متوسط الوقت لكل حقبة)

تفاصيل التنفيذ

  • المحسّن: محسّن Adam مع جدولة معدل التعلم بالتراجع الجيبي
  • حجم الدفعة: 256
  • قيود الأوزان: يتم تنفيذها من خلال طريقة الانحدار المسقط، مع استخدام طريقة القوة لتقدير القيمة الذاتية
  • التهيئة: استخدام استراتيجية التهيئة الديناميكية متساوية القياس

نتائج التجارب

النتائج الرئيسية

نتائج مجموعة Two-moon

عدد الطبقاتمعمارية النظرية 3.1معمارية النظرية 4.1
L=299.75%88.25%
L=499.88%99.88%
L=8100.00%99.88%
L=16100.00%100.00%
L=3299.88%100.00%
L=64100.00%100.00%

نتائج مجموعة MNIST (معمارية النظرية 4.1)

العرض\العمقL=5L=10L=20
h=5097.85%97.67%97.82%
h=10097.94%97.70%97.58%
h=20097.68%97.77%97.89%

الاكتشافات التجريبية

  1. استقرار التدريب: كلا المعماريتين قادرتان على التدريب المستقر، دون تأثر بعرض الشبكة والعمق
  2. تكلفة القيد: المعمارية ذات الطبقات الأفينية لها تكلفة قيد أعلى، وتنمو بشكل أسرع مع العمق
  3. الأداء: يمكن تحقيق تصنيف مثالي في المهام البسيطة، وأداء جيدة في المهام المعقدة

التحليل النظري

النظريات الرئيسية

النظرية 3.1 (العرض والعمق غير المحدود)

دع dNd \in \mathbb{N}، σ=ReLU\sigma = \text{ReLU}، XRdX \subset \mathbb{R}^d مضغوطة، إذاً Gd,σ(X,R)\mathcal{G}_{d,\sigma}(X,\mathbb{R}) تستوفي خاصية التقريب العامة لـ C1(X,R)C_1(X,\mathbb{R}).

النظرية 4.1 (العرض الثابت)

دع dNd \in \mathbb{N}، σ=ReLU\sigma = \text{ReLU}، XRdX \subset \mathbb{R}^d مضغوطة، إذاً G~d,σ,d+3(X,R)\tilde{\mathcal{G}}_{d,\sigma,d+3}(X,\mathbb{R}) تستوفي خاصية التقريب العامة لـ C1(X,R)C_1(X,\mathbb{R}).

الخطوات الرئيسية للإثبات

طريقة Stone-Weierstrass

  1. فصل النقاط: إثبات أن مجموعة الشبكات يمكنها فصل أي نقطتين مختلفتين
  2. خاصية الشبكة: إثبات أن مجموعة الشبكات مغلقة تحت عمليات الحد الأقصى والحد الأدنى
  3. الكثافة: الاستنتاج من نظرية Stone-Weierstrass المقيدة

الطريقة البناءة

  1. العمليات الأساسية: إثبات إمكانية تنفيذ الحد الأقصى والحد الأدنى إحداثياً
  2. التمثيل الخطي متعدد الأجزاء: الاستفادة من نظرية تمثيل max-min
  3. التقريب العام: الدوال الخطية متعددة الأجزاء كثيفة في الدوال ذات Lipschitz-1

الأعمال ذات الصلة

طرق قيود شبكات Lipschitz-1

  1. التطبيع الطيفي: التحكم في القيمة الذاتية لمصفوفات الأوزان
  2. مصفوفات الأوزان المتعامدة: استخدام التحويلات المتعامدة للحفاظ على خاصية Lipschitz
  3. طرق تدفق التدرج: استراتيجيات قيد قائمة على الأنظمة الديناميكية والتحليل العددي

نظرية التقريب للشبكات المقيدة

  • نظرية الشبكات الأمامية لـ Anil وآخرين باستخدام دوال تفعيل GroupSort
  • أبحاث Neumayer وآخرين حول دوال التفعيل الخطية متعددة الأجزاء
  • هذه الورقة توفر لأول مرة نظرية شاملة لشبكات ResNets ذات Lipschitz-1

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. اختراق نظري: أول نظرية تقريب عامة صارمة لشبكات ResNets ذات Lipschitz-1
  2. القيمة العملية: المعمارية المقترحة يمكن تدريبها باستخدام محسّنات قياسية، مع شروط قيد واضحة
  3. ابتكار الطريقة: توفير طريقتي إثبات متكاملتين، مما يعمق الفهم لشبكات ResNets المستمرة Lipschitz

القيود

  1. اعتماد دالة التفعيل: تعتمد النظرية بشكل كبير على الخصائص الخاصة لـ ReLU
  2. تعقيد التنفيذ: تتطلب معمارية العرض الثابت طبقات أفينية إضافية، مما يزيد من تعقيد التنفيذ
  3. قيود الدوال العددية: تركز النتائج الرئيسية على الدوال ذات القيم العددية، وتتطلب توسيع الدوال ذات القيم المتجهة مزيداً من البحث

الاتجاهات المستقبلية

  1. دوال تفعيل أخرى: توسيع التحليل النظري إلى دوال تفعيل أخرى
  2. المعماريات الحديثة: تطبيق النظرية على معماريات حديثة مثل Transformers و GNNs
  3. معدلات التقريب: دراسة معدلات التقريب المحددة وتحليل التعقيد
  4. الدوال ذات القيم المتجهة: تحسين الإطار النظري للدوال متعددة المخرجات

التقييم المتعمق

المزايا

  1. الصرامة النظرية: توفير إثبات رياضي شامل، ملء فراغ نظري مهم
  2. ابتكار الطريقة: استراتيجية الإثبات المزدوجة توفر وجهات نظر نظرية مختلفة
  3. العملية: جميع النتائج النظرية تتوافق مع معماريات شبكات قابلة للتنفيذ
  4. الشمولية: من التحليل النظري إلى التحقق التجريبي، تشكل سلسلة بحثية شاملة

أوجه القصور

  1. نطاق التجارب محدود: تركز التجارب بشكل أساسي على مجموعات بيانات بسيطة، مع نقص التحقق من التطبيقات واسعة النطاق
  2. تحليل التعقيد الحسابي: تحليل غير كافٍ لتكاليف الحساب لتنفيذ القيود
  3. معايير المقارنة: نقص المقارنات التفصيلية مع طرق شبكات Lipschitz-1 الأخرى

التأثير

  1. القيمة الأكاديمية: توفير أساس مهم لنظرية الشبكات العصبية المقيدة
  2. آفاق التطبيق: إمكانيات تطبيق واسعة في مجالات النمذجة التوليدية والمسائل العكسية والتعلم القوي
  3. مساهمة المنهجية: قد تلهم تقنيات الإثبات تحليلاً نظرياً لشبكات مقيدة أخرى

السيناريوهات المناسبة

  1. Wasserstein GANs: توفير دعم نظري لتصميم المميز
  2. خوارزميات Plug-and-Play: تصميم أجهزة إزالة الضوضاء التي تضمن التقارب
  3. القوة ضد الهجمات الخصومية: تحسين مقاومة المصنفات للهجمات الخصومية
  4. حل المسائل العكسية: التطبيقات في التصوير الطبي ومعالجة الإشارات وغيرها

المراجع

تستشهد هذه الورقة بـ 42 مرجعاً مهماً، تغطي نظرية التقريب العامة وطرق قيود Lipschitz ونظرية الأنظمة الديناميكية وغيرها من المجالات، مما يوفر أساساً متيناً للتحليل النظري.