2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

توسيع نشر التوازن إلى معماريات الشبكات العصبية الأعمق

المعلومات الأساسية

  • معرّف الورقة: 2509.26003
  • العنوان: توسيع نشر التوازن إلى معماريات الشبكات العصبية الأعمق
  • المؤلفون: Sankar Vinayak E P (معهد ماديراس للتكنولوجيا)، Gopalakrishnan Srinivasan (معهد ماديراس للتكنولوجيا)
  • التصنيف: cs.NE (الحوسبة العصبية والتطورية)، cs.LG (التعلم الآلي)
  • تاريخ النشر: 13 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2509.26003

الملخص

تم اقتراح نشر التوازن (Equilibrium Propagation) كبديل معقول بيولوجياً لخوارزمية الانتشار العكسي. تجعل الطبيعة المحلية لحساب التدرجات، مقترنة باستخدام شبكات RNN المتقاربة للوصول إلى حالة التوازن، هذه الطريقة مناسبة جداً للتنفيذ على الأجهزة العصبية الشكلية. ومع ذلك، اقتصرت الأبحاث السابقة حول نشر التوازن على الشبكات التي تحتوي على طبقات كثيفة أو معماريات صغيرة نسبياً، والتي تظهر فجوات دقة كبيرة مقارنة بشبكات التغذية الأمامية ذات الحجم المماثل المدربة باستخدام الانتشار العكسي. يقدم هذا العمل معمارية Hopfield-Resnet، التي تدمج الاتصالات المتبقية في شبكات Hopfield، وتستخدم ReLU المقطوع كدالة تفعيل. تسمح التحسينات المعمارية المقترحة للشبكة بتدريب عدد من الطبقات يقترب من الضعف مما أبلغت عنه الأعمال السابقة. على سبيل المثال، يحقق Hopfield-Resnet13 دقة 93.92% على CIFAR-10، أعلى بحوالي 3.5% من أفضل النتائج السابقة، وقابل للمقارنة مع أداء Resnet13 المدرب باستخدام الانتشار العكسي.

الخلفية البحثية والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي يعالجها هذا البحث حول قابلية توسع طريقة نشر التوازن (EP) في الشبكات العصبية العميقة. يتجلى هذا بشكل محدد في:

  1. قيود العمق: يمكن لطرق EP الحالية تدريب الشبكات الضحلة فقط بفعالية (≤6 طبقات)
  2. فجوة الأداء: تظهر الشبكات المدربة بـ EP فجوات أداء كبيرة مقارنة بالشبكات ذات الحجم المماثل المدربة بالانتشار العكسي
  3. متطلبات المعقولية البيولوجية: الحاجة إلى الحفاظ على مزايا المعقولية البيولوجية لطريقة EP

تحليل الأهمية

تتجلى أهمية هذه المشكلة في:

  1. المعقولية البيولوجية: يُعتبر الانتشار العكسي غير معقول بيولوجياً لأن حساب التدرجات فيه غير محلي
  2. توافقية الأجهزة: تتناسب طريقة EP بشكل أفضل مع تنفيذ الأجهزة العصبية الشكلية، مع كفاءة طاقة أعلى
  3. إمكانات التعلم عبر الإنترنت: تدعم EP التعلم على الجهاز، مما يناسب سيناريوهات الحوسبة الطرفية

قيود الطرق الموجودة

  1. قيود معمارية: اقتصرت الأبحاث السابقة على شبكات صغيرة مثل VGG5
  2. انحياز التدرج: نظرياً يتطلب معامل nudging متناهي الصغر β، مما يدخل انحيازاً في التطبيقات العملية
  3. صعوبات التقارب: تواجه الشبكات العميقة صعوبة في الوصول إلى حالة توازن مستقرة
  4. قيود دوال التفعيل: تظهر دوال التفعيل الموجودة أداءً سيئاً في الشبكات العميقة

المساهمات الأساسية

  1. اقتراح دالة تفعيل ReLU المقطوعة: تبسيط دالة الطاقة وحساب التدرجات، مع تحسين استقرار تدريب الشبكات العميقة
  2. إدخال معمارية Hopfield-Resnet: تمكين طريقة EP من تدريب شبكات عميقة تتجاوز 12 طبقة بنجاح من خلال الاتصالات المتبقية
  3. تحسن أداء كبير: تحقيق دقة 93.92% على CIFAR-10، قريبة من أداء الانتشار العكسي
  4. التحقق من مجموعات بيانات متعددة: التحقق من فعالية الطريقة على CIFAR-10 و CIFAR-100 و Fashion-MNIST

شرح الطريقة

تعريف المهمة

يدرس هذا العمل كيفية استخدام طريقة نشر التوازن لتدريب الشبكات العصبية الالتفافية العميقة لمهام تصنيف الصور. المدخل هو صورة x، والمخرج هو تسمية الفئة y، مع القيد المتمثل في الحفاظ على المعقولية البيولوجية لطريقة EP وخصائص حساب التدرجات المحلية.

نظرية أساسيات نشر التوازن

تعتمد طريقة EP على شبكات RNN الثابتة المتقاربة، حيث يتبع تطور حالة الشبكة:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

حيث Φ هي دالة الطاقة، و s هي حالة الخلايا العصبية، و θ هي معاملات الشبكة.

يتضمن تدريب EP مرحلتين:

  1. المرحلة الحرة: التطور بناءً على دالة الطاقة فقط
  2. مرحلة التثبيت الضعيف: إضافة حد اضطراب متناسب مع تدرج دالة الخسارة

صيغة حساب التدرج هي:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

تصميم معمارية Hopfield-Resnet

دمج الاتصالات المتبقية

تتضمن كتلة Hopfield-Resnet ثلاث عمليات التفاف:

  • المسار الرئيسي: التفافان 3×3
  • الاتصال المتخطي: التفاف 1×1

يتم تعديل معادلة تحديث حالة الخلايا العصبية إلى:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

حيث يمثل pre(n) و post(n) جميع الحالات السابقة واللاحقة التي تتفاعل مباشرة مع الحالة n.

تفاصيل معمارية الشبكة

  • 4 كتل Hopfield-Resnet + طبقة واحدة متصلة بالكامل
  • إجمالي 13 مجموعة معاملات قابلة للتدريب (12 طبقة التفافية + طبقة واحدة متصلة بالكامل)
  • 9 حالات خلايا عصبية قابلة للتحديث

دالة تفعيل ReLU المقطوعة

يتم اقتراح دالة ReLU_α التي تقيد المخرجات في النطاق 0, α:

  • منع انفجار دالة الطاقة
  • استخدام ReLU_6 (α=6) في التجارب للحصول على أفضل أداء
  • حساب أبسط مقارنة بدوال sigmoid/tanh التقليدية

نشر التوازن المركزي (CEP)

استخدام خوارزمية CEP لتقليل انحياز تقدير التدرج:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

إعداد التجارب

مجموعات البيانات

  • CIFAR-10: صور ملونة 32×32، 10 فئات، 50,000 عينة تدريب
  • CIFAR-100: صور ملونة 32×32، 100 فئة، 50,000 عينة تدريب
  • Fashion-MNIST: صور رمادية 28×28، 10 فئات، 60,000 عينة تدريب

مقاييس التقييم

استخدام دقة مجموعة الاختبار كمقياس تقييم رئيسي

طرق المقارنة

  • طريقة الأساس: شبكة Hopfield الالتفافية العميقة (DCHN) بمعمارية VGG5
  • أساس الانتشار العكسي: معمارية الشبكة الأمامية المقابلة

تفاصيل التنفيذ

  • المحسّن: محسّن التدرج المعجل بـ Nesterov
  • معامل Nudging β: معايرة تجريبية في النطاق 0.1, 0.4
  • عدد الخطوات الزمنية: 120 خطوة في المرحلة الحرة، 50 خطوة في كل مرحلة تثبيت (±β)
  • الأجهزة: وحدات معالجة الرسومات NVIDIA RTX 4090 و 6000 Ada
  • الإطار: PyTorch

نتائج التجارب

النتائج الرئيسية

مجموعة البياناتمعمارية النموذجأفضل سابق (%)هذا العمل (%)الانتشار العكسي (%)
CIFAR-10VGG590.392.8492.11
CIFAR-10Hopfield-Resnet13-93.9293.78
CIFAR-100VGG568.470.7872.54
CIFAR-100Hopfield-Resnet13-71.0575.12
F-MNISTVGG593.5394.34-
F-MNISTHopfield-Resnet13-94.15-

النتائج الرئيسية

  1. تحسن أداء كبير: تحسن بنسبة 3.5% عن أفضل النتائج السابقة على CIFAR-10
  2. الاقتراب من أداء الانتشار العكسي: Hopfield-Resnet13 أقل بـ 0.14% فقط من الانتشار العكسي على CIFAR-10
  3. تدريب شبكات عميقة بنجاح: أول تدريب ناجح لشبكة EP تتجاوز 12 طبقة

تجارب الاستبعاد

أهمية الاتصالات المتبقية

تظهر التجارب أن الشبكات العميقة بدون اتصالات متبقية تحافظ على خسارة التدريب في حالة توقف، بينما تتمكن الشبكات ذات الاتصالات المتبقية من التقارب بنجاح.

مقارنة دوال التفعيل

  • ReLU_6 يظهر أفضل أداء
  • ReLU_1 (hard-sigmoid) يأتي في المرتبة الثانية
  • ReLU_α مع α المهيأ عشوائياً ∈0,10 يحقق أداءً متوسطاً

تحليل وقت التدريب

  • يتطلب تدريب Hopfield-Resnet13 لـ 300 epoch أكثر من 30 ساعة
  • يتم استهلاك الكثير من الوقت في إطلاق نواة GPU والمزامنة بين CPU و GPU
  • توجد مساحة للتحسين

استخدام الذاكرة

  • استخدام الذاكرة في تدريب CEP مماثل للانتشار العكسي
  • Hopfield-Resnet13 (حجم الدفعة 128): 1612 MiB
  • Resnet13 المقابل: 1324 MiB

تحليل توزيع الأوزان

خصائص توزيع أوزان الشبكة المدربة بـ CEP:

  1. قيم أوزان أصغر: القيم المطلقة والتباين أصغر من الشبكات المدربة بالانتشار العكسي
  2. أوزان الطبقات العميقة تميل للصفر: مع زيادة العمق، تقترب الأوزان تدريجياً من الصفر
  3. تخفيف الاتصالات المتبقية: تنخفض نسبة الأوزان القريبة من الصفر في طبقات الاتصالات المتخطية بشكل كبير

الأعمال ذات الصلة

خوارزميات التعلم المعقولة بيولوجياً

  • الانتشار الأمامي: تجنب عدم المحلية في الانتشار العكسي
  • ترميز التنبؤ: التعلم بناءً على مبدأ الطاقة الحرة
  • تعلم Hebbian المقارن: الأساس النظري لـ EP

تطور نشر التوازن

  • EP الأصلي: نظرية أساسية مقترحة من قبل Scellier & Bengio (2017)
  • CEP: تقليل انحياز التدرج من خلال ±β
  • HEP: استخدام نقاط توازن متعددة على المستوى المعقد لتقليل الانحياز بشكل أكبر
  • التوسع الالتفافي: توسيع EP إلى الشبكات الالتفافية

التنفيذ على الأجهزة

أجريت أبحاث لتنفيذ EP على أجهزة عصبية شكلية مثل تقاطعات الممانعة المتغيرة، مما يوضح إمكانات التعلم على الجهاز.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. اختراق تقني: أول توسيع ناجح لـ EP إلى شبكة عميقة بـ 13 طبقة
  2. تحسن الأداء: تجاوز كبير لطرق EP السابقة على مجموعات بيانات متعددة
  3. الابتكار المعماري: الجمع بين الاتصالات المتبقية و ReLU المقطوع يحل بفعالية مشكلة التوسع العميق

القيود

  1. الكفاءة الحسابية: وقت التدريب لا يزال أطول بكثير من الانتشار العكسي
  2. الاعتماد على الأجهزة: يتطلب أجهزة مُحسّنة بشكل خاص للاستفادة الكاملة من المزايا
  3. فجوة الأداء: لا تزال هناك فجوات أداء على مجموعات البيانات المعقدة (مثل CIFAR-100)
  4. قيود العمق: على الرغم من التحسن، لا تزال أقل من الشبكات العميقة الحديثة

الاتجاهات المستقبلية

  1. شبكات Hopfield الحديثة: الدمج مع شبكات Hopfield الحديثة للتعلم التسلسلي
  2. تحسين الأجهزة: تطوير أجهزة عصبية شكلية متخصصة مكيفة لـ EP
  3. تحسين الخوارزمية: تقليل وقت التدريب وتحسين الكفاءة بشكل أكبر
  4. التحليل النظري: فهم أعمق لطبيعة آلية التدريب الفريدة لـ EP

التقييم المتعمق

المزايا

  1. اختراق مهم: أول توسيع ناجح لـ EP إلى الشبكات العميقة، مما يحل مشكلة قابلية التوسع طويلة الأمد
  2. الابتكار العملي: الجمع بين الاتصالات المتبقية و ReLU المقطوع بسيط وفعال
  3. التحقق الشامل: تجارب كافية على مجموعات بيانات متعددة
  4. التحليل المتعمق: توفير رؤى متعمقة مثل توزيع الأوزان
  5. الكود مفتوح المصدر: توفير كود تنفيذ كامل، مما يعزز قابلية إعادة الإنتاج

أوجه القصور

  1. الكفاءة الحسابية: وقت التدريب الطويل يحد من التطبيقات العملية
  2. نقص التحليل النظري: عدم وجود شرح نظري لسبب فعالية الاتصالات المتبقية
  3. قيود مجموعات البيانات: التحقق الأساسي على مجموعات بيانات نسبياً بسيطة
  4. نقص تحسين الأجهزة: عدم الاستفادة الكاملة من قدرات الحوسبة المتوازية لوحدات معالجة الرسومات الحالية

التأثير

  1. المساهمة الأكاديمية: توفير ابتكار معماري مهم لمجال EP
  2. القيمة العملية: توفير طريقة تعلم عميق أكثر عملية للحوسبة العصبية الشكلية
  3. الإلهام البحثي: وضع الأساس لأبحاث EP العميقة اللاحقة

السيناريوهات المناسبة

  1. الأجهزة العصبية الشكلية: مناسبة بشكل خاص للتنفيذ على رقائق عصبية شكلية متخصصة
  2. الحوسبة الطرفية: مناسبة للأجهزة التي تتطلب التعلم عبر الإنترنت
  3. الحوسبة المستوحاة من البيولوجيا: توفير اتجاه لبناء أنظمة ذكاء اصطناعي أكثر معقولية بيولوجياً
  4. التطبيقات منخفضة الطاقة: تتمتع بمزايا في السيناريوهات التي تتطلب كفاءة طاقة عالية جداً

المراجع

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

حققت هذه الورقة اختراقاً مهماً في توسيع شبكات نشر التوازن العميقة، وحسّنت بشكل كبير من جدوى طريقة EP من خلال تصميم معماري ذكي، وقدمت مساهمة قيمة لتطور الحوسبة العصبية الشكلية وخوارزميات التعلم المستوحاة من البيولوجيا.