2025-11-13T09:34:11.098712

Scaling Equilibrium Propagation to Deeper Neural Network Architectures

Elayedam, Srinivasan
Equilibrium propagation has been proposed as a biologically plausible alternative to the backpropagation algorithm. The local nature of gradient computations, combined with the use of convergent RNNs to reach equilibrium states, make this approach well-suited for implementation on neuromorphic hardware. However, previous studies on equilibrium propagation have been restricted to networks containing only dense layers or relatively small architectures with a few convolutional layers followed by a final dense layer. These networks have a significant gap in accuracy compared to similarly sized feedforward networks trained with backpropagation. In this work, we introduce the Hopfield-Resnet architecture, which incorporates residual (or skip) connections in Hopfield networks with clipped $\mathrm{ReLU}$ as the activation function. The proposed architectural enhancements enable the training of networks with nearly twice the number of layers reported in prior works. For example, Hopfield-Resnet13 achieves 93.92\% accuracy on CIFAR-10, which is $\approx$3.5\% higher than the previous best result and comparable to that provided by Resnet13 trained using backpropagation.
academic

गहरे तंत्रिका नेटवर्क आर्किटेक्चर के लिए संतुलन प्रसार को स्केल करना

मूल जानकारी

  • पेपर ID: 2509.26003
  • शीर्षक: Scaling Equilibrium Propagation to Deeper Neural Network Architectures
  • लेखक: Sankar Vinayak E P (IIT Madras), Gopalakrishnan Srinivasan (IIT Madras)
  • वर्गीकरण: cs.NE (तंत्रिका और विकासवादी कंप्यूटिंग), cs.LG (मशीन लर्निंग)
  • प्रकाशन समय: 13 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2509.26003

सारांश

संतुलन प्रसार (Equilibrium Propagation) को बैकप्रोपेगेशन एल्गोरिदम के जैविक रूप से उचित विकल्प के रूप में प्रस्तावित किया गया है। इसके ग्रेडिएंट गणना की स्थानीय प्रकृति, अभिसारी RNN का उपयोग करके संतुलन अवस्था तक पहुंचने के साथ, यह विधि न्यूरोमॉर्फिक हार्डवेयर पर कार्यान्वयन के लिए अत्यंत उपयुक्त है। हालांकि, संतुलन प्रसार पर पूर्व अनुसंधान केवल सघन परतों या अपेक्षाकृत छोटी आर्किटेक्चर वाले नेटवर्क तक सीमित था, जो बैकप्रोपेगेशन का उपयोग करके प्रशिक्षित समान आकार के फीडफॉरवर्ड नेटवर्क की तुलना में महत्वपूर्ण सटीकता अंतराल प्रदर्शित करते हैं। यह कार्य Hopfield-Resnet आर्किटेक्चर का परिचय देता है, जो Hopfield नेटवर्क में अवशिष्ट कनेक्शन को एकीकृत करता है, और सक्रियण फ़ंक्शन के रूप में क्लिप्ड ReLU का उपयोग करता है। प्रस्तावित आर्किटेक्चर वृद्धि नेटवर्क को पूर्व कार्य द्वारा रिपोर्ट की गई परतों की संख्या के लगभग दोगुने को प्रशिक्षित करने में सक्षम बनाती है। उदाहरण के लिए, Hopfield-Resnet13 CIFAR-10 पर 93.92% सटीकता प्राप्त करता है, जो पूर्व सर्वोत्तम परिणाम से लगभग 3.5% अधिक है, और बैकप्रोपेगेशन का उपयोग करके प्रशिक्षित Resnet13 के प्रदर्शन के बराबर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान संतुलन प्रसार (EP) विधि की गहरे तंत्रिका नेटवर्क में स्केलेबिलिटी समस्या को हल करने का प्रयास करता है। विशेष रूप से इसमें शामिल हैं:

  1. गहराई सीमा: मौजूदा EP विधि केवल उथली नेटवर्क (≤6 परतें) को प्रभावी ढंग से प्रशिक्षित कर सकती है
  2. प्रदर्शन अंतराल: EP-प्रशिक्षित नेटवर्क और बैकप्रोपेगेशन-प्रशिक्षित समान आकार के नेटवर्क के बीच महत्वपूर्ण प्रदर्शन अंतराल
  3. जैविक उचितता आवश्यकता: EP विधि के जैविक उचितता लाभ को बनाए रखने की आवश्यकता

महत्व विश्लेषण

इस समस्या का महत्व इसमें प्रतिबिंबित होता है:

  1. जैविक उचितता: बैकप्रोपेगेशन को जैविक रूप से अनुचित माना जाता है क्योंकि इसकी ग्रेडिएंट गणना गैर-स्थानीय है
  2. हार्डवेयर अनुकूलन: EP विधि न्यूरोमॉर्फिक हार्डवेयर कार्यान्वयन के लिए अधिक उपयुक्त है, उच्च ऊर्जा दक्षता के साथ
  3. ऑनलाइन शिक्षण क्षमता: EP डिवाइस-पर शिक्षण का समर्थन करता है, किनारे कंप्यूटिंग परिदृश्यों के लिए उपयुक्त

मौजूदा विधि की सीमाएं

  1. आर्किटेक्चर प्रतिबंध: पूर्व अनुसंधान VGG5 जैसे छोटे नेटवर्क तक सीमित था
  2. ग्रेडिएंट पूर्वाग्रह: सिद्धांत रूप से अनंत छोटे nudging पैरामीटर β की आवश्यकता होती है, व्यावहारिक अनुप्रयोग में पूर्वाग्रह का परिचय देता है
  3. अभिसरण कठिनाई: गहरी नेटवर्क स्थिर संतुलन अवस्था तक पहुंचने में कठिनाई
  4. सक्रियण फ़ंक्शन प्रतिबंध: मौजूदा सक्रियण फ़ंक्शन गहरी नेटवर्क में खराब प्रदर्शन करते हैं

मूल योगदान

  1. क्लिप्ड ReLU सक्रियण फ़ंक्शन का प्रस्ताव: ऊर्जा फ़ंक्शन और ग्रेडिएंट गणना को सरल बनाता है, गहरी नेटवर्क प्रशिक्षण स्थिरता में सुधार करता है
  2. Hopfield-Resnet आर्किटेक्चर का परिचय: अवशिष्ट कनेक्शन के माध्यम से EP विधि को 12 परतों से अधिक गहरी नेटवर्क को सफलतापूर्वक प्रशिक्षित करने में सक्षम बनाता है
  3. महत्वपूर्ण प्रदर्शन सुधार: CIFAR-10 पर 93.92% सटीकता प्राप्त करता है, बैकप्रोपेगेशन प्रदर्शन के करीब
  4. बहु-डेटासेट सत्यापन: CIFAR-10, CIFAR-100 और Fashion-MNIST पर विधि की प्रभावशीलता को सत्यापित करता है

विधि विवरण

कार्य परिभाषा

यह पेपर अनुसंधान करता है कि छवि वर्गीकरण कार्य के लिए संतुलन प्रसार विधि का उपयोग करके गहरे कनवोलूशनल तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए। इनपुट छवि x है, आउटपुट वर्ग लेबल y है, बाधा यह है कि EP विधि की जैविक उचितता और स्थानीय ग्रेडिएंट गणना विशेषताओं को बनाए रखा जाए।

संतुलन प्रसार मूल सिद्धांत

EP विधि स्थिर अभिसारी RNN पर आधारित है, नेटवर्क स्थिति विकास इस प्रकार है:

s^(t+1) = ∂Φ(x, s^t, θ)/∂s

जहां Φ ऊर्जा फ़ंक्शन है, s न्यूरॉन अवस्था है, θ नेटवर्क पैरामीटर है।

EP प्रशिक्षण में दो चरण शामिल हैं:

  1. मुक्त चरण: केवल ऊर्जा फ़ंक्शन विकास पर आधारित
  2. कमजोर क्लैम्पिंग चरण: हानि फ़ंक्शन ग्रेडिएंट के समानुपाती विक्षोभ पद जोड़ता है

ग्रेडिएंट गणना सूत्र:

-∂L/∂θ = (1/β)[∂Φ(x, s^β*, θ)/∂θ - ∂Φ(x, s*, θ)/∂θ]

Hopfield-Resnet आर्किटेक्चर डिजाइन

अवशिष्ट कनेक्शन एकीकरण

Hopfield-Resnet ब्लॉक में तीन कनवोलूशनल ऑपरेशन शामिल हैं:

  • मुख्य पथ: दो 3×3 कनवोलूशन
  • स्किप कनेक्शन: एक 1×1 कनवोलूशन

न्यूरॉन अवस्था अपडेट समीकरण संशोधित:

s^(t+1)_n = σ(∑[i∈pre(n)] P(w_i ⋆ s^t_i) + ∑[j∈post(n)] w̃_j ⋆ P^(-1)(s^t_j))

जहां pre(n) और post(n) अवस्था n के साथ सीधे इंटरैक्ट करने वाली सभी पूर्ववर्ती और बाद की अवस्थाओं को दर्शाते हैं।

नेटवर्क आर्किटेक्चर विवरण

  • 4 Hopfield-Resnet ब्लॉक + 1 पूर्ण कनेक्टेड परत
  • कुल 13 प्रशिक्षणीय पैरामीटर समूह (12 कनवोलूशनल परतें + 1 पूर्ण कनेक्टेड परत)
  • 9 अपडेट योग्य न्यूरॉन अवस्थाएं

क्लिप्ड ReLU सक्रियण फ़ंक्शन

ReLU_α सक्रियण फ़ंक्शन का प्रस्ताव, आउटपुट को 0, α श्रेणी में सीमित करता है:

  • ऊर्जा फ़ंक्शन विस्फोटक वृद्धि को रोकता है
  • प्रयोग में सर्वोत्तम प्रदर्शन के लिए ReLU_6 (α=6) अपनाया गया
  • पारंपरिक sigmoid/tanh फ़ंक्शन की तुलना में, गणना सरल है

केंद्रीकृत संतुलन प्रसार (CEP)

ग्रेडिएंट अनुमान पूर्वाग्रह को कम करने के लिए CEP एल्गोरिदम अपनाया गया:

-∂L/∂θ = (1/2β)[∂Φ(x, s^(+β)*, θ)/∂θ - ∂Φ(x, s^(-β)*, θ)/∂θ]

प्रयोगात्मक सेटअप

डेटासेट

  • CIFAR-10: 32×32 रंगीन छवियां, 10 वर्ग, 50,000 प्रशिक्षण नमूने
  • CIFAR-100: 32×32 रंगीन छवियां, 100 वर्ग, 50,000 प्रशिक्षण नमूने
  • Fashion-MNIST: 28×28 ग्रेस्केल छवियां, 10 वर्ग, 60,000 प्रशिक्षण नमूने

मूल्यांकन मेट्रिक्स

परीक्षण सेट सटीकता को मुख्य मूल्यांकन मेट्रिक के रूप में उपयोग किया जाता है

तुलना विधियां

  • बेसलाइन विधि: VGG5 आर्किटेक्चर की गहरी कनवोलूशनल Hopfield नेटवर्क (DCHN)
  • बैकप्रोपेगेशन बेसलाइन: संबंधित फीडफॉरवर्ड नेटवर्क आर्किटेक्चर

कार्यान्वयन विवरण

  • अनुकूलक: Nesterov त्वरित ग्रेडिएंट अनुकूलक
  • Nudging पैरामीटर β: अनुभवजन्य ट्यूनिंग 0.1, 0.4 श्रेणी में
  • समय चरण: मुक्त चरण 120 चरण, क्लैम्पिंग चरण प्रत्येक 50 चरण (±β)
  • हार्डवेयर: NVIDIA RTX 4090 और 6000 Ada GPU
  • फ्रेमवर्क: PyTorch

प्रयोगात्मक परिणाम

मुख्य परिणाम

डेटासेटमॉडल आर्किटेक्चरपूर्व सर्वोत्तम (%)यह कार्य (%)बैकप्रोपेगेशन (%)
CIFAR-10VGG590.392.8492.11
CIFAR-10Hopfield-Resnet13-93.9293.78
CIFAR-100VGG568.470.7872.54
CIFAR-100Hopfield-Resnet13-71.0575.12
F-MNISTVGG593.5394.34-
F-MNISTHopfield-Resnet13-94.15-

मुख्य निष्कर्ष

  1. महत्वपूर्ण प्रदर्शन सुधार: CIFAR-10 पर पूर्व सर्वोत्तम परिणाम से 3.5% सुधार
  2. बैकप्रोपेगेशन प्रदर्शन के करीब: Hopfield-Resnet13 CIFAR-10 पर बैकप्रोपेगेशन से केवल 0.14% कम
  3. गहरी नेटवर्क सफल प्रशिक्षण: पहली बार 12 परतों से अधिक EP नेटवर्क को सफलतापूर्वक प्रशिक्षित किया गया

विलोपन प्रयोग

अवशिष्ट कनेक्शन का महत्व

प्रयोग दर्शाता है कि अवशिष्ट कनेक्शन के बिना गहरी नेटवर्क प्रशिक्षण हानि स्थिर रहती है, जबकि अवशिष्ट कनेक्शन वाली नेटवर्क सफलतापूर्वक अभिसरित हो सकती है।

सक्रियण फ़ंक्शन तुलना

  • ReLU_6 सर्वोत्तम प्रदर्शन करता है
  • ReLU_1 (hard-sigmoid) दूसरे स्थान पर प्रदर्शन करता है
  • α∈0,10 की यादृच्छिक प्रारंभिकता वाला ReLU_α मध्य प्रदर्शन करता है

प्रशिक्षण समय विश्लेषण

  • Hopfield-Resnet13 प्रशिक्षण 300 epoch के लिए 30 घंटे से अधिक की आवश्यकता है
  • बड़ी मात्रा में समय GPU kernel लॉन्च और CPU-GPU सिंक्रोनाइजेशन में खर्च होता है
  • अनुकूलन के लिए गुंजाइश है

मेमोरी उपयोग

  • CEP प्रशिक्षण मेमोरी उपयोग बैकप्रोपेगेशन के बराबर है
  • Hopfield-Resnet13 (बैच आकार 128): 1612 MiB
  • संबंधित Resnet13: 1324 MiB

वजन वितरण विश्लेषण

CEP-प्रशिक्षित नेटवर्क वजन वितरण विशेषताएं:

  1. छोटे वजन मान: पूर्ण मान और विचरण दोनों बैकप्रोपेगेशन-प्रशिक्षित नेटवर्क से छोटे हैं
  2. गहरी परत वजन शून्य की ओर: गहराई के साथ, वजन धीरे-धीरे शून्य के करीब पहुंचते हैं
  3. अवशिष्ट कनेक्शन कमजोर करना: स्किप कनेक्शन परत के शून्य-के-करीब वजन का अनुपात महत्वपूर्ण रूप से कम हो जाता है

संबंधित कार्य

जैविक रूप से उचित शिक्षण एल्गोरिदम

  • फॉरवर्ड प्रोपेगेशन: बैकप्रोपेगेशन की गैर-स्थानीयता से बचना
  • भविष्यसूचक कोडिंग: मुक्त ऊर्जा सिद्धांत पर आधारित शिक्षण
  • विपरीत Hebbian शिक्षण: EP का सैद्धांतिक आधार

संतुलन प्रसार विकास इतिहास

  • मूल EP: Scellier & Bengio (2017) द्वारा प्रस्तावित मूल सिद्धांत
  • CEP: ±β के माध्यम से ग्रेडिएंट पूर्वाग्रह को कम करना
  • HEP: जटिल समतल पर बहु-बिंदु संतुलन का उपयोग करके पूर्वाग्रह को और कम करना
  • कनवोलूशनल विस्तार: EP को कनवोलूशनल नेटवर्क तक विस्तारित करना

हार्डवेयर कार्यान्वयन

पहले से ही अनुसंधान memristor क्रॉसबार जैसे न्यूरोमॉर्फिक हार्डवेयर पर EP को लागू करता है, डिवाइस-पर शिक्षण क्षमता प्रदर्शित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी सफलता: पहली बार EP को 13 परत गहरी नेटवर्क तक सफलतापूर्वक विस्तारित किया गया
  2. प्रदर्शन सुधार: कई डेटासेट पर पूर्व EP विधि को महत्वपूर्ण रूप से पार किया
  3. आर्किटेक्चर नवाचार: अवशिष्ट कनेक्शन और क्लिप्ड ReLU का संयोजन गहराई विस्तार समस्या को प्रभावी ढंग से हल करता है

सीमाएं

  1. कम्प्यूटेशनल दक्षता: प्रशिक्षण समय अभी भी बैकप्रोपेगेशन से महत्वपूर्ण रूप से अधिक है
  2. हार्डवेयर निर्भरता: लाभ को पूरी तरह से प्राप्त करने के लिए विशेष रूप से अनुकूलित हार्डवेयर की आवश्यकता है
  3. प्रदर्शन अंतराल: जटिल डेटासेट (जैसे CIFAR-100) पर अभी भी प्रदर्शन अंतराल मौजूद है
  4. गहराई सीमा: सुधार के बावजूद आधुनिक गहरी नेटवर्क जितनी गहरी नहीं है

भविष्य की दिशाएं

  1. आधुनिक Hopfield नेटवर्क: अनुक्रम शिक्षण के आधुनिक Hopfield नेटवर्क के साथ संयोजन
  2. हार्डवेयर अनुकूलन: EP के लिए विशेष रूप से अनुकूलित न्यूरोमॉर्फिक हार्डवेयर विकसित करना
  3. एल्गोरिदम अनुकूलन: प्रशिक्षण समय को और कम करना और दक्षता में सुधार करना
  4. सैद्धांतिक विश्लेषण: EP की अद्वितीय प्रशिक्षण तंत्र की प्रकृति को गहराई से समझना

गहन मूल्यांकन

शक्तियां

  1. महत्वपूर्ण सफलता: पहली बार EP को गहरी नेटवर्क तक विस्तारित किया गया, लंबे समय से मौजूद स्केलेबिलिटी समस्या को हल किया
  2. व्यावहारिक नवाचार: अवशिष्ट कनेक्शन और क्लिप्ड ReLU का संयोजन सरल और प्रभावी है
  3. व्यापक सत्यापन: कई डेटासेट पर पर्याप्त प्रयोगात्मक सत्यापन
  4. गहन विश्लेषण: वजन वितरण आदि गहन विश्लेषणात्मक अंतर्दृष्टि प्रदान करता है
  5. ओपन सोर्स कोड: पूर्ण कार्यान्वयन कोड प्रदान करता है, पुनरुत्पादनीयता बढ़ाता है

कमियां

  1. कम्प्यूटेशनल दक्षता: प्रशिक्षण समय बहुत लंबा है, व्यावहारिक अनुप्रयोग को सीमित करता है
  2. अपर्याप्त सैद्धांतिक विश्लेषण: अवशिष्ट कनेक्शन के प्रभावी होने के कारण का सैद्धांतिक व्याख्या नहीं
  3. डेटासेट सीमा: मुख्य रूप से अपेक्षाकृत सरल डेटासेट पर सत्यापित
  4. हार्डवेयर अनुकूलन की कमी: मौजूदा GPU की समानांतर कंप्यूटिंग क्षमता का पूरी तरह से उपयोग नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: EP क्षेत्र के लिए महत्वपूर्ण आर्किटेक्चर नवाचार प्रदान करता है
  2. व्यावहारिक मूल्य: न्यूरोमॉर्फिक कंप्यूटिंग के लिए अधिक व्यावहारिक गहरी शिक्षण विधि प्रदान करता है
  3. अनुसंधान प्रेरणा: बाद के EP गहरी नेटवर्क अनुसंधान के लिए आधार स्थापित करता है

लागू परिदृश्य

  1. न्यूरोमॉर्फिक हार्डवेयर: विशेष रूप से समर्पित न्यूरोमॉर्फिक चिप पर कार्यान्वयन के लिए उपयुक्त
  2. किनारे कंप्यूटिंग: ऑनलाइन शिक्षण की आवश्यकता वाले किनारे उपकरणों के लिए उपयुक्त
  3. जैविक-प्रेरित कंप्यूटिंग: अधिक जैविक रूप से उचित AI सिस्टम बनाने के लिए दिशा प्रदान करता है
  4. कम-शक्ति अनुप्रयोग: ऊर्जा दक्षता के लिए अत्यधिक आवश्यकता वाले परिदृश्यों में लाभ

संदर्भ

  1. Scellier, B. & Bengio, Y. (2017). Equilibrium propagation: Bridging the gap between energy-based models and backpropagation. Frontiers in Computational Neuroscience.
  2. Laborieux, A. et al. (2021). Scaling equilibrium propagation to deep convnets by drastically reducing its gradient estimator bias. Frontiers in Neuroscience.
  3. Laborieux, A. & Zenke, F. (2022). Holomorphic equilibrium propagation computes exact gradients through finite size oscillations. NeurIPS.
  4. He, K. et al. (2016). Deep residual learning for image recognition. CVPR.

यह पेपर संतुलन प्रसार गहरी नेटवर्क विस्तार में महत्वपूर्ण सफलता प्राप्त करता है, चतुर आर्किटेक्चर डिजाइन के माध्यम से EP विधि की व्यावहारिकता को महत्वपूर्ण रूप से सुधारता है, न्यूरोमॉर्फिक कंप्यूटिंग और जैविक-प्रेरित शिक्षण एल्गोरिदम के विकास में मूल्यवान योगदान देता है।