2025-11-25T14:13:18.562314

Physical Reinforcement Learning

Dillavou, Mishra
Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
academic

भौतिक सुदृढीकरण शिक्षा

मूल जानकारी

  • पेपर ID: 2511.17789
  • शीर्षक: Physical Reinforcement Learning (भौतिक सुदृढीकरण शिक्षा)
  • लेखक: Sam Dillavou (पेंसिलवेनिया विश्वविद्यालय), Shruti Mishra (कैम्ब्रिज विश्वविद्यालय)
  • वर्गीकरण: cs.LG (मशीन लर्निंग), cond-mat.dis-nn (संघनित पदार्थ - विकृत प्रणाली और तंत्रिका नेटवर्क)
  • प्रकाशन तिथि: 21 नवंबर 2025 (arXiv v1)
  • पेपर लिंक: https://arxiv.org/abs/2511.17789

सारांश

डिजिटल कंप्यूटर शक्तिशाली होने के बावजूद, उच्च ऊर्जा खपत और घटक क्षति के प्रति असहिष्णुता की कमियों का सामना करते हैं, जो ऊर्जा-सीमित और अनिश्चित वातावरण में स्वायत्त बुद्धिमान एजेंटों के उपकरण के रूप में चुनौतियां प्रस्तुत करते हैं। यह पेपर विपरीत स्थानीय शिक्षण नेटवर्क (CLLNs) - स्व-समायोजन अरैखिक प्रतिरोधों से बने एनालॉग नेटवर्क - की सुदृढीकरण शिक्षा कार्यों में प्रयोज्यता की जांच करता है। CLLNs स्वाभाविक रूप से कम शक्ति खपत और भौतिक क्षति के प्रति मजबूती प्रदर्शित करते हैं, लेकिन पहले केवल पर्यवेक्षित शिक्षा के लिए उपयोग किए गए थे। लेखकों ने Q-learning को अनुकृत CLLNs पर अनुकूलित करके दो सरल सुदृढीकरण शिक्षा समस्याओं को सफलतापूर्वक हल किया है, और RL टूलकिट में विभिन्न उपकरणों को लागू करने के लिए आवश्यक घटकों को स्पष्ट किया है, जहां नीति कार्य और मूल्य कार्य इस प्रणाली में अधिक प्राकृतिक हैं, जबकि अनुभव पुनरावृत्ति बफर कम प्राकृतिक हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

डिजिटल कंप्यूटर सुदृढीकरण शिक्षा अनुप्रयोगों में दो मौलिक कमजोरियों का सामना करते हैं:

  • खराब दोष सहनशीलता: एक ट्रांजिस्टर की क्षति पूरी प्रणाली को ध्वस्त कर सकती है, क्योंकि प्रत्येक घटक की कार्यक्षमता प्रणाली में इसकी स्थिति से आंतरिक रूप से बंधी होती है
  • उच्च ऊर्जा खपत: लैपटॉप CPU लगभग 50W की खपत करता है, जो "पूर्ण" संचालन बनाए रखने की उच्च ऊर्जा लागत और प्रसंस्करण और भंडारण के बीच डेटा स्थानांतरण से उत्पन्न होता है

2. समस्या की महत्ता

ऊर्जा-सीमित वातावरण में स्वायत्त एजेंटों के लिए, कम शक्ति खपत और दोष सहनशीलता महत्वपूर्ण हैं। जैविक प्रणालियां इन क्षेत्रों में उत्कृष्ट प्रदर्शन करती हैं:

  • मानव मस्तिष्क की कुल शक्ति खपत केवल 20W है, जबकि एक साथ धारणा, संज्ञान, गति नियंत्रण जैसे कई कार्य करता है
  • मस्तिष्क महत्वपूर्ण क्षति को सहन कर सकता है और काम करना जारी रख सकता है, जिसमें एकल न्यूरॉन विनाश, आघातजन्य मस्तिष्क चोट, और यहां तक कि मस्तिष्क क्षेत्र निष्कासन शामिल है
  • यह मजबूती वितरित प्रसंस्करण और उदीयमान कंप्यूटिंग से उत्पन्न होती है, रैखिक कंप्यूटिंग से नहीं

3. मौजूदा विधियों की सीमाएं

  • कृत्रिम गैर-डिजिटल हार्डवेयर के RL कार्यों में अनुप्रयोग के उदाहरण बहुत कम हैं
  • कई डिजिटल-संवर्धित या अनुकृत एनालॉग प्रणालियां RL के लिए उपयोग की गई हैं, लेकिन कुछ हार्डवेयर प्रदर्शन वितरित भंडारण, कंप्यूटिंग और एनालॉग संकेत को जोड़ते हैं
  • हाल ही में विकसित CLLNs में कम शक्ति खपत और दोष सहनशीलता की विशेषताएं हैं, लेकिन अभी तक RL परिदृश्यों में सत्यापित नहीं किए गए हैं

4. अनुसंधान प्रेरणा

  • RL में CLLNs की प्रयोज्यता की खोज करना, ऊर्जा-कुशल और दोष-सहिष्णु स्वायत्त एजेंटों के लिए मार्ग प्रशस्त करना
  • स्पष्ट करना कि कौन से RL उपकरण स्व-शिक्षण नेटवर्क के लिए प्राकृतिक हैं, और कौन से अतिरिक्त पूर्व-प्रोग्राम्ड हार्डवेयर की आवश्यकता है
  • समझना कि एजेंट के "मस्तिष्क" को डिजिटल क्षेत्र के बाहर रखते समय किन अतिरिक्त चुनौतियों का सामना करना पड़ता है

मूल योगदान

  1. RL के लिए CLLNs का पहला अनुप्रयोग: Q-learning को अनुकृत CLLNs पर सफलतापूर्वक अनुकूलित किया, भौतिक शिक्षण नेटवर्क की RL क्षमता को लागू किया
  2. दो RL कार्यों की प्रभावकारिता का सत्यापन:
    • चार-अवस्था चार-क्रिया मार्कोव निर्णय प्रक्रिया (MDP)
    • नौ-अवस्था (3×3 ग्रिड) चार-क्रिया नेविगेशन कार्य
    • 10 परीक्षणों में, 8-10 बार लगभग-इष्टतम नीति तक पहुंचा
  3. भौतिक शिक्षण प्रणाली के डिजाइन विचारों को स्पष्ट किया:
    • CLLNs में स्वाभाविक रूप से लागू किए गए RL घटकों की पहचान (नीति कार्य, मूल्य कार्य)
    • अतिरिक्त हार्डवेयर समर्थन की आवश्यकता वाले घटकों को इंगित करना (अनुभव पुनरावृत्ति बफर)
    • भौतिक प्रणाली-विशिष्ट बाधाओं को प्रकट करना (पैरामीटर सीमित, गैर-फीडफॉरवर्ड संरचना)
  4. भौतिक शिक्षण प्रणाली के अद्वितीय लाभों का प्रस्ताव:
    • कम शक्ति खपत संचालन शिक्षण एल्गोरिदम को संशोधित करके आगे अनुकूलित किया जा सकता है
    • क्षति के बाद ऑनलाइन पुनरुद्धार क्षमता
    • माध्यमिक उद्देश्यों को प्रशिक्षित करना (जैसे ऊर्जा खपत, मजबूती), जो डिजिटल प्रणालियों में अर्थहीन है

विधि विवरण

कार्य परिभाषा

कार्य 1: चार-अवस्था चार-क्रिया MDP

  • अवस्था स्थान: 4 असतत अवस्थाएं S₁, S₂, S₃, S₄
  • क्रिया स्थान: 4 असतत क्रियाएं A₀, A₁, A₂, A₃
  • अवस्था संक्रमण: सरल नियतात्मक संक्रमण, क्रिया i अवस्था Si की ओर ले जाती है
  • पुरस्कार: अवस्था-निर्भर पुरस्कार R(St, At) ~ N(0.1, 0.1), शोर N(0, 0.01) के साथ
  • उद्देश्य: संचयी पुरस्कार को अधिकतम करने के लिए इष्टतम नीति सीखना

कार्य 2: नौ-अवस्था नेविगेशन कार्य

  • अवस्था स्थान: 3×3 ग्रिड पर 9 स्थान
  • क्रिया स्थान: 4 दिशात्मक आंदोलन (ऊपर, नीचे, बाएं, दाएं)
  • पुरस्कार संरचना: लक्ष्य स्थान (ऊपरी बाएं कोने) को बड़ा पुरस्कार, अन्य स्थानों को छोटा पुरस्कार ढाल (5000 गुना छोटा)
  • उद्देश्य: उच्च पुरस्कार स्थान पर नेविगेट करना सीखना

मॉडल आर्किटेक्चर

CLLN मूल सिद्धांत

CLLNs स्व-समायोजन प्रतिरोध तत्वों से बने नेटवर्क हैं, जिनकी व्यक्तिगत गतिशीलता वैश्विक हानि कार्य के ढाल अवतरण को अनुमानित करती है।

नेटवर्क संरचना:

  • नोड्स इनपुट नोड्स (पीले) और आउटपुट नोड्स (नीले) में विभाजित हैं
  • इनपुट: नोड वोल्टेज मान V₁, ..., V₄ को बाध्य करके डेटा एन्कोड किया जाता है
  • आउटपुट: संतुलन वोल्टेज मान O₁, ..., O₄ नेटवर्क गणना परिणाम के रूप में
  • नेटवर्क भौतिक कार्य के रूप में: F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄)

चालकता मॉडल: प्रत्येक चालक तत्व वास्तव में त्रिपद क्षेत्र में काम करने वाला MOSFET ट्रांजिस्टर है:

Gi = S(VG,i - VT - V̄)

जहां:

  • S = 1 (स्थिरांक)
  • VT = 0.7 (थ्रेसहोल्ड वोल्टेज)
  • VG,i: समायोज्य गेट वोल्टेज (वजन के रूप में)
  • V̄: किनारे के दोनों नोड्स के वोल्टेज का औसत (अरैखिक परिवर्तन को लागू करता है)
  • पैरामीटर सीमा: 1.0 < VG,i < 5.5

विपरीत शिक्षण तंत्र

शिक्षण प्रक्रिया को दो अलग-अलग अवस्थाओं की तुलना करने की आवश्यकता है:

  1. मुक्त अवस्था (Free State):
    • केवल इनपुट V₁, ..., V₄ लागू किए जाते हैं
    • प्रत्येक प्रतिरोध विद्युत वोल्टेज ड्रॉप ΔVᶠᵢ का अनुभव करता है
    • आउटपुट Oᶠₙ है
  2. क्लैंप्ड अवस्था (Clamped State):
    • इनपुट और अपेक्षित आउटपुट (लेबल) लागू किए जाते हैं
    • वोल्टेज ड्रॉप ΔVᶜᵢ है
    • आउटपुट को लेबल की ओर धकेला जाता है: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ (इस पेपर में η=0.1)

स्थानीय शिक्षण नियम:

प्रणाली विपरीत कार्य (क्लैंप्ड और मुक्त अवस्था के अपव्यय शक्ति अंतर) के ढाल अवतरण को करती है:

δGi = -α d/dGi[Pᶜ - Pᶠ]

श्रृंखला नियम के माध्यम से व्युत्पन्न, पूरी तरह से स्थानीय शिक्षण नियम प्राप्त होता है:

δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]

मुख्य विशेषता: प्रत्येक तत्व को दोनों अवस्थाओं में अपने वोल्टेज ड्रॉप को मापने की आवश्यकता है, विकेंद्रीकृत प्रशिक्षण को लागू करता है।

Q-Learning अनुकूलन योजना

अवस्था एन्कोडिंग

  • अवस्था S₁...S₄ को इनपुट वोल्टेज वेक्टर के रूप में एन्कोड किया जाता है:
    • S₁: 1, 0, 1, 0 V
    • S₂: 0, 1, 0, 1 V
    • S₃: 1, 1, 0, 0 V
    • S₄: 0, 0, 1, 1 V

क्रिया चयन

  • ε-लालची नीति: ε 0.05 से रैखिक रूप से 0 तक क्षय होता है
  • चार आउटपुट में से अधिकतम को क्रिया के रूप में चुनें (संभावना 1-ε)

Q मान अपडेट

भविष्य-भारित स्कोर गणना:

Lt = R(St, At) + γ[max(F(St+1)) - mean(F(St+1))]

जहां:

  • γ = 0.5 (छूट कारक)
  • माध्य को घटाना छोटे नेटवर्क के लिए प्रदर्शन में सुधार करता है, अतिरिक्त लचीलापन प्रदान करता है

प्रशिक्षण प्रवाह

  1. प्रणाली अवस्था St में है, क्रिया At चुनता है
  2. पर्यावरण पुरस्कार Rt लौटाता है, St+1 में संक्रमण करता है
  3. Lt की गणना करें
  4. नेटवर्क को प्रशिक्षित करें:
    • मुक्त अवस्था: St को इनपुट के रूप में लागू करें
    • क्लैंप्ड अवस्था: St को इनपुट के रूप में लागू करें, गैर-चयनित क्रियाओं के आउटपुट को Oᵢ पर रखें, चयनित क्रिया के आउटपुट को Lt पर सेट करें
  5. हर 50 कदम पर बैच अपडेट करें

तकनीकी नवाचार बिंदु

  1. भौतिक बाधाओं के अनुकूल Q-learning:
    • पैरामीटर और आउटपुट सीमितता की समस्या को संभालना
    • पुरस्कार और छूट कारक को डिजाइन करना ताकि प्रणाली आवश्यक आउटपुट उत्पन्न कर सके
  2. गैर-फीडफॉरवर्ड नेटवर्क की प्रशिक्षण रणनीति:
    • CLLNs में किसी भी स्थान पर वोल्टेज या प्रतिरोध परिवर्तन सभी आउटपुट को प्रभावित कर सकता है
    • प्रशिक्षण गैर-चयनित आउटपुट को स्थिर रखता है, हस्तक्षेप से बचता है
  3. समय पुनरावृत्ति तंत्र:
    • पर्यावरण के St+1 में संक्रमण के बाद, St को संग्रहीत और पुनः लागू करने की आवश्यकता है
    • यह भौतिक प्रणाली का "गैर-प्राकृतिक" कदम है
  4. आर्किटेक्चर अनुकूलन:
    • कार्य 1: चित्र 2 में दिखाए गए आवधिक कनेक्शन नेटवर्क का उपयोग करें
    • कार्य 2: 44 किनारों के साथ घने कनेक्शन नेटवर्क का उपयोग करें (6-4-4-1 परत संरचना, लेकिन गैर-फीडफॉरवर्ड)

प्रयोगात्मक सेटअप

डेटासेट

कार्य 1: चार-अवस्था MDP

  • पुरस्कार मैट्रिक्स: N(0.1, 0.1) से नमूना, सभी परीक्षणों के लिए निश्चित
  • पुरस्कार शोर: N(0, 0.01)
  • इष्टतम नीति: सभी चार अवस्थाओं के माध्यम से चक्र
  • संभावित नीतियों की कुल संख्या: 4⁴ = 256

कार्य 2: नौ-अवस्था नेविगेशन

  • 3×3 ग्रिड विश्व
  • लक्ष्य स्थान (ऊपरी बाएं कोने) को बड़ा पुरस्कार
  • अन्य स्थानों को पुरस्कार ढाल (5000 गुना छोटा, थर्मल मानचित्र पर दृश्यमान नहीं)
  • हर 5 कदम पर यादृच्छिक रीसेट
  • कोई पुरस्कार शोर नहीं

मूल्यांकन मेट्रिक्स

  • औसत पुरस्कार: लॉग-अंतराल अंतराल (न्यूनतम 10 कदम) के भीतर गणना किया गया औसत पुरस्कार
  • नीति गुणवत्ता: इष्टतम/सबसे खराब नीति के साथ तुलना
  • सफलता दर: इष्टतम या लगभग-इष्टतम नीति तक पहुंचने वाले परीक्षणों का अनुपात
  • अवस्था दौरा वितरण: प्रशिक्षण के बाद एजेंट प्रत्येक अवस्था में कितना समय बिताता है

कार्यान्वयन विवरण

सामान्य सेटअप:

  • आरंभीकरण: VG,i ~ N(1.5, 0.1)
  • शिक्षण दर α: स्पष्ट रूप से निर्दिष्ट नहीं, भौतिक प्रक्रिया द्वारा निहित रूप से निर्धारित
  • बैच अपडेट: हर 50 कदम
  • पैरामीटर सीमा: 1.0 < VG,i < 5.5

कार्य 1:

  • प्रशिक्षण कदम: 100,000
  • परीक्षण संख्या: 10
  • ε क्षय: 0.05 → 0 (रैखिक)
  • छूट कारक: γ = 0.5
  • क्लैंप पैरामीटर: η = 0.1

कार्य 2:

  • प्रशिक्षण कदम: 300,000
  • परीक्षण संख्या: 10
  • ε क्षय: 0.1 → 0 (रैखिक)
  • अवस्था रीसेट आवृत्ति: हर 5 कदम
  • इनपुट एन्कोडिंग: पंक्ति स्तंभ निर्देशांक को 0, 0.5, 1 में पुनः स्केल करें, प्रतिलोम मान और दो स्थिर नोड्स जोड़ें

प्रयोगात्मक परिणाम

मुख्य परिणाम

कार्य 1: चार-अवस्था MDP

  • सफलता दर: 10 परीक्षणों में 8 इष्टतम नीति तक पहुंचे, शेष 2 लगभग-इष्टतम तक पहुंचे
  • शिक्षण वक्र (चित्र 3B):
    • सभी परीक्षण (बैंगनी रेखा) स्थिर पुरस्कार वृद्धि दिखाते हैं
    • औसत पुरस्कार (काली रेखा) इष्टतम नीति स्तर पर तेजी से अभिसरित होता है
    • अंतिम प्रदर्शन सैद्धांतिक इष्टतम के करीब है (काली बिंदीदार रेखा)
    • सबसे खराब नीति से काफी बेहतर (नीचे की बिंदीदार रेखा)

कार्य 2: नौ-अवस्था नेविगेशन

  • सफलता दर: 10 परीक्षणों में 8 इष्टतम नीति में से एक को खोजा (कई समान इष्टतम नीतियां मौजूद हैं)
  • शिक्षण वक्र (चित्र 4B):
    • पुरस्कार में स्थिर वृद्धि
    • प्रशिक्षण के अंत में (ε→0) पूरी तरह से इष्टतम नीति रेखा तक पहुंचें
    • औसत प्रदर्शन (काली रेखा) सुसंगत शिक्षण प्रक्रिया दिखाता है

अवस्था दौरा विश्लेषण (चित्र 4C):

  • प्रशिक्षण के बाद 10 एजेंट 10,000 कदम परीक्षण में (ε=0)
  • अधिकांश समय उच्च पुरस्कार वर्ग में (ऊपरी बाएं कोने)
  • थर्मल मानचित्र दिखाता है कि एजेंट लक्ष्य स्थान पर नेविगेट करना सीख गया है

प्रयोगात्मक निष्कर्ष

  1. शिक्षण स्थिरता:
    • दोनों कार्य स्थिर शिक्षण प्रक्रिया दिखाते हैं
    • यादृच्छिक आरंभीकरण के तहत कई परीक्षण परिणाम सुसंगत हैं
    • कोई आपदाजनक विस्मृति या प्रशिक्षण पतन नहीं देखा गया
  2. भौतिक बाधाओं का प्रभाव:
    • पैरामीटर सीमितता को सावधानीपूर्वक पुरस्कार और छूट कारक डिजाइन की आवश्यकता है
    • माध्य को घटाना (Lt गणना में) छोटे नेटवर्क के प्रदर्शन में काफी सुधार करता है
  3. गैर-फीडफॉरवर्ड संरचना के अनुकूलन:
    • गैर-चयनित क्रियाओं के आउटपुट को स्थिर रखने की रणनीति प्रभावी है
    • यह बाधा सरल कार्यों पर सीमित प्रभाव डालती है, लेकिन जटिल नीतियों पर प्रभाव को आगे के अनुसंधान की आवश्यकता है
  4. समय पुनरावृत्ति की आवश्यकता:
    • पूर्व अवस्था St को संग्रहीत और पुनः लागू करने की आवश्यकता है
    • यह भौतिक प्रणाली के लिए "गैर-प्राकृतिक" है, भविष्य में मिश्रित अवस्था निर्माण द्वारा टाला जा सकता है

संबंधित कार्य

एनालॉग और न्यूरोमॉर्फिक RL प्रणालियां

  • Mak et al. (2007, 2010): CMOS वर्तमान-मोड गतिशील प्रोग्रामिंग सर्किट, प्रारंभिक हार्डवेयर RL प्रयास
  • Mikaitis et al. (2018): SpiNNaker न्यूरोमॉर्फिक प्रणाली पर तंत्रिका-मॉड्यूलेटेड सिनेप्टिक प्लास्टिसिटी
  • सीमा: अधिकांश डिजिटल-संवर्धित या एनालॉग की एनालॉग प्रणालियां, वास्तविक वितरित भंडारण और एनालॉग संकेत कंप्यूटिंग की कमी

भौतिक शिक्षण प्रणालियां

  • Coupled Learning ढांचा (Stern et al., 2021): CLLNs का सैद्धांतिक आधार
  • Equilibrium Propagation (Scellier & Bengio, 2017): ऊर्जा-आधारित मॉडल और बैकप्रोपेगेशन के बीच पुल
  • Contrastive Hebbian Learning (Movellan, 1991): विपरीत शिक्षण का प्रारंभिक सिद्धांत

CLLNs संबंधित कार्य

  • Dillavou et al. (2024): CLLNs का पहला प्रायोगिक प्रदर्शन, पर्यवेक्षित शिक्षा के लिए
  • Stern et al. (2024): कम-शक्ति समाधान लागू करने के लिए CLLNs को प्रशिक्षित करना
  • Dillavou et al. (2022): विकेंद्रीकृत भौतिक-संचालित शिक्षा और दोष सहनशीलता प्रदर्शित करना
  • Dillavou et al. (2025): भौतिक शिक्षण नेटवर्क में अपूर्णताओं को समझना और गले लगाना

जैविक शिक्षण प्रणालियां

  • मानव मस्तिष्क की दोष सहनशीलता (Wang et al., 2014; Chua et al., 2007; Granovetter et al., 2022)
  • कम-शक्ति संचालन (Balasubramanian, 2021)
  • प्राकृतिक आदिम (Mead, 1990)

इस पेपर के लाभ

  • पहला RL अनुप्रयोग: CLLNs पर RL लागू करने वाला पहला कार्य
  • पूरी तरह से एनालॉग: डिजिटल प्रसंस्करण पर निर्भर नहीं, शिक्षा वितरित, एनालॉग तरीके से पूरी होती है
  • प्रणालीगत विश्लेषण: भौतिक शिक्षण प्रणाली के डिजाइन विचारों और बाधाओं को स्पष्ट करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यवहार्यता सत्यापन: CLLNs सुदृढीकरण शिक्षा कार्यों को सफलतापूर्वक निष्पादित कर सकते हैं, सरल MDP और नेविगेशन समस्याओं पर लगभग-इष्टतम प्रदर्शन प्राप्त कर सकते हैं
  2. प्राकृतिक घटकों की पहचान:
    • नीति कार्य और मूल्य कार्य एकल नेटवर्क में स्वाभाविक रूप से लागू किए जा सकते हैं
    • अनुभव पुनरावृत्ति बफर जैसी ऐतिहासिक भंडारण विधियों को बड़ी नियंत्रण हार्डवेयर की आवश्यकता है, "जंगली नेटवर्क" दृष्टिकोण से विचलित होती है
  3. भौतिक बाधाएं स्पष्ट:
    • पैरामीटर और आउटपुट सीमितता
    • गैर-फीडफॉरवर्ड संरचना
    • समय पुनरावृत्ति तंत्र की आवश्यकता
  4. अद्वितीय लाभ:
    • कम शक्ति खपत शिक्षण विधि को संशोधित करके आगे अनुकूलित की जा सकती है
    • क्षति के बाद पुनः प्रशिक्षण किया जा सकता है
    • माध्यमिक उद्देश्यों को प्रशिक्षित किया जा सकता है (शक्ति, मजबूती, संचरण गति)

सीमाएं

  1. कार्य जटिलता सीमित:
    • केवल बहुत सरल कार्यों पर सत्यापित (4 अवस्था और 9 अवस्था)
    • गैर-फीडफॉरवर्ड संरचना जटिल नीतियों पर प्रतिबंध अभी स्पष्ट नहीं है
  2. अभी भी बाहरी नियंत्रण की आवश्यकता:
    • ε-लालची एल्गोरिदम में यादृच्छिकीकरण और अधिकतम कार्य को बाहरी हार्डवेयर की आवश्यकता है
    • समय पुनरावृत्ति तंत्र को अवस्था भंडारण की आवश्यकता है
    • बैच अपडेट को समन्वय की आवश्यकता है
  3. अनुकरण सीमाएं:
    • अनुकरण में घटक अपूर्णता और पूर्वाग्रह से बचा गया
    • भौतिक कार्यान्वयन को माप शोर और घटक भिन्नता का सामना करना पड़ेगा
    • ऊर्जा खपत वास्तविक प्रतिरोध और वर्तमान से संबंधित नहीं है (अनुकरण में)
  4. ऐतिहासिक स्मृति की कमी:
    • योग्यता ट्रेस या अनुभव पुनरावृत्ति को स्वाभाविक रूप से लागू करना मुश्किल है
    • लागू किए जा सकने वाले RL एल्गोरिदम की सीमा को सीमित करता है
  5. स्केलेबिलिटा अज्ञात:
    • बड़े नेटवर्क और अधिक जटिल कार्यों के प्रदर्शन का परीक्षण नहीं किया गया है
    • अवस्था और क्रिया स्थान विस्तार की क्षमता स्पष्ट नहीं है

भविष्य की दिशाएं

  1. समय पुनरावृत्ति से बचना:
    • मिश्रित अवस्था निर्माण की खोज (St+1 और L को शामिल करते हुए)
    • अधिक प्राकृतिक भौतिक शिक्षण प्रवाह विकसित करना
  2. ऑनलाइन पुनरुद्धार आर्किटेक्चर:
    • क्षति के बाद तत्काल पुनरुद्धार की अनुमति देने वाले आर्किटेक्चर और एल्गोरिदम डिजाइन करना
    • CLLNs की पुनः प्रशिक्षण क्षमता का लाभ उठाना
  3. माध्यमिक उद्देश्य अनुकूलन:
    • कम-शक्ति समाधान की ओर पूर्वाग्रह के लिए शिक्षण एल्गोरिदम संशोधित करना
    • भौतिक क्षति मजबूती के लिए नेटवर्क को प्रशिक्षित करना
    • इनपुट-आउटपुट संचरण गति अनुकूलित करना
  4. भौतिक कार्यान्वयन:
    • अनुकरण परिणामों को सत्यापित करने के लिए हार्डवेयर प्रदर्शन
    • घटक अपूर्णता और पूर्वाग्रह को संभालना
    • वास्तविक ऊर्जा खपत और दोष सहनशीलता को मापना
  5. जटिल कार्य विस्तार:
    • बड़ी अवस्था और क्रिया स्थान
    • निरंतर नियंत्रण कार्य
    • बहु-एजेंट परिदृश्य
  6. शिक्षण एल्गोरिदम सीखना:
    • आवश्यक नियंत्रण कार्यों (यादृच्छिकीकरण, अधिकतम कार्य) को निष्पादित करने के लिए CLLNs को प्रशिक्षित करना
    • मेटा-लर्निंग विधियों की खोज करना

गहन मूल्यांकन

लाभ

  1. अग्रणी कार्य:
    • RL के लिए CLLNs का पहला अनुप्रयोग, भौतिक सुदृढीकरण शिक्षा की नई दिशा खोलता है
    • डिजिटल RL के बाहर वैकल्पिक प्रतिमान प्रदान करता है
  2. सैद्धांतिक स्पष्टता:
    • स्थानीय शिक्षण नियम का विस्तृत व्युत्पन्न (समीकरण 1-4)
    • विपरीत शिक्षण तंत्र की स्पष्ट व्याख्या
    • गणितीय अभिव्यक्ति कठोर है
  3. प्रणालीगत विश्लेषण:
    • प्राकृतिक घटकों और बाहरी समर्थन की आवश्यकता वाले घटकों को स्पष्ट रूप से अलग करता है
    • भौतिक प्रणाली-विशिष्ट बाधाओं और लाभों पर चर्चा करता है
    • डिजिटल और जैविक प्रणालियों के साथ तुलना में अंतर्दृष्टि है
  4. उचित प्रयोगात्मक डिजाइन:
    • सरल से थोड़ा अधिक जटिल कार्यों तक प्रगति
    • स्थिरता सत्यापित करने के लिए कई परीक्षण (10 बार)
    • सैद्धांतिक इष्टतम/सबसे खराब नीति के साथ तुलना
  5. सीमाओं की ईमानदारी से चर्चा:
    • अनुकरण और भौतिक कार्यान्वयन के अंतर को स्वीकार करता है
    • स्पष्ट रूप से इंगित करता है कि बाहरी नियंत्रण की आवश्यकता कहां है
    • स्केलेबिलिटा की अनिश्चितता पर चर्चा करता है
  6. अंतःविषय दृष्टिकोण:
    • भौतिकी, मशीन लर्निंग और तंत्रिका विज्ञान को जोड़ता है
    • डिजिटल प्रणालियों में अर्थहीन लेकिन भौतिक/जैविक प्रणालियों में महत्वपूर्ण माध्यमिक उद्देश्य प्रस्तावित करता है

कमियां

  1. कार्य बहुत सरल:
    • 4 अवस्था MDP और 3×3 ग्रिड खिलौना समस्याएं हैं
    • अधिक जटिल, वास्तविक कार्यों का सत्यापन नहीं
    • स्केलेबिलिटा मुख्य प्रश्न है
  2. अभी भी बाहरी नियंत्रण पर निर्भर:
    • ε-लालची, अधिकतम कार्य, बैच अपडेट सभी को बाहरी हार्डवेयर की आवश्यकता है
    • "पूरी तरह से स्वायत्त भौतिक शिक्षण प्रणाली" से दूरी है
    • समय पुनरावृत्ति तंत्र अप्राकृतिक है
  3. केवल अनुकरण परिणाम:
    • कोई भौतिक हार्डवेयर कार्यान्वयन नहीं
    • ऊर्जा खपत, दोष सहनशीलता जैसे मुख्य लाभों को सत्यापित नहीं कर सकता
    • घटक अपूर्णता का प्रभाव अज्ञात है
  4. विधि सीमाएं:
    • केवल Q-learning का प्रयास किया गया
    • नीति ढाल, Actor-Critic जैसी अन्य RL विधियों की खोज नहीं की गई
    • डिजिटल Q-learning के साथ सीधी प्रदर्शन तुलना नहीं
  5. गहन विश्लेषण की कमी:
    • विभिन्न डिजाइन विकल्पों के प्रभाव का विश्लेषण करने के लिए कोई विलोपन प्रयोग नहीं
    • हाइपरपैरामीटर संवेदनशीलता का अध्ययन नहीं किया गया
    • शिक्षण गतिशीलता विश्लेषण अपर्याप्त है
  6. एकल मूल्यांकन मेट्रिक:
    • मुख्य रूप से औसत पुरस्कार पर केंद्रित
    • नमूना दक्षता, अभिसरण गति जैसे विश्लेषण की कमी
    • कोई कम्प्यूटेशनल लागत (अनुकरण समय) तुलना नहीं

प्रभाव

क्षेत्र पर योगदान:

  • नई दिशा खोलना: भौतिक कंप्यूटिंग और न्यूरोमॉर्फिक कंप्यूटिंग क्षेत्र में RL क्षमता का परिचय
  • सैद्धांतिक मूल्य: भौतिक शिक्षण प्रणाली के डिजाइन स्थान और बाधाओं को स्पष्ट करता है
  • प्रेरणादायक: डिजिटल, भौतिक, जैविक शिक्षण प्रणालियों की तुलना ढांचा प्रस्तावित करता है

व्यावहारिक मूल्य:

  • दीर्घकालिक संभावना: ऊर्जा-सीमित, उच्च दोष-सहिष्णुता आवश्यकताओं वाले स्वायत्त एजेंटों के लिए दिशा
  • अल्पकालिक सीमा: वर्तमान में केवल खिलौना समस्याओं पर सत्यापित, व्यावहारिक अनुप्रयोग से दूर
  • विशिष्ट परिदृश्य: किनारे उपकरणों, चरम वातावरण, एम्बेडेड प्रणालियों के लिए उपयुक्त हो सकता है

पुनरुत्पादनीयता:

  • लाभ: विधि विवरण विस्तृत, गणितीय व्युत्पन्न पूर्ण
  • चुनौति: विशिष्ट सर्किट अनुकरण क्षमता की आवश्यकता, भौतिक कार्यान्वयन की उच्च बाधा
  • कोड: पेपर में कोड ओपन-सोर्स का उल्लेख नहीं है

प्रयोज्य परिदृश्य

आदर्श अनुप्रयोग परिदृश्य:

  1. अत्यधिक ऊर्जा-सीमित वातावरण:
    • सूक्ष्म स्वायत्त रोबोट
    • दीर्घकालिक निर्बाध निगरानी सेंसर
    • पहनने योग्य उपकरण
  2. उच्च दोष-सहिष्णुता आवश्यकता:
    • चरम वातावरण (विकिरण, उच्च तापमान)
    • सैन्य अनुप्रयोग
    • अंतरिक्ष अन्वेषण
  3. एम्बेडेड बुद्धिमत्ता:
    • IoT किनारे उपकरण
    • सरल नियंत्रण कार्य
    • वास्तविक समय प्रतिक्रिया आवश्यकता

अनुपयुक्त परिदृश्य:

  1. बड़ी ऐतिहासिक स्मृति की आवश्यकता वाले जटिल कार्य
  2. उच्च-आयामी अवस्था/क्रिया स्थान
  3. सटीक गणना की आवश्यकता वाले कार्य
  4. तेजी से प्रोटोटाइप विकास (हार्डवेयर निर्माण चक्र लंबा)

डिजिटल RL के साथ पूरकता:

  • प्रतिस्थापन नहीं बल्कि पूरक
  • डिजिटल RL जटिल कार्यों और तेजी से पुनरावृत्ति के लिए उपयुक्त
  • भौतिक RL विशिष्ट बाधाओं के तहत तैनाती के लिए उपयुक्त

संदर्भ

मूल संबंधित कार्य

  1. Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (CLLNs मूल पेपर)
  2. Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Coupled Learning सैद्धांतिक ढांचा)
  3. Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (सैद्धांतिक आधार)
  4. Mak et al. (2007, 2010): एनालॉग सर्किट RL का प्रारंभिक कार्य
  5. Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (कम-शक्ति अनुकूलन)

समग्र मूल्यांकन: यह एक अग्रणी कार्य है जो पहली बार भौतिक शिक्षण नेटवर्क को सुदृढीकरण शिक्षा में लागू करता है, जिसका महत्वपूर्ण सैद्धांतिक और संभावित व्यावहारिक मूल्य है। हालांकि वर्तमान में केवल सरल कार्यों पर सत्यापित है, और पूरी तरह से स्वायत्त भौतिक शिक्षण प्रणाली से दूर है, यह ऊर्जा-कुशल, दोष-सहिष्णु स्वायत्त एजेंटों के लिए अनुसंधान की नई दिशा खोलता है। पेपर का मुख्य मूल्य भौतिक शिक्षण प्रणाली के डिजाइन स्थान, बाधाओं और अद्वितीय लाभों को स्पष्ट करने में है, जो भविष्य के अनुसंधान के लिए आधार तैयार करता है। भविष्य में हार्डवेयर कार्यान्वयन, कार्य जटिलता और विधि सुधार के पहलुओं में गहन अनुसंधान की आवश्यकता है।