Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
डिजिटल कंप्यूटर शक्तिशाली होने के बावजूद, उच्च ऊर्जा खपत और घटक क्षति के प्रति असहिष्णुता की कमियों का सामना करते हैं, जो ऊर्जा-सीमित और अनिश्चित वातावरण में स्वायत्त बुद्धिमान एजेंटों के उपकरण के रूप में चुनौतियां प्रस्तुत करते हैं। यह पेपर विपरीत स्थानीय शिक्षण नेटवर्क (CLLNs) - स्व-समायोजन अरैखिक प्रतिरोधों से बने एनालॉग नेटवर्क - की सुदृढीकरण शिक्षा कार्यों में प्रयोज्यता की जांच करता है। CLLNs स्वाभाविक रूप से कम शक्ति खपत और भौतिक क्षति के प्रति मजबूती प्रदर्शित करते हैं, लेकिन पहले केवल पर्यवेक्षित शिक्षा के लिए उपयोग किए गए थे। लेखकों ने Q-learning को अनुकृत CLLNs पर अनुकूलित करके दो सरल सुदृढीकरण शिक्षा समस्याओं को सफलतापूर्वक हल किया है, और RL टूलकिट में विभिन्न उपकरणों को लागू करने के लिए आवश्यक घटकों को स्पष्ट किया है, जहां नीति कार्य और मूल्य कार्य इस प्रणाली में अधिक प्राकृतिक हैं, जबकि अनुभव पुनरावृत्ति बफर कम प्राकृतिक हैं।
डिजिटल कंप्यूटर सुदृढीकरण शिक्षा अनुप्रयोगों में दो मौलिक कमजोरियों का सामना करते हैं:
खराब दोष सहनशीलता: एक ट्रांजिस्टर की क्षति पूरी प्रणाली को ध्वस्त कर सकती है, क्योंकि प्रत्येक घटक की कार्यक्षमता प्रणाली में इसकी स्थिति से आंतरिक रूप से बंधी होती है
उच्च ऊर्जा खपत: लैपटॉप CPU लगभग 50W की खपत करता है, जो "पूर्ण" संचालन बनाए रखने की उच्च ऊर्जा लागत और प्रसंस्करण और भंडारण के बीच डेटा स्थानांतरण से उत्पन्न होता है
ऊर्जा-सीमित वातावरण में स्वायत्त एजेंटों के लिए, कम शक्ति खपत और दोष सहनशीलता महत्वपूर्ण हैं। जैविक प्रणालियां इन क्षेत्रों में उत्कृष्ट प्रदर्शन करती हैं:
मानव मस्तिष्क की कुल शक्ति खपत केवल 20W है, जबकि एक साथ धारणा, संज्ञान, गति नियंत्रण जैसे कई कार्य करता है
मस्तिष्क महत्वपूर्ण क्षति को सहन कर सकता है और काम करना जारी रख सकता है, जिसमें एकल न्यूरॉन विनाश, आघातजन्य मस्तिष्क चोट, और यहां तक कि मस्तिष्क क्षेत्र निष्कासन शामिल है
यह मजबूती वितरित प्रसंस्करण और उदीयमान कंप्यूटिंग से उत्पन्न होती है, रैखिक कंप्यूटिंग से नहीं
कृत्रिम गैर-डिजिटल हार्डवेयर के RL कार्यों में अनुप्रयोग के उदाहरण बहुत कम हैं
कई डिजिटल-संवर्धित या अनुकृत एनालॉग प्रणालियां RL के लिए उपयोग की गई हैं, लेकिन कुछ हार्डवेयर प्रदर्शन वितरित भंडारण, कंप्यूटिंग और एनालॉग संकेत को जोड़ते हैं
हाल ही में विकसित CLLNs में कम शक्ति खपत और दोष सहनशीलता की विशेषताएं हैं, लेकिन अभी तक RL परिदृश्यों में सत्यापित नहीं किए गए हैं
व्यवहार्यता सत्यापन: CLLNs सुदृढीकरण शिक्षा कार्यों को सफलतापूर्वक निष्पादित कर सकते हैं, सरल MDP और नेविगेशन समस्याओं पर लगभग-इष्टतम प्रदर्शन प्राप्त कर सकते हैं
प्राकृतिक घटकों की पहचान:
नीति कार्य और मूल्य कार्य एकल नेटवर्क में स्वाभाविक रूप से लागू किए जा सकते हैं
अनुभव पुनरावृत्ति बफर जैसी ऐतिहासिक भंडारण विधियों को बड़ी नियंत्रण हार्डवेयर की आवश्यकता है, "जंगली नेटवर्क" दृष्टिकोण से विचलित होती है
भौतिक बाधाएं स्पष्ट:
पैरामीटर और आउटपुट सीमितता
गैर-फीडफॉरवर्ड संरचना
समय पुनरावृत्ति तंत्र की आवश्यकता
अद्वितीय लाभ:
कम शक्ति खपत शिक्षण विधि को संशोधित करके आगे अनुकूलित की जा सकती है
क्षति के बाद पुनः प्रशिक्षण किया जा सकता है
माध्यमिक उद्देश्यों को प्रशिक्षित किया जा सकता है (शक्ति, मजबूती, संचरण गति)
Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (CLLNs मूल पेपर)
Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Coupled Learning सैद्धांतिक ढांचा)
Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (सैद्धांतिक आधार)
Mak et al. (2007, 2010): एनालॉग सर्किट RL का प्रारंभिक कार्य
Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (कम-शक्ति अनुकूलन)
समग्र मूल्यांकन: यह एक अग्रणी कार्य है जो पहली बार भौतिक शिक्षण नेटवर्क को सुदृढीकरण शिक्षा में लागू करता है, जिसका महत्वपूर्ण सैद्धांतिक और संभावित व्यावहारिक मूल्य है। हालांकि वर्तमान में केवल सरल कार्यों पर सत्यापित है, और पूरी तरह से स्वायत्त भौतिक शिक्षण प्रणाली से दूर है, यह ऊर्जा-कुशल, दोष-सहिष्णु स्वायत्त एजेंटों के लिए अनुसंधान की नई दिशा खोलता है। पेपर का मुख्य मूल्य भौतिक शिक्षण प्रणाली के डिजाइन स्थान, बाधाओं और अद्वितीय लाभों को स्पष्ट करने में है, जो भविष्य के अनुसंधान के लिए आधार तैयार करता है। भविष्य में हार्डवेयर कार्यान्वयन, कार्य जटिलता और विधि सुधार के पहलुओं में गहन अनुसंधान की आवश्यकता है।