Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
ডিজিটাল কম্পিউটার যদিও শক্তিশালী, তবে উচ্চ শক্তি খরচ এবং উপাদান ক্ষতির প্রতি অসহনশীলতার ত্রুটি রয়েছে, যা শক্তি-সীমিত এবং অনিশ্চিত পরিবেশে স্বায়ত্তশাসিত বুদ্ধিমান এজেন্টের হাতিয়ার হিসাবে চ্যালেঞ্জের সম্মুখীন করে। এই পেপারটি কন্ট্রাস্টিভ লোকাল লার্নিং নেটওয়ার্ক (CLLNs) - স্ব-সমন্বয়কারী অরৈখিক রেজিস্টর দ্বারা গঠিত একটি অ্যানালগ নেটওয়ার্ক - এর শক্তিশালী শেখার কাজে প্রয়োগ অনুসন্ধান করে। CLLNs প্রাকৃতিকভাবে কম শক্তি খরচ এবং ফিজিক্যাল ক্ষতির প্রতি দৃঢ়তা রাখে, কিন্তু পূর্বে শুধুমাত্র তত্ত্বাবধানকৃত শেখার জন্য ব্যবহৃত হয়েছিল। লেখকরা Q-learning কে অনুকৃত CLLNs-এ অভিযোজিত করে দুটি সহজ শক্তিশালী শেখার সমস্যা সমাধান করেছেন এবং RL টুলকিটে বিভিন্ন সরঞ্জাম বাস্তবায়নের জন্য প্রয়োজনীয় উপাদানগুলি স্পষ্ট করেছেন, যেখানে নীতি ফাংশন এবং মূল্য ফাংশন এই সিস্টেমে আরও স্বাভাবিক, যখন অভিজ্ঞতা পুনরাবৃত্তি বাফার কম স্বাভাবিক।
ডিজিটাল কম্পিউটার শক্তিশালী শেখার প্রয়োগে দুটি মৌলিক দুর্বলতার সম্মুখীন:
ত্রুটি সহনশীলতার অভাব: একটি ট্রানজিস্টরের ক্ষতি সম্পূর্ণ সিস্টেমের ব্যর্থতার কারণ হতে পারে, কারণ প্রতিটি উপাদানের কার্যকারিতা সিস্টেমে এর অবস্থানের সাথে অন্তর্নিহিতভাবে আবদ্ধ
উচ্চ শক্তি খরচ: ল্যাপটপ CPU প্রায় ৫০W খরচ করে, যা "নিখুঁত" অপারেশন বজায় রাখার উচ্চ শক্তি খরচ এবং প্রক্রিয়াকরণ ও সংরক্ষণের মধ্যে ডেটা ট্রান্সমিশন থেকে উদ্ভূত
শক্তি-সীমিত পরিবেশে স্বায়ত্তশাসিত এজেন্টের জন্য, কম শক্তি খরচ এবং ত্রুটি সহনশীলতা অত্যন্ত গুরুত্বপূর্ণ। জৈব সিস্টেম এই ক্ষেত্রে উৎকর্ষ প্রদর্শন করে:
মানব মস্তিষ্কের মোট শক্তি খরচ মাত্র ২০W, একই সাথে উপলব্ধি, জ্ঞান, মোটর নিয়ন্ত্রণ সহ একাধিক কাজ সম্পাদন করে
মস্তিষ্ক উল্লেখযোগ্য ক্ষতি সহ্য করতে পারে এবং কাজ চালিয়ে যেতে পারে, যার মধ্যে রয়েছে একক নিউরন ধ্বংস, আঘাতজনক মস্তিষ্কের আঘাত, এমনকি মস্তিষ্কের অঞ্চল অপসারণ
এই দৃঢ়তা বিতরণকৃত প্রক্রিয়াকরণ এবং উদীয়মান গণনা থেকে উদ্ভূত, রৈখিক গণনা থেকে নয়
কৃত্রিম অ-ডিজিটাল হার্ডওয়্যার RL কাজে প্রয়োগের উদাহরণ অত্যন্ত বিরল
অনেক ডিজিটাল-বর্ধিত বা অনুকৃত অ্যানালগ সিস্টেম RL-এ ব্যবহৃত হয়েছে, কিন্তং খুব কম হার্ডওয়্যার প্রদর্শন বিতরণকৃত সংরক্ষণ, গণনা এবং অ্যানালগ সংকেত একত্রিত করে
সম্প্রতি উন্নত CLLNs কম শক্তি খরচ এবং ত্রুটি সহনশীলতা বৈশিষ্ট্য রাখে, কিন্তু এখনও RL পরিস্থিতিতে যাচাই করা হয়নি
१. সিস্টেম অবস্থা St-এ, ক্রিয়া At নির্বাচন করা
२. পরিবেশ পুরস্কার Rt প্রদান করে, St+1-এ রূপান্তরিত করে
३. Lt গণনা করা
४. নেটওয়ার্ক প্রশিক্ষণ:
মুক্ত অবস্থা: St ইনপুট হিসাবে প্রয়োগ করা
ক্ল্যাম্পড অবস্থা: St ইনপুট হিসাবে প্রয়োগ করা, অনির্বাচিত ক্রিয়ার আউটপুট Oᵢ বজায় রাখা, নির্বাচিত ক্রিয়ার আউটপুট Lt-এ সেট করা
५. প্রতি ৫০ ধাপে ব্যাচ আপডেট করা
আদর্শ প্রয়োগ পরিস্থিতি:
१. অত্যন্ত শক্তি-সীমিত পরিবেশ:
মাইক্রো স্বায়ত্তশাসিত রোবট
দীর্ঘমেয়াদী নজরদারি ছাড়াই সেন্সর
পরিধানযোগ্য ডিভাইস
२. উচ্চ ত্রুটি সহনশীলতা প্রয়োজন:
চরম পরিবেশ (বিকিরণ, উচ্চ তাপমাত্রা)
সামরিক প্রয়োগ
মহাকাশ অন্বেষণ
३. এম্বেডেড বুদ্ধিমত্তা:
IoT সীমান্ত ডিভাইস
সহজ নিয়ন্ত্রণ কাজ
রিয়েল-টাইম প্রতিক্রিয়া প্রয়োজন
অপ্রযোজ্য পরিস্থিতি:
१. জটিল কাজে প্রচুর ইতিহাস স্মৃতি প্রয়োজন
२. উচ্চ-মাত্রিক অবস্থা/ক্রিয়া স্থান
३. নির্ভুল গণনা প্রয়োজন এমন কাজ
४. দ্রুত প্রোটোটাইপ উন্নয়ন (হার্ডওয়্যার উৎপাদন চক্র দীর্ঘ)
ডিজিটাল RL-এর সাথে পরিপূরকতা:
প্রতিস্থাপন নয় বরং পরিপূরক
ডিজিটাল RL জটিল কাজ এবং দ্রুত পুনরাবৃত্তির জন্য উপযুক্ত
ফিজিক্যাল RL নির্দিষ্ট সীমাবদ্ধতার অধীনে স্থাপনার জন্য উপযুক্ত
१. Dillavou et al. (2024): Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (CLLNs মূল পেপার)
२. Stern et al. (2021): Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (Coupled Learning তাত্ত্বিক কাঠামো)
३. Scellier & Bengio (2017): Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (তাত্ত্বিক ভিত্তি)
४. Mak et al. (2007, 2010): অ্যানালগ সার্কিট RL-এর প্রাথমিক কাজ
५. Stern et al. (2024): Training self-learning circuits for power-efficient solutions. APL Machine Learning. (কম শক্তি খরচ অপ্টিমাইজেশন)
সামগ্রিক মূল্যায়ন: এটি একটি যুগান্তকারী কাজ, যা প্রথমবারের মতো ফিজিক্যাল লার্নিং নেটওয়ার্ককে শক্তিশালী শেখায় প্রয়োগ করে, শক্তি-দক্ষ, ত্রুটি-সহনশীল স্বায়ত্তশাসিত এজেন্টের জন্য গুরুত্বপূর্ণ তাত্ত্বিক এবং সম্ভাব্য ব্যবহারিক মূল্য রয়েছে। যদিও বর্তমানে শুধুমাত্র সহজ কাজে যাচাই করা হয়েছে এবং সম্পূর্ণ স্বায়ত্তশাসিত ফিজিক্যাল লার্নিং সিস্টেম থেকে দূরত্ব রয়েছে, এটি শক্তি-দক্ষ, ত্রুটি-সহনশীল স্বায়ত্তশাসিত এজেন্টের জন্য নতুন গবেষণা দিক খুলে দেয়। পেপারের প্রধান মূল্য ফিজিক্যাল লার্নিং সিস্টেমের ডিজাইন স্থান, সীমাবদ্ধতা এবং অনন্য সুবিধা স্পষ্ট করা, ভবিষ্যত গবেষণার ভিত্তি স্থাপন করা। ভবিষ্যতে হার্ডওয়্যার বাস্তবায়ন, কাজের জটিলতা এবং পদ্ধতি উন্নতিতে গভীর অনুসন্ধান প্রয়োজন।