Digital computers are power-hungry and largely intolerant of damaged components, making them potentially difficult tools for energy-limited autonomous agents in uncertain environments. Recently developed Contrastive Local Learning Networks (CLLNs) - analog networks of self-adjusting nonlinear resistors - are inherently low-power and robust to physical damage, but were constructed to perform supervised learning. In this work we demonstrate success on two simple RL problems using Q-learning adapted for simulated CLLNs. Doing so makes explicit the components (beyond the network being trained) required to enact various tools in the RL toolbox, some of which (policy function and value function) are more natural in this system than others (replay buffer). We discuss assumptions such as the physical safety that digital hardware requires, CLLNs can forgo, and biological systems cannot rely on, and highlight secondary goals that are important in biology and trainable in CLLNs, but make little sense in digital computers.
معرّف الورقة : 2511.17789العنوان : Physical Reinforcement Learningالمؤلفون : Sam Dillavou (جامعة بنسلفانيا)، Shruti Mishra (جامعة كامبريدج)التصنيف : cs.LG (التعلم الآلي)، cond-mat.dis-nn (فيزياء المادة المكثفة - الأنظمة غير المنتظمة والشبكات العصبية)تاريخ النشر : 21 نوفمبر 2025 (arXiv v1)رابط الورقة : https://arxiv.org/abs/2511.17789 على الرغم من قوة أجهزة الكمبيوتر الرقمية، فإنها تعاني من استهلاك طاقة عالي وعدم تحمل الأضرار التي تلحق بالمكونات، مما يشكل تحديات في استخدامها كأدوات للوكلاء الذكيين المستقلين في البيئات المحدودة الطاقة والبيئات غير المؤكدة. تبحث هذه الورقة في تطبيق شبكات التعلم المحلي المتناقضة (CLLNs) - وهي شبكات تناظرية مكونة من مقاومات غير خطية ذاتية التنظيم - في مهام التعلم المعزز. تتمتع CLLNs بخصائص طبيعية للعمل منخفض الطاقة والمتانة ضد الأضرار الفيزيائية، لكن استخدامها السابق اقتصر على التعلم الموجه. يقوم المؤلفون بتكييف خوارزمية Q-learning مع CLLNs المحاكاة، وينجحون في حل مشكلتي تعلم معزز بسيطتين، ويوضحون المكونات المطلوبة لتنفيذ أدوات مختلفة من مجموعة أدوات التعلم المعزز، حيث تكون دوال السياسة ودوال القيمة أكثر طبيعية في هذا النظام، بينما تكون مخزن مقترحات التجارب أقل طبيعية.
يواجه الحاسوب الرقمي نقطتي ضعف أساسيتين في تطبيقات التعلم المعزز:
ضعف التسامح مع الأخطاء : قد يؤدي تعطل ترانزستور واحد إلى انهيار النظام بأكمله، لأن وظيفة كل مكون مرتبطة بشكل جوهري بموقعه في النظاماستهلاك طاقة عالي : يبلغ استهلاك معالج الكمبيوتر المحمول حوالي 50 واط، وينشأ هذا من التكلفة العالية للطاقة المطلوبة للحفاظ على التشغيل "المثالي" وكذلك نقل البيانات بين المعالجة والتخزينبالنسبة للوكلاء الذكيين المستقلين في البيئات المحدودة الطاقة، يعتبر العمل منخفض الطاقة والتسامح مع الأخطاء حاسمين. تظهر الأنظمة البيولوجية تفوقاً في هذه الجوانب:
يبلغ إجمالي استهلاك الدماغ البشري 20 واط فقط، بينما يقوم بتنفيذ مهام متعددة مثل الإدراك والإدراك والتحكم الحركي يمكن للدماغ أن يتحمل أضراراً كبيرة ويستمر في العمل، بما في ذلك تدمير الخلايا العصبية الفردية والإصابات الدماغية الرضحية، وحتى استئصال مناطق الدماغ ينشأ هذا التسامح من المعالجة الموزعة والحساب الناشئ بدلاً من الحساب الخطي تطبيقات الأجهزة غير الرقمية الاصطناعية في مهام التعلم المعزز نادرة جداً تم استخدام العديد من الأنظمة التناظرية المحسنة أو المحاكاة الرقمية للتعلم المعزز، لكن قليل منها يجمع بين التخزين الموزع والحساب والإشارات التناظرية على الرغم من أن CLLNs المطورة مؤخراً تتمتع بخصائص منخفضة الطاقة والتسامح مع الأخطاء، إلا أنها لم تُختبر بعد في سيناريوهات التعلم المعزز استكشاف إمكانيات تطبيق CLLNs في التعلم المعزز، وفتح آفاق جديدة للوكلاء الذكيين المستقلين الفعالة من حيث الطاقة والمتسامحة مع الأخطاء توضيح أي أدوات التعلم المعزز تكون طبيعية للشبكات ذاتية التعلم وأيها يتطلب أجهزة مبرمجة مسبقاً إضافية فهم التحديات الإضافية التي تنشأ عند وضع "دماغ" الوكيل خارج المجال الرقمي تطبيق أول لـ CLLNs على التعلم المعزز : نجح في تكييف خوارزمية Q-learning مع CLLNs المحاكاة، وتحقيق قدرات التعلم المعزز لشبكات التعلم الفيزيائيةالتحقق من صحة مهمتي تعلم معزز :عملية قرار ماركوفية (MDP) بأربع حالات وأربع إجراءات مهمة ملاحة بتسع حالات (شبكة 3×3) وأربع إجراءات في 10 تجارب، حققت 8-10 سياسات قريبة من المثلى توضيح الاعتبارات التصميمية لأنظمة التعلم الفيزيائية :تحديد مكونات التعلم المعزز التي يمكن تنفيذها بشكل طبيعي في CLLNs (دوال السياسة ودوال القيمة) الإشارة إلى المكونات التي تتطلب دعم أجهزة إضافية (مخزن مقترحات التجارب) الكشف عن القيود الخاصة بالأنظمة الفيزيائية (المعاملات المحدودة والبنية غير التغذية الأمامية) اقتراح المزايا الفريدة لأنظمة التعلم الفيزيائية :يمكن تحسين التشغيل منخفض الطاقة بشكل أكبر من خلال تعديل خوارزمية التعلم القدرة على الاسترجاع عبر الإنترنت بعد الضرر إمكانية تدريب الأهداف الثانوية (مثل استهلاك الطاقة والمتانة)، وهو ما لا معنى له في الأنظمة الرقمية المهمة 1: عملية قرار ماركوفية بأربع حالات وأربع إجراءات
فضاء الحالة : 4 حالات منفصلة S₁, S₂, S₃, S₄فضاء الإجراء : 4 إجراءات منفصلة A₀, A₁, A₂, A₃انتقال الحالة : انتقالات حتمية بسيطة، الإجراء i يؤدي إلى الحالة Siالمكافأة : مكافأة تعتمد على الحالة R(St, At) ~ N(0.1, 0.1)، مع إضافة ضوضاء N(0, 0.01)الهدف : تعلم السياسة المثلى لتعظيم المكافأة المتراكمةالمهمة 2: مهمة الملاحة بتسع حالات
فضاء الحالة : 9 مواقع على شبكة 3×3فضاء الإجراء : 4 حركات اتجاهية (أعلى، أسفل، يسار، يمين)هيكل المكافأة : موقع الهدف (الزاوية العلوية اليسرى) يعطي مكافأة كبيرة، والمواقع الأخرى لها تدرج مكافأة صغير (أصغر بـ 5000 مرة)الهدف : تعلم الملاحة إلى موقع المكافأة العاليةCLLNs عبارة عن شبكات مكونة من عناصر مقاومة ذاتية التنظيم، حيث تقترب الديناميكيات الفردية من الانحدار التدريجي لدالة الخسارة العامة.
بنية الشبكة :
تنقسم العقد إلى عقد إدخال (صفراء) وعقد إخراج (زرقاء) الإدخال: ترميز البيانات من خلال فرض قيم الجهد V₁, ..., V₄ الإخراج: قيم الجهد المتوازنة O₁, ..., O₄ كنتيجة حساب الشبكة تعمل الشبكة كدالة فيزيائية: F(V₁, V₂, V₃, V₄) ≡ (O₁, O₂, O₃, O₄) نموذج التوصيل :
كل عنصر موصل هو في الواقع ترانزستور MOSFET يعمل في منطقة ثلاثية الأقطاب (سلبية):
حيث:
S = 1 (ثابت) VT = 0.7 (جهد الحد الأدنى) VG,i: جهد البوابة القابل للتعديل (يعمل كوزن) V̄: متوسط جهد العقد على طرفي الحافة (ينفذ تحويل غير خطي) نطاق المعاملات: 1.0 < VG,i < 5.5 تتطلب عملية التعلم مقارنة حالتين مختلفتين:
الحالة الحرة (Free State) :يتم تطبيق الإدخال فقط V₁, ..., V₄ يتعرض كل مقاوم لانخفاض جهد ΔVᶠᵢ الإخراج هو Oᶠₙ الحالة المثبتة (Clamped State) :يتم تطبيق الإدخال والإخراج المتوقع (التسميات) انخفاض الجهد هو ΔVᶜᵢ يتم دفع الإخراج نحو التسمية: Oᶜₙ = Oᶠₙ(1-η) + ηLₙ (في هذه الورقة η=0.1) قاعدة التعلم المحلي :
يقوم النظام بالانحدار التدريجي على دالة متناقضة (الفرق في القوة المبددة بين الحالات المثبتة والحرة):
من خلال تطبيق قاعدة السلسلة، نحصل على قاعدة تعلم محلية تماماً:
δGi = α[(ΔVᶠᵢ)² - (ΔVᶜᵢ)²]
الخاصية الرئيسية : كل عنصر يحتاج فقط إلى قياس انخفاض الجهد الخاص به في الحالتين لتحديث نفسه، مما يحقق التدريب اللامركزي.
يتم ترميز الحالات S₁...S₄ كمتجهات جهد إدخال:
S₁: 1, 0, 1, 0 V S₂: 0, 1, 0, 1 V S₃: 1, 1, 0, 0 V S₄: 0, 0, 1, 1 V سياسة ε-جشعة: ε تتناقص خطياً من 0.05 إلى 0 اختيار الحد الأقصى من بين أربع مخرجات كإجراء (بالاحتمالية 1-ε) حساب درجة المستقبل المرجحة:
Lt = R(St, At) + γ[max(F(St+1)) - mean(F(St+1))]
حيث:
γ = 0.5 (عامل الخصم) طرح الحد الأوسط يحسن الأداء، مما يوفر مرونة إضافية للشبكات الصغيرة يكون النظام في الحالة St، واختيار الإجراء At يعيد البيئة المكافأة Rt والانتقال إلى St+1 حساب Lt تدريب الشبكة:
الحالة الحرة: تطبيق St كإدخال الحالة المثبتة: تطبيق St كإدخال، الإخراج للإجراءات غير المختارة يبقى Oᵢ، الإخراج للإجراء المختار يُعيّن إلى Lt تحديث دفعي كل 50 خطوة Q-learning المتكيف مع القيود الفيزيائية :التعامل مع مشكلة المعاملات والمخرجات المحدودة تصميم المكافآت وعوامل الخصم بحيث يمكن للنظام إنتاج المخرجات المطلوبة استراتيجية التدريب للشبكات غير التغذية الأمامية :في CLLNs، أي تغيير في الجهد أو المقاومة في أي مكان قد يؤثر على جميع المخرجات التدريب يحافظ على المخرجات غير المختارة ثابتة، مما يتجنب التداخل آلية الرجوع الزمني :بعد انتقال البيئة إلى St+1، يجب تخزين وإعادة تطبيق St للتحديث هذه خطوة "غير طبيعية" للنظام الفيزيائي التكيف المعماري :المهمة 1: استخدام شبكة متصلة دورية كما هو موضح في الشكل 2 المهمة 2: استخدام شبكة متصلة بكثافة بـ 44 حافة (بنية 1-4-4-6 لكن غير تغذية أمامية) المهمة 1: عملية قرار ماركوفية بأربع حالات
مصفوفة المكافآت: مأخوذة من N(0.1, 0.1)، ثابتة لجميع التجارب ضوضاء المكافأة: N(0, 0.01) السياسة المثلى: الدوران عبر جميع الحالات الأربع إجمالي عدد السياسات الممكنة: 4⁴ = 256 المهمة 2: ملاحة تسع حالات
عالم شبكة 3×3 موقع الهدف (الزاوية العلوية اليسرى) يحصل على مكافأة كبيرة المواقع الأخرى لها تدرج مكافأة (أصغر بـ 5000 مرة، غير مرئي في الخريطة الحرارية) إعادة تعيين عشوائية كل 5 خطوات بدون ضوضاء مكافأة المكافأة المتوسطة : المكافأة المتوسطة المحسوبة في فترات زمنية متباعدة لوغاريتمياً (الحد الأدنى 10 خطوات)جودة السياسة : المقارنة مع السياسة المثلى/الأسوأمعدل النجاح : نسبة التجارب التي حققت سياسة مثلى أو قريبة من المثلىتوزيع زيارات الحالة : نسبة الوقت الذي يقضيه الوكيل في كل حالة بعد التدريبالإعدادات العامة :
التهيئة: VG,i ~ N(1.5, 0.1) معدل التعلم α: لم يتم تحديده بشكل صريح، يتم تحديده ضمنياً من خلال العملية الفيزيائية التحديث الدفعي: كل 50 خطوة نطاق المعاملات: 1.0 < VG,i < 5.5 المهمة 1 :
خطوات التدريب: 100,000 عدد التجارب: 10 تناقص ε: 0.05 → 0 (خطي) عامل الخصم: γ = 0.5 معامل التثبيت: η = 0.1 المهمة 2 :
خطوات التدريب: 300,000 عدد التجارب: 10 تناقص ε: 0.1 → 0 (خطي) تكرار إعادة تعيين الحالة: كل 5 خطوات ترميز الإدخال: إعادة تحجيم إحداثيات الصف والعمود إلى 0, 0.5, 1 ، مع إضافة القيم المعكوسة وعقدتي ثابتتين المهمة 1: عملية قرار ماركوفية بأربع حالات
معدل النجاح : 8 من 10 تجارب حققت السياسة المثلى، والـ 2 الأخرى حققت سياسة قريبة من المثلىمنحنى التعلم (الشكل 3B):
جميع التجارب (الخطوط البنفسجية) تظهر نمو مكافأة مستقر المكافأة المتوسطة (الخط الأسود) تتقارب بسرعة إلى مستوى السياسة المثلى الأداء النهائية قريبة من المثلى النظرية (الخط الأسود المتقطع) تفوق واضح على السياسة الأسوأ (الخط المتقطع السفلي) المهمة 2: ملاحة تسع حالات
معدل النجاح : 8 من 10 تجارب وجدت واحدة من السياسات المثلى (توجد سياسات مثلى متعددة متكافئة)منحنى التعلم (الشكل 4B):
نمو مكافأة تدريجي لا يمكن الوصول الكامل إلى خط السياسة المثلى إلا في نهاية التدريب (ε→0) الأداء المتوسطة (الخط الأسود) تظهر عملية تعلم متسقة تحليل زيارات الحالة (الشكل 4C):
10 وكلاء مدربين في 10,000 خطوة اختبار (ε=0) يقضون معظم الوقت في مربع المكافأة العالية (الزاوية العلوية اليسرى) تظهر الخريطة الحرارية أن الوكيل تعلم بنجاح الملاحة إلى موقع الهدف استقرار التعلم :كلا المهمتين تظهران عملية تعلم مستقرة نتائج متسقة عبر تجارب متعددة مع تهيئة عشوائية لم يتم ملاحظة نسيان كارثي أو انهيار التدريب تأثير القيود الفيزيائية :تحديد المعاملات يتطلب تصميم حذر للمكافآت وعوامل الخصم طرح الحد الأوسط (في حساب Lt) يحسن الأداء بشكل كبير للشبكات الصغيرة التكيف مع البنية غير التغذية الأمامية :استراتيجية الحفاظ على المخرجات غير المختارة ثابتة فعالة هذا القيد له تأثير محدود على المهام البسيطة، لكن تأثيره على السياسات المعقدة يتطلب مزيد من البحث ضرورة الرجوع الزمني :يجب تخزين وإعادة تطبيق الحالة السابقة St هذا "غير طبيعي" للنظام الفيزيائي، وقد يتم تجنبه في المستقبل من خلال بناء حالات مختلطة Mak et al. (2007, 2010) : دوائر البرمجة الديناميكية CMOS الحالية، محاولات مبكرة للتعلم المعزز الصلبMikaitis et al. (2018) : اللدونة المشبكية المعدلة عصبياً على نظام SpiNNaker العصبي الشكليالقيود: معظمها أنظمة تناظرية محسنة رقمياً أو محاكاة رقمية، تفتقر إلى التخزين الموزع الحقيقي وحساب الإشارات التناظرية إطار Coupled Learning (Stern et al., 2021) : الأساس النظري لـ CLLNsEquilibrium Propagation (Scellier & Bengio, 2017) : الجسر بين نماذج الطاقة والانتشار العكسيContrastive Hebbian Learning (Movellan, 1991) : النظرية المبكرة للتعلم المتناقضDillavou et al. (2024) : أول عرض تجريبي لـ CLLNs، المستخدمة في التعلم الموجهStern et al. (2024) : تدريب CLLNs لتحقيق حلول منخفضة الطاقةDillavou et al. (2022) : إظهار التعلم المدفوع فيزيائياً اللامركزي والتسامح مع الأخطاءDillavou et al. (2025) : فهم واحتضان عدم الكمال في شبكات التعلم الفيزيائيةتسامح الدماغ البشري مع الأخطاء (Wang et al., 2014; Chua et al., 2007; Granovetter et al., 2022) التشغيل منخفض الطاقة (Balasubramanian, 2021) الأوليات الطبيعية (Mead, 1990) تطبيق أول للتعلم المعزز : أول عمل يحقق التعلم المعزز على CLLNsتماماً تناظري : لا يعتمد على المعالجة الرقمية، يتم التعلم بطريقة موزعة وتناظريةتحليل منهجي : يوضح الاعتبارات التصميمية والقيود الخاصة بأنظمة التعلم الفيزيائيةالتحقق من الجدوى : يمكن لـ CLLNs تنفيذ مهام التعلم المعزز بنجاح، وتحقيق أداء قريبة من المثلى على عمليات قرار ماركوفية بسيطة ومشاكل ملاحةتحديد المكونات الطبيعية :يمكن تنفيذ دوال السياسة ودوال القيمة بشكل طبيعي في شبكة واحدة طرق تخزين السجل مثل مخزن مقترحات التجارب تتطلب أجهزة تحكم كبيرة، مما يبتعد عن رؤية "الشبكات البرية" توضيح القيود الفيزيائية :المعاملات والمخرجات محدودة بنية غير تغذية أمامية تتطلب آلية رجوع زمني المزايا الفريدة :يمكن تحسين العمل منخفض الطاقة بشكل أكبر من خلال تعديل طريقة التعلم يمكن إعادة التدريب بعد الضرر يمكن تدريب الأهداف الثانوية (الطاقة والمتانة وسرعة النقل) تعقيد المهام محدود :تم التحقق فقط على مهام بسيطة جداً (4 حالات و 9 حالات) تأثير البنية غير التغذية الأمامية على السياسات المعقدة غير واضح لا يزال يتطلب تحكم خارجي :العشوائية في خوارزمية ε-جشعة ودالة الحد الأقصى تتطلب أجهزة خارجية آلية الرجوع الزمني تتطلب تخزين الحالة التحديث الدفعي يتطلب تنسيق قيود المحاكاة :تم تجنب مشاكل عدم الكمال والانحراف في المكونات في المحاكاة ستواجه التنفيذ الفيزيائي ضوضاء القياس وتباين المكونات استهلاك الطاقة لا يتعلق بالمقاومات والتيارات الفعلية (في المحاكاة) غياب ذاكرة السجل :يصعب تنفيذ آثار الأهلية أو مخزن مقترحات التجارب بشكل طبيعي يحد من نطاق خوارزميات التعلم المعزز التي يمكن تطبيقها قابلية التوسع غير معروفة :لم يتم اختبار الأداء على شبكات أكبر ومهام أكثر تعقيداً وضوح القدرة على توسيع فضاء الحالة والإجراء تجنب الرجوع الزمني :استكشاف بناء حالات مختلطة (تتضمن St+1 و L) تطوير تدفقات تعلم فيزيائية أكثر طبيعية بنية الاسترجاع عبر الإنترنت :تصميم بنى وخوارزميات تسمح بالاسترجاع الفوري بعد الضرر الاستفادة من قدرة CLLNs على إعادة التدريب تحسين الأهداف الثانوية :تعديل خوارزميات التعلم لتفضيل حلول منخفضة الطاقة تدريب الشبكات لتحسين متانة الأضرار الفيزيائية تحسين سرعة نقل الإدخال والإخراج التنفيذ الفيزيائي :عرض الأجهزة للتحقق من نتائج المحاكاة التعامل مع عدم الكمال والانحراف في المكونات قياس استهلاك الطاقة الفعلي والتسامح مع الأخطاء توسيع المهام المعقدة :فضاء حالة وإجراء أكبر مهام التحكم المستمر سيناريوهات متعددة الوكلاء خوارزميات التعلم :تدريب CLLNs لتنفيذ وظائف التحكم الضرورية (العشوائية ودالة الحد الأقصى) استكشاف طرق التعلم الفوقي عمل رائد :أول تطبيق لـ CLLNs على التعلم المعزز، يفتح اتجاهاً بحثياً جديداً للتعلم المعزز الفيزيائي يوفر نموذج بديل لـ التعلم المعزز الرقمي وضوح نظري :اشتقاق مفصل لقاعدة التعلم المحلي (المعادلات 1-4) شرح واضح لآلية التعلم المتناقض تعبير رياضي دقيق تحليل منهجي :يميز بوضوح بين المكونات الطبيعية والمكونات التي تتطلب دعم خارجي يناقش القيود والمزايا الفريدة للأنظمة الفيزيائية المقارنة مع الأنظمة الرقمية والبيولوجية لها رؤى قيمة تصميم تجريبي معقول :تقدم من مهام بسيطة إلى مهام أكثر تعقيداً قليلاً تجارب متعددة (10 تجارب) للتحقق من الاستقرار مقارنة مع السياسات المثلى والأسوأ نظرياً مناقشة صريحة للقيود :يعترف بالفروقات بين المحاكاة والتنفيذ الفيزيائي يوضح بصراحة الأجزاء التي تتطلب تحكم خارجي يناقش عدم اليقين حول قابلية التوسع منظور متعدد التخصصات :يجمع بين الفيزياء والتعلم الآلي وعلم الأعصاب يقترح أهداف ثانوية (الطاقة والمتانة والسرعة) ذات معنى في الأنظمة الفيزيائية/البيولوجية لكن ليس في الأنظمة الرقمية المهام بسيطة جداً :عملية قرار ماركوفية بـ 4 حالات وشبكة 3×3 مشاكل لعبة يفتقد التحقق من المهام الأكثر تعقيداً والواقعية قابلية التوسع هي سؤال رئيسي لا يزال يعتمد على التحكم الخارجي :خوارزمية ε-جشعة ودالة الحد الأقصى ودالة التحديث الدفعي تتطلب أجهزة خارجية بعيد عن "نظام تعلم فيزيائي مستقل تماماً" آلية الرجوع الزمني غير طبيعية نتائج محاكاة فقط :لا توجد تنفيذات أجهزة فيزيائية لا يمكن التحقق من المزايا الرئيسية (استهلاك الطاقة والتسامح مع الأخطاء) تأثير عدم الكمال في المكونات غير معروف قيود المنهجية :تم اختبار Q-learning فقط لم يتم استكشاف طرق أخرى مثل تدرجات السياسة و Actor-Critic لا توجد مقارنة مباشرة للأداء مع Q-learning الرقمي نقص التحليل المتعمق :لا توجد تجارب استئصالية لتحليل تأثير كل خيار تصميمي لم يتم دراسة حساسية المعاملات الفائقة تحليل ديناميكيات التعلم غير كافٍ مقاييس تقييم محدودة :التركيز الرئيسي على المكافأة المتوسطة نقص تحليل كفاءة العينة وسرعة التقارب لا توجد مقارنة لتكاليف الحساب (وقت المحاكاة) المساهمة في المجال :
فتح اتجاه جديد : إدخال قدرات التعلم المعزز إلى مجال الحوسبة الفيزيائية والحوسبة العصبية الشكليةقيمة نظرية : توضيح فضاء التصميم والقيود الخاصة بأنظمة التعلم الفيزيائيةإلهام : اقتراح إطار مقارنة بين أنظمة التعلم الرقمية والفيزيائية والبيولوجيةالقيمة العملية :
الإمكانات طويلة الأجل : توفير اتجاه للوكلاء الذكيين المستقلين الفعالة من حيث الطاقة والمتسامحة مع الأخطاءالقيود قصيرة الأجل : التحقق الحالي فقط على مشاكل لعبة، بعيد عن التطبيقات العمليةالسيناريوهات المحددة : قد تكون مناسبة للأجهزة الحدية والبيئات القاسية والأنظمة المدمجةإمكانية إعادة الإنتاج :
المزايا : وصف الطريقة مفصل، الاشتقاق الرياضي كاملالتحديات : تتطلب قدرات محاكاة دوائر محددة، عتبة عالية للتنفيذ الفيزيائيالكود : لم تذكر الورقة إطلاق الكودالسيناريوهات المثالية للتطبيق :
بيئات محدودة الطاقة بشدة :الروبوتات المستقلة الصغيرة أجهزة استشعار طويلة الأجل بدون إشراف الأجهزة القابلة للارتداء متطلبات عالية للتسامح مع الأخطاء :البيئات القاسية (إشعاع، درجات حرارة عالية) التطبيقات العسكرية استكشاف الفضاء الذكاء المدمج :أجهزة الحافة في إنترنت الأشياء مهام التحكم البسيطة متطلبات الاستجابة في الوقت الفعلي السيناريوهات غير المناسبة :
المهام المعقدة التي تتطلب ذاكرة سجل كبيرة فضاء حالة/إجراء عالي الأبعاد المهام التي تتطلب حسابات دقيقة التطوير السريع للنماذج الأولية (دورة التصنيع الطويلة) التكامل مع التعلم المعزز الرقمي :
ليس بديلاً بل تكملة التعلم المعزز الرقمي مناسب للمهام المعقدة والتطوير السريع التعلم المعزز الفيزيائي مناسب للقيود المحددة والنشر Dillavou et al. (2024) : Machine learning without a processor: Emergent learning in a nonlinear analog network. PNAS. (ورقة CLLNs الأصلية)Stern et al. (2021) : Supervised Learning in Physical Networks: From Machine Learning to Learning Machines. Physical Review X. (إطار Coupled Learning النظري)Scellier & Bengio (2017) : Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Frontiers in Computational Neuroscience. (الأساس النظري)Mak et al. (2007, 2010) : الأعمال المبكرة على التعلم المعزز في الدوائر التناظريةStern et al. (2024) : Training self-learning circuits for power-efficient solutions. APL Machine Learning. (تحسين منخفض الطاقة)التقييم الشامل : هذا عمل رائد يطبق شبكات التعلم الفيزيائية على التعلم المعزز للمرة الأولى، مع قيمة نظرية وعملية محتملة مهمة. على الرغم من أن التحقق الحالي يقتصر على مهام بسيطة، وأنه بعيد عن نظام تعلم فيزيائي مستقل تماماً، إلا أنه يفتح اتجاهاً بحثياً جديداً للوكلاء الذكيين المستقلين الفعالة من حيث الطاقة والمتسامحة مع الأخطاء. القيمة الرئيسية للورقة تكمن في توضيح فضاء التصميم والقيود والمزايا الفريدة لأنظمة التعلم الفيزيائية، مما يضع الأساس للبحث المستقبلي. يتطلب المزيد من العمل في التنفيذ الفيزيائي وتعقيد المهام وتحسين الطريقة.