بينما تم دراسة مشكلة الاستكشاف في التعلم المعزز أحادي الوكيل على نطاق واسع، فإن مشكلة الاستكشاف في التعلم المعزز متعدد الوكلاء تفتقر إلى الاهتمام النسبي. لمعالجة هذه المشكلة، تقترح هذه الورقة دالة مكافأة قائمة على تحفيز الأقران، مستوحاة من البحث السابق في الفضول الجوهري والمكافآت القائمة على التأثير. تهدف مكافآت PIMAEX (اختصار لـ Peer-Incentivized Multi-Agent Exploration) إلى تحسين الاستكشاف في البيئات متعددة الوكلاء من خلال تشجيع الوكلاء على ممارسة التأثير على بعضهم البعض، مما يزيد من احتمالية مواجهة حالات جديدة. تم تقييم الجمع بين مكافآت PIMAEX وخوارزمية PIMAEX-Communication في بيئة Consume/Explore، وهي بيئة قابلة للملاحظة جزئياً ذات مكافآت خادعة، مصممة خصيصاً لتحدي معضلة الاستكشاف مقابل الاستغلال ومشاكل نسب الفضل. تظهر النتائج التجريبية أن الوكلاء الذين يستخدمون مكافآت PIMAEX يتفوقون على أولئك الذين لا يستخدمونها.
يركز البحث على البيئات متعددة الوكلاء القابلة للملاحظة جزئياً، حيث:
يتم تعريف مكافأة التأثير العامة للوكيل j على النحو التالي:
r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]
حيث:
يتم قياس التأثير السياسي باستخدام تباعد KL أو PMI:
PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))
يتم تعريف التأثير القيمي على النحو التالي:
VI_{j→i} = V^info_i - V^marginal_{j→i}
تجمع مكافآت PIMAEX بين المكافآت الخارجية والجوهرية:
r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}
خصائص البيئة:
المعاملات الرئيسية:
فضاء الملاحظة: متجه بـ 5 أبعاد
تحليل الحد الواحد:
تستند هذه الورقة بشكل أساسي إلى الأعمال المهمة التالية:
التقييم الإجمالي: هذا عمل مبتكر في مجال الاستكشاف في التعلم المعزز متعدد الوكلاء. على الرغم من وجود بعض القيود، فإن اقتراح الحد β والتحقق التجريبي يوفران مساهمة قيمة لهذا المجال. يتطلب العمل المستقبلي التحقق من قابلية تعميم الطريقة في بيئات أكثر تعقيداً.