إطار التخطيط القائم على نظرية اللعبة فعّال في نمذجة التفاعلات متعددة الوكلاء، لكنه يتطلب حل مشاكل تحسين كبيرة، حيث يزداد عدد المتغيرات مع زيادة عدد الوكلاء، مما يؤدي إلى أوقات حسابية طويلة وتحديد استخدامه في الأنظمة الفعلية الكبيرة. لحل هذه المشكلة، تقترح هذه الورقة: 1) لعبة PSN - إطار عمل للتنبؤ والتخطيط القائم على نظرية اللعبة والمبني على التعلم، من خلال تعلم شبكة اختيار اللاعبين (PSN) لتقليل وقت التشغيل؛ 2) شبكة الاستدلال على الأهداف (GIN)، التي تمكّن PSN من الاستخدام في ألعاب المعلومات غير الكاملة حيث تكون نوايا الوكلاء غير معروفة. تُخرج PSN قناع اختيار اللاعبين، الذي يميز بين اللاعبين المؤثرين واللاعبين الأقل صلة، مما يمكّن الوكيل الذاتي من حل لعبة قناع أصغر تتضمن فقط اللاعبين المختارين. بتقليل عدد اللاعبين في اللعبة، وبالتالي تقليل عدد المتغيرات في مشكلة التحسين المقابلة، تقلل PSN بشكل مباشر الوقت الحسابي.
المشكلة الأساسية التي تواجهها أطر التخطيط القائمة على نظرية اللعبة في الأنظمة متعددة الوكلاء هي أن التعقيد الحسابي ينمو بشكل مكعب مع عدد الوكلاء. كما هو موضح في الشكل 2، عند استخدام المحللات الحالية، يزداد وقت الحساب بـ O(N³)، حيث N هو عدد اللاعبين. هذا يجعل أساليب نظرية اللعبة غير عملية في الأنظمة الفعلية الكبيرة.
تعاني أساليب اختيار اللاعبين الموجودة من المشاكل التالية:
ضع في الاعتبار لعبة ناش ذات الأفق الزمني المحدود والوقت المنفصل المفتوح الحلقة لـ N وكيل، حيث يمتلك كل وكيل i الحالة والمدخل التحكم . يتبع انتقال حالة الوكيل معادلة الديناميكا:
الهدف من كل وكيل هو تقليل التكلفة المتراكمة:
PSN هي شبكة عصبية تهدف إلى استنتاج القناع لتحقيق التوازن بين الأداء والندرة. توفر متغيرين:
بنية الشبكة:
حدد قناع اختيار اللاعب ، حيث:
1, & \text{الوكيل j مضمن في اللعبة} \\ 0, & \text{الوكيل j مستبعد} \end{cases}$$ لعبة القناع $\Gamma^i(\tilde{x}_0, \tilde{f}; \theta, M^i)$ تحتفظ فقط بمعاملات الوكلاء والحالات الأكثر صلة بالوكيل i. #### 3. شبكة الاستدلال على الأهداف (GIN) GIN هي شبكة مدفوعة بالبيانات تستنتج أهداف الوكيل $p_g^i$ من ملاحظات المسار الجزئي: - المدخل: المسار التاريخي $\{h(x_k)\}_{k=0}^K$ - المخرج: موقع الهدف ثنائي الأبعاد $p_g^i$ - دالة الخسارة: متوسط الخطأ التربيعي $L_{Goal} = \frac{1}{|D| \cdot N}\sum_{d \in D}\sum_{i \in [N]} \|p_{g,ref}^i - G_\phi(x_{0:K})\|$ ### تصميم دالة الخسارة يستخدم تدريب PSN دالة خسارة مركبة: **مهمة التنبؤ**: $$L_{Pred} = L_{Binary} + \sigma_1 L_{Sparsity} + \sigma_2 L_{Similarity}$$ **مهمة التخطيط**: $$L_{Plan} = L_{Binary} + \sigma_3 L_{Sparsity} + \sigma_4 L_{Cost}$$ حيث: - $L_{Binary} = \frac{1}{N}\sum_{j=1}^N m_j^i(1-m_j^i)$: يعزز القناع نحو القيم الثنائية - $L_{Sparsity} = \frac{\|M^i\|_1}{N}$: يشجع اختيار عدد أقل من الوكلاء - $L_{Similarity}$: يشجع اختيار مجموعة فرعية من الوكلاء يمكنها استعادة المسار المرصود - $L_{Cost}$: يشجع اختيار الوكلاء المناسبين لتقليل تكلفة اللعبة ### تنفيذ الأفق الزمني المتناقص تعمل الخوارزمية في كل خطوة زمنية $k$: 1. استنتاج أهداف الوكيل من خلال GIN 2. الحصول على قناع تكيفي $M_k^i$ باستخدام PSN 3. حل لعبة القناع للحصول على استراتيجية OLNE 4. تنفيذ مدخل التحكم للخطوة الأولى وتحديث الحالة ## إعداد التجارب ### مجموعات البيانات **السيناريوهات المحاكاة**: - سيناريو 4 وكلاء: بيئة 5m×5m - سيناريو 10 وكلاء: بيئة 7m×7m - سيناريو 20 وكيل: بيئة 7m×7m (اختبار قابلية التوسع) **البيانات الحقيقية**: - مجموعة بيانات المشاة CITR: بيئة 7.5m×25.5m، 10 مشاة **إعدادات اللعبة**: - فضاء الحالة: 4 أبعاد (الموقع + السرعة) - الديناميكا: نموذج المتكامل المزدوج - دالة التكلفة: تتضمن تتبع الهدف وعقوبة السرعة وتكلفة التحكم وتجنب الاصطدام ### مؤشرات التقييم **مهمة التنبؤ**: - ADE (متوسط خطأ الإزاحة): متوسط خطأ الإزاحة - FDE (خطأ الإزاحة النهائي): خطأ الإزاحة النهائي - Consistency: اتساق الاختيار **مهمة التخطيط**: - Navigation Cost: تكلفة الملاحة - Collision Cost: تكلفة الاصطدام - Control Cost: تكلفة التحكم - Minimum Distance: الحد الأدنى للمسافة - Trajectory Smoothness: سلاسة المسار - Trajectory Length: طول المسار ### طرق المقارنة 1. **متغيرات PSN**: PSN-Threshold, PSN-Rank 2. **طرق المسافة**: Distance, kNNs 3. **طرق التدرج**: Gradient, Hessian, Cost Evolution 4. **طرق القيود**: BF (Barrier Function), CBF (Control Barrier Function) ## نتائج التجارب ### النتائج الرئيسية #### أداء التنبؤ (الجدول 2) في سيناريو 4 وكلاء: - PSN-Full ADE: 0.1834m (الأمثل) - PSN-Partial ADE: 0.1876m - أفضل خط أساس (Cost Evolution) ADE: 0.1861m في سيناريو 10 وكلاء: - PSN-Partial ADE: 0.2213m (الأمثل) - PSN-Full ADE: 0.2314m - أفضل خط أساس (kNNs) ADE: 0.2343m #### أداء التخطيط (الجدول 3) تتفوق PSN في مؤشرات السلامة: - **تكلفة الاصطدام**: تحقق الأمثل في سيناريوهات 4 و10 وكلاء - **الحد الأدنى للمسافة**: تحتل المراكز الثلاثة الأولى في كلا السيناريوهين - مقارنة باللعبة الكاملة، تدهور الأداء الآمن طفيف ### تكيف لعبة المعلومات غير الكاملة في سيناريو الأهداف غير المعروفة (الجداول 4-5)، PSN مع GIN: - مؤشرات التنبؤ تبقى في المراكز الأولى - مؤشرات التخطيط تحتل المراكز الثلاثة الأولى - مؤشرات السلامة لا تزال الأمثل ### التحقق من قابلية التوسع استخدام PSN المدربة على 10 وكلاء في سيناريو 20 وكيل: - PSN-Full ADE: 0.3108m (الأمثل) - PSN-Partial ADE: 0.3152m (الثاني) - يمكن التكيف مع سيناريوهات أكبر دون إعادة تدريب ### التعميم على البيانات الحقيقية على مجموعة بيانات المشاة CITR: - PSN-Partial ADE: 0.4931m (الأمثل) - PSN-Full ADE: 0.4966m - يتفوق حتى على أداء حل اللعبة الكاملة ## الأعمال ذات الصلة ### التخطيط القائم على نظرية اللعبة تركز الأساليب الموجودة على بيئات صغيرة الحجم (≤5 وكلاء)، باستخدام محللات بأسلوب نيوتن للحل التكراري. يزداد التعقيد بشكل مكعب مع عدد اللاعبين، مما يصبح عائقاً أساسياً للأنظمة الفعلية الكبيرة. ### طرق اختيار اللاعبين **طرق الحد الأدنى**: اختيار الوكلاء بناءً على حد أدنى محدد مسبقاً للمسافة، يتطلب ضبط معاملات كبير. **طرق الترتيب**: اختيار أفضل k وكيل مؤثر، لكن الاختيار بعدد ثابت قد يكون متطرفاً جداً أو متحفظاً جداً. **مزايا هذه الورقة**: 1. تتطلب فقط ملاحظات المسار التاريخي، بدون معلومات امتيازية 2. لا تتطلب ضبط معاملات عبر الإنترنت 3. اختيار تكيفي لعدد الوكلاء ## الخلاصة والمناقشة ### الاستنتاجات الرئيسية 1. تنجح لعبة PSN في تقليل حجم اللعبة بنسبة 50%-75%، مما يحقق تسريعاً حسابياً ملحوظاً 2. تتفوق على طرق الخط الأساس الموجودة في دقة التنبؤ وسلامة التخطيط 3. تتمتع بقدرة تعميم جيدة، يمكنها التكيف مع سيناريوهات أكبر حجماً والبيانات الحقيقية ### القيود 1. **تقريب القناع المستمر**: استخدام أقنعة مستمرة لدعم الانتشار العكسي، يتطلب تحويل عتبة في وقت التشغيل 2. **اعتماد بيانات التدريب**: يتطلب بيانات تدريب تم إنشاؤها من خلال حل اللعبة الكاملة 3. **افتراضات نموذج الديناميكا**: تركز التجارب بشكل أساسي على نموذج المتكامل المزدوج ### الاتجاهات المستقبلية 1. التوسع إلى نماذج ديناميكية أكثر تعقيداً 2. البحث عن استدلالات معاملات لعبة أخرى 3. استكشاف استراتيجيات التدريب من النهاية إلى النهاية ## التقييم المتعمق ### المزايا 1. **أهمية المشكلة**: حل الاختناق الحسابي الأساسي في التخطيط القائم على نظرية اللعبة 2. **ابتكار الطريقة**: أول دمج للتعلم العميق مع نظرية اللعبة لاختيار اللاعبين 3. **كفاية التجارب**: تغطي المحاكاة والبيانات الحقيقية، التحقق من فرضيات متعددة 4. **القيمة العملية**: توفر آلية عامة يمكن دمجها مباشرة في الأطر الموجودة ### أوجه القصور 1. **نقص التحليل النظري**: عدم توفير ضمانات نظرية للتقارب أو خطأ التقريب 2. **النفقات الحسابية**: على الرغم من تقليل وقت حل اللعبة، إضافة نفقات استدلال الشبكة 3. **قيود السيناريو**: التحقق الرئيسي على مهام الملاحة، تطبيقية الألعاب الأخرى غير معروفة ### التأثير 1. **المساهمة الأكاديمية**: توفير منظور حل جديد للأنظمة متعددة الوكلاء الكبيرة 2. **التطبيق العملي**: قيمة تطبيق مباشرة في مجالات القيادة الذاتية وأسراب الروبوتات 3. **قابلية الاستنساخ**: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات ### السيناريوهات المناسبة 1. **بيئات متعددة الوكلاء الكثيفة**: مثل المرور الحضري والملاحة بين الحشود 2. **الأنظمة ذات متطلبات الوقت الفعلي العالي**: تحتاج إلى إعادة تخطيط متكررة في بيئات ديناميكية 3. **سيناريوهات الملاحظة الجزئية**: ألعاب المعلومات غير الكاملة حيث تكون نوايا الوكلاء غير معروفة ## المراجع تستشهد الورقة بـ 35 مرجعاً ذا صلة، تغطي بشكل أساسي: - طرق التخطيط القائمة على نظرية اللعبة [8, 28, 9, 15] - نمذجة التفاعلات متعددة الوكلاء [17, 20, 21, 24] - طرق اختيار اللاعبين الاستكشافية [2, 27, 30] - آليات الانتباه واختيار الجيران [3, 6, 32] --- تقدم هذه الورقة مساهمة مهمة في حل التعقيد الحسابي للتخطيط القائم على نظرية اللعبة، حيث تحسن بشكل كبير الكفاءة الحسابية للأنظمة متعددة الوكلاء من خلال اختيار اللاعبين المدفوع بالتعلم، مما يمهد الطريق للتطبيقات الفعلية الكبيرة والفعلية في الوقت الحقيقي.