2025-11-12T02:22:29.481811

PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network

Qiu, Ouano, Palafox et al.

While game-theoretic planning frameworks are effective at modeling multi-agent interactions, they require solving large optimization problems where the number of variables increases with the number of agents, resulting in long computation times that limit their use in large-scale, real-time systems. To address this issue, we propose 1) PSN Game: a learning-based, game-theoretic prediction and planning framework that reduces runtime by learning a Player Selection Network (PSN); and 2) a Goal Inference Network (GIN) that makes it possible to use the PSN in incomplete information games where agents' intentions are unknown. A PSN outputs a player selection mask that distinguishes influential players from less relevant ones, enabling the ego player to solve a smaller, masked game involving only selected players. By reducing the number of players in the game, and therefore reducing the number of variables in the corresponding optimization problem, PSN directly lowers computation time. The PSN Game framework is more flexible than existing player selection methods as it 1) relies solely on observations of players' past trajectories, without requiring full state, action, or other game-specific information; and 2) requires no online parameter tuning. Experiments in both simulated scenarios and human trajectory datasets demonstrate that PSNs outperform baseline selection methods in 1) prediction accuracy; and 2) planning safety. PSNs also generalize effectively to real-world scenarios in which agents' objectives are unknown without fine-tuning. By selecting only the most relevant players for decision-making, PSN Game offers a general mechanism for reducing planning complexity that can be seamlessly integrated into existing multi-agent planning frameworks.

academic

لعبة PSN: التنبؤ والتخطيط القائم على نظرية اللعبة عبر شبكة اختيار اللاعبين

المعلومات الأساسية

معرّف الورقة: 2505.00213
العنوان: PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network
المؤلفون: Tianyu Qiu, Eric Ouano, Fernando Palafox, Christian Ellis, David Fridovich-Keil (جامعة تكساس في أوستن)
التصنيف: cs.RO (الروبوتات)، math.OC (التحسين والتحكم)
تاريخ النشر: 2025 (نسخة arXiv)
رابط الورقة: https://arxiv.org/abs/2505.00213

الملخص

إطار التخطيط القائم على نظرية اللعبة فعّال في نمذجة التفاعلات متعددة الوكلاء، لكنه يتطلب حل مشاكل تحسين كبيرة، حيث يزداد عدد المتغيرات مع زيادة عدد الوكلاء، مما يؤدي إلى أوقات حسابية طويلة وتحديد استخدامه في الأنظمة الفعلية الكبيرة. لحل هذه المشكلة، تقترح هذه الورقة: 1) لعبة PSN - إطار عمل للتنبؤ والتخطيط القائم على نظرية اللعبة والمبني على التعلم، من خلال تعلم شبكة اختيار اللاعبين (PSN) لتقليل وقت التشغيل؛ 2) شبكة الاستدلال على الأهداف (GIN)، التي تمكّن PSN من الاستخدام في ألعاب المعلومات غير الكاملة حيث تكون نوايا الوكلاء غير معروفة. تُخرج PSN قناع اختيار اللاعبين، الذي يميز بين اللاعبين المؤثرين واللاعبين الأقل صلة، مما يمكّن الوكيل الذاتي من حل لعبة قناع أصغر تتضمن فقط اللاعبين المختارين. بتقليل عدد اللاعبين في اللعبة، وبالتالي تقليل عدد المتغيرات في مشكلة التحسين المقابلة، تقلل PSN بشكل مباشر الوقت الحسابي.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي تواجهها أطر التخطيط القائمة على نظرية اللعبة في الأنظمة متعددة الوكلاء هي أن التعقيد الحسابي ينمو بشكل مكعب مع عدد الوكلاء. كما هو موضح في الشكل 2، عند استخدام المحللات الحالية، يزداد وقت الحساب بـ O(N³)، حيث N هو عدد اللاعبين. هذا يجعل أساليب نظرية اللعبة غير عملية في الأنظمة الفعلية الكبيرة.

أهمية البحث

متطلبات الوقت الفعلي: التطبيقات مثل القيادة الذاتية وملاحة الروبوتات تتطلب إعادة تخطيط متكررة، والكفاءة الحسابية حاسمة
تحديات التوسع: في السيناريوهات الواقعية، يكون عدد الوكلاء عادة كبيراً جداً (مثل بيئات المرور الكثيفة)
الإلهام من السلوك البشري: تشير الأبحاث إلى أن السائقين البشريين في المرور الكثيف يعطون الأولوية بشكل غريزي للمركبات المهددة القريبة، بدلاً من مراقبة جميع المركبات

قيود الأساليب الموجودة

تعاني أساليب اختيار اللاعبين الموجودة من المشاكل التالية:

اعتماد معلومات قوي: تتطلب معلومات خاصة بالمحاكاة مثل المدخلات المتحكم بها ودوال التكلفة
تعقيد ضبط المعاملات: تتطلب تعديلات معاملات خاصة بالبيئة
تجميد استراتيجية الاختيار: تفتقر طرق الترتيب البسيطة (مثل المسافة والتدرج) إلى التكيف

المساهمات الأساسية

اقتراح شبكة اختيار اللاعبين غير الموجهة (PSN): التدريب باستخدام محلل ديناميكي للعبة قابل للتفاضل، يدعم الانتشار العكسي من خلال أقنعة الاختيار
بناء شبكة الاستدلال على الأهداف الموجهة (GIN): استنتاج أهداف الوكلاء من المسارات التاريخية، مما يجعل PSN قابلة للتطبيق في سيناريوهات النوايا غير المعروفة
تطوير إطار عمل الأفق الزمني المتناقص: استخدام PSN لتحديد استراتيجيات التوازن بكفاءة من خلال حل ألعاب مخفضة الحجم
التحقق التجريبي: التحقق على محاكاة متعددة الوكلاء ومجموعات بيانات المسارات البشرية الحقيقية، حيث تقلل لعبة PSN حجم اللعبة بنسبة 50%-75%، مما يحقق تسريعاً ملحوظاً

شرح الطريقة

تعريف المهمة

ضع في الاعتبار لعبة ناش ذات الأفق الزمني المحدود والوقت المنفصل المفتوح الحلقة لـ N وكيل، حيث يمتلك كل وكيل i الحالة $x_k^i \in \mathbb{R}^n$ والمدخل التحكم $u_k^i \in \mathbb{R}^m$ . يتبع انتقال حالة الوكيل معادلة الديناميكا: $x_{k+1}^i = f^i(x_k^i, u_k^i)$

الهدف من كل وكيل هو تقليل التكلفة المتراكمة: $J^i(x,u;\theta^i) = \sum_{k=0}^T c_k^i(x_k, u_k; \theta^i)$

معمارية النموذج

1. شبكة اختيار اللاعبين (PSN)

PSN هي شبكة عصبية تهدف إلى استنتاج القناع $M^i$ لتحقيق التوازن بين الأداء والندرة. توفر متغيرين:

PSN-Full: المدخل هو الحالة التاريخية الكاملة لجميع الوكلاء $x_{0:K}$
PSN-Partial: المدخل هو الملاحظة الجزئية $\{h(x_k)\}_{k=0}^K$ (مثل معلومات الموقع فقط)

بنية الشبكة:

استخدام مشفر GRU (بُعد مخفي 64) لمعالجة تسلسل K خطوة لكل وكيل
طبقة MLP: 256→128→32 (تفعيل ReLU، dropout=0.3)
طبقة إخراج Sigmoid تنتج قناع مستمر $m_j^i \in [0,1]$

2. لعبة ناش المقنعة

حدد قناع اختيار اللاعب $M^i = (m_j^i) \in \{0,1\}^{N-1}$ ، حيث: