2025-11-12T02:22:29.481811

PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network

Qiu, Ouano, Palafox et al.

While game-theoretic planning frameworks are effective at modeling multi-agent interactions, they require solving large optimization problems where the number of variables increases with the number of agents, resulting in long computation times that limit their use in large-scale, real-time systems. To address this issue, we propose 1) PSN Game: a learning-based, game-theoretic prediction and planning framework that reduces runtime by learning a Player Selection Network (PSN); and 2) a Goal Inference Network (GIN) that makes it possible to use the PSN in incomplete information games where agents' intentions are unknown. A PSN outputs a player selection mask that distinguishes influential players from less relevant ones, enabling the ego player to solve a smaller, masked game involving only selected players. By reducing the number of players in the game, and therefore reducing the number of variables in the corresponding optimization problem, PSN directly lowers computation time. The PSN Game framework is more flexible than existing player selection methods as it 1) relies solely on observations of players' past trajectories, without requiring full state, action, or other game-specific information; and 2) requires no online parameter tuning. Experiments in both simulated scenarios and human trajectory datasets demonstrate that PSNs outperform baseline selection methods in 1) prediction accuracy; and 2) planning safety. PSNs also generalize effectively to real-world scenarios in which agents' objectives are unknown without fine-tuning. By selecting only the most relevant players for decision-making, PSN Game offers a general mechanism for reducing planning complexity that can be seamlessly integrated into existing multi-agent planning frameworks.

academic

PSN Game: एक प्लेयर सिलेक्शन नेटवर्क के माध्यम से गेम-सैद्धांतिक भविष्यवाणी और योजना

मूल जानकारी

पेपर ID: 2505.00213
शीर्षक: PSN Game: Game-theoretic Prediction and Planning via a Player Selection Network
लेखक: Tianyu Qiu, Eric Ouano, Fernando Palafox, Christian Ellis, David Fridovich-Keil (University of Texas at Austin)
वर्गीकरण: cs.RO (रोबोटिक्स), math.OC (अनुकूलन और नियंत्रण)
प्रकाशन समय: 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2505.00213

सारांश

गेम सिद्धांत योजना ढांचा बहु-एजेंट इंटरैक्शन को मॉडल करने में प्रभावी है, लेकिन इसे बड़ी अनुकूलन समस्याओं को हल करने की आवश्यकता है, जिसमें चर की संख्या एजेंटों की संख्या के साथ बढ़ती है, जिससे कम्प्यूटेशनल समय लंबा हो जाता है और बड़े पैमाने पर रीयल-टाइम सिस्टम में अनुप्रयोग सीमित हो जाता है। इस समस्या को हल करने के लिए, यह पेपर प्रस्तावित करता है: 1) PSN Game - एक सीखने-आधारित गेम-सैद्धांतिक भविष्यवाणी और योजना ढांचा जो प्लेयर सिलेक्शन नेटवर्क (PSN) सीखकर रनटाइम को कम करता है; 2) लक्ष्य अनुमान नेटवर्क (GIN), जो PSN को अधूरी जानकारी वाले खेलों में उपयोग करने में सक्षम बनाता है जहां एजेंट के इरादे अज्ञात हैं। PSN प्लेयर सिलेक्शन मास्क आउटपुट करता है जो प्रभावशाली खिलाड़ियों और कम प्रासंगिक खिलाड़ियों को अलग करता है, जिससे स्व-एजेंट केवल चयनित खिलाड़ियों से जुड़ी छोटी मास्क गेम को हल कर सकता है। गेम में खिलाड़ियों की संख्या को कम करके, और इसके परिणामस्वरूप संबंधित अनुकूलन समस्या में चर की संख्या को कम करके, PSN सीधे कम्प्यूटेशनल समय को कम करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बहु-एजेंट सिस्टम में गेम सिद्धांत योजना ढांचे का सामना करने वाली मूल समस्या यह है कि कम्प्यूटेशनल जटिलता एजेंटों की संख्या के साथ घन रूप से बढ़ती है। जैसा कि चित्र 2 में दिखाया गया है, मौजूदा सॉल्वर का उपयोग करते समय, कम्प्यूटेशनल समय O(N³) के अनुसार बढ़ता है, जहां N खिलाड़ियों की संख्या है। यह गेम सिद्धांत विधियों को बड़े पैमाने पर रीयल-टाइम सिस्टम में अव्यावहारिक बनाता है।

अनुसंधान का महत्व

रीयल-टाइम आवश्यकता: स्वायत्त वाहन, रोबोट नेविगेशन आदि अनुप्रयोगों को बार-बार पुनः योजना की आवश्यकता होती है, कम्प्यूटेशनल दक्षता महत्वपूर्ण है
स्केलेबिलिटी चुनौती: वास्तविक परिदृश्यों में एजेंटों की संख्या अक्सर बहुत बड़ी होती है (जैसे घनी ट्रैफिक वातावरण)
मानव व्यवहार से प्रेरणा: अनुसंधान से पता चलता है कि मानव ड्राइवर घनी ट्रैफिक में सहज रूप से पास के खतरनाक वाहनों को प्राथमिकता देते हैं, न कि सभी वाहनों की निगरानी करते हैं

मौजूदा विधियों की सीमाएं

मौजूदा प्लेयर सिलेक्शन विधियों में निम्नलिखित समस्याएं हैं:

मजबूत सूचना निर्भरता: नियंत्रण इनपुट, लागत कार्य आदि गेम-विशिष्ट जानकारी की आवश्यकता है
जटिल पैरामीटर ट्यूनिंग: पर्यावरण-विशिष्ट पैरामीटर समायोजन की आवश्यकता है
निर्धारित चयन रणनीति: सरल अनुमानी (जैसे दूरी, ढाल) पर आधारित रैंकिंग विधियों में अनुकूलन क्षमता की कमी है

मुख्य योगदान

अनुपर्यवेक्षित प्लेयर सिलेक्शन नेटवर्क (PSN) का प्रस्ताव: सूक्ष्म-भेद गतिशील गेम सॉल्वर का उपयोग करके प्रशिक्षण, सिलेक्शन मास्क के माध्यम से बैकप्रोपेगेशन का समर्थन करता है
पर्यवेक्षित लक्ष्य अनुमान नेटवर्क (GIN) का निर्माण: ऐतिहासिक प्रक्षेपवक्र से एजेंट लक्ष्यों का अनुमान लगाता है, PSN को अज्ञात इरादों वाले परिदृश्यों में लागू करने में सक्षम बनाता है
घटती समय-क्षितिज ढांचा विकसित करना: PSN का उपयोग करके घटाई गई गेम को हल करके कुशलतापूर्वक संतुलन रणनीति की पहचान करता है
प्रायोगिक सत्यापन: बहु-एजेंट सिमुलेशन और वास्तविक मानव प्रक्षेपवक्र डेटासेट पर सत्यापन, PSN Game प्रभावी रूप से गेम स्केल को 50%-75% तक कम करता है, महत्वपूर्ण त्वरण प्राप्त करता है

विधि विवरण

कार्य परिभाषा

N एजेंटों के साथ सीमित समय-क्षितिज असतत-समय ओपन-लूप नैश गेम पर विचार करें, जहां प्रत्येक एजेंट i के पास स्थिति $x_k^i \in \mathbb{R}^n$ और नियंत्रण इनपुट $u_k^i \in \mathbb{R}^m$ है। एजेंट की स्थिति संक्रमण गतिविज्ञान समीकरण का पालन करता है: $x_{k+1}^i = f^i(x_k^i, u_k^i)$

प्रत्येक एजेंट का उद्देश्य संचयी लागत को कम करना है: $J^i(x,u;\theta^i) = \sum_{k=0}^T c_k^i(x_k, u_k; \theta^i)$

मॉडल आर्किटेक्चर

1. प्लेयर सिलेक्शन नेटवर्क (PSN)

PSN एक तंत्रिका नेटवर्क है जिसका कार्य प्रदर्शन और विरलता को संतुलित करने के लिए मास्क $M^i$ का अनुमान लगाना है। दो वेरिएंट प्रदान किए गए हैं:

PSN-Full: सभी एजेंटों के पूर्ण ऐतिहासिक स्थिति $x_{0:K}$ को इनपुट के रूप में लेता है
PSN-Partial: आंशिक अवलोकन $\{h(x_k)\}_{k=0}^K$ को इनपुट के रूप में लेता है (जैसे केवल स्थिति जानकारी)

नेटवर्क संरचना:

GRU एनकोडर (छिपा हुआ आयाम 64) का उपयोग करके प्रत्येक एजेंट के K-स्टेप अनुक्रम को प्रोसेस करता है
MLP परतें: 256→128→32 (ReLU सक्रियण, dropout=0.3)
Sigmoid आउटपुट परत निरंतर मास्क $m_j^i \in [0,1]$ उत्पन्न करता है

2. मास्क नैश गेम

प्लेयर सिलेक्शन मास्क $M^i = (m_j^i) \in \{0,1\}^{N-1}$ को परिभाषित करें, जहां: