2025-11-13T11:52:11.240496

Robust Multi-Agent Decision-Making in Finite-Population Games

Park, Bezerra

We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.

academic

परिमित-जनसंख्या खेलों में मजबूत बहु-एजेंट निर्णय-निर्माण

मूल जानकारी

पेपर ID: 2505.06200
शीर्षक: परिमित-जनसंख्या खेलों में मजबूत निर्णय-निर्माण
लेखक: Shinkyu Park, Lucas C. D. Bezerra (किंग अब्दुल्ला विज्ञान और प्रौद्योगिकी विश्वविद्यालय)
वर्गीकरण: cs.MA (बहु-एजेंट प्रणालियाँ), cs.SY (प्रणाली और नियंत्रण), eess.SY (प्रणाली और नियंत्रण)
प्रकाशन समय: arXiv प्रीप्रिंट, मई 2025 (v2: नवंबर 6, 2025)
पेपर लिंक: https://arxiv.org/abs/2505.06200v2

सारांश

यह पेपर परिमित जनसंख्या खेलों में एजेंट निर्णय मॉडल की मजबूती का अध्ययन करता है, विशेष रूप से Kullback-Leibler विचलन नियमितीकरण सीखने (KLD-RL) मॉडल पर ध्यान केंद्रित करता है। अध्ययन जांचता है कि मॉडल पैरामीटर विभिन्न शोर स्रोतों और मॉडलिंग त्रुटियों को कैसे प्रभावित करते हैं जो एजेंट निर्णय को प्रभावित करते हैं - ये कारक जनसंख्या खेलों के इंजीनियरिंग अनुप्रयोगों में व्यापक रूप से मौजूद हैं। विश्लेषण इस बात के बारे में अंतर्दृष्टि प्रदान करता है कि इन प्रभावों को कम करने के लिए इन पैरामीटरों को प्रभावी ढंग से कैसे समायोजित किया जाए। सैद्धांतिक परिणामों को संख्यात्मक उदाहरणों और सिमुलेशन अध्ययनों द्वारा समर्थित किया जाता है, जो विश्लेषण को सत्यापित करते हैं और पैरामीटर चयन की व्यावहारिक रणनीतियों को दर्शाते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

जनसंख्या खेल और विकासवादी गतिशीलता ढांचा निर्णय एजेंटों के बीच दोहराए गए रणनीति इंटरैक्शन को मॉडल करने और विश्लेषण करने के लिए एक मजबूत आधार प्रदान करते हैं। हालांकि, पारंपरिक ढांचा तीन महत्वपूर्ण मान्यताओं पर निर्भर करता है:

पेऑफ अवलोकन शोर-मुक्त हैं
रणनीति स्विचिंग में कोई देरी नहीं है
जनसंख्या का आकार अनंत है

ये मान्यताएं इंजीनियरिंग अनुप्रयोगों में अक्सर अवास्तविक होती हैं।

2. समस्या की महत्ता

वास्तविक इंजीनियरिंग अनुप्रयोगों में (जैसे बहु-रोबोट कार्य आवंटन), एजेंट का सामना करते हैं:

परिमित जनसंख्या आकार: सीमित संख्या में एजेंट (जैसे N=10-40)
शोरयुक्त पेऑफ अनुमान: पिछली कार्रवाइयों के आधार पर शोरयुक्त अवलोकन
समय विलंब: रणनीति अपडेट में विलंब

शोर और मॉडलिंग त्रुटियां एजेंट निर्णय में परिवर्तनशीलता बढ़ाती हैं, इष्टतम रणनीति चयन में अभिसरण में बाधा डालती हैं।

3. मौजूदा विधियों की सीमाएं

स्मिथ प्रोटोकॉल: व्यापक रूप से अध्ययन किया गया है, लेकिन शोरयुक्त वातावरण में सीमित मजबूती है
विचलित सर्वोत्तम प्रतिक्रिया मॉडल: मानता है कि शोर पेऑफ और जनसंख्या स्थिति से स्वतंत्र है, जो वास्तविकता के अनुरूप नहीं है
पैरामीटर ट्यूनिंग शोर प्रभाव को कम करने में कैसे मदद करती है, इसकी व्यवस्थित समझ की कमी

4. अनुसंधान प्रेरणा

यह पेपर KLD-RL मॉडल को समाधान के रूप में खोजता है क्योंकि यह मॉडल मजबूत निष्क्रियता (अधिशेष के साथ निष्क्रियता) प्रदर्शित करता है, जो एजेंटों को व्यवधान के तहत मजबूती बनाए रखने में सक्षम बनाता है। अनुसंधान का लक्ष्य यह समझना है कि संतुलन सीखने की क्षमता को बनाए रखते हुए पैरामीटर अनुकूलन के माध्यम से अनिश्चितता के प्रभाव को कैसे कम किया जाए।

मूल योगदान

सैद्धांतिक विश्लेषण ढांचा: परिमित जनसंख्या खेलों में KLD-RL मॉडल की मजबूती के लिए सैद्धांतिक विश्लेषण ढांचा स्थापित करता है, शोरयुक्त पेऑफ अनुमान और समय विलंब पर विचार करते हुए
पैरामीटर प्रभाव लक्षण वर्णन:
- प्रमेय 1 के माध्यम से परिमाणित करता है कि पैरामीटर λ (रणनीति संशोधन आवृत्ति) और η (नियमितीकरण पैरामीटर) निर्णय पर शोर के प्रभाव को कैसे प्रभावित करते हैं
- λ-η के बीच व्यापार-बंद संबंध को प्रकट करता है: λ को कम करने से शोर स्तर कम होता है लेकिन संवेदनशीलता बढ़ती है, η को बढ़ाकर मुआवजा देने की आवश्यकता है
सीमा शर्तें पहचान: प्रस्ताव 1 के माध्यम से साबित करता है कि जब η बहुत बड़ा हो तो जनसंख्या स्थिति विकास पेऑफ वेक्टर से अलग हो जाता है, जिससे प्रदर्शन में गिरावट आती है
व्यावहारिक पैरामीटर चयन रणनीति: सैद्धांतिक विश्लेषण के आधार पर पैरामीटर ट्यूनिंग के लिए मार्गदर्शन प्रदान करता है, और बहु-रोबोट संसाधन संग्रह परिदृश्य के माध्यम से सत्यापित करता है
प्रदर्शन लाभ सत्यापन: सिमुलेशन से पता चलता है कि KLD-RL स्मिथ प्रोटोकॉल की तुलना में शोरयुक्त वातावरण में अधिक मजबूत है

विधि विवरण

कार्य परिभाषा

N एजेंटों द्वारा भाग लिए गए परिमित जनसंख्या खेल पर विचार करें, जहां प्रत्येक एजेंट n उपलब्ध रणनीतियों में से चुनता है।

इनपुट:

जनसंख्या स्थिति $X^N(t) = (X^N_1(t), \cdots, X^N_n(t)) \in \mathcal{X}^N$ , जहां $X^N_i(t)$ रणनीति i चुनने वाले एजेंटों का अनुपात दर्शाता है
पेऑफ वेक्टर $p(t) = (p_1(t), \cdots, p_n(t)) \in \mathbb{R}^n$

आउटपुट:

एजेंट रणनीति चयन वितरण, दीर्घकालिक कार्य मांग को कम करता है $\lim\sup_{t\to\infty} \|q(t)\|_\infty$

बाधाएं:

परिमित जनसंख्या आकार N
शोरयुक्त पेऑफ अनुमान $\hat{p}(t)$
समय विलंब d > 0

मॉडल आर्किटेक्चर

1. कार्य आवंटन खेल मॉडल

गतिशील पेऑफ तंत्र आंतरिक स्थिति $q(t)$ और जनसंख्या स्थिति $X^N(t)$ द्वारा निर्धारित किया जाता है:

$\dot{q}_i(t) = -F_i(q_i(t), X^N(t)) + w_i$ $p_i(t) = G_i(q(t), X^N(t))$

जहां:

$q_i(t) \geq 0$ : कार्य i का शेष कार्य भार
$F_i$ : कार्य पूर्णता दर (निरंतर अवकलनीय)
$w_i > 0$ : नई कार्य आगमन दर
सरलीकृत मामला: $G_i(q(t), X^N(t)) = q_i(t)$

उदाहरण (बहु-रोबोट संसाधन संग्रह): $F_i(q_i, X_i) = R_i \frac{e^{\alpha_i q_i} - 1}{e^{\alpha_i q_i} + 1} X_i^{\beta_i}$ जहां $R_i, \alpha_i > 0$ , $0 < \beta_i < 1$ संतृप्ति प्रभाव और घटती रिटर्न को कैप्चर करता है।

2. KLD-RL रणनीति संशोधन प्रोटोकॉल

एजेंट पॉइसन प्रक्रिया (दर पैरामीटर λ) के आगमन समय पर रणनीति संशोधित करते हैं। KLD-RL प्रोटोकॉल को इस प्रकार परिभाषित किया गया है:

$\rho^{\text{KLD-RL}}_{ji}(p, X^N) = C^{\eta,\theta}_i(p) = \frac{\theta_i \exp(\eta^{-1}p_i)}{\sum_{l=1}^n \theta_l \exp(\eta^{-1}p_l)}$

समकक्ष: $C^{\eta,\theta}(p) = \arg\max_{z \in \mathcal{X}} (z^\top p - \eta D(z \| \theta))$

मुख्य पैरामीटर:

η > 0: नियमितीकरण पैरामीटर, व्यापार-बंद को नियंत्रित करता है
- η बड़ा: संदर्भ वितरण θ के करीब रहता है
- η छोटा: पेऑफ वेक्टर p के प्रति अधिक संवेदनशील
θ ∈ X: संदर्भ वितरण (इष्टतम संतुलन $x^*$ पर सेट करें)
λ > 0: रणनीति संशोधन आवृत्ति

3. बंद-लूप प्रणाली मॉडल

शोर और विलंब के साथ पूर्ण बंद-लूप मॉडल पर विचार करें:

$\dot{q}_i(t) = -F_i(q_i(t), \tilde{X}^N(t)) + w_i + \tilde{w}^N_i(t)$ $p_i(t) = q_i(t)$ $\dot{\tilde{X}}^N_i(t) = \lambda(C^{\eta,\theta}_i(p(t)) - \tilde{X}^N_i(t)) + \lambda(\epsilon^N_i(t) + \tilde{v}_i(t))$

जहां:

$\tilde{X}^N(t)$ : $X^N(t)$ का खंड-रैखिक प्रक्षेप
$\epsilon^N_i(t)$ : प्रक्षेप सन्निकटन त्रुटि
$\tilde{w}^N_i(t)$ : परिमित जनसंख्या के कारण मॉडलिंग त्रुटि
$\tilde{v}_i(t) = C^{\eta,\theta}_i(\hat{p}(t-d)) - C^{\eta,\theta}_i(p(t))$ : अनुमान और विलंब के कारण शोर

तकनीकी नवाचार बिंदु

1. निष्क्रियता-आधारित विश्लेषण ढांचा

δ-निष्क्रियता (अधिशेष के साथ): विकासवादी गतिशीलता मॉडल संतुष्ट करता है $S(p(t), x(t)) - S(p(t_0), x(t_0)) \leq \int_{t_0}^t (\lambda^{-1}\dot{p}^\top(\tau)\dot{x}(\tau) - \lambda\eta^* V^\top V) d\tau$

KLD-RL $\eta^* = \eta > 0$ को संतुष्ट करता है, जबकि स्मिथ प्रोटोकॉल केवल $\eta^* = 0$ को संतुष्ट करता है, यह KLD-RL की मजबूती की कुंजी है।

δ-विरोधी निष्क्रियता: कार्य आवंटन खेल संतुष्ट करता है $L(q(t), x(t)) - L(q(t_0), x(t_0)) \leq -\int_{t_0}^t \dot{p}^\top(\tau)\dot{x}(\tau) d\tau$

दोनों का अंतर्संबंध स्थिरता सुनिश्चित करता है।

2. शोर प्रभाव का मात्रात्मक लक्षण वर्णन (प्रमेय 1)

मुख्य असमानता स्थापित करता है: $\int_0^T \|C^{\eta,\theta}(p(t)) - \tilde{X}^N(t)\|_2^2 dt \leq \frac{1}{\lambda^2\eta}\left(\alpha_\lambda + \int_0^T |g_\lambda(\cdot)|dt\right)$

मुख्य अंतर्दृष्टि:

कारक $(\lambda^2\eta)^{-1}$ : λ या η को कम करने से शोर प्रभाव बढ़ता है
फ़ंक्शन $g_\lambda$ शोर शर्तें शामिल करता है, जिसकी ऊपरी सीमा λ के साथ रैखिक रूप से बढ़ती है
व्यापार-बंद: λ को कम करने से शोर आयाम कम होता है लेकिन संवेदनशीलता बढ़ती है

3. Lipschitz निरंतरता (प्रमेय 1 का परिणाम)

साबित करता है: $\|\tilde{v}(t)\|_2 \leq \eta^{-1}\|p(t) - \hat{p}(t-d)\|_2$

महत्व: η को बढ़ाने से अनुमान त्रुटि के प्रभाव को सीधे कम किया जाता है, बशर्ते $\|p(t) - \hat{p}(t-d)\|_2$ परिबद्ध हो।

4. बहुत बड़े η की सीमा प्रभाव (प्रस्ताव 1)

जब η बहुत बड़ा हो, $C^{\eta,\theta}(p(t)) \approx x^*$ , जनसंख्या स्थिति स्थिर वितरण के तहत: $\mathbb{E}(X^N(t)) = x^*$ $\sum_{i=1}^n \text{Var}(X^N_i(t)) = N^{-1}(1 - x^{*\top}x^*)$

समस्या: विकास $p(t)$ से स्वतंत्र है, रणनीति को स्वचालित रूप से समायोजित नहीं कर सकता, जिससे:

प्रारंभिक चरण में अधिक शूटिंग
बाद के चरण में विचरण वृद्धि (विशेष रूप से N छोटा होने पर)

प्रायोगिक सेटअप

डेटासेट/परिदृश्य

बहु-रोबोट संसाधन संग्रह परिदृश्य (उदाहरण 1):

रणनीति संख्या: n = 3 स्थानिक रूप से वितरित संसाधन बिंदु
खेल पैरामीटर: $R_1 = R_2 = R_3 = 3.44$ , $\alpha_1 = \alpha_2 = \alpha_3 = 0.036$ , $\beta_1 = \beta_2 = \beta_3 = 0.91$
कार्य आगमन दर: $w = (0.5, 1, 2)$
समय विलंब: d = 10
प्रारंभिक शर्तें: $q(0) = (100, 200, 300)$ , एजेंट यादृच्छिक प्रारंभिक रणनीति

जनसंख्या आकार

N = 10, 20, 40 एजेंट

पेऑफ अनुमान तंत्र

एजेंट पेऑफ अनुमान $\hat{p}^{(k)}(t)$ बनाए रखते हैं
पर्यवेक्षक (10% एजेंट): सीधे $p(t)$ तक पहुंच
अन्य एजेंट: सर्वसम्मति-आधारित अपडेट (समीकरण 15) $\hat{p}^{(k)}(t) = \frac{1}{|\mathcal{N}_k|}\sum_{l \in \mathcal{N}_k} \hat{p}^{(l)}(t)$
संचार ग्राफ: मजबूत रूप से जुड़ा Erdős-Rényi यादृच्छिक ग्राफ (कनेक्शन संभावना 0.2)
प्रारंभिक अनुमान: $\hat{p}^{(k)}(0) = (0, 0, 0)$

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: $\lim\sup_{t\to\infty} \|q(t)\|_\infty$ (दीर्घकालिक अधिकतम कार्य मांग)
सहायक मेट्रिक्स: प्रक्षेपवक्र विचरण, अभिसरण गति

तुलना विधियां

स्मिथ प्रोटोकॉल:

undefined