We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.
- पेपर ID: 2505.06200
- शीर्षक: परिमित-जनसंख्या खेलों में मजबूत निर्णय-निर्माण
- लेखक: Shinkyu Park, Lucas C. D. Bezerra (किंग अब्दुल्ला विज्ञान और प्रौद्योगिकी विश्वविद्यालय)
- वर्गीकरण: cs.MA (बहु-एजेंट प्रणालियाँ), cs.SY (प्रणाली और नियंत्रण), eess.SY (प्रणाली और नियंत्रण)
- प्रकाशन समय: arXiv प्रीप्रिंट, मई 2025 (v2: नवंबर 6, 2025)
- पेपर लिंक: https://arxiv.org/abs/2505.06200v2
यह पेपर परिमित जनसंख्या खेलों में एजेंट निर्णय मॉडल की मजबूती का अध्ययन करता है, विशेष रूप से Kullback-Leibler विचलन नियमितीकरण सीखने (KLD-RL) मॉडल पर ध्यान केंद्रित करता है। अध्ययन जांचता है कि मॉडल पैरामीटर विभिन्न शोर स्रोतों और मॉडलिंग त्रुटियों को कैसे प्रभावित करते हैं जो एजेंट निर्णय को प्रभावित करते हैं - ये कारक जनसंख्या खेलों के इंजीनियरिंग अनुप्रयोगों में व्यापक रूप से मौजूद हैं। विश्लेषण इस बात के बारे में अंतर्दृष्टि प्रदान करता है कि इन प्रभावों को कम करने के लिए इन पैरामीटरों को प्रभावी ढंग से कैसे समायोजित किया जाए। सैद्धांतिक परिणामों को संख्यात्मक उदाहरणों और सिमुलेशन अध्ययनों द्वारा समर्थित किया जाता है, जो विश्लेषण को सत्यापित करते हैं और पैरामीटर चयन की व्यावहारिक रणनीतियों को दर्शाते हैं।
जनसंख्या खेल और विकासवादी गतिशीलता ढांचा निर्णय एजेंटों के बीच दोहराए गए रणनीति इंटरैक्शन को मॉडल करने और विश्लेषण करने के लिए एक मजबूत आधार प्रदान करते हैं। हालांकि, पारंपरिक ढांचा तीन महत्वपूर्ण मान्यताओं पर निर्भर करता है:
- पेऑफ अवलोकन शोर-मुक्त हैं
- रणनीति स्विचिंग में कोई देरी नहीं है
- जनसंख्या का आकार अनंत है
ये मान्यताएं इंजीनियरिंग अनुप्रयोगों में अक्सर अवास्तविक होती हैं।
वास्तविक इंजीनियरिंग अनुप्रयोगों में (जैसे बहु-रोबोट कार्य आवंटन), एजेंट का सामना करते हैं:
- परिमित जनसंख्या आकार: सीमित संख्या में एजेंट (जैसे N=10-40)
- शोरयुक्त पेऑफ अनुमान: पिछली कार्रवाइयों के आधार पर शोरयुक्त अवलोकन
- समय विलंब: रणनीति अपडेट में विलंब
शोर और मॉडलिंग त्रुटियां एजेंट निर्णय में परिवर्तनशीलता बढ़ाती हैं, इष्टतम रणनीति चयन में अभिसरण में बाधा डालती हैं।
- स्मिथ प्रोटोकॉल: व्यापक रूप से अध्ययन किया गया है, लेकिन शोरयुक्त वातावरण में सीमित मजबूती है
- विचलित सर्वोत्तम प्रतिक्रिया मॉडल: मानता है कि शोर पेऑफ और जनसंख्या स्थिति से स्वतंत्र है, जो वास्तविकता के अनुरूप नहीं है
- पैरामीटर ट्यूनिंग शोर प्रभाव को कम करने में कैसे मदद करती है, इसकी व्यवस्थित समझ की कमी
यह पेपर KLD-RL मॉडल को समाधान के रूप में खोजता है क्योंकि यह मॉडल मजबूत निष्क्रियता (अधिशेष के साथ निष्क्रियता) प्रदर्शित करता है, जो एजेंटों को व्यवधान के तहत मजबूती बनाए रखने में सक्षम बनाता है। अनुसंधान का लक्ष्य यह समझना है कि संतुलन सीखने की क्षमता को बनाए रखते हुए पैरामीटर अनुकूलन के माध्यम से अनिश्चितता के प्रभाव को कैसे कम किया जाए।
- सैद्धांतिक विश्लेषण ढांचा: परिमित जनसंख्या खेलों में KLD-RL मॉडल की मजबूती के लिए सैद्धांतिक विश्लेषण ढांचा स्थापित करता है, शोरयुक्त पेऑफ अनुमान और समय विलंब पर विचार करते हुए
- पैरामीटर प्रभाव लक्षण वर्णन:
- प्रमेय 1 के माध्यम से परिमाणित करता है कि पैरामीटर λ (रणनीति संशोधन आवृत्ति) और η (नियमितीकरण पैरामीटर) निर्णय पर शोर के प्रभाव को कैसे प्रभावित करते हैं
- λ-η के बीच व्यापार-बंद संबंध को प्रकट करता है: λ को कम करने से शोर स्तर कम होता है लेकिन संवेदनशीलता बढ़ती है, η को बढ़ाकर मुआवजा देने की आवश्यकता है
- सीमा शर्तें पहचान: प्रस्ताव 1 के माध्यम से साबित करता है कि जब η बहुत बड़ा हो तो जनसंख्या स्थिति विकास पेऑफ वेक्टर से अलग हो जाता है, जिससे प्रदर्शन में गिरावट आती है
- व्यावहारिक पैरामीटर चयन रणनीति: सैद्धांतिक विश्लेषण के आधार पर पैरामीटर ट्यूनिंग के लिए मार्गदर्शन प्रदान करता है, और बहु-रोबोट संसाधन संग्रह परिदृश्य के माध्यम से सत्यापित करता है
- प्रदर्शन लाभ सत्यापन: सिमुलेशन से पता चलता है कि KLD-RL स्मिथ प्रोटोकॉल की तुलना में शोरयुक्त वातावरण में अधिक मजबूत है
N एजेंटों द्वारा भाग लिए गए परिमित जनसंख्या खेल पर विचार करें, जहां प्रत्येक एजेंट n उपलब्ध रणनीतियों में से चुनता है।
इनपुट:
- जनसंख्या स्थिति XN(t)=(X1N(t),⋯,XnN(t))∈XN, जहां XiN(t) रणनीति i चुनने वाले एजेंटों का अनुपात दर्शाता है
- पेऑफ वेक्टर p(t)=(p1(t),⋯,pn(t))∈Rn
आउटपुट:
- एजेंट रणनीति चयन वितरण, दीर्घकालिक कार्य मांग को कम करता है limsupt→∞∥q(t)∥∞
बाधाएं:
- परिमित जनसंख्या आकार N
- शोरयुक्त पेऑफ अनुमान p^(t)
- समय विलंब d > 0
गतिशील पेऑफ तंत्र आंतरिक स्थिति q(t) और जनसंख्या स्थिति XN(t) द्वारा निर्धारित किया जाता है:
q˙i(t)=−Fi(qi(t),XN(t))+wipi(t)=Gi(q(t),XN(t))
जहां:
- qi(t)≥0: कार्य i का शेष कार्य भार
- Fi: कार्य पूर्णता दर (निरंतर अवकलनीय)
- wi>0: नई कार्य आगमन दर
- सरलीकृत मामला: Gi(q(t),XN(t))=qi(t)
उदाहरण (बहु-रोबोट संसाधन संग्रह):
Fi(qi,Xi)=Rieαiqi+1eαiqi−1Xiβi
जहां Ri,αi>0, 0<βi<1 संतृप्ति प्रभाव और घटती रिटर्न को कैप्चर करता है।
एजेंट पॉइसन प्रक्रिया (दर पैरामीटर λ) के आगमन समय पर रणनीति संशोधित करते हैं। KLD-RL प्रोटोकॉल को इस प्रकार परिभाषित किया गया है:
ρjiKLD-RL(p,XN)=Ciη,θ(p)=∑l=1nθlexp(η−1pl)θiexp(η−1pi)
समकक्ष:
Cη,θ(p)=argmaxz∈X(z⊤p−ηD(z∥θ))
मुख्य पैरामीटर:
- η > 0: नियमितीकरण पैरामीटर, व्यापार-बंद को नियंत्रित करता है
- η बड़ा: संदर्भ वितरण θ के करीब रहता है
- η छोटा: पेऑफ वेक्टर p के प्रति अधिक संवेदनशील
- θ ∈ X: संदर्भ वितरण (इष्टतम संतुलन x∗ पर सेट करें)
- λ > 0: रणनीति संशोधन आवृत्ति
शोर और विलंब के साथ पूर्ण बंद-लूप मॉडल पर विचार करें:
q˙i(t)=−Fi(qi(t),X~N(t))+wi+w~iN(t)pi(t)=qi(t)X~˙iN(t)=λ(Ciη,θ(p(t))−X~iN(t))+λ(ϵiN(t)+v~i(t))
जहां:
- X~N(t): XN(t) का खंड-रैखिक प्रक्षेप
- ϵiN(t): प्रक्षेप सन्निकटन त्रुटि
- w~iN(t): परिमित जनसंख्या के कारण मॉडलिंग त्रुटि
- v~i(t)=Ciη,θ(p^(t−d))−Ciη,θ(p(t)): अनुमान और विलंब के कारण शोर
δ-निष्क्रियता (अधिशेष के साथ): विकासवादी गतिशीलता मॉडल संतुष्ट करता है
S(p(t),x(t))−S(p(t0),x(t0))≤∫t0t(λ−1p˙⊤(τ)x˙(τ)−λη∗V⊤V)dτ
KLD-RL η∗=η>0 को संतुष्ट करता है, जबकि स्मिथ प्रोटोकॉल केवल η∗=0 को संतुष्ट करता है, यह KLD-RL की मजबूती की कुंजी है।
δ-विरोधी निष्क्रियता: कार्य आवंटन खेल संतुष्ट करता है
L(q(t),x(t))−L(q(t0),x(t0))≤−∫t0tp˙⊤(τ)x˙(τ)dτ
दोनों का अंतर्संबंध स्थिरता सुनिश्चित करता है।
मुख्य असमानता स्थापित करता है:
∫0T∥Cη,θ(p(t))−X~N(t)∥22dt≤λ2η1(αλ+∫0T∣gλ(⋅)∣dt)
मुख्य अंतर्दृष्टि:
- कारक (λ2η)−1: λ या η को कम करने से शोर प्रभाव बढ़ता है
- फ़ंक्शन gλ शोर शर्तें शामिल करता है, जिसकी ऊपरी सीमा λ के साथ रैखिक रूप से बढ़ती है
- व्यापार-बंद: λ को कम करने से शोर आयाम कम होता है लेकिन संवेदनशीलता बढ़ती है
साबित करता है:
∥v~(t)∥2≤η−1∥p(t)−p^(t−d)∥2
महत्व: η को बढ़ाने से अनुमान त्रुटि के प्रभाव को सीधे कम किया जाता है, बशर्ते ∥p(t)−p^(t−d)∥2 परिबद्ध हो।
जब η बहुत बड़ा हो, Cη,θ(p(t))≈x∗, जनसंख्या स्थिति स्थिर वितरण के तहत:
E(XN(t))=x∗∑i=1nVar(XiN(t))=N−1(1−x∗⊤x∗)
समस्या: विकास p(t) से स्वतंत्र है, रणनीति को स्वचालित रूप से समायोजित नहीं कर सकता, जिससे:
- प्रारंभिक चरण में अधिक शूटिंग
- बाद के चरण में विचरण वृद्धि (विशेष रूप से N छोटा होने पर)
बहु-रोबोट संसाधन संग्रह परिदृश्य (उदाहरण 1):
- रणनीति संख्या: n = 3 स्थानिक रूप से वितरित संसाधन बिंदु
- खेल पैरामीटर: R1=R2=R3=3.44, α1=α2=α3=0.036, β1=β2=β3=0.91
- कार्य आगमन दर: w=(0.5,1,2)
- समय विलंब: d = 10
- प्रारंभिक शर्तें: q(0)=(100,200,300), एजेंट यादृच्छिक प्रारंभिक रणनीति
- एजेंट पेऑफ अनुमान p^(k)(t) बनाए रखते हैं
- पर्यवेक्षक (10% एजेंट): सीधे p(t) तक पहुंच
- अन्य एजेंट: सर्वसम्मति-आधारित अपडेट (समीकरण 15)
p^(k)(t)=∣Nk∣1∑l∈Nkp^(l)(t)
- संचार ग्राफ: मजबूत रूप से जुड़ा Erdős-Rényi यादृच्छिक ग्राफ (कनेक्शन संभावना 0.2)
- प्रारंभिक अनुमान: p^(k)(0)=(0,0,0)
- मुख्य मेट्रिक: limsupt→∞∥q(t)∥∞ (दीर्घकालिक अधिकतम कार्य मांग)
- सहायक मेट्रिक्स: प्रक्षेपवक्र विचरण, अभिसरण गति
स्मिथ प्रोटोकॉल:
undefined