2025-11-13T11:52:11.240496

Robust Multi-Agent Decision-Making in Finite-Population Games

Park, Bezerra

We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.

academic

اتخاذ القرار القوي متعدد الوكلاء في الألعاب ذات السكان المحدودة

المعلومات الأساسية

معرّف الورقة: 2505.06200
العنوان: اتخاذ القرار القوي في الألعاب ذات السكان المحدودة
المؤلفون: Shinkyu Park, Lucas C. D. Bezerra (جامعة الملك عبدالله للعلوم والتكنولوجيا)
التصنيف: cs.MA (الأنظمة متعددة الوكلاء)، cs.SY (الأنظمة والتحكم)، eess.SY (الأنظمة والتحكم)
تاريخ النشر: ورقة arXiv، مايو 2025 (الإصدار 2: 6 نوفمبر 2025)
رابط الورقة: https://arxiv.org/abs/2505.06200v2

الملخص

تبحث هذه الورقة عن قوة نماذج اتخاذ القرار للوكلاء في الألعاب ذات السكان المحدودة، مع التركيز بشكل خاص على نموذج التعلم المنتظم بتباعد كولباك-لايبلر (KLD-RL). تفحص الدراسة كيفية تأثير معاملات النموذج على تأثير مصادر الضوضاء المختلفة وأخطاء النمذجة على قرارات الوكلاء - وهي عوامل منتشرة في التطبيقات الهندسية لألعاب السكان. يوفر التحليل رؤى حول كيفية ضبط هذه المعاملات بفعالية للتخفيف من هذه التأثيرات. يتم دعم النتائج النظرية من خلال أمثلة عددية ودراسات محاكاة، مما يتحقق من التحليل ويوضح الاستراتيجيات العملية لاختيار المعاملات.

خلفية البحث والدافع

1. المشكلة الأساسية

توفر ألعاب السكان وإطار العمل الديناميكي التطوري أساساً قوياً لنمذجة وتحليل التفاعلات الاستراتيجية المتكررة بين الوكلاء المتخذين للقرارات. ومع ذلك، يعتمد الإطار التقليدي على ثلاث افتراضات رئيسية:

ملاحظات المكاسب خالية من الضوضاء
تحويل الاستراتيجية بدون تأخير
حجم السكان لا نهائي

هذه الافتراضات غالباً ما تكون غير واقعية في التطبيقات الهندسية.

2. أهمية المشكلة

في التطبيقات الهندسية العملية (مثل تخصيص المهام متعدد الروبوتات)، يواجه الوكلاء:

حجم سكان محدود: عدد محدود من الوكلاء (مثل N=10-40)
تقدير مكاسب مشوب بالضوضاء: ملاحظات مشوبة بالضوضاء بناءً على الإجراءات السابقة
تأخيرات زمنية: تأخيرات في تحديث الاستراتيجية

تؤدي الضوضاء وأخطاء النمذجة إلى زيادة التباين في قرارات الوكلاء، مما يعيق التقارب نحو اختيار الاستراتيجية المثلى.

3. قيود الأساليب الموجودة

بروتوكول سميث: على الرغم من دراسته على نطاق واسع، إلا أن قوته محدودة في البيئات المشوبة بالضوضاء
نماذج الاستجابة المثلى المضطربة: تفترض أن الضوضاء مستقلة عن المكاسب وحالة السكان، وهو ما لا يتطابق مع الواقع
غياب الفهم المنهجي لكيفية تحسين المعاملات للتخفيف من تأثيرات الضوضاء

4. الدافع للبحث

تستكشف هذه الورقة نموذج KLD-RL كحل، لأن هذا النموذج يتمتع بخاصية الانفعالية القوية (passivity with surplus)، مما يسمح للوكلاء بالبقاء قويين في ظل الاضطرابات. الهدف من البحث هو فهم كيفية تقليل تأثير عدم اليقين من خلال تحسين المعاملات، مع الحفاظ على القدرة على التعلم المتوازن.

المساهمات الأساسية

إطار التحليل النظري: إنشاء إطار تحليل نظري قوي لقوة نموذج KLD-RL في الألعاب ذات السكان المحدودة، مع الأخذ في الاعتبار تقدير المكاسب المشوب بالضوضاء والتأخيرات الزمنية
توصيف تأثير المعاملات:
- تحديد كمي من خلال النظرية 1 لكيفية تأثير المعاملات λ (تكرار تعديل الاستراتيجية) و η (معامل التنظيم) على تأثير الضوضاء على القرارات
- الكشف عن العلاقة التبادلية بين λ و η: تقليل λ يقلل مستوى الضوضاء لكن يزيد الحساسية، مما يتطلب تعويضاً بزيادة η
تحديد الشروط الحدية: إثبات من خلال الاقتراح 1 أنه عندما تكون η كبيرة جداً، يتم فصل تطور حالة السكان عن متجه المكاسب، مما يؤدي إلى انخفاض الأداء
استراتيجيات عملية لاختيار المعاملات: توفير إرشادات تحسين المعاملات بناءً على التحليل النظري، والتحقق من خلال سيناريو جمع الموارد متعدد الروبوتات
التحقق من مزايا الأداء: تُظهر المحاكاة أن KLD-RL أكثر قوة من بروتوكول سميث في البيئات المشوبة بالضوضاء

شرح التفاصيل

تعريف المهمة

ضع في الاعتبار لعبة سكان محدودة يشارك فيها N وكيل، حيث يختار كل وكيل من بين n استراتيجية متاحة.

المدخلات:

حالة السكان $X^N(t) = (X^N_1(t), \cdots, X^N_n(t)) \in \mathcal{X}^N$ ، حيث $X^N_i(t)$ تمثل نسبة الوكلاء الذين يختارون الاستراتيجية i
متجه المكاسب $p(t) = (p_1(t), \cdots, p_n(t)) \in \mathbb{R}^n$

المخرجات:

توزيع اختيار استراتيجية الوكيل، مما يقلل احتياجات المهام طويلة الأجل $\lim\sup_{t\to\infty} \|q(t)\|_\infty$

القيود:

حجم سكان محدود N
تقدير مكاسب مشوب بالضوضاء $\hat{p}(t)$
تأخير زمني d > 0

بنية النموذج

1. نموذج لعبة تخصيص المهام

يتم تحديد آلية المكاسب الديناميكية بواسطة الحالة الداخلية $q(t)$ وحالة السكان $X^N(t)$ :

$\dot{q}_i(t) = -F_i(q_i(t), X^N(t)) + w_i$ $p_i(t) = G_i(q(t), X^N(t))$

حيث:

$q_i(t) \geq 0$ : كمية العمل المتبقية للمهمة i
$F_i$ : معدل إكمال المهمة (قابل للتفاضل بشكل مستمر)
$w_i > 0$ : معدل وصول المهام الجديدة
الحالة المبسطة: $G_i(q(t), X^N(t)) = q_i(t)$

مثال (جمع الموارد متعدد الروبوتات): $F_i(q_i, X_i) = R_i \frac{e^{\alpha_i q_i} - 1}{e^{\alpha_i q_i} + 1} X_i^{\beta_i}$ حيث $R_i, \alpha_i > 0$ ، و $0 < \beta_i < 1$ يلتقط تأثيرات التشبع والعوائد المتناقصة.

2. بروتوكول تعديل الاستراتيجية KLD-RL

يقوم الوكلاء بتعديل الاستراتيجيات في أوقات وصول عملية بواسون (معامل معدل λ). يتم تعريف بروتوكول KLD-RL على النحو التالي:

$\rho^{\text{KLD-RL}}_{ji}(p, X^N) = C^{\eta,\theta}_i(p) = \frac{\theta_i \exp(\eta^{-1}p_i)}{\sum_{l=1}^n \theta_l \exp(\eta^{-1}p_l)}$

ما يعادل: $C^{\eta,\theta}(p) = \arg\max_{z \in \mathcal{X}} (z^\top p - \eta D(z \| \theta))$

المعاملات الرئيسية:

η > 0: معامل التنظيم، يتحكم في المقايضة
- η كبيرة: البقاء قريباً من التوزيع المرجعي θ
- η صغيرة: أكثر حساسية لمتجه المكاسب p
θ ∈ X: التوزيع المرجعي (تعيين للتوازن الأمثل $x^*$ )
λ > 0: تكرار تعديل الاستراتيجية

3. نموذج النظام المغلق

نموذج النظام المغلق الكامل مع الضوضاء والتأخير:

$\dot{q}_i(t) = -F_i(q_i(t), \tilde{X}^N(t)) + w_i + \tilde{w}^N_i(t)$ $p_i(t) = q_i(t)$ $\dot{\tilde{X}}^N_i(t) = \lambda(C^{\eta,\theta}_i(p(t)) - \tilde{X}^N_i(t)) + \lambda(\epsilon^N_i(t) + \tilde{v}_i(t))$

حيث:

$\tilde{X}^N(t)$ : الاستيفاء الخطي متعدد الأجزاء لـ $X^N(t)$
$\epsilon^N_i(t)$ : خطأ تقريب الاستيفاء
$\tilde{w}^N_i(t)$ : خطأ النمذجة الناجم عن السكان المحدودين
$\tilde{v}_i(t) = C^{\eta,\theta}_i(\hat{p}(t-d)) - C^{\eta,\theta}_i(p(t))$ : الضوضاء الناجمة عن التقدير والتأخير

نقاط الابتكار التقنية

1. إطار التحليل القائم على الانفعالية

الانفعالية δ (مع الفائض):يرضي نموذج الديناميكا التطورية $S(p(t), x(t)) - S(p(t_0), x(t_0)) \leq \int_{t_0}^t (\lambda^{-1}\dot{p}^\top(\tau)\dot{x}(\tau) - \lambda\eta^* V^\top V) d\tau$

يرضي KLD-RL $\eta^* = \eta > 0$ ، بينما يرضي بروتوكول سميث فقط $\eta^* = 0$ ، وهذا هو المفتاح لقوة KLD-RL.

الانفعالية العكسية δ: لعبة تخصيص المهام ترضي $L(q(t), x(t)) - L(q(t_0), x(t_0)) \leq -\int_{t_0}^t \dot{p}^\top(\tau)\dot{x}(\tau) d\tau$

يضمن الربط بين الاثنين الاستقرار.

2. التوصيف الكمي لتأثير الضوضاء (النظرية 1)

إنشاء عدم المساواة الرئيسية: $\int_0^T \|C^{\eta,\theta}(p(t)) - \tilde{X}^N(t)\|_2^2 dt \leq \frac{1}{\lambda^2\eta}\left(\alpha_\lambda + \int_0^T |g_\lambda(\cdot)|dt\right)$

الرؤى الرئيسية:

العامل $(\lambda^2\eta)^{-1}$ : تقليل λ أو η يضخم تأثير الضوضاء
الدالة $g_\lambda$ تحتوي على حدود الضوضاء، والتي يزداد حدها الأعلى خطياً مع λ
المقايضة: تقليل λ يقلل سعة الضوضاء لكن يزيد الحساسية

3. الاستمرارية ليبشيتز (نتيجة النظرية 1)

إثبات: $\|\tilde{v}(t)\|_2 \leq \eta^{-1}\|p(t) - \hat{p}(t-d)\|_2$

الأهمية: زيادة η تقلل مباشرة من تأثير خطأ التقدير، بشرط أن يكون $\|p(t) - \hat{p}(t-d)\|_2$ محدوداً.

4. تأثيرات الحدود عندما تكون η كبيرة جداً (الاقتراح 1)

عندما تكون η كبيرة جداً، $C^{\eta,\theta}(p(t)) \approx x^*$ ، حالة السكان في التوزيع الثابت: $\mathbb{E}(X^N(t)) = x^*$ $\sum_{i=1}^n \text{Var}(X^N_i(t)) = N^{-1}(1 - x^{*\top}x^*)$

المشكلة: يتطور بشكل مستقل عن $p(t)$ ، غير قادر على التكيف وتعديل الاستراتيجية، مما يؤدي إلى:

الإفراط في الاستجابة في المراحل المبكرة
زيادة التباين في المراحل اللاحقة (خاصة عندما يكون N صغيراً)

إعداد التجربة

مجموعة البيانات/السيناريو

سيناريو جمع الموارد متعدد الروبوتات (المثال 1):

عدد الاستراتيجيات: n = 3 نقاط موارد موزعة مكانياً
معاملات اللعبة: $R_1 = R_2 = R_3 = 3.44$ ، $\alpha_1 = \alpha_2 = \alpha_3 = 0.036$ ، $\beta_1 = \beta_2 = \beta_3 = 0.91$
معدل وصول المهام: $w = (0.5, 1, 2)$
التأخير الزمني: d = 10
الشروط الأولية: $q(0) = (100, 200, 300)$ ، استراتيجية أولية عشوائية للوكيل

حجم السكان

N = 10, 20, 40 وكيل

آلية تقدير المكاسب

يحتفظ الوكلاء بتقدير المكاسب $\hat{p}^{(k)}(t)$
المراقبون (10% من الوكلاء): الوصول المباشر إلى $p(t)$
الوكلاء الآخرون: التحديث القائم على الإجماع (المعادلة 15) $\hat{p}^{(k)}(t) = \frac{1}{|\mathcal{N}_k|}\sum_{l \in \mathcal{N}_k} \hat{p}^{(l)}(t)$
الرسم البياني للاتصالات: رسم بياني عشوائي قوي الاتصال Erdős-Rényi (احتمالية الاتصال 0.2)
التقدير الأولي: $\hat{p}^{(k)}(0) = (0, 0, 0)$

مقاييس التقييم

المقياس الرئيسي: $\lim\sup_{t\to\infty} \|q(t)\|_\infty$ (الحد الأقصى لاحتياجات المهام طويلة الأجل)
المقاييس الإضافية: تباين المسار، سرعة التقارب

طرق المقارنة

بروتوكول سميث:

undefined