We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.
- 论文ID: 2505.06200
- 标题: Robust Decision-Making in Finite-Population Games
- 作者: Shinkyu Park, Lucas C. D. Bezerra (King Abdullah University of Science and Technology)
- 分类: cs.MA (Multi-Agent Systems), cs.SY (Systems and Control), eess.SY (Systems and Control)
- 发表时间: arXiv preprint, 2025年5月 (v2: 2025年11月6日)
- 论文链接: https://arxiv.org/abs/2505.06200v2
本文研究有限种群博弈中智能体决策模型的鲁棒性,特别关注Kullback-Leibler散度正则化学习(KLD-RL)模型。研究考察了模型参数如何影响各种噪声源和建模误差对智能体决策的影响——这些因素在种群博弈的工程应用中普遍存在。分析提供了如何有效调整这些参数以减轻此类影响的见解。理论结果通过数值示例和仿真研究得到支持,验证了分析并说明了参数选择的实用策略。
种群博弈和演化动力学框架为建模和分析决策智能体之间的重复策略交互提供了强大基础。然而,传统框架依赖三个关键假设:
这些假设在工程应用中往往不现实。
在实际工程应用(如多机器人任务分配)中,智能体面临:
- 有限种群规模:智能体数量有限(如N=10-40)
- 噪声收益估计:基于过去行动的有噪声观测
- 时间延迟:策略更新存在延迟
噪声和建模误差导致智能体决策的变异性增加,阻碍向最优策略选择收敛。
- Smith协议:虽被广泛研究,但在噪声环境下鲁棒性有限
- 扰动最优响应模型:假设噪声独立于收益和种群状态,与实际不符
- 缺乏对参数调优如何减轻噪声影响的系统性理解
本文探索KLD-RL模型作为解决方案,因为该模型具有强被动性(passivity with surplus),使智能体能在扰动下保持鲁棒性。研究目标是理解如何通过参数优化来减少不确定性影响,同时保持均衡学习能力。
- 理论分析框架:建立了KLD-RL模型在有限种群博弈中的鲁棒性理论分析框架,考虑噪声收益估计和时间延迟
- 参数影响表征:
- 通过定理1量化了参数λ(策略修订频率)和η(正则化参数)如何影响噪声对决策的影响
- 揭示了λ-η之间的权衡关系:减小λ降低噪声水平但增加敏感性,需通过增大η补偿
- 边界条件识别:通过命题1证明了当η过大时,种群状态演化与收益向量解耦,导致性能下降
- 实用参数选择策略:提供了基于理论分析的参数调优指导,并通过多机器人资源收集场景验证
- 性能优势验证:仿真表明KLD-RL在噪声环境下比Smith协议更鲁棒
考虑N个智能体参与的有限种群博弈,每个智能体从n个可用策略中选择。
输入:
- 种群状态 XN(t)=(X1N(t),⋯,XnN(t))∈XN,其中XiN(t)表示选择策略i的智能体比例
- 收益向量 p(t)=(p1(t),⋯,pn(t))∈Rn
输出:
- 智能体策略选择分布,最小化长期任务需求 limsupt→∞∥q(t)∥∞
约束条件:
- 有限种群规模N
- 噪声收益估计p^(t)
- 时间延迟d > 0
动态收益机制由内部状态q(t)和种群状态XN(t)决定:
q˙i(t)=−Fi(qi(t),XN(t))+wipi(t)=Gi(q(t),XN(t))
其中:
- qi(t)≥0:任务i的剩余工作量
- Fi:任务完成速率(连续可微)
- wi>0:新任务到达速率
- 简化情况:Gi(q(t),XN(t))=qi(t)
示例(多机器人资源收集):
Fi(qi,Xi)=Rieαiqi+1eαiqi−1Xiβi
其中Ri,αi>0,0<βi<1捕捉饱和效应和收益递减。
智能体以泊松过程(速率参数λ)的到达时间修订策略。KLD-RL协议定义为:
ρjiKLD-RL(p,XN)=Ciη,θ(p)=∑l=1nθlexp(η−1pl)θiexp(η−1pi)
等价于:
Cη,θ(p)=argmaxz∈X(z⊤p−ηD(z∥θ))
关键参数:
- η > 0:正则化参数,控制权衡
- θ ∈ X:参考分布(设为最优均衡x∗)
- λ > 0:策略修订频率
考虑噪声和延迟的完整闭环模型:
q˙i(t)=−Fi(qi(t),X~N(t))+wi+w~iN(t)pi(t)=qi(t)X~˙iN(t)=λ(Ciη,θ(p(t))−X~iN(t))+λ(ϵiN(t)+v~i(t))
其中:
- X~N(t):XN(t)的分段线性插值
- ϵiN(t):插值近似误差
- w~iN(t):由有限种群导致的建模误差
- v~i(t)=Ciη,θ(p^(t−d))−Ciη,θ(p(t)):估计和延迟引起的噪声
δ-被动性(带盈余):演化动力学模型满足
S(p(t),x(t))−S(p(t0),x(t0))≤∫t0t(λ−1p˙⊤(τ)x˙(τ)−λη∗V⊤V)dτ
KLD-RL满足η∗=η>0,而Smith协议仅满足η∗=0,这是KLD-RL鲁棒性的关键。
δ-反被动性:任务分配博弈满足
L(q(t),x(t))−L(q(t0),x(t0))≤−∫t0tp˙⊤(τ)x˙(τ)dτ
两者互联保证稳定性。
建立了关键不等式:
∫0T∥Cη,θ(p(t))−X~N(t)∥22dt≤λ2η1(αλ+∫0T∣gλ(⋅)∣dt)
关键洞察:
- 因子(λ2η)−1:减小λ或η放大噪声影响
- 函数gλ包含噪声项,其上界随λ线性增长
- 权衡:减小λ降低噪声幅度但增加敏感性
证明了:
∥v~(t)∥2≤η−1∥p(t)−p^(t−d)∥2
意义:增大η直接减小估计误差的影响,前提是∥p(t)−p^(t−d)∥2有界。
当η过大,Cη,θ(p(t))≈x∗,种群状态在平稳分布下:
E(XN(t))=x∗∑i=1nVar(XiN(t))=N−1(1−x∗⊤x∗)
问题:演化独立于p(t),无法自适应调整策略,导致:
多机器人资源收集场景(Example 1):
- 策略数:n = 3个空间分布的资源点
- 博弈参数:R1=R2=R3=3.44,α1=α2=α3=0.036,β1=β2=β3=0.91
- 任务到达率:w=(0.5,1,2)
- 时间延迟:d = 10
- 初始条件:q(0)=(100,200,300),智能体随机初始策略
- 智能体维护收益估计p^(k)(t)
- 观察者(10%智能体):直接访问p(t)
- 其他智能体:基于共识的更新(式15)
p^(k)(t)=∣Nk∣1∑l∈Nkp^(l)(t)
- 通信图:强连通Erdős-Rényi随机图(连接概率0.2)
- 初始估计:p^(k)(0)=(0,0,0)
- 主要指标:limsupt→∞∥q(t)∥∞(长期最大任务需求)
- 辅助指标:轨迹方差、收敛速度
Smith协议:
undefined