2025-11-13T11:52:11.240496

Robust Multi-Agent Decision-Making in Finite-Population Games

Park, Bezerra

We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.

academic

Robust Multi-Agent Decision-Making in Finite-Population Games

基本信息

论文ID: 2505.06200
标题: Robust Decision-Making in Finite-Population Games
作者: Shinkyu Park, Lucas C. D. Bezerra (King Abdullah University of Science and Technology)
分类: cs.MA (Multi-Agent Systems), cs.SY (Systems and Control), eess.SY (Systems and Control)
发表时间: arXiv preprint, 2025年5月 (v2: 2025年11月6日)
论文链接: https://arxiv.org/abs/2505.06200v2

摘要

本文研究有限种群博弈中智能体决策模型的鲁棒性，特别关注Kullback-Leibler散度正则化学习(KLD-RL)模型。研究考察了模型参数如何影响各种噪声源和建模误差对智能体决策的影响——这些因素在种群博弈的工程应用中普遍存在。分析提供了如何有效调整这些参数以减轻此类影响的见解。理论结果通过数值示例和仿真研究得到支持，验证了分析并说明了参数选择的实用策略。

研究背景与动机

1. 核心问题

种群博弈和演化动力学框架为建模和分析决策智能体之间的重复策略交互提供了强大基础。然而，传统框架依赖三个关键假设：

收益观测无噪声
策略切换无延迟
种群规模无限大

这些假设在工程应用中往往不现实。

2. 问题重要性

在实际工程应用（如多机器人任务分配）中，智能体面临：

有限种群规模：智能体数量有限（如N=10-40）
噪声收益估计：基于过去行动的有噪声观测
时间延迟：策略更新存在延迟

噪声和建模误差导致智能体决策的变异性增加，阻碍向最优策略选择收敛。

3. 现有方法局限性

Smith协议：虽被广泛研究，但在噪声环境下鲁棒性有限
扰动最优响应模型：假设噪声独立于收益和种群状态，与实际不符
缺乏对参数调优如何减轻噪声影响的系统性理解

4. 研究动机

本文探索KLD-RL模型作为解决方案，因为该模型具有强被动性（passivity with surplus），使智能体能在扰动下保持鲁棒性。研究目标是理解如何通过参数优化来减少不确定性影响，同时保持均衡学习能力。

核心贡献

理论分析框架：建立了KLD-RL模型在有限种群博弈中的鲁棒性理论分析框架，考虑噪声收益估计和时间延迟
参数影响表征：
- 通过定理1量化了参数λ（策略修订频率）和η（正则化参数）如何影响噪声对决策的影响
- 揭示了λ-η之间的权衡关系：减小λ降低噪声水平但增加敏感性，需通过增大η补偿
边界条件识别：通过命题1证明了当η过大时，种群状态演化与收益向量解耦，导致性能下降
实用参数选择策略：提供了基于理论分析的参数调优指导，并通过多机器人资源收集场景验证
性能优势验证：仿真表明KLD-RL在噪声环境下比Smith协议更鲁棒

方法详解

任务定义

考虑N个智能体参与的有限种群博弈，每个智能体从n个可用策略中选择。

输入：

种群状态 $X^N(t) = (X^N_1(t), \cdots, X^N_n(t)) \in \mathcal{X}^N$ ，其中 $X^N_i(t)$ 表示选择策略i的智能体比例
收益向量 $p(t) = (p_1(t), \cdots, p_n(t)) \in \mathbb{R}^n$

输出：

智能体策略选择分布，最小化长期任务需求 $\lim\sup_{t\to\infty} \|q(t)\|_\infty$

约束条件：

有限种群规模N
噪声收益估计 $\hat{p}(t)$
时间延迟d > 0

模型架构

1. 任务分配博弈模型

动态收益机制由内部状态 $q(t)$ 和种群状态 $X^N(t)$ 决定：

$\dot{q}_i(t) = -F_i(q_i(t), X^N(t)) + w_i$ $p_i(t) = G_i(q(t), X^N(t))$

其中：

$q_i(t) \geq 0$ ：任务i的剩余工作量
$F_i$ ：任务完成速率（连续可微）
$w_i > 0$ ：新任务到达速率
简化情况： $G_i(q(t), X^N(t)) = q_i(t)$

示例（多机器人资源收集）： $F_i(q_i, X_i) = R_i \frac{e^{\alpha_i q_i} - 1}{e^{\alpha_i q_i} + 1} X_i^{\beta_i}$ 其中 $R_i, \alpha_i > 0$ ， $0 < \beta_i < 1$ 捕捉饱和效应和收益递减。

2. KLD-RL策略修订协议

智能体以泊松过程（速率参数λ）的到达时间修订策略。KLD-RL协议定义为：

$\rho^{\text{KLD-RL}}_{ji}(p, X^N) = C^{\eta,\theta}_i(p) = \frac{\theta_i \exp(\eta^{-1}p_i)}{\sum_{l=1}^n \theta_l \exp(\eta^{-1}p_l)}$

等价于： $C^{\eta,\theta}(p) = \arg\max_{z \in \mathcal{X}} (z^\top p - \eta D(z \| \theta))$

关键参数：

η > 0：正则化参数，控制权衡
- η大：保持接近参考分布θ
- η小：对收益向量p更敏感
θ ∈ X：参考分布（设为最优均衡 $x^*$ ）
λ > 0：策略修订频率

3. 闭环系统模型

考虑噪声和延迟的完整闭环模型：

$\dot{q}_i(t) = -F_i(q_i(t), \tilde{X}^N(t)) + w_i + \tilde{w}^N_i(t)$ $p_i(t) = q_i(t)$ $\dot{\tilde{X}}^N_i(t) = \lambda(C^{\eta,\theta}_i(p(t)) - \tilde{X}^N_i(t)) + \lambda(\epsilon^N_i(t) + \tilde{v}_i(t))$

其中：

$\tilde{X}^N(t)$ ： $X^N(t)$ 的分段线性插值
$\epsilon^N_i(t)$ ：插值近似误差
$\tilde{w}^N_i(t)$ ：由有限种群导致的建模误差
$\tilde{v}_i(t) = C^{\eta,\theta}_i(\hat{p}(t-d)) - C^{\eta,\theta}_i(p(t))$ ：估计和延迟引起的噪声

技术创新点

1. 基于被动性的分析框架

δ-被动性（带盈余）：演化动力学模型满足 $S(p(t), x(t)) - S(p(t_0), x(t_0)) \leq \int_{t_0}^t (\lambda^{-1}\dot{p}^\top(\tau)\dot{x}(\tau) - \lambda\eta^* V^\top V) d\tau$

KLD-RL满足 $\eta^* = \eta > 0$ ，而Smith协议仅满足 $\eta^* = 0$ ，这是KLD-RL鲁棒性的关键。

δ-反被动性：任务分配博弈满足 $L(q(t), x(t)) - L(q(t_0), x(t_0)) \leq -\int_{t_0}^t \dot{p}^\top(\tau)\dot{x}(\tau) d\tau$

两者互联保证稳定性。

2. 噪声影响的定量表征（定理1）

建立了关键不等式： $\int_0^T \|C^{\eta,\theta}(p(t)) - \tilde{X}^N(t)\|_2^2 dt \leq \frac{1}{\lambda^2\eta}\left(\alpha_\lambda + \int_0^T |g_\lambda(\cdot)|dt\right)$

关键洞察：

因子 $(\lambda^2\eta)^{-1}$ ：减小λ或η放大噪声影响
函数 $g_\lambda$ 包含噪声项，其上界随λ线性增长
权衡：减小λ降低噪声幅度但增加敏感性

3. Lipschitz连续性（定理1的推论）

证明了： $\|\tilde{v}(t)\|_2 \leq \eta^{-1}\|p(t) - \hat{p}(t-d)\|_2$

意义：增大η直接减小估计误差的影响，前提是 $\|p(t) - \hat{p}(t-d)\|_2$ 有界。

4. 过大η的边界效应（命题1）

当η过大， $C^{\eta,\theta}(p(t)) \approx x^*$ ，种群状态在平稳分布下： $\mathbb{E}(X^N(t)) = x^*$ $\sum_{i=1}^n \text{Var}(X^N_i(t)) = N^{-1}(1 - x^{*\top}x^*)$

问题：演化独立于 $p(t)$ ，无法自适应调整策略，导致：

早期阶段过冲
后期阶段方差增大（特别是N小时）

实验设置

数据集/场景

多机器人资源收集场景（Example 1）：

策略数：n = 3个空间分布的资源点
博弈参数： $R_1 = R_2 = R_3 = 3.44$ ， $\alpha_1 = \alpha_2 = \alpha_3 = 0.036$ ， $\beta_1 = \beta_2 = \beta_3 = 0.91$
任务到达率： $w = (0.5, 1, 2)$
时间延迟：d = 10
初始条件： $q(0) = (100, 200, 300)$ ，智能体随机初始策略

种群规模

N = 10, 20, 40个智能体

收益估计机制

智能体维护收益估计 $\hat{p}^{(k)}(t)$
观察者（10%智能体）：直接访问 $p(t)$
其他智能体：基于共识的更新（式15） $\hat{p}^{(k)}(t) = \frac{1}{|\mathcal{N}_k|}\sum_{l \in \mathcal{N}_k} \hat{p}^{(l)}(t)$
通信图：强连通Erdős-Rényi随机图（连接概率0.2）
初始估计： $\hat{p}^{(k)}(0) = (0, 0, 0)$

评价指标

主要指标： $\lim\sup_{t\to\infty} \|q(t)\|_\infty$ （长期最大任务需求）
辅助指标：轨迹方差、收敛速度

对比方法

Smith协议：

undefined