2025-11-12T15:46:10.477787

PIMAEX: Multi-Agent Exploration through Peer Incentivization

KÃ¶lle, Tochtermann, SchÃ¶nberger et al.

While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.

academic

PIMAEX: Multi-Agent Exploration through Peer Incentivization

基本信息

论文ID: 2501.01266
标题: PIMAEX: Multi-Agent Exploration through Peer Incentivization
作者: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (LMU Munich)
分类: cs.MA (Multi-Agent Systems), cs.AI (Artificial Intelligence)
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.01266

摘要

虽然单智能体强化学习中的探索问题已得到广泛研究，但多智能体强化学习中的探索问题相对缺乏关注。为解决这一问题，本文提出了一种基于同伴激励的奖励函数，该函数受到内在好奇心和基于影响力奖励的先前研究启发。PIMAEX奖励（Peer-Incentivized Multi-Agent Exploration的缩写）旨在通过鼓励智能体相互施加影响来提高遇到新状态的可能性，从而改善多智能体环境中的探索。研究在Consume/Explore环境中评估了PIMAEX奖励与PIMAEX-Communication算法的结合效果，该环境是一个具有欺骗性奖励的部分可观察环境，专门设计用于挑战探索与利用困境以及信用分配问题。实验结果表明，使用PIMAEX奖励的智能体表现优于不使用的智能体。

研究背景与动机

核心问题

多智能体探索挑战：多智能体强化学习中的探索问题比单智能体更加困难，因为联合状态空间随智能体数量呈指数增长
协调需求：由于状态转移概率依赖于所有智能体的联合动作，单个智能体难以独立探索状态空间的重要部分
稀疏奖励与欺骗性奖励：在具有稀疏或欺骗性奖励的环境中，智能体容易陷入局部最优
信用分配问题：长序列动作与最终奖励之间的时间距离使得信用分配变得困难

研究重要性

多智能体系统在现实世界应用中日益重要（如自动驾驶、机器人协作等）
有效的多智能体探索是实现复杂协作任务的关键
现有方法主要关注协调与合作，而非专门解决探索问题

现有方法局限性

单智能体探索方法（如ε-贪婪策略）在多智能体环境中效果有限
基于内在好奇心的方法主要针对单智能体设计
影响力奖励主要用于改善协调，而非专门促进探索

核心贡献

提出PIMAEX奖励函数：一种新颖的同伴激励机制，结合内在好奇心和社会影响力来促进多智能体探索
构建广义社会影响力奖励框架：统一了先前工作中的影响力奖励概念，包含α、β、γ三个项的加权组合
设计PIMAEX-Communication算法：基于通信机制的多智能体训练算法，可与任何actor-critic算法结合
开发Consume/Explore环境：专门设计的测试环境，用于评估探索与利用困境以及信用分配问题
实证验证：在挑战性环境中证明了PIMAEX方法的有效性

方法详解

任务定义

研究针对部分可观察的多智能体环境，其中：

智能体需要在探索与利用之间找到平衡
环境具有稀疏或欺骗性奖励
需要智能体间的协调来有效探索状态空间
存在长期信用分配问题

模型架构

1. 广义社会影响力奖励函数

智能体j的广义影响力奖励定义为：

r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]

其中：

α项：基于策略影响力的直接奖励（类似Jaques et al., 2018）
β项：本文的核心创新，基于影响力与被影响智能体奖励的乘积
γ项：基于价值影响力的长期奖励（类似Wang et al., 2019）

2. 策略影响力和价值影响力

策略影响力使用KL散度或PMI测量：

PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))

价值影响力定义为：

VI_{j→i} = V^info_i - V^marginal_{j→i}

3. PIMAEX奖励

PIMAEX奖励结合外在和内在奖励：

r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}

技术创新点

β项的创新：首次提出基于影响力与被影响智能体奖励乘积的激励机制
反事实推理：通过反事实消息采样来计算边际策略和价值函数
通信机制：离散消息通道使智能体能够相互影响
内在好奇心集成：将RND（Random Network Distillation）与社会影响力结合

实验设置

Consume/Explore环境

环境特点：

4个智能体的部分可观察环境
每个智能体有私人生产线，每M步生产C个消耗品
三种动作：无动作、消耗、探索
探索动作可提高所有智能体的生产率，但无即时奖励

关键参数：

集体探索阈值E = 0.5（需要至少2个智能体同时探索才能保证成功）
达到下一产量级别需要c_max = 2000次成功探索
最大产量级别C_max = 5

观察空间：5维向量

私人信息：当前供应量、仓库空间、下次生产时间
全局信息：当前产量级别、成功探索次数

评价指标

联合回报：所有智能体的总回报
个体回报差异：反映劳动分工程度
状态空间覆盖：直接的探索度量
动作统计：消耗/探索动作的百分比和同时动作数量
产量级别：最终达到的产量级别和达到各级别所需步数

对比方法

Vanilla PPO：基础PPO智能体
PPO+RND：结合随机网络蒸馏的内在好奇心智能体
单项PIMAEX智能体：仅使用α、β或γ项的智能体

实现细节

基于DeepMind的acme库和JAX框架
训练步数：1e7
批大小：16，展开长度：128
学习率：1e-4，折扣因子：0.999
每个模型使用3个随机种子训练

实验结果

主要结果

总体表现：
- PIMAEX β智能体表现最佳，显著优于PPO+RND和vanilla PPO
- 所有PIMAEX变体都优于基线方法
- PIMAEX β显示出最低的标准差，表明策略更加稳定
探索行为：
- PIMAEX α智能体是最活跃的探索者
- PIMAEX β智能体表现出明显的任务分工：智能体1和3专注探索，智能体2和4主要消耗
- 所有方法都能实现成对协调探索（约占episode的1/3时间）
状态空间覆盖：
- 各方法在最终探索状态空间覆盖上差异较小
- PIMAEX α在episode内探索覆盖方面表现最佳
- PIMAEX β在智能体状态空间覆盖的标准差最小