2025-11-12T15:46:10.477787

PIMAEX: Multi-Agent Exploration through Peer Incentivization

Kölle, Tochtermann, Schönberger et al.
While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.
academic

PIMAEX: Multi-Agent Exploration through Peer Incentivization

基本信息

  • 论文ID: 2501.01266
  • 标题: PIMAEX: Multi-Agent Exploration through Peer Incentivization
  • 作者: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (LMU Munich)
  • 分类: cs.MA (Multi-Agent Systems), cs.AI (Artificial Intelligence)
  • 发表时间: 2025年1月2日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.01266

摘要

虽然单智能体强化学习中的探索问题已得到广泛研究,但多智能体强化学习中的探索问题相对缺乏关注。为解决这一问题,本文提出了一种基于同伴激励的奖励函数,该函数受到内在好奇心和基于影响力奖励的先前研究启发。PIMAEX奖励(Peer-Incentivized Multi-Agent Exploration的缩写)旨在通过鼓励智能体相互施加影响来提高遇到新状态的可能性,从而改善多智能体环境中的探索。研究在Consume/Explore环境中评估了PIMAEX奖励与PIMAEX-Communication算法的结合效果,该环境是一个具有欺骗性奖励的部分可观察环境,专门设计用于挑战探索与利用困境以及信用分配问题。实验结果表明,使用PIMAEX奖励的智能体表现优于不使用的智能体。

研究背景与动机

核心问题

  1. 多智能体探索挑战:多智能体强化学习中的探索问题比单智能体更加困难,因为联合状态空间随智能体数量呈指数增长
  2. 协调需求:由于状态转移概率依赖于所有智能体的联合动作,单个智能体难以独立探索状态空间的重要部分
  3. 稀疏奖励与欺骗性奖励:在具有稀疏或欺骗性奖励的环境中,智能体容易陷入局部最优
  4. 信用分配问题:长序列动作与最终奖励之间的时间距离使得信用分配变得困难

研究重要性

  • 多智能体系统在现实世界应用中日益重要(如自动驾驶、机器人协作等)
  • 有效的多智能体探索是实现复杂协作任务的关键
  • 现有方法主要关注协调与合作,而非专门解决探索问题

现有方法局限性

  • 单智能体探索方法(如ε-贪婪策略)在多智能体环境中效果有限
  • 基于内在好奇心的方法主要针对单智能体设计
  • 影响力奖励主要用于改善协调,而非专门促进探索

核心贡献

  1. 提出PIMAEX奖励函数:一种新颖的同伴激励机制,结合内在好奇心和社会影响力来促进多智能体探索
  2. 构建广义社会影响力奖励框架:统一了先前工作中的影响力奖励概念,包含α、β、γ三个项的加权组合
  3. 设计PIMAEX-Communication算法:基于通信机制的多智能体训练算法,可与任何actor-critic算法结合
  4. 开发Consume/Explore环境:专门设计的测试环境,用于评估探索与利用困境以及信用分配问题
  5. 实证验证:在挑战性环境中证明了PIMAEX方法的有效性

方法详解

任务定义

研究针对部分可观察的多智能体环境,其中:

  • 智能体需要在探索与利用之间找到平衡
  • 环境具有稀疏或欺骗性奖励
  • 需要智能体间的协调来有效探索状态空间
  • 存在长期信用分配问题

模型架构

1. 广义社会影响力奖励函数

智能体j的广义影响力奖励定义为:

r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]

其中:

  • α项:基于策略影响力的直接奖励(类似Jaques et al., 2018)
  • β项:本文的核心创新,基于影响力与被影响智能体奖励的乘积
  • γ项:基于价值影响力的长期奖励(类似Wang et al., 2019)

2. 策略影响力和价值影响力

策略影响力使用KL散度或PMI测量:

PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))

价值影响力定义为:

VI_{j→i} = V^info_i - V^marginal_{j→i}

3. PIMAEX奖励

PIMAEX奖励结合外在和内在奖励:

r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}

技术创新点

  1. β项的创新:首次提出基于影响力与被影响智能体奖励乘积的激励机制
  2. 反事实推理:通过反事实消息采样来计算边际策略和价值函数
  3. 通信机制:离散消息通道使智能体能够相互影响
  4. 内在好奇心集成:将RND(Random Network Distillation)与社会影响力结合

实验设置

Consume/Explore环境

环境特点

  • 4个智能体的部分可观察环境
  • 每个智能体有私人生产线,每M步生产C个消耗品
  • 三种动作:无动作、消耗、探索
  • 探索动作可提高所有智能体的生产率,但无即时奖励

关键参数

  • 集体探索阈值E = 0.5(需要至少2个智能体同时探索才能保证成功)
  • 达到下一产量级别需要c_max = 2000次成功探索
  • 最大产量级别C_max = 5

观察空间:5维向量

  • 私人信息:当前供应量、仓库空间、下次生产时间
  • 全局信息:当前产量级别、成功探索次数

评价指标

  1. 联合回报:所有智能体的总回报
  2. 个体回报差异:反映劳动分工程度
  3. 状态空间覆盖:直接的探索度量
  4. 动作统计:消耗/探索动作的百分比和同时动作数量
  5. 产量级别:最终达到的产量级别和达到各级别所需步数

对比方法

  1. Vanilla PPO:基础PPO智能体
  2. PPO+RND:结合随机网络蒸馏的内在好奇心智能体
  3. 单项PIMAEX智能体:仅使用α、β或γ项的智能体

实现细节

  • 基于DeepMind的acme库和JAX框架
  • 训练步数:1e7
  • 批大小:16,展开长度:128
  • 学习率:1e-4,折扣因子:0.999
  • 每个模型使用3个随机种子训练

实验结果

主要结果

  1. 总体表现
    • PIMAEX β智能体表现最佳,显著优于PPO+RND和vanilla PPO
    • 所有PIMAEX变体都优于基线方法
    • PIMAEX β显示出最低的标准差,表明策略更加稳定
  2. 探索行为
    • PIMAEX α智能体是最活跃的探索者
    • PIMAEX β智能体表现出明显的任务分工:智能体1和3专注探索,智能体2和4主要消耗
    • 所有方法都能实现成对协调探索(约占episode的1/3时间)
  3. 状态空间覆盖
    • 各方法在最终探索状态空间覆盖上差异较小
    • PIMAEX α在episode内探索覆盖方面表现最佳
    • PIMAEX β在智能体状态空间覆盖的标准差最小

消融实验

单项分析

  • α项(纯影响力奖励):促进最多的探索行为
  • β项(影响力×奖励):实现最高总回报和最稳定的策略
  • γ项(价值影响力):性能介于α和β之间

关键发现

  1. 意外洞察:参与其他智能体的内在回报并不一定导致更多探索
  2. 任务分工:PIMAEX β自然形成了探索者和利用者的分工
  3. 稳定性:β项显著提高了策略的稳定性(低标准差)
  4. 协调模式:智能体主要以成对方式协调,而非更大团队

相关工作

内在动机与好奇心

  • 基于计数的探索:通过状态访问计数衡量新颖性
  • 预测误差方法:基于学习模型的预测误差给予奖励
  • 随机网络蒸馏(RND):使用随机网络避免"噪声电视问题"

多智能体协调与合作

  • CTDE方法:集中训练分散执行的框架
  • 通信机制:智能体间信息交换提升协调
  • 反事实推理:确定个体智能体贡献

社会影响力

  • Jaques et al. (2018):基于反事实推理的影响力奖励
  • Wang et al. (2019):EITI和EDTI方法,引入互动价值概念

结论与讨论

主要结论

  1. PIMAEX有效性:PIMAEX奖励显著改善了多智能体探索性能
  2. β项创新:新提出的β项实现了最高的总回报和最稳定的策略
  3. 自然分工:PIMAEX β促进了智能体间的自然任务分工
  4. 探索悖论:个体内在好奇心结合影响力奖励可能比共享内在回报更有效

局限性

  1. 网络架构限制:仅使用相对简单的前馈网络,未测试更复杂架构
  2. 算法局限:仅在PPO上评估,未测试其他actor-critic方法
  3. 训练时长:相对较短的训练时间可能影响结论
  4. 环境复杂性:仅在单一任务的小状态动作空间中评估
  5. 可扩展性:未测试更多智能体数量下的性能

未来方向

  1. 更复杂架构:测试循环神经网络等更强大的模型
  2. 多样化算法:评估与IMPALA等其他算法的结合
  3. 复杂环境:在更大状态空间和更复杂任务中验证
  4. 可扩展性研究:测试更多智能体场景下的表现
  5. 理论分析:提供更深入的理论基础和收敛性分析

深度评价

优点

  1. 问题重要性:解决了多智能体强化学习中被忽视但重要的探索问题
  2. 方法创新:β项的提出具有原创性,统一框架整合了先前工作
  3. 实验设计:Consume/Explore环境设计巧妙,有效测试了目标问题
  4. 实证充分:多角度评估指标提供了全面的性能分析
  5. 意外发现:关于个体好奇心vs共享回报的洞察具有启发性

不足

  1. 理论基础:缺乏对为什么β项有效的理论解释
  2. 环境局限:仅在单一自设计环境中验证,泛化性存疑
  3. 计算开销:反事实推理增加了显著的计算成本,但未充分讨论
  4. 超参数敏感性:未深入分析对α、β、γ权重的敏感性
  5. 长期行为:未分析更长训练后的行为变化

影响力

  1. 学术贡献:为多智能体探索提供了新的研究方向
  2. 实用价值:方法相对易于实现,可与现有算法结合
  3. 可复现性:提供了详细的实现细节和超参数设置
  4. 启发性:β项的设计思路可能启发其他奖励设计

适用场景

  1. 协作探索任务:需要多智能体协调探索的环境
  2. 稀疏奖励环境:具有延迟或欺骗性奖励的任务
  3. 部分可观察环境:信息不完全的多智能体系统
  4. 通信受限场景:可以通过离散消息进行有限通信的系统

参考文献

本文主要基于以下重要工作:

  1. Jaques et al. (2018) - 社会影响力作为多智能体深度强化学习的内在动机
  2. Wang et al. (2019) - 基于影响力的多智能体探索
  3. Burda et al. (2018) - 随机网络蒸馏探索方法
  4. Pathak et al. (2017) - 好奇心驱动的自监督预测探索

总体评价:这是一篇在多智能体强化学习探索领域具有创新性的工作。虽然存在一些局限性,但β项的提出和empirical验证为该领域提供了有价值的贡献。未来工作需要在更复杂环境中验证方法的泛化能力。