虽然单智能体强化学习中的探索问题已得到广泛研究,但多智能体强化学习中的探索问题相对缺乏关注。为解决这一问题,本文提出了一种基于同伴激励的奖励函数,该函数受到内在好奇心和基于影响力奖励的先前研究启发。PIMAEX奖励(Peer-Incentivized Multi-Agent Exploration的缩写)旨在通过鼓励智能体相互施加影响来提高遇到新状态的可能性,从而改善多智能体环境中的探索。研究在Consume/Explore环境中评估了PIMAEX奖励与PIMAEX-Communication算法的结合效果,该环境是一个具有欺骗性奖励的部分可观察环境,专门设计用于挑战探索与利用困境以及信用分配问题。实验结果表明,使用PIMAEX奖励的智能体表现优于不使用的智能体。
研究针对部分可观察的多智能体环境,其中:
智能体j的广义影响力奖励定义为:
r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]
其中:
策略影响力使用KL散度或PMI测量:
PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))
价值影响力定义为:
VI_{j→i} = V^info_i - V^marginal_{j→i}
PIMAEX奖励结合外在和内在奖励:
r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}
环境特点:
关键参数:
观察空间:5维向量
单项分析:
本文主要基于以下重要工作:
总体评价:这是一篇在多智能体强化学习探索领域具有创新性的工作。虽然存在一些局限性,但β项的提出和empirical验证为该领域提供了有价值的贡献。未来工作需要在更复杂环境中验证方法的泛化能力。