2025-11-12T15:46:10.477787

PIMAEX: Multi-Agent Exploration through Peer Incentivization

KÃ¶lle, Tochtermann, SchÃ¶nberger et al.

While exploration in single-agent reinforcement learning has been studied extensively in recent years, considerably less work has focused on its counterpart in multi-agent reinforcement learning. To address this issue, this work proposes a peer-incentivized reward function inspired by previous research on intrinsic curiosity and influence-based rewards. The \textit{PIMAEX} reward, short for Peer-Incentivized Multi-Agent Exploration, aims to improve exploration in the multi-agent setting by encouraging agents to exert influence over each other to increase the likelihood of encountering novel states. We evaluate the \textit{PIMAEX} reward in conjunction with \textit{PIMAEX-Communication}, a multi-agent training algorithm that employs a communication channel for agents to influence one another. The evaluation is conducted in the \textit{Consume/Explore} environment, a partially observable environment with deceptive rewards, specifically designed to challenge the exploration vs.\ exploitation dilemma and the credit-assignment problem. The results empirically demonstrate that agents using the \textit{PIMAEX} reward with \textit{PIMAEX-Communication} outperform those that do not.

academic

PIMAEX: 동료 인센티브를 통한 다중 에이전트 탐색

기본 정보

논문 ID: 2501.01266
제목: PIMAEX: Multi-Agent Exploration through Peer Incentivization
저자: Michael Kölle, Johannes Tochtermann, Julian Schönberger, Gerhard Stenzel, Philipp Altmann, Claudia Linnhoff-Popien (뮌헨 대학교)
분류: cs.MA (다중 에이전트 시스템), cs.AI (인공지능)
발표 시간: 2025년 1월 2일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2501.01266

초록

단일 에이전트 강화학습에서의 탐색 문제는 광범위하게 연구되었지만, 다중 에이전트 강화학습에서의 탐색 문제는 상대적으로 주목을 받지 못했습니다. 이 문제를 해결하기 위해 본 논문은 내재적 호기심과 영향력 기반 보상에 관한 선행 연구에서 영감을 받은 동료 인센티브 기반의 보상 함수를 제안합니다. PIMAEX 보상(동료 인센티브 다중 에이전트 탐색의 약자)은 에이전트들이 서로에게 영향을 미치도록 장려하여 새로운 상태를 만날 가능성을 높임으로써 다중 에이전트 환경에서의 탐색을 개선하도록 설계되었습니다. 본 연구는 기만적 보상을 가진 부분 관찰 가능 환경인 Consume/Explore 환경에서 PIMAEX 보상과 PIMAEX-Communication 알고리즘의 결합 효과를 평가했으며, 이 환경은 탐색과 활용의 딜레마 및 신용 할당 문제를 도전하기 위해 특별히 설계되었습니다. 실험 결과는 PIMAEX 보상을 사용하는 에이전트가 그렇지 않은 에이전트보다 우수한 성능을 보임을 나타냅니다.

연구 배경 및 동기

핵심 문제

다중 에이전트 탐색 도전: 다중 에이전트 강화학습에서의 탐색 문제는 단일 에이전트보다 더 어렵습니다. 왜냐하면 결합 상태 공간이 에이전트 수에 따라 지수적으로 증가하기 때문입니다.
조정 요구사항: 상태 전이 확률이 모든 에이전트의 결합 동작에 의존하기 때문에, 개별 에이전트는 상태 공간의 중요한 부분을 독립적으로 탐색하기 어렵습니다.
희소 보상 및 기만적 보상: 희소하거나 기만적 보상을 가진 환경에서 에이전트는 국소 최적에 갇히기 쉽습니다.
신용 할당 문제: 긴 동작 수열과 최종 보상 사이의 시간 거리로 인해 신용 할당이 어려워집니다.

연구의 중요성

다중 에이전트 시스템은 실제 응용 분야에서 점점 더 중요해지고 있습니다(예: 자율주행, 로봇 협력 등).
효과적인 다중 에이전트 탐색은 복잡한 협력 작업 수행의 핵심입니다.
기존 방법은 주로 조정과 협력에 초점을 맞추고 있으며, 탐색 문제를 전문적으로 해결하지 못합니다.

기존 방법의 한계

단일 에이전트 탐색 방법(예: ε-탐욕 정책)은 다중 에이전트 환경에서 효과가 제한적입니다.
내재적 호기심 기반 방법은 주로 단일 에이전트를 위해 설계되었습니다.
영향력 보상은 주로 조정 개선에 사용되며, 탐색을 전문적으로 촉진하지 않습니다.

핵심 기여

PIMAEX 보상 함수 제안: 내재적 호기심과 사회적 영향력을 결합하여 다중 에이전트 탐색을 촉진하는 새로운 동료 인센티브 메커니즘
일반화된 사회적 영향력 보상 프레임워크 구축: 선행 연구의 영향력 보상 개념을 통합하며, α, β, γ 세 항의 가중 조합 포함
PIMAEX-Communication 알고리즘 설계: 통신 메커니즘 기반의 다중 에이전트 훈련 알고리즘으로, 모든 actor-critic 알고리즘과 결합 가능
Consume/Explore 환경 개발: 탐색과 활용의 딜레마 및 신용 할당 문제를 평가하기 위해 특별히 설계된 테스트 환경
실증적 검증: 도전적인 환경에서 PIMAEX 방법의 효과성 입증

방법 상세 설명

작업 정의

본 연구는 부분 관찰 가능한 다중 에이전트 환경을 대상으로 하며, 여기서:

에이전트는 탐색과 활용 사이의 균형을 찾아야 합니다.
환경은 희소하거나 기만적 보상을 가집니다.
상태 공간을 효과적으로 탐색하기 위해 에이전트 간 조정이 필요합니다.
장기 신용 할당 문제가 존재합니다.

모델 아키텍처

1. 일반화된 사회적 영향력 보상 함수

에이전트 j의 일반화된 영향력 보상은 다음과 같이 정의됩니다:

r_j = Σ_{k≠j} [α·PI^α_{j→k} + β·PI^β_{j→k}·r^w_k + γ·VI^w_{j→k}]

여기서:

α 항: 정책 영향력 기반의 직접 보상(Jaques et al., 2018과 유사)
β 항: 본 논문의 핵심 혁신으로, 영향력과 영향받는 에이전트 보상의 곱에 기반
γ 항: 가치 영향력 기반의 장기 보상(Wang et al., 2019와 유사)

2. 정책 영향력과 가치 영향력

정책 영향력은 KL 발산 또는 PMI를 사용하여 측정됩니다:

PI^DKL_{j→i} = D_KL[π^info_i || π^marginal_{j→i}]
PI^PMI_{j→i} = log(p(a_i|o_i, info_{j→i})/p(a_i|o_i))

가치 영향력은 다음과 같이 정의됩니다:

VI_{j→i} = V^info_i - V^marginal_{j→i}

3. PIMAEX 보상

PIMAEX 보상은 외재적 및 내재적 보상을 결합합니다:

r^w_k = β_env·r^env_k + β_int·r^int_k
VI^w_{j→k} = γ_env·VI^env_{j→k} + γ_int·VI^int_{j→k}

기술적 혁신 포인트

β 항의 혁신: 영향력과 영향받는 에이전트 보상의 곱에 기반한 인센티브 메커니즘을 처음으로 제안
반사실적 추론: 반사실적 메시지 샘플링을 통해 주변 정책 및 가치 함수 계산
통신 메커니즘: 이산 메시지 채널을 통해 에이전트가 서로 영향을 미칠 수 있도록 함
내재적 호기심 통합: RND(Random Network Distillation)를 사회적 영향력과 결합

실험 설정

Consume/Explore 환경

환경 특성:

4개 에이전트의 부분 관찰 가능 환경
각 에이전트는 M 스텝마다 C개의 소비재를 생산하는 개인 생산 라인 보유
세 가지 동작: 무동작, 소비, 탐색
탐색 동작은 모든 에이전트의 생산률을 높일 수 있지만 즉각적인 보상은 없음

주요 매개변수:

집단 탐색 임계값 E = 0.5(성공을 보장하려면 최소 2개 에이전트가 동시에 탐색해야 함)
다음 생산량 수준에 도달하려면 c_max = 2000회 성공 탐색 필요
최대 생산량 수준 C_max = 5

관찰 공간: 5차원 벡터

개인 정보: 현재 공급량, 창고 공간, 다음 생산 시간
전역 정보: 현재 생산량 수준, 성공한 탐색 횟수

평가 지표

결합 보상: 모든 에이전트의 총 보상
개별 보상 차이: 노동 분담 정도 반영
상태 공간 커버리지: 직접적인 탐색 측정
동작 통계: 소비/탐색 동작의 백분율 및 동시 동작 수량
생산량 수준: 최종 도달한 생산량 수준 및 각 수준 도달에 필요한 스텝

비교 방법

Vanilla PPO: 기본 PPO 에이전트
PPO+RND: 무작위 네트워크 증류를 결합한 내재적 호기심 에이전트
단일 항 PIMAEX 에이전트: α, β 또는 γ 항만 사용하는 에이전트

구현 세부사항

DeepMind의 acme 라이브러리 및 JAX 프레임워크 기반
훈련 스텝: 1e7
배치 크기: 16, 전개 길이: 128
학습률: 1e-4, 할인 계수: 0.999
각 모델은 3개의 무작위 시드로 훈련

실험 결과

주요 결과

전체 성능:
- PIMAEX β 에이전트가 최고의 성능을 보이며, PPO+RND 및 vanilla PPO를 크게 능가
- 모든 PIMAEX 변형이 기준 방법보다 우수
- PIMAEX β는 가장 낮은 표준편차를 보여 더 안정적인 정책 나타냄
탐색 행동:
- PIMAEX α 에이전트가 가장 활발한 탐색자
- PIMAEX β 에이전트는 명확한 작업 분담을 보임: 에이전트 1과 3은 탐색에 집중, 에이전트 2와 4는 주로 소비
- 모든 방법이 쌍 협력 탐색을 구현할 수 있음(에피소드의 약 1/3 시간)
상태 공간 커버리지:
- 최종 탐색 상태 공간 커버리지에서 방법 간 차이 상대적으로 작음
- PIMAEX α는 에피소드 내 탐색 커버리지에서 최고 성능
- PIMAEX β는 에이전트 상태 공간 커버리지의 표준편차가 최소