2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: 오프라인 다중에이전트 학습과 확산 모델

기본 정보

논문 ID: 2305.17330
제목: MADiff: Offline Multi-agent Learning with Diffusion Models
저자: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
분류: cs.AI cs.LG
발표 시간/학회: NeurIPS 2024 (제38회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2305.17330

초록

오프라인 강화학습(Offline RL)은 추가 상호작용 없이 기존 데이터셋에서 정책을 학습하는 것을 목표로 하며, 이는 도전적인 과제입니다. Q-학습 알고리즘은 오프라인 설정에서 외삽 오류 문제를 겪고 있으며, 지도학습 방법은 모델 표현 능력에 제한됩니다. 최근 확산 모델(DMs)은 단일 에이전트 학습에서 이러한 제한을 극복할 수 있는 가능성을 보여주었지만, 다중 에이전트 시나리오에서의 적용은 여전히 불명확합니다. 각 에이전트에 독립적인 DM을 사용하여 궤적을 생성하면 조정을 방해할 수 있으며, 모든 에이전트 정보를 연결하면 낮은 샘플 효율을 초래합니다. 따라서 본 논문은 주의 기반 확산 모델을 통해 여러 에이전트 행동 간의 복잡한 조정을 모델링하는 MADiff를 제안합니다. 우리가 아는 한, MADiff는 분산 정책과 중앙 집중식 컨트롤러 모두로 작동할 수 있는 첫 번째 확산 기반 다중 에이전트 학습 프레임워크입니다. 분산 실행 중에 MADiff는 동시에 팀원 모델링을 수행하며, 중앙 집중식 컨트롤러는 다중 에이전트 궤적 예측에도 적용될 수 있습니다. 실험은 MADiff가 다양한 다중 에이전트 학습 작업에서 기준 알고리즘을 능가하며, 복잡한 다중 에이전트 상호작용 모델링에서의 효과성을 강조함을 보여줍니다.

연구 배경 및 동기

문제 배경

오프라인 다중 에이전트 강화학습의 도전 과제: 단일 에이전트 학습에 비해 오프라인 다중 에이전트 학습(MAL)은 연구가 적고 더욱 도전적입니다. 모든 에이전트의 행동이 상호 연관되어 있으므로, 각 에이전트는 에이전트 간 상호작용과 조정을 모델링하면서 동시에 목표를 달성하기 위해 분산 방식으로 의사결정을 내려야 합니다.
기존 방법의 한계:
- Q-학습 방법: 오프라인 설정에서 외삽 오류 문제가 발생하며, 잘못된 중앙 집중식 가치 함수는 상당한 외삽 오류를 초래합니다
- 순차 모델링 방법: 모델 표현 능력에 제한되어 다양한 데이터셋을 처리하기 어렵고, 자동회귀 생성의 누적 오류가 존재합니다
- 독립적 확산 모델: 각 에이전트에 독립적인 DM을 사용하면 적절한 신용 할당 부족으로 인해 심각한 불일치가 발생할 수 있습니다
- 단순 연결 방법: 모든 에이전트 정보를 DM 입출력으로 연결하는 것은 다중 에이전트 시스템의 중요한 특성을 무시합니다
연구 동기:
- 확산 모델은 단일 에이전트 오프라인 RL에서 우수한 모델링 능력을 보여줍니다
- 다중 에이전트 시스템은 효과적인 조정 메커니즘이 필요합니다
- 중앙 집중식 훈련 분산 실행(CTDE) 패러다임을 지원하는 통합 프레임워크가 필요합니다

핵심 기여

첫 번째 확산 기반 다중 에이전트 학습 프레임워크: 분산 정책, 중앙 집중식 컨트롤러, 팀원 모델링 및 궤적 예측 기능을 통합한 MADiff를 제안합니다
새로운 주의 기반 확산 모델 구조: 다중 에이전트 학습을 위해 특별히 설계되었으며, 각 노이즈 제거 단계에서 에이전트 간 조정을 구현합니다
우수한 실험 성능: 오프라인 MARL 및 궤적 예측 작업을 포함한 다양한 오프라인 다중 에이전트 문제에서 뛰어난 성능을 달성합니다

방법 상세 설명

작업 정의

본 논문은 부분 관찰 가능하고 완전히 협력적인 다중 에이전트 학습 문제를 고려하며, 이를 Dec-POMDP로 형식화합니다: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

여기서:

$S$ 와 $A$ 는 각각 상태 및 행동 공간을 나타냅니다
$N$ 개의 에이전트 $\{1, 2, ..., N\}$ 이 이산 시간 단계에서 행동합니다
각 에이전트 $i$ 는 국소 관찰 $o^i \in Ω$ 만 관찰합니다
최적화 목표는 할인된 누적 보상을 최대화하는 정책 $π^i$ 를 학습하는 것입니다

모델 아키텍처

전체 설계

MADiff는 주의 기반 확산 네트워크 프레임워크를 채택하며, 각 에이전트의 디코더 레이어에서 크로스 에이전트 주의 계산을 수행합니다.

핵심 구성 요소

U-Net 기본 구조: 각 에이전트의 궤적을 모델링하기 위한 기본 구조로 U-Net을 채택하며, 반복되는 1차원 합성곱 잔차 블록을 포함합니다
주의 메커니즘:
- 모든 에이전트 U-Net의 디코더 블록 앞에 주의 레이어를 적용합니다
- 주의 연산은 인코더 레이어의 스킵 연결 특성 $c^i_l$ 에서 수행됩니다
- 다중 헤드 주의 메커니즘을 사용하여 인코딩된 특성을 융합합니다

수학적 표현:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

훈련 목표

중앙 집중식 훈련은 결합 손실 함수를 사용합니다: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

실행 모드

중앙 집중식 제어

모든 에이전트의 현재 국소 관찰에 접근합니다
모든 에이전트의 궤적을 생성하고 행동을 예측합니다
다중 에이전트 궤적 예측 및 팀 게임에 적용 가능합니다

분산 실행 및 팀원 모델링

각 에이전트는 자신의 국소 관찰만 사용하여 계획을 수립합니다
동시에 다른 에이전트의 관찰 시퀀스를 추론합니다(팀원 모델링)
주의 메커니즘을 통해 효과적인 조정을 구현합니다

실험 설정

데이터셋

다중 에이전트 입자 환경(MPE):
- Spread: 세 개의 에이전트가 세 개의 랜드마크를 커버합니다
- Tag: 세 개의 포식자가 사전 훈련된 먹이를 포획합니다
- World: 포식자가 숲이 있는 지도에서 먹이를 포획합니다
- 데이터셋: Expert, Medium-Replay, Medium, Random
다중 에이전트 Mujoco(MA Mujoco):
- 2halfcheetah, 2ant, 4ant 구성
- 데이터셋: Good, Medium, Poor
스타크래프트 다중 에이전트 챌린지(SMAC):
- 맵: 3m, 2s3z, 5m_vs_6m, 8m
- 데이터셋: Good, Medium, Poor
NBA 데이터셋:
- 2015-16 시즌 631경기의 농구 선수 궤적
- 다중 에이전트 궤적 예측 작업에 사용됩니다

평가 지표

오프라인 MARL: 온라인 롤아웃으로 얻은 에피소드 보상
궤적 예측: ADE, FDE, minADE20, minFDE20 등 거리 기반 지표

비교 방법

오프라인 MARL: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
궤적 예측: Baller2Vec++

실험 결과

주요 결과

오프라인 MARL 성능

MADiff는 대부분의 데이터셋에서 최고의 결과를 달성합니다:

작업	데이터셋	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

궤적 예측 성능

NBA 데이터셋에서 MADIFF-C는 기준선을 크게 능가합니다:

궤적 길이	지표	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

절제 실험

주의 메커니즘의 중요성을 검증합니다:

주의가 있는 MADIFF-D는 독립적 버전을 크게 능가합니다
더 도전적인 작업(예: World)에서 장점이 더 두드러집니다
매개변수 공유 전략은 매개변수 수를 효과적으로 줄입니다

팀원 모델링 분석

Spread 작업의 시각화 분석을 통해 다음을 보여줍니다:

MADiff는 롤아웃 과정 중에 팀원 행동 예측을 수정할 수 있습니다
일관성 비율은 시간 단계에 따라 증가하며, 최종적으로 실제 롤아웃 궤적을 초과합니다
팀원 모델링의 효과성을 증명합니다

결론 및 논의

주요 결론

MADiff는 확산 모델을 다중 에이전트 학습으로 성공적으로 확장합니다
주의 메커니즘은 에이전트 간 조정을 효과적으로 구현합니다
통합 프레임워크는 다양한 응용 시나리오를 지원합니다
다양한 작업에서 우수한 성능을 달성합니다

한계

확장성: 수십 개 또는 수백 개의 에이전트 시나리오에는 적합하지 않습니다
확률적 환경: 높은 무작위성 환경에서 성능이 저하될 수 있습니다
계산 복잡도: 각 에이전트에 대해 모든 팀원 궤적을 추론해야 합니다

향후 방향

확장성 향상을 위한 잠재 표현 탐색
확률적 환경에서의 성능 개선
계산 효율성 최적화

심층 평가

장점

높은 혁신성: 확산 모델을 다중 에이전트 학습에 처음 성공적으로 적용합니다
정교한 기술 설계: 주의 메커니즘은 에이전트 조정 문제를 영리하게 해결합니다
포괄적인 실험: 여러 영역과 작업 유형을 포함합니다
높은 실용 가치: 통합 프레임워크는 다양한 응용 시나리오를 지원합니다

부족한 점

이론적 분석 부족: 수렴성 및 복잡도에 대한 이론적 보장이 없습니다
확장성 제한: 대규모 다중 에이전트 시스템에서의 적용 가능성이 제한됩니다
무작위성 민감도: 높은 무작위 환경에서 성능 저하

영향력

학술적 기여: 다중 에이전트 학습을 위한 새로운 기술 경로를 제공합니다
실용적 가치: 로봇 조정, 게임 AI 등의 분야에서 응용 가능성이 있습니다
재현성: 완전한 코드 및 실험 설정을 제공합니다

적용 시나리오

오프라인 다중 에이전트 강화학습 작업
다중 에이전트 궤적 예측
에이전트 조정이 필요한 의사결정 문제
중간 규모(2-8개 에이전트)의 협력 작업

참고 문헌

논문은 다음을 포함한 여러 중요한 연구를 인용합니다:

확산 모델 기초 연구: Ho et al. (2020), Song and Ermon (2019)
단일 에이전트 확산 RL: Janner et al. (2022), Ajay et al. (2023)
다중 에이전트 RL 기준선: Rashid et al. (2020), Meng et al. (2021)

전체 평가: 이는 확산 모델을 다중 에이전트 학습 분야에 성공적으로 도입한 고품질의 연구 논문입니다. 기술적 혁신이 두드러지고 실험 검증이 충분합니다. 일부 한계가 있지만, 해당 분야에 새로운 연구 방향을 개척했으며 중요한 학술적 가치와 실용적 전망을 가지고 있습니다.