MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
오프라인 강화학습(Offline RL)은 추가 상호작용 없이 기존 데이터셋에서 정책을 학습하는 것을 목표로 하며, 이는 도전적인 과제입니다. Q-학습 알고리즘은 오프라인 설정에서 외삽 오류 문제를 겪고 있으며, 지도학습 방법은 모델 표현 능력에 제한됩니다. 최근 확산 모델(DMs)은 단일 에이전트 학습에서 이러한 제한을 극복할 수 있는 가능성을 보여주었지만, 다중 에이전트 시나리오에서의 적용은 여전히 불명확합니다. 각 에이전트에 독립적인 DM을 사용하여 궤적을 생성하면 조정을 방해할 수 있으며, 모든 에이전트 정보를 연결하면 낮은 샘플 효율을 초래합니다. 따라서 본 논문은 주의 기반 확산 모델을 통해 여러 에이전트 행동 간의 복잡한 조정을 모델링하는 MADiff를 제안합니다. 우리가 아는 한, MADiff는 분산 정책과 중앙 집중식 컨트롤러 모두로 작동할 수 있는 첫 번째 확산 기반 다중 에이전트 학습 프레임워크입니다. 분산 실행 중에 MADiff는 동시에 팀원 모델링을 수행하며, 중앙 집중식 컨트롤러는 다중 에이전트 궤적 예측에도 적용될 수 있습니다. 실험은 MADiff가 다양한 다중 에이전트 학습 작업에서 기준 알고리즘을 능가하며, 복잡한 다중 에이전트 상호작용 모델링에서의 효과성을 강조함을 보여줍니다.
오프라인 다중 에이전트 강화학습의 도전 과제: 단일 에이전트 학습에 비해 오프라인 다중 에이전트 학습(MAL)은 연구가 적고 더욱 도전적입니다. 모든 에이전트의 행동이 상호 연관되어 있으므로, 각 에이전트는 에이전트 간 상호작용과 조정을 모델링하면서 동시에 목표를 달성하기 위해 분산 방식으로 의사결정을 내려야 합니다.
기존 방법의 한계:
Q-학습 방법: 오프라인 설정에서 외삽 오류 문제가 발생하며, 잘못된 중앙 집중식 가치 함수는 상당한 외삽 오류를 초래합니다
순차 모델링 방법: 모델 표현 능력에 제한되어 다양한 데이터셋을 처리하기 어렵고, 자동회귀 생성의 누적 오류가 존재합니다
독립적 확산 모델: 각 에이전트에 독립적인 DM을 사용하면 적절한 신용 할당 부족으로 인해 심각한 불일치가 발생할 수 있습니다
단순 연결 방법: 모든 에이전트 정보를 DM 입출력으로 연결하는 것은 다중 에이전트 시스템의 중요한 특성을 무시합니다