2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: Offline Multi-agent Learning with Diffusion Models

Grundinformationen

Paper-ID: 2305.17330
Titel: MADiff: Offline Multi-agent Learning with Diffusion Models
Autoren: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
Klassifizierung: cs.AI cs.LG
Veröffentlichungszeitpunkt/Konferenz: NeurIPS 2024 (38. Konferenz zu Neural Information Processing Systems)
Paper-Link: https://arxiv.org/abs/2305.17330

Zusammenfassung

Offline-Verstärkungslernverfahren (Offline RL) zielen darauf ab, Strategien aus vorhandenen Datensätzen zu erlernen, ohne weitere Interaktionen durchzuführen – eine herausfordernde Aufgabe. Q-Learning-Algorithmen leiden unter Extrapolationsfehlern in Offline-Einstellungen, während überwachte Lernmethoden durch begrenzte Modellausdrucksfähigkeit eingeschränkt sind. Kürzlich haben Diffusionsmodelle (DMs) vielversprechende Ergebnisse beim Single-Agent-Lernen gezeigt, ihre Anwendung in Multi-Agent-Szenarien bleibt jedoch unklar. Die Verwendung unabhängiger DMs für jeden Agenten zur Trajektoriengenerierung könnte die Koordination behindern, während die Verkettung aller Agent-Informationen zu niedriger Stichprobeneffizienz führt. Daher schlagen wir MADiff vor, das komplexe Koordination zwischen mehreren Agent-Verhaltensweisen durch aufmerksamkeitsbasierte Diffusionsmodelle modelliert. Nach unserem besten Wissen ist MADiff das erste diffusionsbasierte Multi-Agent-Lernframework, das sowohl als dezentralisierte Strategie als auch als zentralisierter Controller fungiert. Während der dezentralisierten Ausführung führt MADiff gleichzeitig Teamkollegen-Modellierung durch; der zentralisierte Controller kann auch auf Multi-Agent-Trajektorienvorhersage angewendet werden. Experimente zeigen, dass MADiff Baseline-Algorithmen bei verschiedenen Multi-Agent-Lernaufgaben übertrifft und seine Effektivität bei der Modellierung komplexer Multi-Agent-Interaktionen unterstreicht.

Forschungshintergrund und Motivation

Problemhintergrund

Herausforderungen beim Offline-Multi-Agent-Verstärkungslernen: Im Vergleich zum Single-Agent-Lernen ist Offline-Multi-Agent-Lernen (MAL) weniger erforscht und stellt größere Herausforderungen dar. Da das Verhalten aller Agenten gegenseitig abhängig ist, muss jeder Agent Agent-Interaktionen und Koordination modellieren und gleichzeitig dezentralisiert Entscheidungen treffen, um Ziele zu erreichen.
Einschränkungen bestehender Methoden:
- Q-Learning-Methoden: Leiden unter Extrapolationsfehlern in Offline-Einstellungen; fehlerhafte zentralisierte Wertfunktionen führen zu erheblichen Extrapolationsfehlern
- Sequenzmodellierungsmethoden: Begrenzt durch Modellausdrucksfähigkeit; schwierig bei vielfältigen Datensätzen; zusammengesetzte Fehler bei autoregressiver Generierung
- Unabhängige Diffusionsmodelle: Die Verwendung unabhängiger DMs für jeden Agenten kann zu schwerwiegenden Inkonsistenzen aufgrund unzureichender Kreditvergabe führen
- Einfache Verkettungsmethoden: Die Verkettung aller Agent-Informationen als DM-Ein-/Ausgabe ignoriert wichtige Eigenschaften von Multi-Agent-Systemen
Forschungsmotivation:
- Diffusionsmodelle zeigen überlegene Modellierungsfähigkeiten beim Single-Agent-Offline-RL
- Multi-Agent-Systeme erfordern effektive Koordinationsmechanismen
- Ein einheitliches Framework ist erforderlich, das das CTDE-Paradigma (Centralized Training Decentralized Execution) unterstützt

Kernbeiträge

Erstes diffusionsbasiertes Multi-Agent-Lernframework: Vorschlag von MADiff, das dezentralisierte Strategien, zentralisierte Controller, Teamkollegen-Modellierung und Trajektorienvorhersagefunktionen vereinheitlicht
Neuartige aufmerksamkeitsbasierte Diffusionsmodellarchitektur: Speziell für Multi-Agent-Lernen konzipiert; realisiert Agent-Koordination in jedem Denoising-Schritt
Überlegene experimentelle Leistung: Erreicht hervorragende Ergebnisse bei verschiedenen Offline-Multi-Agent-Problemen, einschließlich Offline-MARL und Trajektorienvorhersageaufgaben

Methodische Details

Aufgabendefinition

Dieses Papier betrachtet teilweise beobachtbare und vollständig kooperative Multi-Agent-Lernprobleme, formalisiert als Dec-POMDP: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

Wobei:

$S$ und $A$ jeweils Zustands- und Aktionsräume darstellen
$N$ Agenten $\{1, 2, ..., N\}$ in diskreten Zeitschritten handeln
Jeder Agent $i$ beobachtet nur lokale Beobachtung $o^i \in Ω$
Das Optimierungsziel ist das Erlernen einer Strategie $π^i$ , die die diskontierte kumulative Belohnung maximiert

Modellarchitektur

Gesamtdesign

MADiff verwendet ein aufmerksamkeitsbasiertes Diffusionsnetzwerk-Framework, das in den Decoder-Schichten jedes Agenten Cross-Agent-Aufmerksamkeitsberechnungen durchführt.

Kernkomponenten

U-Net-Grundstruktur: Verwendet U-Net als Grundstruktur zur Modellierung von Trajektorien aller Agenten, bestehend aus wiederholten eindimensionalen Faltungs-Residualblöcken
Aufmerksamkeitsmechanismus:
- Aufmerksamkeitsschicht vor Decoder-Blöcken aller Agent-U-Nets
- Aufmerksamkeitsoperationen auf Skip-Connection-Merkmalen $c^i_l$ der Encoder-Schicht
- Verwendung von Multi-Head-Aufmerksamkeit zur Fusion kodierter Merkmale

Mathematische Ausdrücke:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

Trainingsziel

Das zentralisierte Training verwendet eine gemeinsame Verlustfunktion: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

Ausführungsmodi

Zentralisierte Kontrolle

Zugriff auf aktuelle lokale Beobachtungen aller Agenten
Generierung von Trajektorien aller Agenten und Aktionsvorhersage
Anwendbar auf Multi-Agent-Trajektorienvorhersage und Teamspiele

Dezentralisierte Ausführung und Teamkollegen-Modellierung

Jeder Agent plant nur mit seiner eigenen lokalen Beobachtung
Gleichzeitige Inferenz von Beobachtungssequenzen anderer Agenten (Teamkollegen-Modellierung)
Effektive Koordination durch Aufmerksamkeitsmechanismus

Experimentelle Einrichtung

Datensätze

Multi-Agent Particle Environment (MPE):
- Spread: Drei Agenten decken drei Landmarken ab
- Tag: Drei Raubtiere fangen vortrainierte Beute
- World: Raubtiere fangen Beute auf einer Karte mit Wald
- Datensätze: Expert, Medium-Replay, Medium, Random
Multi-Agent Mujoco (MA Mujoco):
- Konfigurationen: 2halfcheetah, 2ant, 4ant
- Datensätze: Good, Medium, Poor
StarCraft Multi-Agent Challenge (SMAC):
- Karten: 3m, 2s3z, 5m_vs_6m, 8m
- Datensätze: Good, Medium, Poor
NBA-Datensatz:
- Basketballspieler-Trajektorien aus 631 Spielen der Saison 2015-16
- Verwendet für Multi-Agent-Trajektorienvorhersageaufgaben

Bewertungsmetriken

Offline-MARL: Episodische Belohnungen aus Online-Rollouts
Trajektorienvorhersage: Distanzbasierte Metriken wie ADE, FDE, minADE20, minFDE20

Vergleichsmethoden

Offline-MARL: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
Trajektorienvorhersage: Baller2Vec++

Experimentelle Ergebnisse

Hauptergebnisse

Offline-MARL-Leistung

MADiff erreicht optimale Ergebnisse bei den meisten Datensätzen:

Aufgabe	Datensatz	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

Trajektorienvorhersage-Leistung

Auf dem NBA-Datensatz übertrifft MADIFF-C die Baseline erheblich:

Trajektorienlänge	Metrik	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

Ablationsstudien

Validieren die Wichtigkeit des Aufmerksamkeitsmechanismus:

MADIFF-D mit Aufmerksamkeit übertrifft unabhängige Version erheblich
Vorteil ist bei schwierigeren Aufgaben (z.B. World) ausgeprägter
Parameterfreigabe-Strategie reduziert effektiv die Parameteranzahl

Teamkollegen-Modellierungsanalyse

Visualisierungsanalyse der Spread-Aufgabe zeigt:

MADiff kann Verhaltensvorhersagen von Teamkollegen während Rollouts korrigieren
Konsistenzquote nimmt mit Zeitschritten zu und übertrifft schließlich echte Rollout-Trajektorien
Beweist die Effektivität der Teamkollegen-Modellierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

MADiff erweitert erfolgreich Diffusionsmodelle auf Multi-Agent-Lernen
Aufmerksamkeitsmechanismus realisiert effektiv Agent-Koordination
Einheitliches Framework unterstützt mehrere Anwendungsszenarien
Erreicht hervorragende Leistung bei verschiedenen Aufgaben

Einschränkungen

Skalierbarkeit: Nicht geeignet für Szenarien mit Dutzenden oder Hunderten von Agenten
Stochastische Umgebungen: Möglicherweise schlechtere Leistung in hochstochastischen Umgebungen
Rechenkomplexität: Erfordert Inferenz aller Teamkollegen-Trajektorien für jeden Agenten

Zukünftige Richtungen

Erkundung latenter Darstellungen zur Verbesserung der Skalierbarkeit
Verbesserung der Leistung in stochastischen Umgebungen
Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste erfolgreiche Anwendung von Diffusionsmodellen auf Multi-Agent-Lernen
Sorgfältige technische Gestaltung: Aufmerksamkeitsmechanismus löst elegant das Agent-Koordinationsproblem
Umfassende Experimente: Abdeckung mehrerer Domänen und Aufgabentypen
Hoher praktischer Wert: Einheitliches Framework unterstützt mehrere Anwendungsszenarien

Mängel

Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Komplexität
Skalierungsbeschränkungen: Begrenzte Anwendbarkeit in großen Multi-Agent-Systemen
Stochastizitätsempfindlichkeit: Leistungsabfall in hochstochastischen Umgebungen

Auswirkungen

Akademischer Beitrag: Bietet neuen technischen Weg für Multi-Agent-Lernen
Praktischer Wert: Anwendungspotenzial in Roboterkoordination, Spiele-KI und anderen Bereichen
Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Einrichtung

Anwendungsszenarien

Offline-Multi-Agent-Verstärkungslernaufgaben
Multi-Agent-Trajektorienvorhersage
Entscheidungsprobleme, die Agent-Koordination erfordern
Kooperative Aufgaben mit mittlerer Skalierung (2-8 Agenten)

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten, einschließlich:

Grundlagen von Diffusionsmodellen: Ho et al. (2020), Song and Ermon (2019)
Single-Agent-Diffusions-RL: Janner et al. (2022), Ajay et al. (2023)
Multi-Agent-RL-Baselines: Rashid et al. (2020), Meng et al. (2021)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das Diffusionsmodelle erfolgreich in den Multi-Agent-Lernbereich einführt. Die technische Innovation ist erheblich und die experimentelle Validierung umfassend. Trotz einiger Einschränkungen eröffnet es neue Forschungsrichtungen in diesem Bereich und hat wichtigen akademischen Wert sowie praktische Aussichten.

MADiff: Offline Multi-agent Learning with Diffusion Models

MADiff: Offline Multi-agent Learning with Diffusion Models

Grundinformationen

Zusammenfassung

Forschungshintergrund und Motivation

Problemhintergrund

Kernbeiträge

Methodische Details

Aufgabendefinition

Modellarchitektur

Gesamtdesign

Kernkomponenten

Trainingsziel

Ausführungsmodi

Zentralisierte Kontrolle

Dezentralisierte Ausführung und Teamkollegen-Modellierung

Experimentelle Einrichtung

Datensätze

Bewertungsmetriken

Vergleichsmethoden

Experimentelle Ergebnisse

Hauptergebnisse

Offline-MARL-Leistung

Trajektorienvorhersage-Leistung

Ablationsstudien

Teamkollegen-Modellierungsanalyse

Verwandte Arbeiten

Multi-Agent-Offline-RL

Decision Diffusion Models

Gegnermodellierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einschränkungen

Zukünftige Richtungen

Tiefgreifende Bewertung

Stärken

Mängel

Auswirkungen

Anwendungsszenarien

Referenzen