2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic

MADiff: Offline Multi-agent Learning with Diffusion Models

Grundinformationen

  • Paper-ID: 2305.17330
  • Titel: MADiff: Offline Multi-agent Learning with Diffusion Models
  • Autoren: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
  • Klassifizierung: cs.AI cs.LG
  • Veröffentlichungszeitpunkt/Konferenz: NeurIPS 2024 (38. Konferenz zu Neural Information Processing Systems)
  • Paper-Link: https://arxiv.org/abs/2305.17330

Zusammenfassung

Offline-Verstärkungslernverfahren (Offline RL) zielen darauf ab, Strategien aus vorhandenen Datensätzen zu erlernen, ohne weitere Interaktionen durchzuführen – eine herausfordernde Aufgabe. Q-Learning-Algorithmen leiden unter Extrapolationsfehlern in Offline-Einstellungen, während überwachte Lernmethoden durch begrenzte Modellausdrucksfähigkeit eingeschränkt sind. Kürzlich haben Diffusionsmodelle (DMs) vielversprechende Ergebnisse beim Single-Agent-Lernen gezeigt, ihre Anwendung in Multi-Agent-Szenarien bleibt jedoch unklar. Die Verwendung unabhängiger DMs für jeden Agenten zur Trajektoriengenerierung könnte die Koordination behindern, während die Verkettung aller Agent-Informationen zu niedriger Stichprobeneffizienz führt. Daher schlagen wir MADiff vor, das komplexe Koordination zwischen mehreren Agent-Verhaltensweisen durch aufmerksamkeitsbasierte Diffusionsmodelle modelliert. Nach unserem besten Wissen ist MADiff das erste diffusionsbasierte Multi-Agent-Lernframework, das sowohl als dezentralisierte Strategie als auch als zentralisierter Controller fungiert. Während der dezentralisierten Ausführung führt MADiff gleichzeitig Teamkollegen-Modellierung durch; der zentralisierte Controller kann auch auf Multi-Agent-Trajektorienvorhersage angewendet werden. Experimente zeigen, dass MADiff Baseline-Algorithmen bei verschiedenen Multi-Agent-Lernaufgaben übertrifft und seine Effektivität bei der Modellierung komplexer Multi-Agent-Interaktionen unterstreicht.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Herausforderungen beim Offline-Multi-Agent-Verstärkungslernen: Im Vergleich zum Single-Agent-Lernen ist Offline-Multi-Agent-Lernen (MAL) weniger erforscht und stellt größere Herausforderungen dar. Da das Verhalten aller Agenten gegenseitig abhängig ist, muss jeder Agent Agent-Interaktionen und Koordination modellieren und gleichzeitig dezentralisiert Entscheidungen treffen, um Ziele zu erreichen.
  2. Einschränkungen bestehender Methoden:
    • Q-Learning-Methoden: Leiden unter Extrapolationsfehlern in Offline-Einstellungen; fehlerhafte zentralisierte Wertfunktionen führen zu erheblichen Extrapolationsfehlern
    • Sequenzmodellierungsmethoden: Begrenzt durch Modellausdrucksfähigkeit; schwierig bei vielfältigen Datensätzen; zusammengesetzte Fehler bei autoregressiver Generierung
    • Unabhängige Diffusionsmodelle: Die Verwendung unabhängiger DMs für jeden Agenten kann zu schwerwiegenden Inkonsistenzen aufgrund unzureichender Kreditvergabe führen
    • Einfache Verkettungsmethoden: Die Verkettung aller Agent-Informationen als DM-Ein-/Ausgabe ignoriert wichtige Eigenschaften von Multi-Agent-Systemen
  3. Forschungsmotivation:
    • Diffusionsmodelle zeigen überlegene Modellierungsfähigkeiten beim Single-Agent-Offline-RL
    • Multi-Agent-Systeme erfordern effektive Koordinationsmechanismen
    • Ein einheitliches Framework ist erforderlich, das das CTDE-Paradigma (Centralized Training Decentralized Execution) unterstützt

Kernbeiträge

  1. Erstes diffusionsbasiertes Multi-Agent-Lernframework: Vorschlag von MADiff, das dezentralisierte Strategien, zentralisierte Controller, Teamkollegen-Modellierung und Trajektorienvorhersagefunktionen vereinheitlicht
  2. Neuartige aufmerksamkeitsbasierte Diffusionsmodellarchitektur: Speziell für Multi-Agent-Lernen konzipiert; realisiert Agent-Koordination in jedem Denoising-Schritt
  3. Überlegene experimentelle Leistung: Erreicht hervorragende Ergebnisse bei verschiedenen Offline-Multi-Agent-Problemen, einschließlich Offline-MARL und Trajektorienvorhersageaufgaben

Methodische Details

Aufgabendefinition

Dieses Papier betrachtet teilweise beobachtbare und vollständig kooperative Multi-Agent-Lernprobleme, formalisiert als Dec-POMDP: G=S,A,P,r,Ω,O,N,U,γG = \langle S,A, P, r,Ω, O,N,U, γ\rangle

Wobei:

  • SS und AA jeweils Zustands- und Aktionsräume darstellen
  • NN Agenten {1,2,...,N}\{1, 2, ..., N\} in diskreten Zeitschritten handeln
  • Jeder Agent ii beobachtet nur lokale Beobachtung oiΩo^i \in Ω
  • Das Optimierungsziel ist das Erlernen einer Strategie πiπ^i, die die diskontierte kumulative Belohnung maximiert

Modellarchitektur

Gesamtdesign

MADiff verwendet ein aufmerksamkeitsbasiertes Diffusionsnetzwerk-Framework, das in den Decoder-Schichten jedes Agenten Cross-Agent-Aufmerksamkeitsberechnungen durchführt.

Kernkomponenten

  1. U-Net-Grundstruktur: Verwendet U-Net als Grundstruktur zur Modellierung von Trajektorien aller Agenten, bestehend aus wiederholten eindimensionalen Faltungs-Residualblöcken
  2. Aufmerksamkeitsmechanismus:
    • Aufmerksamkeitsschicht vor Decoder-Blöcken aller Agent-U-Nets
    • Aufmerksamkeitsoperationen auf Skip-Connection-Merkmalen clic^i_l der Encoder-Schicht
    • Verwendung von Multi-Head-Aufmerksamkeit zur Fusion kodierter Merkmale
  3. Mathematische Ausdrücke:
    q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
    α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
    ĉ^i = Σ_j α_{ij}v^j
    

Trainingsziel

Das zentralisierte Training verwendet eine gemeinsame Verlustfunktion: L(θ,φ)=ΣiE(oi,ai,oi)D[aiIφi(oi,oi)2]+Ek,τ0D,β[εεθ(τ^k,(1β)y(τ0)+β,k)2]L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]

Ausführungsmodi

Zentralisierte Kontrolle

  • Zugriff auf aktuelle lokale Beobachtungen aller Agenten
  • Generierung von Trajektorien aller Agenten und Aktionsvorhersage
  • Anwendbar auf Multi-Agent-Trajektorienvorhersage und Teamspiele

Dezentralisierte Ausführung und Teamkollegen-Modellierung

  • Jeder Agent plant nur mit seiner eigenen lokalen Beobachtung
  • Gleichzeitige Inferenz von Beobachtungssequenzen anderer Agenten (Teamkollegen-Modellierung)
  • Effektive Koordination durch Aufmerksamkeitsmechanismus

Experimentelle Einrichtung

Datensätze

  1. Multi-Agent Particle Environment (MPE):
    • Spread: Drei Agenten decken drei Landmarken ab
    • Tag: Drei Raubtiere fangen vortrainierte Beute
    • World: Raubtiere fangen Beute auf einer Karte mit Wald
    • Datensätze: Expert, Medium-Replay, Medium, Random
  2. Multi-Agent Mujoco (MA Mujoco):
    • Konfigurationen: 2halfcheetah, 2ant, 4ant
    • Datensätze: Good, Medium, Poor
  3. StarCraft Multi-Agent Challenge (SMAC):
    • Karten: 3m, 2s3z, 5m_vs_6m, 8m
    • Datensätze: Good, Medium, Poor
  4. NBA-Datensatz:
    • Basketballspieler-Trajektorien aus 631 Spielen der Saison 2015-16
    • Verwendet für Multi-Agent-Trajektorienvorhersageaufgaben

Bewertungsmetriken

  • Offline-MARL: Episodische Belohnungen aus Online-Rollouts
  • Trajektorienvorhersage: Distanzbasierte Metriken wie ADE, FDE, minADE20, minFDE20

Vergleichsmethoden

  • Offline-MARL: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
  • Trajektorienvorhersage: Baller2Vec++

Experimentelle Ergebnisse

Hauptergebnisse

Offline-MARL-Leistung

MADiff erreicht optimale Ergebnisse bei den meisten Datensätzen:

AufgabeDatensatzBCMA-CQLOMARMADIFF-DMADIFF-C
MPE SpreadExpert35.0±2.698.2±5.2114.9±2.695.0±5.3116.7±3.0
MPE TagExpert40.0±9.693.9±14.0116.2±19.8120.9±14.6167.6±18.6

Trajektorienvorhersage-Leistung

Auf dem NBA-Datensatz übertrifft MADIFF-C die Baseline erheblich:

TrajektorienlängeMetrikBaller2Vec++MADIFF-C
20ADE15.15±0.387.92±0.86
20FDE24.91±0.6814.06±1.16

Ablationsstudien

Validieren die Wichtigkeit des Aufmerksamkeitsmechanismus:

  • MADIFF-D mit Aufmerksamkeit übertrifft unabhängige Version erheblich
  • Vorteil ist bei schwierigeren Aufgaben (z.B. World) ausgeprägter
  • Parameterfreigabe-Strategie reduziert effektiv die Parameteranzahl

Teamkollegen-Modellierungsanalyse

Visualisierungsanalyse der Spread-Aufgabe zeigt:

  • MADiff kann Verhaltensvorhersagen von Teamkollegen während Rollouts korrigieren
  • Konsistenzquote nimmt mit Zeitschritten zu und übertrifft schließlich echte Rollout-Trajektorien
  • Beweist die Effektivität der Teamkollegen-Modellierung

Verwandte Arbeiten

Multi-Agent-Offline-RL

  • Q-Learning-Erweiterungen: Methoden wie MA-BCQ, MA-ICQ leiden unter Extrapolationsfehlern
  • Sequenzmodellierung: MADT verwendet Transformer, fehlt aber Agent-Interaktionsmodellierung

Decision Diffusion Models

  • Single-Agent-Methoden: Diffuser, Decision Diffusion zeigen Erfolg bei Single-Agent-Aufgaben
  • Beitrag dieses Papiers: Erste Erweiterung von Diffusionsmodellen auf Multi-Agent-Szenarien

Gegnermodellierung

  • Umfangreiche Literatur zur Gegnermodellierung im Online-MARL
  • MADiff bietet effektive Offline-Teamkollegen-Modellierungslösung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. MADiff erweitert erfolgreich Diffusionsmodelle auf Multi-Agent-Lernen
  2. Aufmerksamkeitsmechanismus realisiert effektiv Agent-Koordination
  3. Einheitliches Framework unterstützt mehrere Anwendungsszenarien
  4. Erreicht hervorragende Leistung bei verschiedenen Aufgaben

Einschränkungen

  1. Skalierbarkeit: Nicht geeignet für Szenarien mit Dutzenden oder Hunderten von Agenten
  2. Stochastische Umgebungen: Möglicherweise schlechtere Leistung in hochstochastischen Umgebungen
  3. Rechenkomplexität: Erfordert Inferenz aller Teamkollegen-Trajektorien für jeden Agenten

Zukünftige Richtungen

  1. Erkundung latenter Darstellungen zur Verbesserung der Skalierbarkeit
  2. Verbesserung der Leistung in stochastischen Umgebungen
  3. Optimierung der Recheneffizienz

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste erfolgreiche Anwendung von Diffusionsmodellen auf Multi-Agent-Lernen
  2. Sorgfältige technische Gestaltung: Aufmerksamkeitsmechanismus löst elegant das Agent-Koordinationsproblem
  3. Umfassende Experimente: Abdeckung mehrerer Domänen und Aufgabentypen
  4. Hoher praktischer Wert: Einheitliches Framework unterstützt mehrere Anwendungsszenarien

Mängel

  1. Unzureichende theoretische Analyse: Fehlende theoretische Garantien für Konvergenz und Komplexität
  2. Skalierungsbeschränkungen: Begrenzte Anwendbarkeit in großen Multi-Agent-Systemen
  3. Stochastizitätsempfindlichkeit: Leistungsabfall in hochstochastischen Umgebungen

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen technischen Weg für Multi-Agent-Lernen
  2. Praktischer Wert: Anwendungspotenzial in Roboterkoordination, Spiele-KI und anderen Bereichen
  3. Reproduzierbarkeit: Bietet vollständigen Code und experimentelle Einrichtung

Anwendungsszenarien

  1. Offline-Multi-Agent-Verstärkungslernaufgaben
  2. Multi-Agent-Trajektorienvorhersage
  3. Entscheidungsprobleme, die Agent-Koordination erfordern
  4. Kooperative Aufgaben mit mittlerer Skalierung (2-8 Agenten)

Referenzen

Das Papier zitiert mehrere wichtige Arbeiten, einschließlich:

  • Grundlagen von Diffusionsmodellen: Ho et al. (2020), Song and Ermon (2019)
  • Single-Agent-Diffusions-RL: Janner et al. (2022), Ajay et al. (2023)
  • Multi-Agent-RL-Baselines: Rashid et al. (2020), Meng et al. (2021)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das Diffusionsmodelle erfolgreich in den Multi-Agent-Lernbereich einführt. Die technische Innovation ist erheblich und die experimentelle Validierung umfassend. Trotz einiger Einschränkungen eröffnet es neue Forschungsrichtungen in diesem Bereich und hat wichtigen akademischen Wert sowie praktische Aussichten.