2025-11-23T13:10:17.147119

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhu, Liu, Mao et al.

Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.

academic

MADiff: التعلم متعدد الوكلاء غير المتصل باستخدام نماذج الانتشار

المعلومات الأساسية

معرّف الورقة: 2305.17330
العنوان: MADiff: Offline Multi-agent Learning with Diffusion Models
المؤلفون: Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang
التصنيف: cs.AI cs.LG
وقت النشر/المؤتمر: NeurIPS 2024 (المؤتمر الثامن والثلاثون حول أنظمة معالجة المعلومات العصبية)
رابط الورقة: https://arxiv.org/abs/2305.17330

الملخص

يهدف التعلم المعزز غير المتصل (Offline RL) إلى تعلم السياسات من مجموعات بيانات موجودة مسبقاً دون تفاعل إضافي، وهي مهمة صعبة. تعاني خوارزميات Q-learning من مشكلة خطأ الاستقراء في الإعدادات غير المتصلة، بينما تقتصر طرق التعلم الخاضع للإشراف على قدرة التعبير عن النموذج. مؤخراً، أظهرت نماذج الانتشار (DMs) وعوداً في التعلم أحادي الوكيل للتغلب على هذه القيود، لكن تطبيقها في السيناريوهات متعددة الوكلاء لا يزال غير واضح. قد يؤدي استخدام نماذج انتشار مستقلة لكل وكيل إلى إعاقة التنسيق، بينما يؤدي ربط جميع معلومات الوكلاء إلى كفاءة عينة منخفضة. لذلك، نقترح MADiff، الذي يقوم بنمذجة التنسيق المعقد بين سلوكيات الوكلاء المتعددين من خلال نموذج انتشار قائم على الانتباه. بقدر علمنا، MADiff هو أول إطار عمل متعدد الوكلاء قائم على الانتشار، يعمل كسياسة لامركزية وكمتحكم مركزي. أثناء التنفيذ اللامركزي، ينفذ MADiff نمذجة زملاء العمل في نفس الوقت، ويمكن أيضاً تطبيق المتحكم المركزي على التنبؤ بالمسارات متعددة الوكلاء. تُظهر التجارب أن MADiff يتفوق على خوارزميات الأساس في مختلف مهام التعلم متعدد الوكلاء، مما يسلط الضوء على فعاليته في نمذجة التفاعلات المعقدة بين الوكلاء المتعددين.

خلفية البحث والدافع

خلفية المشكلة

تحديات التعلم المعزز متعدد الوكلاء غير المتصل: مقارنة بالتعلم أحادي الوكيل، يتم البحث في التعلم متعدد الوكلاء غير المتصل (MAL) بشكل أقل وهو أكثر تحديات. نظراً لأن سلوك جميع الوكلاء مترابط، يحتاج كل وكيل إلى نمذجة التفاعلات والتنسيق بين الوكلاء، مع اتخاذ القرارات بطريقة لامركزية لتحقيق الأهداف.
قيود الطرق الموجودة:
- طرق Q-learning: تعاني من مشكلة خطأ الاستقراء في الإعدادات غير المتصلة، حيث يؤدي دالة القيمة المركزية غير الصحيحة إلى خطأ استقراء كبير
- طرق النمذجة التسلسلية: مقيدة بقدرة التعبير عن النموذج، مما يصعب التعامل مع مجموعات البيانات المتنوعة، مع وجود خطأ مركب في الإنشاء الانحداري
- نماذج الانتشار المستقلة: قد يؤدي استخدام نماذج انتشار مستقلة لكل وكيل إلى عدم اتساق خطير بسبب نقص تخصيص الائتمان المناسب
- طرق الربط البسيطة: ربط جميع معلومات الوكلاء كمدخلات ومخرجات نموذج الانتشار يتجاهل الخصائص المهمة للأنظمة متعددة الوكلاء
دافع البحث:
- أظهرت نماذج الانتشار قدرات نمذجة متفوقة في التعلم المعزز غير المتصل أحادي الوكيل
- تتطلب الأنظمة متعددة الوكلاء آليات تنسيق فعالة
- هناك حاجة إلى إطار عمل موحد يدعم نموذج التدريب المركزي والتنفيذ اللامركزي (CTDE)

المساهمات الأساسية

أول إطار عمل للتعلم متعدد الوكلاء قائم على الانتشار: يقترح MADiff، الذي يوحد السياسات اللامركزية والمتحكمات المركزية ونمذجة زملاء العمل وظائف التنبؤ بالمسارات
بنية نموذج انتشار جديدة قائمة على الانتباه: مصممة خصيصاً للتعلم متعدد الوكلاء، مما يحقق التنسيق بين الوكلاء في كل خطوة إزالة ضوضاء
أداء تجريبي متفوق: تحقيق أداء ممتازة على مختلف المشاكل متعددة الوكلاء غير المتصلة، بما في ذلك مهام التعلم المعزز متعدد الوكلاء والتنبؤ بالمسارات

شرح الطريقة

تعريف المهمة

تأخذ هذه الورقة في الاعتبار مشكلة التعلم متعدد الوكلاء القابلة للملاحظة جزئياً والتعاونية بالكامل، والمصاغة كـ Dec-POMDP: $G = \langle S,A, P, r,Ω, O,N,U, γ\rangle$

حيث:

يمثل $S$ و $A$ مساحات الحالة والعمل على التوالي
$N$ وكيل $\{1, 2, ..., N\}$ يتصرفون في خطوات زمنية منفصلة
يلاحظ كل وكيل $i$ فقط الملاحظة المحلية $o^i \in Ω$
الهدف الأمثل هو تعلم السياسة $π^i$ لتعظيم المكافأة المتراكمة المخصومة

معمارية النموذج

التصميم الشامل

يعتمد MADiff على إطار عمل شبكة انتشار قائم على الانتباه، مع إجراء حسابات الانتباه عبر الوكلاء في طبقة فك التشفير لكل وكيل.

المكونات الأساسية

بنية U-Net الأساسية: تستخدم U-Net كبنية أساسية لنمذجة مسارات جميع الوكلاء، تتضمن كتل بقايا الالتفاف أحادية البعد المتكررة
آلية الانتباه:
- استخدام طبقة انتباه قبل كتل فك التشفير في U-Net لجميع الوكلاء
- يتم إجراء عملية الانتباه على ميزات الاتصال المتخطي $c^i_l$ من طبقة المشفر
- استخدام آلية انتباه متعددة الرؤوس لدمج الميزات المشفرة

التعبير الرياضي:

q^i = f_{query}(c^i), k^i = f_{key}(c^i), v^i = f_{value}(c^i)
α_{ij} = exp(q^ik^j/√d_k) / Σ_p exp(q^ik^p/√d_k)
ĉ^i = Σ_j α_{ij}v^j

هدف التدريب

يستخدم التدريب المركزي دالة خسارة مشتركة: $L(θ,φ) = Σ_i E_{(o^i,a^i,o'^i)∈D}[||a^i - I^i_φ(o^i, o'^i)||^2] + E_{k,τ_0∈D,β}[||ε - ε_θ(τ̂_k, (1-β)y(τ_0) + β∅, k)||^2]$

أنماط التنفيذ

التحكم المركزي

الوصول إلى جميع الملاحظات المحلية الحالية للوكلاء
إنشاء مسارات جميع الوكلاء والتنبؤ بالإجراءات
ينطبق على التنبؤ بالمسارات متعددة الوكلاء والألعاب الجماعية

التنفيذ اللامركزي ونمذجة زملاء العمل

يستخدم كل وكيل فقط ملاحظته المحلية للتخطيط
استنتاج تسلسلات الملاحظات للوكلاء الآخرين في نفس الوقت (نمذجة زملاء العمل)
تحقيق التنسيق الفعال من خلال آلية الانتباه

إعداد التجارب

مجموعات البيانات

بيئة الجزيئات متعددة الوكلاء (MPE):
- Spread: ثلاثة وكلاء يغطون ثلاث معالم
- Tag: ثلاثة مفترسين يصطادون فريسة مدربة مسبقاً
- World: مفترسون يصطادون فريسة في خريطة بها غابات
- مجموعات البيانات: Expert, Medium-Replay, Medium, Random
Mujoco متعدد الوكلاء (MA Mujoco):
- تكوينات 2halfcheetah, 2ant, 4ant
- مجموعات البيانات: Good, Medium, Poor
تحدي StarCraft متعدد الوكلاء (SMAC):
- الخرائط: 3m, 2s3z, 5m_vs_6m, 8m
- مجموعات البيانات: Good, Medium, Poor
مجموعة بيانات NBA:
- مسارات لاعبي كرة السلة من 631 مباراة في موسم 2015-16
- تستخدم لمهام التنبؤ بالمسارات متعددة الوكلاء

مقاييس التقييم

التعلم المعزز متعدد الوكلاء غير المتصل: مكافآت الحلقة المكتسبة من خلال التجريب عبر الإنترنت
التنبؤ بالمسارات: ADE, FDE, minADE20, minFDE20 وغيرها من المقاييس القائمة على المسافة

طرق المقارنة

التعلم المعزز متعدد الوكلاء غير المتصل: MA-ICQ, MA-CQL, OMAR, MA-TD3+BC, MADT, BC
التنبؤ بالمسارات: Baller2Vec++

نتائج التجارب

النتائج الرئيسية

أداء التعلم المعزز متعدد الوكلاء غير المتصل

حقق MADiff أفضل النتائج على معظم مجموعات البيانات:

المهمة	مجموعة البيانات	BC	MA-CQL	OMAR	MADIFF-D	MADIFF-C
MPE Spread	Expert	35.0±2.6	98.2±5.2	114.9±2.6	95.0±5.3	116.7±3.0
MPE Tag	Expert	40.0±9.6	93.9±14.0	116.2±19.8	120.9±14.6	167.6±18.6

أداء التنبؤ بالمسارات

على مجموعة بيانات NBA، يتفوق MADIFF-C بشكل كبير على الأساس:

طول المسار	المقياس	Baller2Vec++	MADIFF-C
20	ADE	15.15±0.38	7.92±0.86
20	FDE	24.91±0.68	14.06±1.16

تجارب الاستئصال

التحقق من أهمية آلية الانتباه:

يتفوق MADIFF-D مع الانتباه بشكل كبير على النسخة المستقلة
الميزة أكثر وضوحاً في المهام الأكثر تحديات (مثل World)
استراتيجية مشاركة المعاملات فعالة في تقليل عدد المعاملات

تحليل نمذجة زملاء العمل

يُظهر التحليل المرئي لمهمة Spread:

يمكن لـ MADiff تصحيح توقعات سلوك زملاء العمل أثناء عملية التجريب
تزداد نسبة الاتساق مع خطوات زمنية، وتتجاوز في النهاية مسارات التجريب الحقيقية
يثبت فعالية نمذجة زملاء العمل

الأعمال ذات الصلة

التعلم المعزز متعدد الوكلاء غير المتصل

امتدادات Q-learning: تعاني طرق MA-BCQ و MA-ICQ وغيرها من مشكلة خطأ الاستقراء
النمذجة التسلسلية: يستخدم MADT محول لكن يفتقر إلى نمذجة التفاعل بين الوكلاء

نماذج الانتشار للقرار

الطرق أحادية الوكيل: حققت Diffuser و Decision Diffusion نجاحاً في المهام أحادية الوكيل
مساهمة هذه الورقة: أول توسيع لنماذج الانتشار إلى السيناريوهات متعددة الوكلاء

نمذجة الخصم

أدبيات غنية حول نمذجة الخصم في التعلم المعزز متعدد الوكلاء عبر الإنترنت
يوفر MADiff حلاً فعالاً لنمذجة زملاء العمل غير المتصلة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح MADiff في توسيع نماذج الانتشار إلى التعلم متعدد الوكلاء
تحقق آلية الانتباه التنسيق الفعال بين الوكلاء
يدعم الإطار الموحد سيناريوهات تطبيق متعددة
تحقيق أداء ممتازة على مختلف المهام

القيود

قابلية التوسع: غير مناسب للسيناريوهات التي تضم عشرات أو مئات الوكلاء
البيئات العشوائية: قد تظهر أداء سيئة في البيئات ذات العشوائية العالية
التعقيد الحسابي: يتطلب استنتاج مسارات جميع زملاء العمل لكل وكيل

الاتجاهات المستقبلية

استكشاف التمثيلات الكامنة لتحسين قابلية التوسع
تحسين الأداء في البيئات العشوائية
تحسين الكفاءة الحسابية

التقييم المتعمق

المزايا

ابتكار قوي: أول تطبيق ناجح لنماذج الانتشار في التعلم متعدد الوكلاء
تصميم تقني متقن: تحل آلية الانتباه بذكاء مشكلة التنسيق بين الوكلاء
تجارب شاملة: تغطي أنواع مهام وحقول متعددة
قيمة عملية عالية: يدعم الإطار الموحد سيناريوهات تطبيق متعددة

أوجه القصور

تحليل نظري غير كافٍ: يفتقر إلى ضمانات نظرية للتقارب والتعقيد
قيود قابلية التوسع: قابلية التطبيق محدودة في الأنظمة متعددة الوكلاء الكبيرة
حساسية العشوائية: انخفاض الأداء في البيئات عالية العشوائية

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد للتعلم متعدد الوكلاء
القيمة العملية: إمكانية التطبيق في التنسيق الروبوتي وذكاء اللعبة وغيرها
قابلية إعادة الإنتاج: توفير كود كامل وإعدادات تجريبية

السيناريوهات المناسبة

مهام التعلم المعزز متعدد الوكلاء غير المتصلة
التنبؤ بالمسارات متعددة الوكلاء
مشاكل القرار التي تتطلب تنسيق الوكلاء
المهام التعاونية متوسطة الحجم (2-8 وكلاء)

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:

الأعمال الأساسية لنماذج الانتشار: Ho et al. (2020), Song and Ermon (2019)
انتشار التعلم المعزز أحادي الوكيل: Janner et al. (2022), Ajay et al. (2023)
خطوط الأساس للتعلم المعزز متعدد الوكلاء: Rashid et al. (2020), Meng et al. (2021)

التقييم الشامل: هذه ورقة بحثية عالية الجودة نجحت في إدخال نماذج الانتشار إلى مجال التعلم متعدد الوكلاء، مع ابتكار تقني كبير والتحقق التجريبي الشامل. على الرغم من وجود بعض القيود، فإنها تفتح اتجاهات بحثية جديدة في هذا المجال، وتتمتع بقيمة أكاديمية وآفاق عملية مهمة.