MADiff: Offline Multi-agent Learning with Diffusion Models
Zhu, Liu, Mao et al.
Offline reinforcement learning (RL) aims to learn policies from pre-existing datasets without further interactions, making it a challenging task. Q-learning algorithms struggle with extrapolation errors in offline settings, while supervised learning methods are constrained by model expressiveness. Recently, diffusion models (DMs) have shown promise in overcoming these limitations in single-agent learning, but their application in multi-agent scenarios remains unclear. Generating trajectories for each agent with independent DMs may impede coordination, while concatenating all agents' information can lead to low sample efficiency. Accordingly, we propose MADiff, which is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple agents. To our knowledge, MADiff is the first diffusion-based multi-agent learning framework, functioning as both a decentralized policy and a centralized controller. During decentralized executions, MADiff simultaneously performs teammate modeling, and the centralized controller can also be applied in multi-agent trajectory predictions. Our experiments demonstrate that MADiff outperforms baseline algorithms across various multi-agent learning tasks, highlighting its effectiveness in modeling complex multi-agent interactions. Our code is available at https://github.com/zbzhu99/madiff.
academic
MADiff: التعلم متعدد الوكلاء غير المتصل باستخدام نماذج الانتشار
يهدف التعلم المعزز غير المتصل (Offline RL) إلى تعلم السياسات من مجموعات بيانات موجودة مسبقاً دون تفاعل إضافي، وهي مهمة صعبة. تعاني خوارزميات Q-learning من مشكلة خطأ الاستقراء في الإعدادات غير المتصلة، بينما تقتصر طرق التعلم الخاضع للإشراف على قدرة التعبير عن النموذج. مؤخراً، أظهرت نماذج الانتشار (DMs) وعوداً في التعلم أحادي الوكيل للتغلب على هذه القيود، لكن تطبيقها في السيناريوهات متعددة الوكلاء لا يزال غير واضح. قد يؤدي استخدام نماذج انتشار مستقلة لكل وكيل إلى إعاقة التنسيق، بينما يؤدي ربط جميع معلومات الوكلاء إلى كفاءة عينة منخفضة. لذلك، نقترح MADiff، الذي يقوم بنمذجة التنسيق المعقد بين سلوكيات الوكلاء المتعددين من خلال نموذج انتشار قائم على الانتباه. بقدر علمنا، MADiff هو أول إطار عمل متعدد الوكلاء قائم على الانتشار، يعمل كسياسة لامركزية وكمتحكم مركزي. أثناء التنفيذ اللامركزي، ينفذ MADiff نمذجة زملاء العمل في نفس الوقت، ويمكن أيضاً تطبيق المتحكم المركزي على التنبؤ بالمسارات متعددة الوكلاء. تُظهر التجارب أن MADiff يتفوق على خوارزميات الأساس في مختلف مهام التعلم متعدد الوكلاء، مما يسلط الضوء على فعاليته في نمذجة التفاعلات المعقدة بين الوكلاء المتعددين.
تحديات التعلم المعزز متعدد الوكلاء غير المتصل: مقارنة بالتعلم أحادي الوكيل، يتم البحث في التعلم متعدد الوكلاء غير المتصل (MAL) بشكل أقل وهو أكثر تحديات. نظراً لأن سلوك جميع الوكلاء مترابط، يحتاج كل وكيل إلى نمذجة التفاعلات والتنسيق بين الوكلاء، مع اتخاذ القرارات بطريقة لامركزية لتحقيق الأهداف.
قيود الطرق الموجودة:
طرق Q-learning: تعاني من مشكلة خطأ الاستقراء في الإعدادات غير المتصلة، حيث يؤدي دالة القيمة المركزية غير الصحيحة إلى خطأ استقراء كبير
طرق النمذجة التسلسلية: مقيدة بقدرة التعبير عن النموذج، مما يصعب التعامل مع مجموعات البيانات المتنوعة، مع وجود خطأ مركب في الإنشاء الانحداري
نماذج الانتشار المستقلة: قد يؤدي استخدام نماذج انتشار مستقلة لكل وكيل إلى عدم اتساق خطير بسبب نقص تخصيص الائتمان المناسب
طرق الربط البسيطة: ربط جميع معلومات الوكلاء كمدخلات ومخرجات نموذج الانتشار يتجاهل الخصائص المهمة للأنظمة متعددة الوكلاء
دافع البحث:
أظهرت نماذج الانتشار قدرات نمذجة متفوقة في التعلم المعزز غير المتصل أحادي الوكيل
تتطلب الأنظمة متعددة الوكلاء آليات تنسيق فعالة
هناك حاجة إلى إطار عمل موحد يدعم نموذج التدريب المركزي والتنفيذ اللامركزي (CTDE)
أول إطار عمل للتعلم متعدد الوكلاء قائم على الانتشار: يقترح MADiff، الذي يوحد السياسات اللامركزية والمتحكمات المركزية ونمذجة زملاء العمل وظائف التنبؤ بالمسارات
بنية نموذج انتشار جديدة قائمة على الانتباه: مصممة خصيصاً للتعلم متعدد الوكلاء، مما يحقق التنسيق بين الوكلاء في كل خطوة إزالة ضوضاء
أداء تجريبي متفوق: تحقيق أداء ممتازة على مختلف المشاكل متعددة الوكلاء غير المتصلة، بما في ذلك مهام التعلم المعزز متعدد الوكلاء والتنبؤ بالمسارات
الأعمال الأساسية لنماذج الانتشار: Ho et al. (2020), Song and Ermon (2019)
انتشار التعلم المعزز أحادي الوكيل: Janner et al. (2022), Ajay et al. (2023)
خطوط الأساس للتعلم المعزز متعدد الوكلاء: Rashid et al. (2020), Meng et al. (2021)
التقييم الشامل: هذه ورقة بحثية عالية الجودة نجحت في إدخال نماذج الانتشار إلى مجال التعلم متعدد الوكلاء، مع ابتكار تقني كبير والتحقق التجريبي الشامل. على الرغم من وجود بعض القيود، فإنها تفتح اتجاهات بحثية جديدة في هذا المجال، وتتمتع بقيمة أكاديمية وآفاق عملية مهمة.