Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
دمج التعلم المعزز وأشجار السلوك لشخصيات NPC في ألعاب الفيديو باستخدام AMD Schola
على الرغم من التقدم الملحوظ في مجال البحث في التعلم المعزز (RL)، فإن تطبيقه في ألعاب الفيديو التجارية لا يزال بطيئاً. تقدم هذه الورقة نظرة عامة على التحديات الشائعة التي تواجهها مجتمع ذكاء الألعاب عند استخدام شخصيات NPC مدفوعة بالتعلم المعزز، وتؤكد على أن التقاطع بين التعلم المعزز وأشجار السلوك التقليدية (BT) هو نقطة حاسمة تتطلب استكشافاً إضافياً. على الرغم من أن دمج BT+RL قد تم ذكره في عدة أوراق بحثية، فإن تطبيقه العملي لا يزال نادراً. يستخدم المؤلفون AMD Schola - وهي إضافة لتدريب وكلاء التعلم المعزز في محرك Unreal - لإثبات جدوى هذا النهج من خلال إنشاء شخصيات NPC متعددة المهام في بيئة ثلاثية الأبعاد معقدة مستوحاة من اللعبة التجارية "The Last of Us".
على الرغم من التطور السريع لتقنيات التعلم المعزز، فإن اعتماد شخصيات NPC المدفوعة بالتعلم المعزز في تطوير الألعاب التجارية يواجه تحديات كبيرة. بينما توفر طريقة أشجار السلوك التقليدية درجة عالية من البنية، إلا أنها تصبح معقدة وتفتقر إلى المرونة عند التعامل مع مهام متعددة؛ وبينما توفر طريقة التعلم المعزز القدرة على التكيف الديناميكي، إلا أنها تعاني من صعوبة تشكيل المكافآت والنقل السلبي للتعلم ومتطلبات الموارد الحسابية العالية.
تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما فيها ذكاء الألعاب والتعلم المعزز وأشجار السلوك، مما يوفر أساساً نظرياً وتقنياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية موجهة نحو التطبيق ذات قيمة عملية عالية، نجحت في تحويل الطرق النظرية إلى أدوات قابلة للاستخدام الفعلي، وقدمت مساهمة مهمة لمجال ذكاء الألعاب. على الرغم من وجود مجال للتحسين من حيث العمق النظري واتساع التقييم، فإن طبيعتها مفتوحة المصدر والتنفيذ الكامل يوفران أساساً قوياً للأبحاث اللاحقة.