2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

دمج التعلم المعزز وأشجار السلوك لشخصيات NPC في ألعاب الفيديو باستخدام AMD Schola

المعلومات الأساسية

  • معرّف الورقة: 2510.14154
  • العنوان: دمج التعلم المعزز وأشجار السلوك لشخصيات NPC في ألعاب الفيديو باستخدام AMD Schola
  • المؤلفون: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • التصنيف: cs.AI cs.LG
  • تاريخ النشر: 17 أكتوبر 2025 (نسخة أولية)
  • رابط الورقة: https://arxiv.org/abs/2510.14154

الملخص

على الرغم من التقدم الملحوظ في مجال البحث في التعلم المعزز (RL)، فإن تطبيقه في ألعاب الفيديو التجارية لا يزال بطيئاً. تقدم هذه الورقة نظرة عامة على التحديات الشائعة التي تواجهها مجتمع ذكاء الألعاب عند استخدام شخصيات NPC مدفوعة بالتعلم المعزز، وتؤكد على أن التقاطع بين التعلم المعزز وأشجار السلوك التقليدية (BT) هو نقطة حاسمة تتطلب استكشافاً إضافياً. على الرغم من أن دمج BT+RL قد تم ذكره في عدة أوراق بحثية، فإن تطبيقه العملي لا يزال نادراً. يستخدم المؤلفون AMD Schola - وهي إضافة لتدريب وكلاء التعلم المعزز في محرك Unreal - لإثبات جدوى هذا النهج من خلال إنشاء شخصيات NPC متعددة المهام في بيئة ثلاثية الأبعاد معقدة مستوحاة من اللعبة التجارية "The Last of Us".

خلفية البحث والدافع

1. المشكلة الأساسية

على الرغم من التطور السريع لتقنيات التعلم المعزز، فإن اعتماد شخصيات NPC المدفوعة بالتعلم المعزز في تطوير الألعاب التجارية يواجه تحديات كبيرة. بينما توفر طريقة أشجار السلوك التقليدية درجة عالية من البنية، إلا أنها تصبح معقدة وتفتقر إلى المرونة عند التعامل مع مهام متعددة؛ وبينما توفر طريقة التعلم المعزز القدرة على التكيف الديناميكي، إلا أنها تعاني من صعوبة تشكيل المكافآت والنقل السلبي للتعلم ومتطلبات الموارد الحسابية العالية.

2. أهمية المشكلة

  • تجربة اللعب: اتساق سلوك الشخصيات والطبيعة البشرية للسلوك حاسمان للحفاظ على جودة اللعبة وتعزيز تجربة المستخدم
  • كفاءة التطوير: يفضل مطورو الألعاب إعادة استخدام الأصول المطورة بالفعل، مما يتطلب نماذج قابلة لإعادة الاستخدام والتعديل
  • العتبة التقنية: نقص الدعم الكافي للأدوات، خاصة من حيث القابلية للتفسير والتحكم

3. قيود الطرق الموجودة

  • طريقة BT النقية: تطوير BT معقد متعدد المهام مرهق، يفتقر إلى المرونة، وينتج عنه تجارب لعب متكررة
  • طريقة التعلم المعزز النقية: صعوبة تدريب نماذج القدرات العامة، وجود مشاكل في تشكيل المكافآت والنقل السلبي للمهام والتكاليف الحسابية العالية
  • طريقة النماذج الكبيرة: زيادة معاملات النموذج أو استخدام نماذج أساسية كبيرة يزيد بشكل كبير من وقت التدريب وتأخير اللعبة

المساهمات الأساسية

  1. اقتراح معمارية هجينة BT+RL: دمج نموذج التعلم المعزز في شجرة السلوك، يجمع بين مزايا كلا الطريقتين
  2. تطوير نظام NPC متعدد المهارات: تنفيذ خمس مهارات أساسية تشمل الهروب (Flee) والبحث (Search) والقتال (Combat) والاختباء (Hide) والحركة (Move)
  3. بناء إطار عمل تدريب كامل: بناءً على إضافة AMD Schola، يوفر حلاً كاملاً للتدريب والنشر في محرك Unreal
  4. توفير التحقق التجريبي: التحقق من فعالية الطريقة في بيئة ثلاثية الأبعاد مستوحاة من "The Last of Us"
  5. نشر التنفيذ الكامل مفتوح المصدر: يشمل البيئة والنماذج وكود التنفيذ، مما يعزز البحث المجتمعي

شرح الطريقة

تعريف المهام

بناء شخصيات NPC قادرة على تنفيذ مهارات متعددة في بيئة ثلاثية الأبعاد معقدة، وتشمل بشكل محدد:

  • المدخلات: ملاحظات البيئة (معلومات العمق، حالة الصحة، كمية الذخيرة، اتجاه الهدف، إلخ)
  • المخرجات: تسلسل الإجراءات (الحركة، الإطلاق، الدوران، إلخ)
  • القيود: الحفاظ على اتساق السلوك، ضمان توازن اللعبة

معمارية النموذج

1. هيكل شجرة السلوك

الجذر → صحي؟ → [الذخيرة>0 → جمع → في النطاق → قتال]
                               ↓
                           بحث → [المسافة<2000 → هروب]
                                           ↓
                                        اختباء

2. تكوين نموذج التعلم المعزز

  • الملاحظات الأساسية: 36 شعاع كشف للهدف والعوائق وموقع إعادة تحميل الذخيرة؛ الملاحظات العددية تشمل الصحة الحالية وكمية الذخيرة واتجاه الهدف المعياري
  • معمارية الشبكة:
    • المهارات الأساسية: MLP بعمق 2 وعرض 64
    • التعلم المنهجي: MLP بعمق 2 وعرض 128 + طبقة الانتباه (بُعد الانتباه 60، أقصى طول تسلسل 20)
  • فضاء الإجراء: الحركة الجانبية، الحركة للأمام، الإطلاق

3. التكوينات الخاصة بكل مهارة

المهارةالملاحظات الخاصةالإجراءات الخاصةشروط الإنهاءخطوات التدريب
الهروبرؤية اللاعب، المسافةالحركةمسافة اللاعب<10002M
القتال-الإطلاقصحة اللاعب≤02M
الاختباءرؤية اللاعب، مسافة العائقالحركةاكتشاف اللاعب10M
الجمعأقرب موقع ذخيرةالحركةإعادة التحميل الناجحة12M

نقاط الابتكار التقني

  1. التصميم المعياري: يتم تدريب كل مهارة بشكل مستقل، قابلة لإعادة الاستخدام والدمج
  2. التحكم الهرمي: BT مسؤول عن القرارات عالية المستوى، والتعلم المعزز مسؤول عن التنفيذ المحدد
  3. القابلية للتفسير: يمكن للمطورين فهم وتعديل منطق سلوك NPC
  4. ضمان الاتساق: يضمن هيكل BT قابلية التنبؤ بالسلوك

إعداد التجربة

مجموعة البيانات

  • البيئة: خريطة مربعة مغلقة بحجم 4000×4000 وحدة، تحتوي على عوائق ثابتة و8 نقاط إعادة تحميل ذخيرة
  • تكوين NPC: 100 نقطة صحة، 10 ذخيرة، 10 نقاط ضرر لكل هجوم، فاصل إطلاق 0.15 ثانية، سرعة حركة 600 وحدة/ثانية
  • بيئة التدريب: سيناريوهات تدريب متخصصة مصممة لكل مهارة

مقاييس التقييم

  • معدل الفوز: نسبة الفوز ضد خصوم مختلفين
  • متوسط الخطوات: مدة كل جولة لعبة
  • إنتاج الضرر: الضرر الناجم عند مواجهة NPC هجومي
  • أداء FPS: أداء معدل الإطارات أثناء التشغيل الفعلي

طرق المقارنة

  1. خط أساس BT النقي: استخدام نفس هيكل الشجرة لكن مع مهام BT محددة مسبقاً في العقد الطرفية
  2. التعلم المعزز مع التعلم المنهجي: نموذج RL من طرف إلى طرف مدرب باستخدام 5 مراحل من التعلم المنهجي
  3. NPC ثابت: كائن اختبار لا يتحرك ولا يهاجم
  4. NPC هجومي: يتحكم فيه BT مبسط، مع مزايا هجومية (ذخيرة غير محدودة)

تفاصيل التنفيذ

  • خوارزمية التحسين: Proximal Policy Optimization (PPO)
  • معدل التعلم: 3e-4
  • الحد الأقصى للخطوات: 2000 خطوة لكل جولة
  • إطار العمل: RLlib مع إضافة AMD Schola

نتائج التجربة

النتائج الرئيسية

مقارنة أداء المعارك

الطريقةمعدل الفوز ضد NPC ثابتمعدل الفوز ضد NPC هجوميمتوسط الخطواتإنتاج الضرر
BT1.000.591839.63170.48
الطريقة الهجينة1.000.533969.22149.86
التعلم المنهجي1.000.413836.95137.80

تحليل الأداء

  • معدل الفوز: تتفوق الطريقة الهجينة بشكل ملحوظ على التعلم المعزز المنهجي، وتتفوق عليها قليلاً طريقة BT النقية
  • مدة اللعبة: طريقة BT لديها أقل عدد خطوات مع توزيع مركز، بينما تظهر طرق التعلم المعزز تباين أكبر، مما يشير إلى تنوع السلوك
  • الأداء الحسابي: BT النقي > التعلم المنهجي > الطريقة الهجينة

اختبار أداء FPS

التكوينوكيل واحد10 وكلاء
بدون نموذج267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
الطريقة الهجينة211.90±4.11109.71±1.88
التعلم المنهجي215.80±9.77116.14±2.54

النتائج التجريبية

  1. تنوع السلوك: تنتج طرق التعلم المعزز مسارات لعب أكثر تنوعاً، مما يزيد من عدم القدرة على التنبؤ بالحركات
  2. المقايضات الأداء: توفر الطريقة الهجينة تكيفاً أفضل مع الحفاظ على أداء معقولة
  3. إمكانية التحسين: يمكن تحسين أداء الطريقة الهجينة بشكل أكبر من خلال تقنيات مثل معالجة الدفعات

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. تطبيقات التعلم المعزز في ألعاب الفيديو: استنساخ السلوك والتعلم المعزز في ألعاب مثل Counter-Strike
  2. التعلم المعزز متعدد المهام: مشاركة المعرفة وتعلم التمثيل السياقي
  3. دمج BT والتعلم المعزز: التطبيقات في الأنظمة الحرجة من حيث السلامة والروبوتات
  4. النماذج واسعة النطاق: تعزيز قدرات NPC من خلال توسيع المعاملات والنماذج الأساسية

الفروقات في مساهمات هذه الورقة

  • التوجه العملي: التركيز على الاحتياجات الفعلية لمطوري الألعاب بدلاً من السيناريوهات البحثية البحتة
  • سلسلة أدوات كاملة: توفير حل شامل من التدريب إلى النشر
  • التنفيذ مفتوح المصدر: تعزيز اعتماد المجتمع والتطوير الإضافي

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. التحقق من الجدوى: الطريقة الهجينة BT+RL لها جدوى عملية في بيئات الألعاب
  2. الموازنة بين المزايا: دمج ناجح للمرونة في التعلم المعزز والقابلية للتفسير في BT
  3. فوائد المعيارية: وحدات المهارات المدربة بشكل مستقل تحسن إعادة الاستخدام وكفاءة التطوير

القيود

  1. الحمل الحسابي: تكلفة الحساب للطريقة الهجينة أعلى من طريقة BT النقية
  2. التعقيد: الحاجة إلى الحفاظ على هيكل BT ونماذج RL متعددة في نفس الوقت
  3. مساحة التحسين: لم يتم استكشاف تقنيات تحسين الأداء مثل معالجة الدفعات بشكل كافٍ
  4. نطاق التقييم: التحقق الأساسي في سيناريو لعبة محدد، مع عدم التأكد من القابلية للتعميم

الاتجاهات المستقبلية

  1. تحسين الأداء: تنفيذ معالجة الدفعات وتقنيات تحسين أخرى
  2. تحسين المعمارية: استكشاف طرق أكثر كفاءة لدمج BT والتعلم المعزز
  3. توسيع التطبيقات: التحقق من فعالية الطريقة في أنواع ألعاب وسيناريوهات أكثر
  4. تحسين الأدوات: تحسين وظائف وسهولة استخدام إضافة AMD Schola

التقييم المتعمق

المزايا

  1. قيمة عملية عالية: حل مباشر للاحتياجات الفعلية للصناعة، توفير أدوات وطرق قابلة للاستخدام
  2. ابتكار الطريقة: دمج فعال لمزايا BT والتعلم المعزز، تجنب قيود كل منهما
  3. تجارب شاملة: تقييم متعدد الجوانب يشمل الأداء ومعدل الفوز والكفاءة الحسابية وغيرها
  4. مساهمة مفتوحة المصدر: النشر الكامل يعزز تطوير المجتمع ونشر الطريقة
  5. تفاصيل تقنية كاملة: توفير تفاصيل تنفيذ وعاملات تكوين مفصلة

أوجه القصور

  1. نقص التحليل النظري: غياب التحليل النظري لدمج BT والتعلم المعزز وضمانات التقارب
  2. قيود سيناريو التقييم: التحقق الأساسي في سيناريو لعبة إطلاق نار، مع عدم معرفة قابلية التطبيق على أنواع ألعاب أخرى
  3. خطوط أساس مقارنة محدودة: عدم المقارنة مع طرق ذكاء ألعاب أكثر تقدماً
  4. الاستقرار على المدى الطويل: عدم تقييم الاستقرار والاتساق أثناء التشغيل لفترات طويلة
  5. تجربة المستخدم: غياب التقييمات الذاتية من اللاعبين الحقيقيين لجودة سلوك NPC

التأثير

  1. القيمة الأكاديمية: توفير إطار عمل طريقة هجينة عملية لمجال ذكاء الألعاب
  2. الأهمية الصناعية: توفير أدوات وطرق قابلة للتطبيق المباشر لمطوري الألعاب
  3. نشر التكنولوجيا: يساعد التنفيذ مفتوح المصدر على الاعتماد الواسع والتحسين
  4. التطبيقات عبر المجالات: قد تنطبق الطريقة على سيناريوهات تطبيقية أخرى تتطلب اتخاذ قرارات ذكية

السيناريوهات القابلة للتطبيق

  1. ألعاب الحركة: ألعاب إطلاق النار والقتال التي تتطلب سلوك NPC معقد
  2. ألعاب الاستراتيجية: ألعاب الاستراتيجية الفورية التي تتطلب خصوم ذكيين
  3. ألعاب لعب الأدوار: ألعاب لعب الأدوار التي تتطلب سلوك NPC متنوع
  4. أنظمة التدريب المحاكاة: أنظمة المحاكاة للتدريب العسكري والأمني

المراجع

تستشهد هذه الورقة بـ 21 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات متعددة بما فيها ذكاء الألعاب والتعلم المعزز وأشجار السلوك، مما يوفر أساساً نظرياً وتقنياً متيناً للبحث.


التقييم الإجمالي: هذه ورقة بحثية موجهة نحو التطبيق ذات قيمة عملية عالية، نجحت في تحويل الطرق النظرية إلى أدوات قابلة للاستخدام الفعلي، وقدمت مساهمة مهمة لمجال ذكاء الألعاب. على الرغم من وجود مجال للتحسين من حيث العمق النظري واتساع التقييم، فإن طبيعتها مفتوحة المصدر والتنفيذ الكامل يوفران أساساً قوياً للأبحاث اللاحقة.