2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

वीडियो गेम्स में NPCs के लिए सुदृढीकरण शिक्षा और व्यवहार वृक्षों का संयोजन AMD Schola के साथ

मूल जानकारी

  • पेपर ID: 2510.14154
  • शीर्षक: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • लेखक: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • वर्गीकरण: cs.AI cs.LG
  • प्रकाशन तिथि: 17 अक्टूबर, 2025 (प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.14154

सारांश

यद्यपि सुदृढीकरण शिक्षा (RL) अनुसंधान क्षेत्र में उल्लेखनीय प्रगति हुई है, वाणिज्यिक वीडियो गेम्स में इसका अनुप्रयोग अभी भी धीमा है। यह पेपर गेम AI समुदाय द्वारा RL-संचालित NPC के वास्तविक उपयोग में सामना किए जाने वाले सामान्य चुनौतियों का विवरण देता है, और RL तथा पारंपरिक व्यवहार वृक्षों (BT) के बीच का प्रतिच्छेदन एक महत्वपूर्ण नोड है जिसे आगे की खोज की आवश्यकता है। हालांकि BT+RL का संयोजन कई शोध पत्रों में उल्लिखित किया गया है, लेकिन इसका व्यावहारिक अनुप्रयोग अभी भी दुर्लभ है। लेखकों ने AMD Schola का उपयोग किया है—एक अनरियल इंजन में RL एजेंटों को प्रशिक्षित करने के लिए एक प्लगइन—वाणिज्यिक गेम "द लास्ट ऑफ अस" से प्रेरित जटिल 3D वातावरण में बहु-कार्य NPC बनाकर इस दृष्टिकोण की व्यवहार्यता का प्रदर्शन किया।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

यद्यपि सुदृढीकरण शिक्षा तकनीकें तेजी से विकसित हो रही हैं, वाणिज्यिक गेम विकास में RL-संचालित NPC को अपनाना अभी भी महत्वपूर्ण चुनौतियों का सामना कर रहा है। पारंपरिक व्यवहार वृक्ष विधि हालांकि संरचनात्मक रूप से उच्च है, बहु-कार्य को संभालते समय जटिल और अनुकूलनीय हो जाती है; जबकि RL विधि गतिशील अनुकूलन क्षमता प्रदान करती है, लेकिन पुरस्कार आकार देने की कठिनाई, नकारात्मक स्थानांतरण शिक्षा और उच्च कम्प्यूटेशनल संसाधन आवश्यकताओं की समस्याएं हैं।

2. समस्या की महत्ता

  • गेम अनुभव: NPC व्यवहार की सुसंगतता और मानव-समानता गेम गुणवत्ता बनाए रखने और उपयोगकर्ता अनुभव को बढ़ाने के लिए महत्वपूर्ण है
  • विकास दक्षता: गेम डेवलपर्स पहले से विकसित संपत्तियों का पुनः उपयोग करना पसंद करते हैं, पुनः प्रयोज्य और समायोज्य मॉडल की आवश्यकता है
  • तकनीकी बाधा: पर्याप्त उपकरण समर्थन की कमी, विशेष रूप से व्याख्यात्मकता और नियंत्रणीयता के संदर्भ में

3. मौजूदा विधियों की सीमाएं

  • शुद्ध BT विधि: जटिल बहु-कार्य BT विकास कठिन, अनुकूलन की कमी, दोहराव वाले गेम अनुभव का कारण बनता है
  • शुद्ध RL विधि: सामान्य क्षमता मॉडल प्रशिक्षण कठिन, पुरस्कार आकार देने, नकारात्मक कार्य स्थानांतरण और उच्च कम्प्यूटेशनल लागत की समस्याएं
  • बड़े मॉडल विधि: मॉडल पैरामीटर बढ़ाना या बड़े आधार मॉडल का उपयोग करना प्रशिक्षण समय और गेम विलंबता में उल्लेखनीय वृद्धि करता है

मूल योगदान

  1. BT+RL हाइब्रिड आर्किटेक्चर का प्रस्ताव: RL मॉडल को व्यवहार वृक्ष में एकीकृत करना, दोनों विधियों के लाभों को जोड़ना
  2. बहु-कौशल NPC प्रणाली विकसित की: पलायन (Flee), खोज (Search), युद्ध (Combat), छिपाना (Hide) और गति (Move) पाँच मूल कौशलों को लागू किया
  3. संपूर्ण प्रशिक्षण ढांचा निर्मित: AMD Schola प्लगइन के आधार पर, अनरियल इंजन में प्रशिक्षण और तैनाती के लिए एक संपूर्ण समाधान प्रदान किया
  4. व्यावहारिक सत्यापन प्रदान किया: "द लास्ट ऑफ अस" से प्रेरित 3D वातावरण में विधि की प्रभावशीलता को सत्यापित किया
  5. संपूर्ण कार्यान्वयन को खुला स्रोत किया: वातावरण, मॉडल और कार्यान्वयन कोड सहित, सामुदायिक अनुसंधान को बढ़ावा दिया

विधि विस्तार

कार्य परिभाषा

जटिल 3D वातावरण में कई कौशलों को निष्पादित करने में सक्षम NPC बनाना, विशेष रूप से:

  • इनपुट: पर्यावरण अवलोकन (गहराई की जानकारी, स्वास्थ्य स्थिति, गोला-बारूद की मात्रा, लक्ष्य दिशा आदि)
  • आउटपुट: क्रिया अनुक्रम (गति, शूटिंग, घूर्णन आदि)
  • बाधाएं: व्यवहार सुसंगतता बनाए रखना, गेम संतुलन सुनिश्चित करना

मॉडल आर्किटेक्चर

1. व्यवहार वृक्ष संरचना

Root → Healthy? → [Ammo>0 → Collect → InSight → Combat]
                               ↓
                           Search → [Distance<2000 → Flee]
                                           ↓
                                        Hide

2. RL मॉडल कॉन्फ़िगरेशन

  • मूल अवलोकन: 36 किरण लक्ष्य, बाधाएं और गोला-बारूद पुनः लोड स्थान का पता लगाते हैं; फ्लोटिंग पॉइंट अवलोकन में वर्तमान स्वास्थ्य मान, गोला-बारूद की मात्रा, लक्ष्य सामान्यीकृत दिशा शामिल है
  • नेटवर्क आर्किटेक्चर:
    • मूल कौशल: गहराई 2, चौड़ाई 64 की MLP
    • पाठ्यक्रम शिक्षा: गहराई 2, चौड़ाई 128 की MLP + ध्यान परत (ध्यान आयाम 60, अधिकतम अनुक्रम लंबाई 20)
  • क्रिया स्थान: पार्श्व गति, आगे की गति, शूटिंग

3. कौशल-विशिष्ट कॉन्फ़िगरेशन

कौशलविशेष अवलोकनविशेष क्रियासमाप्ति शर्तप्रशिक्षण चरण
Fleeखिलाड़ी दृश्यता, दूरीगतिखिलाड़ी दूरी<10002M
Combat-शूटिंगखिलाड़ी स्वास्थ्य≤02M
Hideखिलाड़ी दृश्यता, बाधा दूरीगतिखिलाड़ी की खोज10M
Collectनिकटतम गोला-बारूद स्थानगतिसफल पुनः लोड12M

तकनीकी नवाचार बिंदु

  1. मॉड्यूलर डिजाइन: प्रत्येक कौशल स्वतंत्र रूप से प्रशिक्षित, पुनः प्रयोज्य और संयोज्य
  2. पदानुक्रमित नियंत्रण: BT उच्च-स्तरीय निर्णय के लिए जिम्मेदार, RL विशिष्ट निष्पादन के लिए
  3. व्याख्यात्मकता: डेवलपर्स NPC व्यवहार तर्क को समझ और समायोजित कर सकते हैं
  4. सुसंगतता आश्वासन: BT संरचना के माध्यम से व्यवहार की पूर्वानुमेयता सुनिश्चित करना

प्रयोग सेटअप

डेटासेट

  • वातावरण: 4000×4000 इकाई का बंद वर्गाकार मानचित्र, स्थिर बाधाओं और 8 गोला-बारूद पुनः लोड बिंदुओं के साथ
  • NPC कॉन्फ़िगरेशन: 100HP, 10 गोला-बारूद, प्रति हमला 10HP नुकसान, 0.15 सेकंड शूटिंग अंतराल, 600 इकाई/सेकंड गति गति
  • प्रशिक्षण वातावरण: प्रत्येक कौशल के लिए विशेष प्रशिक्षण दृश्य डिजाइन किए गए

मूल्यांकन मेट्रिक्स

  • जीत दर: विभिन्न प्रतिद्वंद्वियों के विरुद्ध जीत का अनुपात
  • औसत चरण: प्रति गेम की अवधि
  • क्षति आउटपुट: आक्रामक NPC के विरुद्ध कारित क्षति
  • FPS प्रदर्शन: वास्तविक समय चलाने के दौरान फ्रेम दर प्रदर्शन

तुलना विधियां

  1. शुद्ध BT आधारभूत: समान वृक्ष संरचना का उपयोग लेकिन पत्ती नोड्स पूर्वनिर्धारित BT कार्य हैं
  2. पाठ्यक्रम शिक्षा RL: 5-चरण पाठ्यक्रम शिक्षा के साथ प्रशिक्षित अंत-से-अंत RL मॉडल
  3. स्थिर NPC: गति न करने वाले और हमला न करने वाले परीक्षण विषय
  4. आक्रामक NPC: सरलीकृत BT नियंत्रण, आक्रामक लाभ के साथ (असीमित गोला-बारूद)

कार्यान्वयन विवरण

  • अनुकूलन एल्गोरिथ्म: Proximal Policy Optimization (PPO)
  • शिक्षण दर: 3e-4
  • अधिकतम चरण: प्रति गेम 2000 चरण
  • प्रशिक्षण ढांचा: RLlib with AMD Schola plugin

प्रयोग परिणाम

मुख्य परिणाम

युद्ध प्रदर्शन तुलना

विधिस्थिर NPC के विरुद्ध जीत दरआक्रामक NPC के विरुद्ध जीत दरऔसत चरणक्षति आउटपुट
BT1.000.591839.63170.48
हाइब्रिड विधि1.000.533969.22149.86
पाठ्यक्रम शिक्षा1.000.413836.95137.80

प्रदर्शन विश्लेषण

  • जीत दर: हाइब्रिड विधि पाठ्यक्रम शिक्षा RL से काफी बेहतर है, केवल शुद्ध BT विधि से थोड़ी कम है
  • गेम अवधि: BT विधि में सबसे कम चरण और केंद्रित वितरण, RL विधि अधिक परिवर्तनशीलता दिखाती है, व्यवहार विविधता का संकेत देती है
  • कम्प्यूटेशनल प्रदर्शन: शुद्ध BT > पाठ्यक्रम शिक्षा > हाइब्रिड विधि

FPS प्रदर्शन परीक्षण

कॉन्फ़िगरेशन1 एजेंट10 एजेंट
कोई मॉडल नहीं267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
हाइब्रिड विधि211.90±4.11109.71±1.88
पाठ्यक्रम शिक्षा215.80±9.77116.14±2.54

प्रयोग निष्कर्ष

  1. व्यवहार विविधता: RL विधि अधिक विविध गेम प्रक्षेपवक्र उत्पन्न करती है, गेम की अप्रत्याशितता बढ़ाती है
  2. प्रदर्शन व्यापार: हाइब्रिड विधि उचित प्रदर्शन बनाए रखते हुए बेहतर अनुकूलन प्रदान करती है
  3. अनुकूलन संभावना: बैच प्रोसेसिंग जैसी तकनीकों के माध्यम से हाइब्रिड विधि के प्रदर्शन को और अनुकूलित किया जा सकता है

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

  1. गेम AI में RL अनुप्रयोग: Counter-Strike जैसे गेम्स में व्यवहार क्लोनिंग और सुदृढीकरण शिक्षा
  2. बहु-कार्य सुदृढीकरण शिक्षा: ज्ञान साझाकरण और संदर्भ प्रतिनिधित्व शिक्षा
  3. BT और RL संयोजन: सुरक्षा-महत्वपूर्ण प्रणालियों और रोबोटिक्स क्षेत्र में अनुप्रयोग
  4. बड़े पैमाने पर मॉडल: पैरामीटर विस्तार और आधार मॉडल के माध्यम से NPC क्षमता वृद्धि

इस पेपर का योगदान अंतर

  • व्यावहारिक उन्मुखता: गेम विकास कर्ताओं की वास्तविक आवश्यकताओं पर ध्यान केंद्रित, शुद्ध अनुसंधान परिदृश्य नहीं
  • संपूर्ण उपकरण श्रृंखला: प्रशिक्षण से तैनाती तक संपूर्ण समाधान प्रदान करना
  • खुला स्रोत कार्यान्वयन: सामुदायिक अपनाने और आगे विकास को बढ़ावा देना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. व्यवहार्यता सत्यापन: BT+RL हाइब्रिड विधि गेम वातावरण में व्यावहारिक व्यवहार्यता रखती है
  2. संतुलित लाभ: RL की अनुकूलन क्षमता और BT की व्याख्यात्मकता को सफलतापूर्वक जोड़ा
  3. मॉड्यूलर लाभ: स्वतंत्र रूप से प्रशिक्षित कौशल मॉड्यूल पुनः प्रयोज्यता और विकास दक्षता बढ़ाते हैं

सीमाएं

  1. प्रदर्शन ओवरहेड: हाइब्रिड विधि की कम्प्यूटेशनल लागत शुद्ध BT विधि से अधिक है
  2. जटिलता: BT संरचना और कई RL मॉडल को एक साथ बनाए रखने की आवश्यकता है
  3. अनुकूलन स्थान: बैच प्रोसेसिंग जैसी प्रदर्शन अनुकूलन तकनीकों को पूरी तरह से नहीं खोजा गया है
  4. मूल्यांकन सीमा: मुख्य रूप से विशिष्ट गेम परिदृश्य में सत्यापित, सामान्यीकरण क्षमता आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

  1. प्रदर्शन अनुकूलन: मॉडल बैच प्रोसेसिंग और अन्य अनुकूलन तकनीकें लागू करना
  2. आर्किटेक्चर सुधार: अधिक कुशल BT+RL एकीकरण तरीकों की खोज करना
  3. अनुप्रयोग विस्तार: अधिक गेम प्रकार और परिदृश्यों में विधि प्रभावशीलता को सत्यापित करना
  4. उपकरण सुधार: AMD Schola प्लगइन की कार्यक्षमता और उपयोग में आसानी में सुधार करना

गहन मूल्यांकन

शक्तियां

  1. उच्च व्यावहारिक मूल्य: गेम उद्योग की वास्तविक आवश्यकताओं को सीधे संबोधित करता है, उपयोगी उपकरण और विधि प्रदान करता है
  2. विधि नवाचार: BT और RL के लाभों को प्रभावी ढंग से जोड़ता है, प्रत्येक की सीमाओं से बचता है
  3. पर्याप्त प्रयोग: प्रदर्शन, जीत दर, कम्प्यूटेशनल दक्षता आदि मुख्य संकेतकों सहित बहु-कोणीय मूल्यांकन
  4. खुला स्रोत योगदान: संपूर्ण खुला स्रोत सामुदायिक विकास और विधि प्रचार को बढ़ावा देता है
  5. संपूर्ण तकनीकी विवरण: विस्तृत कार्यान्वयन विवरण और कॉन्फ़िगरेशन पैरामीटर प्रदान करता है

कमियां

  1. अपर्याप्त सैद्धांतिक विश्लेषण: BT+RL संयोजन के सैद्धांतिक विश्लेषण और अभिसरण गारंटी की कमी
  2. मूल्यांकन परिदृश्य सीमा: मुख्य रूप से शूटिंग गेम परिदृश्य में सत्यापित, अन्य गेम प्रकारों की प्रयोज्यता अज्ञात है
  3. सीमित तुलना आधारभूत: अधिक उन्नत गेम AI विधियों के साथ तुलना नहीं की गई है
  4. दीर्घकालीन स्थिरता: लंबे समय तक चलने की स्थिरता और सुसंगतता का मूल्यांकन नहीं किया गया है
  5. उपयोगकर्ता अनुभव: NPC व्यवहार गुणवत्ता पर वास्तविक खिलाड़ियों के व्यक्तिपरक मूल्यांकन की कमी

प्रभाव

  1. शैक्षणिक मूल्य: गेम AI क्षेत्र के लिए व्यावहारिक हाइब्रिड विधि ढांचा प्रदान करता है
  2. औद्योगिक महत्व: गेम विकास कर्ताओं के लिए सीधे लागू करने योग्य उपकरण और विधि प्रदान करता है
  3. तकनीकी प्रचार: खुला स्रोत कार्यान्वयन विधि के व्यापक अपनाने और सुधार में सहायता करता है
  4. अंतर-क्षेत्रीय अनुप्रयोग: विधि अन्य बुद्धिमान निर्णय की आवश्यकता वाले अनुप्रयोग परिदृश्यों पर लागू हो सकती है

प्रयोज्य परिदृश्य

  1. एक्शन गेम्स: जटिल NPC व्यवहार की आवश्यकता वाले शूटिंग, लड़ाई गेम्स
  2. रणनीति गेम्स: बुद्धिमान प्रतिद्वंद्वी की आवश्यकता वाले वास्तविक समय रणनीति गेम्स
  3. RPG गेम्स: विविध NPC व्यवहार की आवश्यकता वाले भूमिका निभाने वाले गेम्स
  4. सिमुलेशन प्रशिक्षण: सैन्य, सुरक्षा आदि क्षेत्रों की सिमुलेशन प्रशिक्षण प्रणाली

संदर्भ

यह पेपर 21 संबंधित संदर्भों का हवाला देता है, जो गेम AI, सुदृढीकरण शिक्षा, व्यवहार वृक्ष आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करता है।


समग्र मूल्यांकन: यह एक उच्च व्यावहारिक मूल्य वाला अनुप्रयोग-उन्मुख अनुसंधान पेपर है, जो सैद्धांतिक विधियों को व्यावहारिक उपयोगी उपकरणों में सफलतापूर्वक परिवर्तित करता है, गेम AI क्षेत्र में महत्वपूर्ण योगदान देता है। यद्यपि सैद्धांतिक गहराई और मूल्यांकन व्यापकता के संदर्भ में सुधार की गुंजाइश है, लेकिन इसकी खुला स्रोत प्रकृति और संपूर्ण कार्यान्वयन बाद के अनुसंधान के लिए एक अच्छा आधार प्रदान करते हैं।