Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
वीडियो गेम्स में NPCs के लिए सुदृढीकरण शिक्षा और व्यवहार वृक्षों का संयोजन AMD Schola के साथ
यद्यपि सुदृढीकरण शिक्षा (RL) अनुसंधान क्षेत्र में उल्लेखनीय प्रगति हुई है, वाणिज्यिक वीडियो गेम्स में इसका अनुप्रयोग अभी भी धीमा है। यह पेपर गेम AI समुदाय द्वारा RL-संचालित NPC के वास्तविक उपयोग में सामना किए जाने वाले सामान्य चुनौतियों का विवरण देता है, और RL तथा पारंपरिक व्यवहार वृक्षों (BT) के बीच का प्रतिच्छेदन एक महत्वपूर्ण नोड है जिसे आगे की खोज की आवश्यकता है। हालांकि BT+RL का संयोजन कई शोध पत्रों में उल्लिखित किया गया है, लेकिन इसका व्यावहारिक अनुप्रयोग अभी भी दुर्लभ है। लेखकों ने AMD Schola का उपयोग किया है—एक अनरियल इंजन में RL एजेंटों को प्रशिक्षित करने के लिए एक प्लगइन—वाणिज्यिक गेम "द लास्ट ऑफ अस" से प्रेरित जटिल 3D वातावरण में बहु-कार्य NPC बनाकर इस दृष्टिकोण की व्यवहार्यता का प्रदर्शन किया।
यद्यपि सुदृढीकरण शिक्षा तकनीकें तेजी से विकसित हो रही हैं, वाणिज्यिक गेम विकास में RL-संचालित NPC को अपनाना अभी भी महत्वपूर्ण चुनौतियों का सामना कर रहा है। पारंपरिक व्यवहार वृक्ष विधि हालांकि संरचनात्मक रूप से उच्च है, बहु-कार्य को संभालते समय जटिल और अनुकूलनीय हो जाती है; जबकि RL विधि गतिशील अनुकूलन क्षमता प्रदान करती है, लेकिन पुरस्कार आकार देने की कठिनाई, नकारात्मक स्थानांतरण शिक्षा और उच्च कम्प्यूटेशनल संसाधन आवश्यकताओं की समस्याएं हैं।
मूल अवलोकन: 36 किरण लक्ष्य, बाधाएं और गोला-बारूद पुनः लोड स्थान का पता लगाते हैं; फ्लोटिंग पॉइंट अवलोकन में वर्तमान स्वास्थ्य मान, गोला-बारूद की मात्रा, लक्ष्य सामान्यीकृत दिशा शामिल है
नेटवर्क आर्किटेक्चर:
मूल कौशल: गहराई 2, चौड़ाई 64 की MLP
पाठ्यक्रम शिक्षा: गहराई 2, चौड़ाई 128 की MLP + ध्यान परत (ध्यान आयाम 60, अधिकतम अनुक्रम लंबाई 20)
यह पेपर 21 संबंधित संदर्भों का हवाला देता है, जो गेम AI, सुदृढीकरण शिक्षा, व्यवहार वृक्ष आदि कई अनुसंधान क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च व्यावहारिक मूल्य वाला अनुप्रयोग-उन्मुख अनुसंधान पेपर है, जो सैद्धांतिक विधियों को व्यावहारिक उपयोगी उपकरणों में सफलतापूर्वक परिवर्तित करता है, गेम AI क्षेत्र में महत्वपूर्ण योगदान देता है। यद्यपि सैद्धांतिक गहराई और मूल्यांकन व्यापकता के संदर्भ में सुधार की गुंजाइश है, लेकिन इसकी खुला स्रोत प्रकृति और संपूर्ण कार्यान्वयन बाद के अनुसंधान के लिए एक अच्छा आधार प्रदान करते हैं।