Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
ভিডিও গেমে NPC-এর জন্য শক্তিশালী শিক্ষা এবং আচরণ গাছ একত্রিত করা AMD Schola সহ
যদিও শক্তিশালী শিক্ষা (RL) গবেষণা ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি হয়েছে, বাণিজ্যিক ভিডিও গেমে এর প্রয়োগ এখনও ধীর গতিতে চলছে। এই পেপারটি গেম AI সম্প্রদায়ের সামনে RL-চালিত NPC ব্যবহারের সময় সাধারণ চ্যালেঞ্জগুলির একটি সংক্ষিপ্ত বিবরণ প্রদান করে এবং RL এবং ঐতিহ্যবাহী আচরণ গাছ (BT)-এর মধ্যে ছেদকে একটি মূল নোড হিসাবে হাইলাইট করে যা আরও অন্বেষণের প্রয়োজন। যদিও BT+RL সমন্বয় একাধিক গবেষণা পত্রে উল্লেখ করা হয়েছে, এর বাস্তব প্রয়োগ এখনও বিরল। লেখকরা AMD Schola ব্যবহার করেন—একটি Unreal Engine-এ RL এজেন্ট প্রশিক্ষণের জন্য প্লাগইন, বাণিজ্যিক গেম "The Last of Us" দ্বারা অনুপ্রাণিত জটিল 3D পরিবেশে মাল্টি-টাস্ক NPC তৈরি করে এই পদ্ধতির সম্ভাব্যতা প্রদর্শন করতে।
যদিও শক্তিশালী শিক্ষা প্রযুক্তি দ্রুত বিকশিত হচ্ছে, বাণিজ্যিক গেম উন্নয়নে RL-চালিত NPC গ্রহণ উল্লেখযোগ্য চ্যালেঞ্জের সম্মুখীন। ঐতিহ্যবাহী আচরণ গাছ পদ্ধতি যদিও উচ্চ কাঠামোগত, মাল্টি-টাস্ক পরিচালনায় জটিল এবং অভিযোজনযোগ্যতার অভাব; যখন RL পদ্ধতি গতিশীল অভিযোজন ক্ষমতা রাখে, তবে পুরস্কার গঠনের কঠিনতা, নেতিবাচক স্থানান্তর শিক্ষা এবং উচ্চ গণনা সম্পদের চাহিদা রয়েছে।
মূল পর্যবেক্ষণ: লক্ষ্য, বাধা এবং গোলাবারুদ পুনরায় লোড অবস্থান সনাক্ত করতে 36টি রে; ফ্লোটিং পয়েন্ট পর্যবেক্ষণে বর্তমান স্বাস্থ্য মান, গোলাবারুদ সংখ্যা, লক্ষ্য স্বাভাবিকীকৃত দিকনির্দেশনা অন্তর্ভুক্ত
নেটওয়ার্ক আর্কিটেকচার:
মৌলিক দক্ষতা: গভীরতা 2, প্রস্থ 64 এর MLP
পাঠ্যক্রম শিক্ষা: গভীরতা 2, প্রস্থ 128 এর MLP + মনোযোগ স্তর (মনোযোগ মাত্রা 60, সর্বাধিক ক্রম দৈর্ঘ্য 20)
এই পেপারটি 21টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, গেম AI, শক্তিশালী শিক্ষা, আচরণ গাছ ইত্যাদি একাধিক গবেষণা ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।
সামগ্রিক মূল্যায়ন: এটি উচ্চ ব্যবহারিক মূল্যের একটি প্রয়োগ-ভিত্তিক গবেষণা পেপার, তাত্ত্বিক পদ্ধতিকে বাস্তব ব্যবহারযোগ্য সরঞ্জামে সফলভাবে রূপান্তরিত করে, গেম AI ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন প্রশস্ততার ক্ষেত্রে উন্নতির অবকাশ রয়েছে, তবে এর ওপেন-সোর্স প্রকৃতি এবং সম্পূর্ণ বাস্তবায়ন পরবর্তী গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করে।