2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

ভিডিও গেমে NPC-এর জন্য শক্তিশালী শিক্ষা এবং আচরণ গাছ একত্রিত করা AMD Schola সহ

মৌলিক তথ্য

পেপার আইডি: 2510.14154
শিরোনাম: ভিডিও গেমে NPC-এর জন্য শক্তিশালী শিক্ষা এবং আচরণ গাছ একত্রিত করা AMD Schola সহ
লেখক: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
শ্রেণীবিভাগ: cs.AI cs.LG
প্রকাশনার সময়: অক্টোবর ১৭, ২০২৫ (প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.14154

সারসংক্ষেপ

যদিও শক্তিশালী শিক্ষা (RL) গবেষণা ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি হয়েছে, বাণিজ্যিক ভিডিও গেমে এর প্রয়োগ এখনও ধীর গতিতে চলছে। এই পেপারটি গেম AI সম্প্রদায়ের সামনে RL-চালিত NPC ব্যবহারের সময় সাধারণ চ্যালেঞ্জগুলির একটি সংক্ষিপ্ত বিবরণ প্রদান করে এবং RL এবং ঐতিহ্যবাহী আচরণ গাছ (BT)-এর মধ্যে ছেদকে একটি মূল নোড হিসাবে হাইলাইট করে যা আরও অন্বেষণের প্রয়োজন। যদিও BT+RL সমন্বয় একাধিক গবেষণা পত্রে উল্লেখ করা হয়েছে, এর বাস্তব প্রয়োগ এখনও বিরল। লেখকরা AMD Schola ব্যবহার করেন—একটি Unreal Engine-এ RL এজেন্ট প্রশিক্ষণের জন্য প্লাগইন, বাণিজ্যিক গেম "The Last of Us" দ্বারা অনুপ্রাণিত জটিল 3D পরিবেশে মাল্টি-টাস্ক NPC তৈরি করে এই পদ্ধতির সম্ভাব্যতা প্রদর্শন করতে।

গবেষণা পটভূমি এবং প্রেরণা

1. মূল সমস্যা

যদিও শক্তিশালী শিক্ষা প্রযুক্তি দ্রুত বিকশিত হচ্ছে, বাণিজ্যিক গেম উন্নয়নে RL-চালিত NPC গ্রহণ উল্লেখযোগ্য চ্যালেঞ্জের সম্মুখীন। ঐতিহ্যবাহী আচরণ গাছ পদ্ধতি যদিও উচ্চ কাঠামোগত, মাল্টি-টাস্ক পরিচালনায় জটিল এবং অভিযোজনযোগ্যতার অভাব; যখন RL পদ্ধতি গতিশীল অভিযোজন ক্ষমতা রাখে, তবে পুরস্কার গঠনের কঠিনতা, নেতিবাচক স্থানান্তর শিক্ষা এবং উচ্চ গণনা সম্পদের চাহিদা রয়েছে।

2. সমস্যার গুরুত্ব

গেম অভিজ্ঞতা: NPC আচরণের সামঞ্জস্য এবং মানব-সদৃশতা গেম গুণমান বজায় রাখা এবং ব্যবহারকারীর অভিজ্ঞতা বৃদ্ধির জন্য গুরুত্বপূর্ণ
উন্নয়ন দক্ষতা: গেম ডেভেলপাররা ইতিমধ্যে উন্নত সম্পদ পুনরায় ব্যবহার করতে পছন্দ করে, পুনরায় ব্যবহারযোগ্য এবং সামঞ্জস্যযোগ্য মডেলের প্রয়োজন
প্রযুক্তিগত বাধা: পর্যাপ্ত সরঞ্জাম সহায়তার অভাব, বিশেষত ব্যাখ্যাযোগ্যতা এবং নিয়ন্ত্রণযোগ্যতার ক্ষেত্রে

3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

খাঁটি BT পদ্ধতি: জটিল মাল্টি-টাস্ক BT উন্নয়ন ক্লান্তিকর, অভিযোজনযোগ্যতার অভাব, পুনরাবৃত্তিমূলক গেম অভিজ্ঞতা তৈরি করতে সহজ
খাঁটি RL পদ্ধতি: সার্বজনীন ক্ষমতা মডেল প্রশিক্ষণ কঠিন, পুরস্কার গঠন, নেতিবাচক কাজ স্থানান্তর এবং উচ্চ গণনা খরচ বিদ্যমান
বড় মডেল পদ্ধতি: মডেল পরামিতি বৃদ্ধি বা বড় ভিত্তি মডেল ব্যবহার প্রশিক্ষণ সময় এবং গেম বিলম্ব উল্লেখযোগ্যভাবে বৃদ্ধি করে

মূল অবদান

BT+RL হাইব্রিড আর্কিটেকচার প্রস্তাব: RL মডেলকে আচরণ গাছে একীভূত করা, উভয় পদ্ধতির সুবিধা একত্রিত করা
মাল্টি-স্কিল NPC সিস্টেম উন্নয়ন: পালানো (Flee), অনুসন্ধান (Search), যুদ্ধ (Combat), লুকানো (Hide) এবং চলাচল (Move) পাঁচটি মূল দক্ষতা বাস্তবায়ন
সম্পূর্ণ প্রশিক্ষণ কাঠামো নির্মাণ: AMD Schola প্লাগইনের উপর ভিত্তি করে, Unreal Engine-এ প্রশিক্ষণ এবং স্থাপনার সম্পূর্ণ সমাধান প্রদান
অভিজ্ঞতামূলক যাচাইকরণ প্রদান: "The Last of Us" দ্বারা অনুপ্রাণিত 3D পরিবেশে পদ্ধতির কার্যকারিতা যাচাই করা
সম্পূর্ণ বাস্তবায়ন ওপেন-সোর্স করা: পরিবেশ, মডেল এবং বাস্তবায়ন কোড সহ, সম্প্রদায় গবেষণা প্রচার করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

জটিল 3D পরিবেশে একাধিক দক্ষতা সম্পাদন করতে সক্ষম NPC তৈরি করা, বিশেষভাবে:

ইনপুট: পরিবেশ পর্যবেক্ষণ (গভীরতা তথ্য, স্বাস্থ্য অবস্থা, গোলাবারুদ সংখ্যা, লক্ষ্য দিকনির্দেশনা ইত্যাদি)
আউটপুট: কর্ম ক্রম (চলাচল, গুলি চালানো, ঘোরানো ইত্যাদি)
সীমাবদ্ধতা: আচরণ সামঞ্জস্য বজায় রাখা, গেম ভারসাম্য নিশ্চিত করা

মডেল আর্কিটেকচার

1. আচরণ গাছ কাঠামো

মূল → স্বাস্থ্যকর? → [গোলাবারুদ>0 → সংগ্রহ → দৃষ্টিতে → যুদ্ধ]
                               ↓
                           অনুসন্ধান → [দূরত্ব<2000 → পালানো]
                                           ↓
                                        লুকানো

2. RL মডেল কনফিগারেশন

মূল পর্যবেক্ষণ: লক্ষ্য, বাধা এবং গোলাবারুদ পুনরায় লোড অবস্থান সনাক্ত করতে 36টি রে; ফ্লোটিং পয়েন্ট পর্যবেক্ষণে বর্তমান স্বাস্থ্য মান, গোলাবারুদ সংখ্যা, লক্ষ্য স্বাভাবিকীকৃত দিকনির্দেশনা অন্তর্ভুক্ত
নেটওয়ার্ক আর্কিটেকচার:
- মৌলিক দক্ষতা: গভীরতা 2, প্রস্থ 64 এর MLP
- পাঠ্যক্রম শিক্ষা: গভীরতা 2, প্রস্থ 128 এর MLP + মনোযোগ স্তর (মনোযোগ মাত্রা 60, সর্বাধিক ক্রম দৈর্ঘ্য 20)
কর্ম স্থান: পার্শ্বীয় চলাচল, সামনের চলাচল, গুলি চালানো

3. দক্ষতা-নির্দিষ্ট কনফিগারেশন

দক্ষতা	বিশেষ পর্যবেক্ষণ	বিশেষ কর্ম	সমাপ্তির শর্ত	প্রশিক্ষণ পদক্ষেপ
পালানো	খেলোয়াড় দৃশ্যমানতা, দূরত্ব	চলাচল	খেলোয়াড় দূরত্ব<1000	2M
যুদ্ধ	-	গুলি চালানো	খেলোয়াড় স্বাস্থ্য≤0	2M
লুকানো	খেলোয়াড় দৃশ্যমানতা, বাধা দূরত্ব	চলাচল	খেলোয়াড় আবিষ্কার	10M
সংগ্রহ	নিকটতম গোলাবারুদ অবস্থান	চলাচল	সফল পুনরায় লোড	12M

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

মডুলার ডিজাইন: প্রতিটি দক্ষতা স্বাধীনভাবে প্রশিক্ষিত, পুনরায় ব্যবহারযোগ্য এবং সংমিশ্রণযোগ্য
স্তরযুক্ত নিয়ন্ত্রণ: BT উচ্চ-স্তরের সিদ্ধান্তের জন্য দায়ী, RL নির্দিষ্ট বাস্তবায়নের জন্য দায়ী
ব্যাখ্যাযোগ্যতা: ডেভেলপাররা NPC আচরণ যুক্তি বুঝতে এবং সামঞ্জস্য করতে পারে
সামঞ্জস্য নিশ্চিতকরণ: BT কাঠামোর মাধ্যমে আচরণের পূর্বাভাসযোগ্যতা নিশ্চিত করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

পরিবেশ: 4000×4000 ইউনিটের বন্ধ বর্গাকার মানচিত্র, স্থির বাধা এবং 8টি গোলাবারুদ পুনরায় লোড পয়েন্ট সহ
NPC কনফিগারেশন: 100HP, 10 গোলাবারুদ, প্রতিটি আক্রমণ 10HP ক্ষতি, 0.15 সেকেন্ড গুলি চালানোর ব্যবধান, 600 ইউনিট/সেকেন্ড চলাচল গতি
প্রশিক্ষণ পরিবেশ: প্রতিটি দক্ষতার জন্য বিশেষায়িত প্রশিক্ষণ দৃশ্য ডিজাইন করা

মূল্যায়ন মেট্রিক্স

জয়ের হার: বিভিন্ন প্রতিদ্বন্দ্বীর বিরুদ্ধে জয়ের অনুপাত
গড় পদক্ষেপ: প্রতিটি গেমের স্থায়িত্ব
ক্ষতি আউটপুট: আক্রমণাত্মক NPC-এর বিরুদ্ধে কারণ ক্ষতি
FPS কর্মক্ষমতা: রিয়েল-টাইম চালানোর সময় ফ্রেম রেট পারফরম্যান্স

তুলনা পদ্ধতি

খাঁটি BT বেসলাইন: একই গাছ কাঠামো ব্যবহার করে কিন্তু লিফ নোড পূর্বনির্ধারিত BT কাজ
পাঠ্যক্রম শিক্ষা RL: 5-পর্যায়ের পাঠ্যক্রম শিক্ষা দিয়ে প্রশিক্ষিত শেষ-থেকে-শেষ RL মডেল
স্থির NPC: চলাচল বা আক্রমণ ছাড়াই পরীক্ষা বস্তু
আক্রমণাত্মক NPC: সরলীকৃত BT নিয়ন্ত্রণ, আক্রমণ সুবিধা সহ (অসীম গোলাবারুদ)

বাস্তবায়ন বিবরণ

অপ্টিমাইজেশন অ্যালগরিদম: Proximal Policy Optimization (PPO)
শেখার হার: 3e-4
সর্বাধিক পদক্ষেপ: প্রতিটি গেমে 2000 পদক্ষেপ
প্রশিক্ষণ কাঠামো: RLlib with AMD Schola plugin

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

যুদ্ধ কর্মক্ষমতা তুলনা

পদ্ধতি	স্থির NPC-এর বিরুদ্ধে জয়ের হার	আক্রমণাত্মক NPC-এর বিরুদ্ধে জয়ের হার	গড় পদক্ষেপ	ক্ষতি আউটপুট
BT	1.00	0.59	1839.63	170.48
হাইব্রিড পদ্ধতি	1.00	0.53	3969.22	149.86
পাঠ্যক্রম শিক্ষা	1.00	0.41	3836.95	137.80

কর্মক্ষমতা বিশ্লেষণ

জয়ের হার: হাইব্রিড পদ্ধতি পাঠ্যক্রম শিক্ষা RL-এর চেয়ে উল্লেখযোগ্যভাবে ভাল, খাঁটি BT পদ্ধতির চেয়ে শুধুমাত্র সামান্য কম
গেম সময়কাল: BT পদ্ধতি সবচেয়ে কম পদক্ষেপ এবং কেন্দ্রীভূত বিতরণ, RL পদ্ধতি বৃহত্তর পরিবর্তনশীলতা প্রদর্শন করে, আচরণ বৈচিত্র্য নির্দেশ করে
গণনা কর্মক্ষমতা: খাঁটি BT > পাঠ্যক্রম শিক্ষা > হাইব্রিড পদ্ধতি

FPS কর্মক্ষমতা পরীক্ষা

কনফিগারেশন	1টি এজেন্ট	10টি এজেন্ট
কোন মডেল নেই	267.73±3.37	188.83±4.14
BT	261.90±10.88	155.82±4.31
হাইব্রিড পদ্ধতি	211.90±4.11	109.71±1.88
পাঠ্যক্রম শিক্ষা	215.80±9.77	116.14±2.54

পরীক্ষামূলক আবিষ্কার

আচরণ বৈচিত্র্য: RL পদ্ধতি আরও বৈচিত্র্যময় গেম ট্র্যাজেক্টরি তৈরি করে, গেমের অপূর্বতা বৃদ্ধি করে
কর্মক্ষমতা ট্রেড-অফ: হাইব্রিড পদ্ধতি যুক্তিসঙ্গত কর্মক্ষমতা বজায় রেখে আরও ভাল অভিযোজনযোগ্যতা প্রদান করে
অপ্টিমাইজেশন সম্ভাবনা: ব্যাচ প্রসেসিং ইত্যাদি প্রযুক্তির মাধ্যমে হাইব্রিড পদ্ধতির কর্মক্ষমতা আরও অপ্টিমাইজ করা যায়

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সম্ভাব্যতা যাচাইকরণ: BT+RL হাইব্রিড পদ্ধতি গেম পরিবেশে বাস্তব সম্ভাব্যতা রাখে
ভারসাম্য সুবিধা: সফলভাবে RL-এর অভিযোজনযোগ্যতা এবং BT-এর ব্যাখ্যাযোগ্যতা একত্রিত করা
মডুলার সুবিধা: স্বাধীনভাবে প্রশিক্ষিত দক্ষতা মডিউল পুনরায় ব্যবহারযোগ্যতা এবং উন্নয়ন দক্ষতা উন্নত করে

সীমাবদ্ধতা

কর্মক্ষমতা ওভারহেড: হাইব্রিড পদ্ধতির গণনা খরচ খাঁটি BT পদ্ধতির চেয়ে বেশি
জটিলতা: একই সাথে BT কাঠামো এবং একাধিক RL মডেল বজায় রাখার প্রয়োজন
অপ্টিমাইজেশন স্থান: ব্যাচ প্রসেসিং ইত্যাদি কর্মক্ষমতা অপ্টিমাইজেশন কৌশল সম্পূর্ণভাবে অন্বেষণ করা হয়নি
মূল্যায়ন পরিসীমা: প্রধানত নির্দিষ্ট গেম পরিস্থিতিতে যাচাই করা, সাধারণীকরণ ক্ষমতা আরও যাচাইয়ের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

কর্মক্ষমতা অপ্টিমাইজেশন: মডেল ব্যাচ প্রসেসিং এবং অন্যান্য অপ্টিমাইজেশন কৌশল বাস্তবায়ন করা
আর্কিটেকচার উন্নতি: আরও দক্ষ BT+RL একীকরণ পদ্ধতি অন্বেষণ করা
প্রয়োগ সম্প্রসারণ: আরও গেম প্রকার এবং পরিস্থিতিতে পদ্ধতির কার্যকারিতা যাচাই করা
সরঞ্জাম উন্নতি: AMD Schola প্লাগইনের কার্যকারিতা এবং ব্যবহারযোগ্যতা উন্নত করা

গভীর মূল্যায়ন

শক্তি

উচ্চ ব্যবহারিক মূল্য: গেম শিল্পের বাস্তব চাহিদা সরাসরি সমাধান করা, ব্যবহারযোগ্য সরঞ্জাম এবং পদ্ধতি প্রদান করা
পদ্ধতি উদ্ভাবন: BT এবং RL-এর সুবিধা কার্যকরভাবে একত্রিত করা, প্রতিটির সীমাবদ্ধতা এড়ানো
পর্যাপ্ত পরীক্ষা: কর্মক্ষমতা, জয়ের হার, গণনা দক্ষতা ইত্যাদি মূল সূচক সহ বহু-কোণ মূল্যায়ন
ওপেন-সোর্স অবদান: সম্পূর্ণ ওপেন-সোর্স সম্প্রদায় উন্নয়ন এবং পদ্ধতি প্রচার প্রচার করে
সম্পূর্ণ প্রযুক্তিগত বিবরণ: বিস্তারিত বাস্তবায়ন বিবরণ এবং কনফিগারেশন পরামিতি প্রদান করা

অপূর্ণতা

অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: BT+RL সমন্বয়ের তাত্ত্বিক বিশ্লেষণ এবং সংমিশ্রণ গ্যারান্টির অভাব
মূল্যায়ন পরিস্থিতি সীমাবদ্ধতা: প্রধানত শুটিং গেম পরিস্থিতিতে যাচাই করা, অন্যান্য গেম প্রকারের প্রযোজ্যতা অজানা
সীমিত তুলনা বেসলাইন: আরও উন্নত গেম AI পদ্ধতির সাথে তুলনা করা হয়নি
দীর্ঘমেয়াদী স্থিতিশীলতা: দীর্ঘ সময় চালানোর স্থিতিশীলতা এবং সামঞ্জস্য মূল্যায়ন করা হয়নি
ব্যবহারকারীর অভিজ্ঞতা: NPC আচরণ গুণমানের প্রতি বাস্তব খেলোয়াড়দের বিষয়গত মূল্যায়নের অভাব

প্রভাব

একাডেমিক মূল্য: গেম AI ক্ষেত্রে ব্যবহারিক হাইব্রিড পদ্ধতি কাঠামো প্রদান করা
শিল্প তাৎপর্য: গেম ডেভেলপারদের জন্য সরাসরি প্রয়োগযোগ্য সরঞ্জাম এবং পদ্ধতি প্রদান করা
প্রযুক্তি প্রচার: ওপেন-সোর্স বাস্তবায়ন পদ্ধতির ব্যাপক গ্রহণ এবং উন্নতিতে সহায়তা করে
ক্রস-ডোমেইন প্রয়োগ: পদ্ধতি অন্যান্য স্মার্ট সিদ্ধান্ত প্রয়োজনীয় প্রয়োগ পরিস্থিতিতে প্রযোজ্য হতে পারে

প্রযোজ্য পরিস্থিতি

অ্যাকশন গেম: জটিল NPC আচরণ প্রয়োজনীয় শুটিং, ফাইটিং গেম
কৌশল গেম: স্মার্ট প্রতিদ্বন্দ্বী প্রয়োজনীয় রিয়েল-টাইম কৌশল গেম
RPG গেম: বৈচিত্র্যময় NPC আচরণ প্রয়োজনীয় ভূমিকা-খেলা গেম
সিমুলেশন প্রশিক্ষণ: সামরিক, নিরাপত্তা ইত্যাদি ক্ষেত্রের সিমুলেশন প্রশিক্ষণ সিস্টেম

রেফারেন্স

এই পেপারটি 21টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, গেম AI, শক্তিশালী শিক্ষা, আচরণ গাছ ইত্যাদি একাধিক গবেষণা ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি উচ্চ ব্যবহারিক মূল্যের একটি প্রয়োগ-ভিত্তিক গবেষণা পেপার, তাত্ত্বিক পদ্ধতিকে বাস্তব ব্যবহারযোগ্য সরঞ্জামে সফলভাবে রূপান্তরিত করে, গেম AI ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন প্রশস্ততার ক্ষেত্রে উন্নতির অবকাশ রয়েছে, তবে এর ওপেন-সোর্স প্রকৃতি এবং সম্পূর্ণ বাস্তবায়ন পরবর্তী গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করে।