2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

ভিডিও গেমে NPC-এর জন্য শক্তিশালী শিক্ষা এবং আচরণ গাছ একত্রিত করা AMD Schola সহ

মৌলিক তথ্য

  • পেপার আইডি: 2510.14154
  • শিরোনাম: ভিডিও গেমে NPC-এর জন্য শক্তিশালী শিক্ষা এবং আচরণ গাছ একত্রিত করা AMD Schola সহ
  • লেখক: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • শ্রেণীবিভাগ: cs.AI cs.LG
  • প্রকাশনার সময়: অক্টোবর ১৭, ২০২৫ (প্রাক-প্রিন্ট)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.14154

সারসংক্ষেপ

যদিও শক্তিশালী শিক্ষা (RL) গবেষণা ক্ষেত্রে উল্লেখযোগ্য অগ্রগতি হয়েছে, বাণিজ্যিক ভিডিও গেমে এর প্রয়োগ এখনও ধীর গতিতে চলছে। এই পেপারটি গেম AI সম্প্রদায়ের সামনে RL-চালিত NPC ব্যবহারের সময় সাধারণ চ্যালেঞ্জগুলির একটি সংক্ষিপ্ত বিবরণ প্রদান করে এবং RL এবং ঐতিহ্যবাহী আচরণ গাছ (BT)-এর মধ্যে ছেদকে একটি মূল নোড হিসাবে হাইলাইট করে যা আরও অন্বেষণের প্রয়োজন। যদিও BT+RL সমন্বয় একাধিক গবেষণা পত্রে উল্লেখ করা হয়েছে, এর বাস্তব প্রয়োগ এখনও বিরল। লেখকরা AMD Schola ব্যবহার করেন—একটি Unreal Engine-এ RL এজেন্ট প্রশিক্ষণের জন্য প্লাগইন, বাণিজ্যিক গেম "The Last of Us" দ্বারা অনুপ্রাণিত জটিল 3D পরিবেশে মাল্টি-টাস্ক NPC তৈরি করে এই পদ্ধতির সম্ভাব্যতা প্রদর্শন করতে।

গবেষণা পটভূমি এবং প্রেরণা

1. মূল সমস্যা

যদিও শক্তিশালী শিক্ষা প্রযুক্তি দ্রুত বিকশিত হচ্ছে, বাণিজ্যিক গেম উন্নয়নে RL-চালিত NPC গ্রহণ উল্লেখযোগ্য চ্যালেঞ্জের সম্মুখীন। ঐতিহ্যবাহী আচরণ গাছ পদ্ধতি যদিও উচ্চ কাঠামোগত, মাল্টি-টাস্ক পরিচালনায় জটিল এবং অভিযোজনযোগ্যতার অভাব; যখন RL পদ্ধতি গতিশীল অভিযোজন ক্ষমতা রাখে, তবে পুরস্কার গঠনের কঠিনতা, নেতিবাচক স্থানান্তর শিক্ষা এবং উচ্চ গণনা সম্পদের চাহিদা রয়েছে।

2. সমস্যার গুরুত্ব

  • গেম অভিজ্ঞতা: NPC আচরণের সামঞ্জস্য এবং মানব-সদৃশতা গেম গুণমান বজায় রাখা এবং ব্যবহারকারীর অভিজ্ঞতা বৃদ্ধির জন্য গুরুত্বপূর্ণ
  • উন্নয়ন দক্ষতা: গেম ডেভেলপাররা ইতিমধ্যে উন্নত সম্পদ পুনরায় ব্যবহার করতে পছন্দ করে, পুনরায় ব্যবহারযোগ্য এবং সামঞ্জস্যযোগ্য মডেলের প্রয়োজন
  • প্রযুক্তিগত বাধা: পর্যাপ্ত সরঞ্জাম সহায়তার অভাব, বিশেষত ব্যাখ্যাযোগ্যতা এবং নিয়ন্ত্রণযোগ্যতার ক্ষেত্রে

3. বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • খাঁটি BT পদ্ধতি: জটিল মাল্টি-টাস্ক BT উন্নয়ন ক্লান্তিকর, অভিযোজনযোগ্যতার অভাব, পুনরাবৃত্তিমূলক গেম অভিজ্ঞতা তৈরি করতে সহজ
  • খাঁটি RL পদ্ধতি: সার্বজনীন ক্ষমতা মডেল প্রশিক্ষণ কঠিন, পুরস্কার গঠন, নেতিবাচক কাজ স্থানান্তর এবং উচ্চ গণনা খরচ বিদ্যমান
  • বড় মডেল পদ্ধতি: মডেল পরামিতি বৃদ্ধি বা বড় ভিত্তি মডেল ব্যবহার প্রশিক্ষণ সময় এবং গেম বিলম্ব উল্লেখযোগ্যভাবে বৃদ্ধি করে

মূল অবদান

  1. BT+RL হাইব্রিড আর্কিটেকচার প্রস্তাব: RL মডেলকে আচরণ গাছে একীভূত করা, উভয় পদ্ধতির সুবিধা একত্রিত করা
  2. মাল্টি-স্কিল NPC সিস্টেম উন্নয়ন: পালানো (Flee), অনুসন্ধান (Search), যুদ্ধ (Combat), লুকানো (Hide) এবং চলাচল (Move) পাঁচটি মূল দক্ষতা বাস্তবায়ন
  3. সম্পূর্ণ প্রশিক্ষণ কাঠামো নির্মাণ: AMD Schola প্লাগইনের উপর ভিত্তি করে, Unreal Engine-এ প্রশিক্ষণ এবং স্থাপনার সম্পূর্ণ সমাধান প্রদান
  4. অভিজ্ঞতামূলক যাচাইকরণ প্রদান: "The Last of Us" দ্বারা অনুপ্রাণিত 3D পরিবেশে পদ্ধতির কার্যকারিতা যাচাই করা
  5. সম্পূর্ণ বাস্তবায়ন ওপেন-সোর্স করা: পরিবেশ, মডেল এবং বাস্তবায়ন কোড সহ, সম্প্রদায় গবেষণা প্রচার করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

জটিল 3D পরিবেশে একাধিক দক্ষতা সম্পাদন করতে সক্ষম NPC তৈরি করা, বিশেষভাবে:

  • ইনপুট: পরিবেশ পর্যবেক্ষণ (গভীরতা তথ্য, স্বাস্থ্য অবস্থা, গোলাবারুদ সংখ্যা, লক্ষ্য দিকনির্দেশনা ইত্যাদি)
  • আউটপুট: কর্ম ক্রম (চলাচল, গুলি চালানো, ঘোরানো ইত্যাদি)
  • সীমাবদ্ধতা: আচরণ সামঞ্জস্য বজায় রাখা, গেম ভারসাম্য নিশ্চিত করা

মডেল আর্কিটেকচার

1. আচরণ গাছ কাঠামো

মূল → স্বাস্থ্যকর? → [গোলাবারুদ>0 → সংগ্রহ → দৃষ্টিতে → যুদ্ধ]
                               ↓
                           অনুসন্ধান → [দূরত্ব<2000 → পালানো]
                                           ↓
                                        লুকানো

2. RL মডেল কনফিগারেশন

  • মূল পর্যবেক্ষণ: লক্ষ্য, বাধা এবং গোলাবারুদ পুনরায় লোড অবস্থান সনাক্ত করতে 36টি রে; ফ্লোটিং পয়েন্ট পর্যবেক্ষণে বর্তমান স্বাস্থ্য মান, গোলাবারুদ সংখ্যা, লক্ষ্য স্বাভাবিকীকৃত দিকনির্দেশনা অন্তর্ভুক্ত
  • নেটওয়ার্ক আর্কিটেকচার:
    • মৌলিক দক্ষতা: গভীরতা 2, প্রস্থ 64 এর MLP
    • পাঠ্যক্রম শিক্ষা: গভীরতা 2, প্রস্থ 128 এর MLP + মনোযোগ স্তর (মনোযোগ মাত্রা 60, সর্বাধিক ক্রম দৈর্ঘ্য 20)
  • কর্ম স্থান: পার্শ্বীয় চলাচল, সামনের চলাচল, গুলি চালানো

3. দক্ষতা-নির্দিষ্ট কনফিগারেশন

দক্ষতাবিশেষ পর্যবেক্ষণবিশেষ কর্মসমাপ্তির শর্তপ্রশিক্ষণ পদক্ষেপ
পালানোখেলোয়াড় দৃশ্যমানতা, দূরত্বচলাচলখেলোয়াড় দূরত্ব<10002M
যুদ্ধ-গুলি চালানোখেলোয়াড় স্বাস্থ্য≤02M
লুকানোখেলোয়াড় দৃশ্যমানতা, বাধা দূরত্বচলাচলখেলোয়াড় আবিষ্কার10M
সংগ্রহনিকটতম গোলাবারুদ অবস্থানচলাচলসফল পুনরায় লোড12M

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. মডুলার ডিজাইন: প্রতিটি দক্ষতা স্বাধীনভাবে প্রশিক্ষিত, পুনরায় ব্যবহারযোগ্য এবং সংমিশ্রণযোগ্য
  2. স্তরযুক্ত নিয়ন্ত্রণ: BT উচ্চ-স্তরের সিদ্ধান্তের জন্য দায়ী, RL নির্দিষ্ট বাস্তবায়নের জন্য দায়ী
  3. ব্যাখ্যাযোগ্যতা: ডেভেলপাররা NPC আচরণ যুক্তি বুঝতে এবং সামঞ্জস্য করতে পারে
  4. সামঞ্জস্য নিশ্চিতকরণ: BT কাঠামোর মাধ্যমে আচরণের পূর্বাভাসযোগ্যতা নিশ্চিত করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • পরিবেশ: 4000×4000 ইউনিটের বন্ধ বর্গাকার মানচিত্র, স্থির বাধা এবং 8টি গোলাবারুদ পুনরায় লোড পয়েন্ট সহ
  • NPC কনফিগারেশন: 100HP, 10 গোলাবারুদ, প্রতিটি আক্রমণ 10HP ক্ষতি, 0.15 সেকেন্ড গুলি চালানোর ব্যবধান, 600 ইউনিট/সেকেন্ড চলাচল গতি
  • প্রশিক্ষণ পরিবেশ: প্রতিটি দক্ষতার জন্য বিশেষায়িত প্রশিক্ষণ দৃশ্য ডিজাইন করা

মূল্যায়ন মেট্রিক্স

  • জয়ের হার: বিভিন্ন প্রতিদ্বন্দ্বীর বিরুদ্ধে জয়ের অনুপাত
  • গড় পদক্ষেপ: প্রতিটি গেমের স্থায়িত্ব
  • ক্ষতি আউটপুট: আক্রমণাত্মক NPC-এর বিরুদ্ধে কারণ ক্ষতি
  • FPS কর্মক্ষমতা: রিয়েল-টাইম চালানোর সময় ফ্রেম রেট পারফরম্যান্স

তুলনা পদ্ধতি

  1. খাঁটি BT বেসলাইন: একই গাছ কাঠামো ব্যবহার করে কিন্তু লিফ নোড পূর্বনির্ধারিত BT কাজ
  2. পাঠ্যক্রম শিক্ষা RL: 5-পর্যায়ের পাঠ্যক্রম শিক্ষা দিয়ে প্রশিক্ষিত শেষ-থেকে-শেষ RL মডেল
  3. স্থির NPC: চলাচল বা আক্রমণ ছাড়াই পরীক্ষা বস্তু
  4. আক্রমণাত্মক NPC: সরলীকৃত BT নিয়ন্ত্রণ, আক্রমণ সুবিধা সহ (অসীম গোলাবারুদ)

বাস্তবায়ন বিবরণ

  • অপ্টিমাইজেশন অ্যালগরিদম: Proximal Policy Optimization (PPO)
  • শেখার হার: 3e-4
  • সর্বাধিক পদক্ষেপ: প্রতিটি গেমে 2000 পদক্ষেপ
  • প্রশিক্ষণ কাঠামো: RLlib with AMD Schola plugin

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

যুদ্ধ কর্মক্ষমতা তুলনা

পদ্ধতিস্থির NPC-এর বিরুদ্ধে জয়ের হারআক্রমণাত্মক NPC-এর বিরুদ্ধে জয়ের হারগড় পদক্ষেপক্ষতি আউটপুট
BT1.000.591839.63170.48
হাইব্রিড পদ্ধতি1.000.533969.22149.86
পাঠ্যক্রম শিক্ষা1.000.413836.95137.80

কর্মক্ষমতা বিশ্লেষণ

  • জয়ের হার: হাইব্রিড পদ্ধতি পাঠ্যক্রম শিক্ষা RL-এর চেয়ে উল্লেখযোগ্যভাবে ভাল, খাঁটি BT পদ্ধতির চেয়ে শুধুমাত্র সামান্য কম
  • গেম সময়কাল: BT পদ্ধতি সবচেয়ে কম পদক্ষেপ এবং কেন্দ্রীভূত বিতরণ, RL পদ্ধতি বৃহত্তর পরিবর্তনশীলতা প্রদর্শন করে, আচরণ বৈচিত্র্য নির্দেশ করে
  • গণনা কর্মক্ষমতা: খাঁটি BT > পাঠ্যক্রম শিক্ষা > হাইব্রিড পদ্ধতি

FPS কর্মক্ষমতা পরীক্ষা

কনফিগারেশন1টি এজেন্ট10টি এজেন্ট
কোন মডেল নেই267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
হাইব্রিড পদ্ধতি211.90±4.11109.71±1.88
পাঠ্যক্রম শিক্ষা215.80±9.77116.14±2.54

পরীক্ষামূলক আবিষ্কার

  1. আচরণ বৈচিত্র্য: RL পদ্ধতি আরও বৈচিত্র্যময় গেম ট্র্যাজেক্টরি তৈরি করে, গেমের অপূর্বতা বৃদ্ধি করে
  2. কর্মক্ষমতা ট্রেড-অফ: হাইব্রিড পদ্ধতি যুক্তিসঙ্গত কর্মক্ষমতা বজায় রেখে আরও ভাল অভিযোজনযোগ্যতা প্রদান করে
  3. অপ্টিমাইজেশন সম্ভাবনা: ব্যাচ প্রসেসিং ইত্যাদি প্রযুক্তির মাধ্যমে হাইব্রিড পদ্ধতির কর্মক্ষমতা আরও অপ্টিমাইজ করা যায়

সম্পর্কিত কাজ

প্রধান গবেষণা দিকনির্দেশনা

  1. গেম AI-তে RL প্রয়োগ: Counter-Strike ইত্যাদি গেমে আচরণ ক্লোনিং এবং শক্তিশালী শিক্ষা
  2. মাল্টি-টাস্ক শক্তিশালী শিক্ষা: জ্ঞান ভাগাভাগি এবং প্রসঙ্গ প্রতিনিধিত্ব শিক্ষা
  3. BT এবং RL সমন্বয়: নিরাপত্তা-সমালোচনামূলক সিস্টেম এবং রোবোটিক্স ক্ষেত্রে প্রয়োগ
  4. বড় আকারের মডেল: পরামিতি সম্প্রসারণ এবং ভিত্তি মডেলের মাধ্যমে NPC ক্ষমতা বৃদ্ধি

এই পেপারের অবদানের পার্থক্য

  • ব্যবহারিক-ভিত্তিক: গেম ডেভেলপারদের বাস্তব চাহিদার উপর ফোকাস করা, খাঁটি গবেষণা পরিস্থিতির পরিবর্তে
  • সম্পূর্ণ সরঞ্জাম শৃঙ্খল: প্রশিক্ষণ থেকে স্থাপনা পর্যন্ত সম্পূর্ণ সমাধান প্রদান করা
  • ওপেন-সোর্স বাস্তবায়ন: সম্প্রদায় গ্রহণ এবং আরও উন্নয়ন প্রচার করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. সম্ভাব্যতা যাচাইকরণ: BT+RL হাইব্রিড পদ্ধতি গেম পরিবেশে বাস্তব সম্ভাব্যতা রাখে
  2. ভারসাম্য সুবিধা: সফলভাবে RL-এর অভিযোজনযোগ্যতা এবং BT-এর ব্যাখ্যাযোগ্যতা একত্রিত করা
  3. মডুলার সুবিধা: স্বাধীনভাবে প্রশিক্ষিত দক্ষতা মডিউল পুনরায় ব্যবহারযোগ্যতা এবং উন্নয়ন দক্ষতা উন্নত করে

সীমাবদ্ধতা

  1. কর্মক্ষমতা ওভারহেড: হাইব্রিড পদ্ধতির গণনা খরচ খাঁটি BT পদ্ধতির চেয়ে বেশি
  2. জটিলতা: একই সাথে BT কাঠামো এবং একাধিক RL মডেল বজায় রাখার প্রয়োজন
  3. অপ্টিমাইজেশন স্থান: ব্যাচ প্রসেসিং ইত্যাদি কর্মক্ষমতা অপ্টিমাইজেশন কৌশল সম্পূর্ণভাবে অন্বেষণ করা হয়নি
  4. মূল্যায়ন পরিসীমা: প্রধানত নির্দিষ্ট গেম পরিস্থিতিতে যাচাই করা, সাধারণীকরণ ক্ষমতা আরও যাচাইয়ের প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

  1. কর্মক্ষমতা অপ্টিমাইজেশন: মডেল ব্যাচ প্রসেসিং এবং অন্যান্য অপ্টিমাইজেশন কৌশল বাস্তবায়ন করা
  2. আর্কিটেকচার উন্নতি: আরও দক্ষ BT+RL একীকরণ পদ্ধতি অন্বেষণ করা
  3. প্রয়োগ সম্প্রসারণ: আরও গেম প্রকার এবং পরিস্থিতিতে পদ্ধতির কার্যকারিতা যাচাই করা
  4. সরঞ্জাম উন্নতি: AMD Schola প্লাগইনের কার্যকারিতা এবং ব্যবহারযোগ্যতা উন্নত করা

গভীর মূল্যায়ন

শক্তি

  1. উচ্চ ব্যবহারিক মূল্য: গেম শিল্পের বাস্তব চাহিদা সরাসরি সমাধান করা, ব্যবহারযোগ্য সরঞ্জাম এবং পদ্ধতি প্রদান করা
  2. পদ্ধতি উদ্ভাবন: BT এবং RL-এর সুবিধা কার্যকরভাবে একত্রিত করা, প্রতিটির সীমাবদ্ধতা এড়ানো
  3. পর্যাপ্ত পরীক্ষা: কর্মক্ষমতা, জয়ের হার, গণনা দক্ষতা ইত্যাদি মূল সূচক সহ বহু-কোণ মূল্যায়ন
  4. ওপেন-সোর্স অবদান: সম্পূর্ণ ওপেন-সোর্স সম্প্রদায় উন্নয়ন এবং পদ্ধতি প্রচার প্রচার করে
  5. সম্পূর্ণ প্রযুক্তিগত বিবরণ: বিস্তারিত বাস্তবায়ন বিবরণ এবং কনফিগারেশন পরামিতি প্রদান করা

অপূর্ণতা

  1. অপর্যাপ্ত তাত্ত্বিক বিশ্লেষণ: BT+RL সমন্বয়ের তাত্ত্বিক বিশ্লেষণ এবং সংমিশ্রণ গ্যারান্টির অভাব
  2. মূল্যায়ন পরিস্থিতি সীমাবদ্ধতা: প্রধানত শুটিং গেম পরিস্থিতিতে যাচাই করা, অন্যান্য গেম প্রকারের প্রযোজ্যতা অজানা
  3. সীমিত তুলনা বেসলাইন: আরও উন্নত গেম AI পদ্ধতির সাথে তুলনা করা হয়নি
  4. দীর্ঘমেয়াদী স্থিতিশীলতা: দীর্ঘ সময় চালানোর স্থিতিশীলতা এবং সামঞ্জস্য মূল্যায়ন করা হয়নি
  5. ব্যবহারকারীর অভিজ্ঞতা: NPC আচরণ গুণমানের প্রতি বাস্তব খেলোয়াড়দের বিষয়গত মূল্যায়নের অভাব

প্রভাব

  1. একাডেমিক মূল্য: গেম AI ক্ষেত্রে ব্যবহারিক হাইব্রিড পদ্ধতি কাঠামো প্রদান করা
  2. শিল্প তাৎপর্য: গেম ডেভেলপারদের জন্য সরাসরি প্রয়োগযোগ্য সরঞ্জাম এবং পদ্ধতি প্রদান করা
  3. প্রযুক্তি প্রচার: ওপেন-সোর্স বাস্তবায়ন পদ্ধতির ব্যাপক গ্রহণ এবং উন্নতিতে সহায়তা করে
  4. ক্রস-ডোমেইন প্রয়োগ: পদ্ধতি অন্যান্য স্মার্ট সিদ্ধান্ত প্রয়োজনীয় প্রয়োগ পরিস্থিতিতে প্রযোজ্য হতে পারে

প্রযোজ্য পরিস্থিতি

  1. অ্যাকশন গেম: জটিল NPC আচরণ প্রয়োজনীয় শুটিং, ফাইটিং গেম
  2. কৌশল গেম: স্মার্ট প্রতিদ্বন্দ্বী প্রয়োজনীয় রিয়েল-টাইম কৌশল গেম
  3. RPG গেম: বৈচিত্র্যময় NPC আচরণ প্রয়োজনীয় ভূমিকা-খেলা গেম
  4. সিমুলেশন প্রশিক্ষণ: সামরিক, নিরাপত্তা ইত্যাদি ক্ষেত্রের সিমুলেশন প্রশিক্ষণ সিস্টেম

রেফারেন্স

এই পেপারটি 21টি সম্পর্কিত রেফারেন্স উদ্ধৃত করে, গেম AI, শক্তিশালী শিক্ষা, আচরণ গাছ ইত্যাদি একাধিক গবেষণা ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।


সামগ্রিক মূল্যায়ন: এটি উচ্চ ব্যবহারিক মূল্যের একটি প্রয়োগ-ভিত্তিক গবেষণা পেপার, তাত্ত্বিক পদ্ধতিকে বাস্তব ব্যবহারযোগ্য সরঞ্জামে সফলভাবে রূপান্তরিত করে, গেম AI ক্ষেত্রে গুরুত্বপূর্ণ অবদান রাখে। যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন প্রশস্ততার ক্ষেত্রে উন্নতির অবকাশ রয়েছে, তবে এর ওপেন-সোর্স প্রকৃতি এবং সম্পূর্ণ বাস্তবায়ন পরবর্তী গবেষণার জন্য একটি শক্তিশালী ভিত্তি স্থাপন করে।