2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

基本信息

论文ID: 2510.14154
标题: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
作者: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
分类: cs.AI cs.LG
发表时间: October 17, 2025 (预印本)
论文链接: https://arxiv.org/abs/2510.14154

摘要

尽管强化学习(RL)研究领域取得了显著进展，但在商业视频游戏中的应用仍然缓慢。本文概述了游戏AI社区在实际使用RL驱动的NPC时面临的常见挑战，并强调了RL与传统行为树(BT)的交集是一个需要进一步探索的关键节点。虽然BT+RL的结合已在多篇研究论文中被提及，但其实际应用仍然稀少。作者使用AMD Schola——一个在虚幻引擎中训练RL智能体的插件，通过在受商业游戏《最后生还者》启发的复杂3D环境中创建多任务NPC来证明这种方法的可行性。

研究背景与动机

1. 核心问题

尽管强化学习技术快速发展，但在商业游戏开发中采用RL驱动的NPC仍面临重大挑战。传统的行为树方法虽然结构化程度高，但在处理多任务时变得复杂且缺乏适应性；而RL方法虽然具有动态适应能力，但存在奖励塑形困难、负迁移学习和计算资源需求高等问题。

2. 问题重要性

游戏体验: NPC行为的一致性和类人性对维护游戏质量和增强用户体验至关重要
开发效率: 游戏开发者偏好重用已开发的资产，需要可重用和可调整的模型
技术门槛: 缺乏足够的工具支持，特别是在可解释性和控制性方面

3. 现有方法局限性

纯BT方法: 复杂多任务BT开发繁琐，缺乏适应性，容易产生重复性游戏体验
纯RL方法: 训练通用能力模型困难，存在奖励塑形、负任务迁移和高计算成本问题
大型模型方法: 增加模型参数或使用大型基础模型会显著增加训练时间和游戏延迟

核心贡献

提出了BT+RL混合架构：将RL模型集成到行为树中，结合两种方法的优势
开发了多技能NPC系统：实现了包括逃跑(Flee)、搜索(Search)、战斗(Combat)、隐藏(Hide)和移动(Move)五种核心技能
构建了完整的训练框架：基于AMD Schola插件，提供了在虚幻引擎中训练和部署的完整解决方案
提供了实证验证：在受《最后生还者》启发的3D环境中验证了方法的有效性
开源了完整实现：包括环境、模型和实现代码，促进社区研究

方法详解

任务定义

构建能够在复杂3D环境中执行多种技能的NPC，具体包括：

输入: 环境观察（深度信息、健康状态、弹药数量、目标方向等）
输出: 动作序列（移动、射击、旋转等）
约束: 保持行为一致性，确保游戏平衡性

模型架构

1. 行为树结构

Root → Healthy? → [Ammo>0 → Collect → InSight → Combat]
                               ↓
                           Search → [Distance<2000 → Flee]
                                           ↓
                                        Hide

2. RL模型配置

核心观察: 36条射线检测目标、障碍物和弹药重装位置；浮点观察包括当前健康值、弹药数量、目标归一化方向
网络架构:
- 基础技能：深度2，宽度64的MLP
- 课程学习：深度2，宽度128的MLP + 注意力层（注意力维度60，最大序列长度20）
动作空间: 横向移动、前进移动、射击

3. 技能特定配置

技能	特殊观察	特殊动作	终止条件	训练步数
Flee	玩家可见性、距离	移动	玩家距离<1000	2M
Combat	-	射击	玩家健康≤0	2M
Hide	玩家可见性、障碍物距离	移动	玩家发现	10M
Collect	最近弹药位置	移动	成功重装	12M