2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

AMD Schola를 이용한 비디오 게임 NPC의 강화학습과 행동 트리 결합

기본 정보

  • 논문 ID: 2510.14154
  • 제목: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • 저자: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • 분류: cs.AI cs.LG
  • 발표 시간: 2025년 10월 17일 (프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.14154

초록

강화학습(RL) 연구 분야에서 상당한 진전이 있었음에도 불구하고, 상용 비디오 게임에서의 적용은 여전히 느린 속도로 진행되고 있습니다. 본 논문은 게임 AI 커뮤니티가 RL 기반 NPC 사용 시 직면하는 일반적인 과제를 개괄하며, RL과 전통적 행동 트리(BT)의 교집합이 추가 탐구가 필요한 핵심 지점임을 강조합니다. BT+RL 결합이 여러 연구 논문에서 언급되었지만, 실제 적용은 여전히 드뭅니다. 저자들은 언리얼 엔진에서 RL 에이전트를 훈련하는 플러그인인 AMD Schola를 사용하여, 상용 게임 《라스트 오브 어스》에서 영감을 받은 복잡한 3D 환경에서 다중 작업 NPC를 생성함으로써 이 방법의 실현 가능성을 입증합니다.

연구 배경 및 동기

1. 핵심 문제

강화학습 기술이 빠르게 발전하고 있음에도 불구하고, 상용 게임 개발에서 RL 기반 NPC의 채택은 여전히 상당한 도전에 직면해 있습니다. 전통적인 행동 트리 방법은 구조화 정도가 높지만 다중 작업 처리 시 복잡해지고 적응성이 부족합니다. 반면 RL 방법은 동적 적응 능력을 가지고 있지만 보상 형성의 어려움, 부정적 전이 학습, 높은 계산 자원 요구 등의 문제가 있습니다.

2. 문제의 중요성

  • 게임 경험: NPC 행동의 일관성과 인간다움은 게임 품질 유지와 사용자 경험 향상에 매우 중요합니다
  • 개발 효율성: 게임 개발자는 이미 개발된 자산의 재사용을 선호하며, 재사용 가능하고 조정 가능한 모델이 필요합니다
  • 기술 장벽: 특히 해석 가능성과 제어성 측면에서 충분한 도구 지원이 부족합니다

3. 기존 방법의 한계

  • 순수 BT 방법: 복잡한 다중 작업 BT 개발이 번거롭고, 적응성이 부족하며, 반복적인 게임 경험을 유발하기 쉽습니다
  • 순수 RL 방법: 범용 능력 모델 훈련이 어렵고, 보상 형성, 부정적 작업 전이, 높은 계산 비용 문제가 있습니다
  • 대규모 모델 방법: 모델 매개변수 증가 또는 대규모 기초 모델 사용은 훈련 시간과 게임 지연을 크게 증가시킵니다

핵심 기여

  1. BT+RL 하이브리드 아키텍처 제안: RL 모델을 행동 트리에 통합하여 두 방법의 장점을 결합
  2. 다중 기술 NPC 시스템 개발: 도주(Flee), 수색(Search), 전투(Combat), 숨기(Hide), 이동(Move) 등 5가지 핵심 기술 구현
  3. 완전한 훈련 프레임워크 구축: AMD Schola 플러그인 기반으로 언리얼 엔진에서의 훈련 및 배포를 위한 완전한 솔루션 제공
  4. 실증적 검증 제공: 《라스트 오브 어스》에서 영감을 받은 3D 환경에서 방법의 유효성 검증
  5. 완전한 구현 오픈소스화: 환경, 모델, 구현 코드를 포함하여 커뮤니티 연구 촉진

방법론 상세 설명

작업 정의

복잡한 3D 환경에서 다양한 기술을 수행할 수 있는 NPC 구축:

  • 입력: 환경 관찰(깊이 정보, 건강 상태, 탄약 수량, 목표 방향 등)
  • 출력: 동작 시퀀스(이동, 사격, 회전 등)
  • 제약: 행동 일관성 유지, 게임 균형 보장

모델 아키텍처

1. 행동 트리 구조

Root → Healthy? → [Ammo>0 → Collect → InSight → Combat]
                               ↓
                           Search → [Distance<2000 → Flee]
                                           ↓
                                        Hide

2. RL 모델 구성

  • 핵심 관찰: 목표, 장애물, 탄약 재장전 위치를 감지하는 36개 광선; 현재 건강값, 탄약 수량, 목표 정규화 방향을 포함한 부동소수점 관찰
  • 네트워크 아키텍처:
    • 기본 기술: 깊이 2, 너비 64의 MLP
    • 커리큘럼 학습: 깊이 2, 너비 128의 MLP + 주의 계층(주의 차원 60, 최대 시퀀스 길이 20)
  • 동작 공간: 횡측 이동, 전진 이동, 사격

3. 기술별 특정 구성

기술특수 관찰특수 동작종료 조건훈련 단계
Flee플레이어 가시성, 거리이동플레이어 거리<10002M
Combat-사격플레이어 건강≤02M
Hide플레이어 가시성, 장애물 거리이동플레이어 발견10M
Collect가장 가까운 탄약 위치이동재장전 성공12M

기술 혁신점

  1. 모듈식 설계: 각 기술을 독립적으로 훈련하여 재사용 및 조합 가능
  2. 계층적 제어: BT는 고수준 의사결정 담당, RL은 구체적 실행 담당
  3. 해석 가능성: 개발자가 NPC 행동 논리를 이해하고 조정 가능
  4. 일관성 보장: BT 구조를 통해 행동의 예측 가능성 보장

실험 설정

데이터셋

  • 환경: 4000×4000 단위의 폐쇄형 정사각형 맵, 정적 장애물 및 8개의 탄약 재장전 지점 포함
  • NPC 구성: 100HP, 10탄약, 공격당 10HP 피해, 0.15초 사격 간격, 600단위/초 이동 속도
  • 훈련 환경: 각 기술별 전문 훈련 시나리오 설계

평가 지표

  • 승률: 다양한 상대에 대한 승리 비율
  • 평균 단계 수: 각 게임의 지속 시간
  • 피해 출력: 공격적 NPC와 대전 시 입힌 피해
  • FPS 성능: 실시간 실행 시 프레임 속도 성능

비교 방법

  1. 순수 BT 기준선: 동일한 트리 구조이지만 리프 노드가 사전 정의된 BT 작업
  2. 커리큘럼 학습 RL: 5단계 커리큘럼 학습으로 훈련된 엔드-투-엔드 RL 모델
  3. 정적 NPC: 이동하지 않고 공격하지 않는 테스트 대상
  4. 공격적 NPC: 단순화된 BT 제어, 공격 우위(무제한 탄약)

구현 세부사항

  • 최적화 알고리즘: Proximal Policy Optimization (PPO)
  • 학습률: 3e-4
  • 최대 단계 수: 게임당 2000단계
  • 훈련 프레임워크: RLlib with AMD Schola plugin

실험 결과

주요 결과

대전 성능 비교

방법정적 NPC 승률공격적 NPC 승률평균 단계 수피해 출력
BT1.000.591839.63170.48
하이브리드 방법1.000.533969.22149.86
커리큘럼 학습1.000.413836.95137.80

성능 분석

  • 승률: 하이브리드 방법이 커리큘럼 학습 RL을 크게 능가하며, 순수 BT 방법보다만 약간 낮습니다
  • 게임 시간: BT 방법이 최소 단계 수와 집중된 분포를 보이며, RL 방법은 더 큰 변동성을 보여 행동 다양성을 나타냅니다
  • 계산 성능: 순수 BT > 커리큘럼 학습 > 하이브리드 방법

FPS 성능 테스트

구성1개 에이전트10개 에이전트
모델 없음267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
하이브리드 방법211.90±4.11109.71±1.88
커리큘럼 학습215.80±9.77116.14±2.54

실험 발견

  1. 행동 다양성: RL 방법은 더 다양한 게임 궤적을 생성하여 게임의 불확실성을 증가시킵니다
  2. 성능 트레이드오프: 하이브리드 방법은 합리적인 성능을 유지하면서 더 나은 적응성을 제공합니다
  3. 최적화 잠재력: 배치 처리 등의 기술을 통해 하이브리드 방법의 성능을 추가로 최적화할 수 있습니다

관련 연구

주요 연구 방향

  1. 게임 AI의 RL 적용: Counter-Strike 등 게임에서의 행동 복제 및 강화학습
  2. 다중 작업 강화학습: 지식 공유 및 문맥 표현 학습
  3. BT와 RL 결합: 안전 관련 시스템 및 로봇 분야의 적용
  4. 대규모 모델: 매개변수 확장 및 기초 모델을 통한 NPC 능력 향상

본 논문의 기여 차이점

  • 실용 지향: 순수 연구 시나리오가 아닌 게임 개발자의 실제 요구에 초점
  • 완전한 도구 체인: 훈련에서 배포까지의 완전한 솔루션 제공
  • 오픈소스 구현: 커뮤니티 채택 및 추가 개발 촉진

결론 및 논의

주요 결론

  1. 실현 가능성 검증: BT+RL 하이브리드 방법이 게임 환경에서 실제로 실현 가능함을 입증
  2. 균형잡힌 장점: RL의 적응성과 BT의 해석 가능성을 성공적으로 결합
  3. 모듈화 이점: 독립적으로 훈련된 기술 모듈이 재사용성 및 개발 효율성 향상

한계

  1. 성능 오버헤드: 하이브리드 방법의 계산 비용이 순수 BT 방법보다 높습니다
  2. 복잡성: BT 구조와 여러 RL 모델을 동시에 유지해야 합니다
  3. 최적화 공간: 배치 처리 등의 성능 최적화 기술을 충분히 탐구하지 않았습니다
  4. 평가 범위: 주로 특정 게임 시나리오에서 검증되었으며, 일반화 가능성은 추가 검증 필요

향후 방향

  1. 성능 최적화: 모델 배치 처리 및 기타 최적화 기술 구현
  2. 아키텍처 개선: 더 효율적인 BT+RL 통합 방식 탐구
  3. 적용 확대: 더 많은 게임 유형 및 시나리오에서 방법의 유효성 검증
  4. 도구 완성: AMD Schola 플러그인의 기능 및 사용성 개선

심층 평가

장점

  1. 높은 실용 가치: 게임 산업의 실제 요구를 직접 해결하며, 사용 가능한 도구와 방법 제공
  2. 방법 혁신: BT와 RL의 장점을 효과적으로 결합하여 각각의 한계 극복
  3. 충분한 실험: 성능, 승률, 계산 효율성 등 주요 지표를 다각도로 평가
  4. 오픈소스 기여: 완전한 오픈소스화로 커뮤니티 발전 및 방법 확산 촉진
  5. 완전한 기술 세부사항: 상세한 구현 세부사항 및 구성 매개변수 제공

부족한 점

  1. 이론적 분석 부족: BT+RL 결합에 대한 이론적 분석 및 수렴성 보장 부재
  2. 평가 시나리오 제한: 주로 슈팅 게임 시나리오에서 검증되었으며, 다른 게임 유형의 적용 가능성 미지수
  3. 제한된 비교 기준선: 더 많은 고급 게임 AI 방법과의 비교 부재
  4. 장기 안정성: 장시간 실행의 안정성 및 일관성 평가 미실시
  5. 사용자 경험: 실제 플레이어의 NPC 행동 품질에 대한 주관적 평가 부재

영향력

  1. 학술적 가치: 게임 AI 분야에 실용적인 하이브리드 방법 프레임워크 제공
  2. 산업적 의의: 게임 개발자에게 직접 적용 가능한 도구와 방법 제공
  3. 기술 확산: 오픈소스 구현으로 방법의 광범위한 채택 및 개선 지원
  4. 학제간 적용: 방법이 지능형 의사결정이 필요한 다른 응용 분야에 적용될 가능성

적용 시나리오

  1. 액션 게임: 복잡한 NPC 행동이 필요한 슈팅, 격투 게임
  2. 전략 게임: 지능형 상대가 필요한 실시간 전략 게임
  3. RPG 게임: 다양한 NPC 행동이 필요한 역할 수행 게임
  4. 시뮬레이션 훈련: 군사, 보안 등 분야의 시뮬레이션 훈련 시스템

참고문헌

본 논문은 게임 AI, 강화학습, 행동 트리 등 여러 연구 분야의 중요한 작업을 포함하는 21개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초와 기술적 지원을 제공합니다.


종합 평가: 이는 상당한 실용적 가치를 가진 응용 지향 연구 논문으로, 이론적 방법을 실제 사용 가능한 도구로 성공적으로 전환하여 게임 AI 분야에 중요한 기여를 했습니다. 이론적 깊이와 평가 범위 측면에서 개선 여지가 있지만, 오픈소스 특성과 완전한 구현이 후속 연구의 견고한 기초를 마련합니다.