Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
Combinación de Aprendizaje por Refuerzo y Árboles de Comportamiento para NPCs en Videojuegos con AMD Schola
A pesar de los avances significativos en la investigación de aprendizaje por refuerzo (RL), su aplicación en videojuegos comerciales sigue siendo lenta. Este artículo presenta un panorama de los desafíos comunes que enfrenta la comunidad de IA de juegos al utilizar NPCs impulsados por RL, y destaca que la intersección entre RL y árboles de comportamiento tradicionales (BT) es un nodo clave que requiere mayor exploración. Aunque la combinación BT+RL ha sido mencionada en múltiples trabajos de investigación, su aplicación práctica sigue siendo escasa. Los autores utilizan AMD Schola —un complemento para entrenar agentes de RL en Unreal Engine— para demostrar la viabilidad de este enfoque mediante la creación de NPCs multitarea en un entorno 3D complejo inspirado en el videojuego comercial "The Last of Us".
A pesar del rápido desarrollo de técnicas de aprendizaje por refuerzo, la adopción de NPCs impulsados por RL en el desarrollo de juegos comerciales enfrenta desafíos significativos. Los métodos tradicionales de árboles de comportamiento, aunque altamente estructurados, se vuelven complejos y carecen de adaptabilidad al manejar múltiples tareas; mientras que los métodos de RL, aunque poseen capacidad de adaptación dinámica, presentan dificultades en la configuración de recompensas, transferencia de aprendizaje negativa y altos requisitos computacionales.
Experiencia de Juego: La consistencia y naturalidad del comportamiento de los NPCs son cruciales para mantener la calidad del juego y mejorar la experiencia del usuario
Eficiencia de Desarrollo: Los desarrolladores de juegos prefieren reutilizar activos ya desarrollados, requiriendo modelos reutilizables y ajustables
Barrera Técnica: Falta de herramientas de soporte suficientes, particularmente en interpretabilidad y controlabilidad
Enfoque BT Puro: El desarrollo de BT multitarea complejo es tedioso, carece de adaptabilidad y tiende a producir experiencias de juego repetitivas
Enfoque RL Puro: Dificultad en entrenar modelos de capacidades generales, con problemas de configuración de recompensas, transferencia negativa de tareas y altos costos computacionales
Enfoque de Modelos Grandes: Aumentar parámetros del modelo o utilizar modelos base grandes incrementa significativamente el tiempo de entrenamiento y la latencia del juego
Propuesta de Arquitectura Híbrida BT+RL: Integración de modelos de RL en árboles de comportamiento, combinando las ventajas de ambos enfoques
Desarrollo de Sistema de NPCs Multihabilidad: Implementación de cinco habilidades principales incluyendo Huida (Flee), Búsqueda (Search), Combate (Combat), Ocultamiento (Hide) y Movimiento (Move)
Construcción de Marco de Entrenamiento Completo: Basado en el complemento AMD Schola, proporcionando una solución integral para entrenamiento e implementación en Unreal Engine
Verificación Empírica: Validación de la efectividad del método en un entorno 3D inspirado en "The Last of Us"
Implementación de Código Abierto: Inclusión de entorno, modelos y código de implementación para promover la investigación comunitaria
Observación Principal: 36 rayos de detección para objetivo, obstáculos y ubicaciones de recarga de munición; observaciones de punto flotante incluyendo salud actual, cantidad de munición, dirección normalizada del objetivo
Arquitectura de Red:
Habilidades Básicas: MLP con profundidad 2 y ancho 64
Aprendizaje por Currículum: MLP con profundidad 2, ancho 128 + capa de atención (dimensión de atención 60, longitud máxima de secuencia 20)
Espacio de Acciones: Movimiento lateral, movimiento hacia adelante, disparo
Entorno: Mapa cuadrado cerrado de 4000×4000 unidades, incluyendo obstáculos estáticos y 8 puntos de recarga de munición
Configuración del NPC: 100 HP, 10 municiones, 10 HP de daño por ataque, intervalo de disparo de 0.15 segundos, velocidad de movimiento de 600 unidades/segundo
Entorno de Entrenamiento: Escenarios de entrenamiento especializados diseñados para cada habilidad
Tasa de Victoria: El método híbrido supera significativamente al RL con aprendizaje por currículum, aunque es ligeramente inferior al método BT puro
Duración del Juego: El método BT presenta el menor número de pasos con distribución concentrada; los métodos de RL muestran mayor variabilidad, indicando diversidad de comportamiento
Análisis Teórico Insuficiente: Falta análisis teórico de la combinación BT+RL y garantías de convergencia
Limitación de Escenarios de Evaluación: Validación principalmente en escenarios de juegos de disparos, con aplicabilidad a otros tipos de juegos desconocida
Líneas Base de Comparación Limitadas: Falta comparación con más métodos avanzados de IA de juegos
Estabilidad a Largo Plazo: No se evalúa la estabilidad y consistencia de funcionamiento prolongado
Experiencia del Usuario: Falta evaluación subjetiva de jugadores reales sobre la calidad del comportamiento del NPC
Este artículo cita 21 trabajos relacionados, cubriendo investigaciones importantes en múltiples campos de investigación incluyendo IA de juegos, aprendizaje por refuerzo y árboles de comportamiento, proporcionando una base teórica y soporte técnico sólido para la investigación.
Evaluación General: Este es un artículo de investigación orientado a aplicaciones con considerable valor práctico, que convierte exitosamente métodos teóricos en herramientas prácticamente utilizables, haciendo una contribución importante al campo de IA de juegos. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, su naturaleza de código abierto e implementación completa proporciona una base sólida para investigación posterior.