2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

Combinación de Aprendizaje por Refuerzo y Árboles de Comportamiento para NPCs en Videojuegos con AMD Schola

Información Básica

ID del Artículo: 2510.14154
Título: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Autores: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
Clasificación: cs.AI cs.LG
Fecha de Publicación: 17 de octubre de 2025 (preimpresión)
Enlace del Artículo: https://arxiv.org/abs/2510.14154

Resumen

A pesar de los avances significativos en la investigación de aprendizaje por refuerzo (RL), su aplicación en videojuegos comerciales sigue siendo lenta. Este artículo presenta un panorama de los desafíos comunes que enfrenta la comunidad de IA de juegos al utilizar NPCs impulsados por RL, y destaca que la intersección entre RL y árboles de comportamiento tradicionales (BT) es un nodo clave que requiere mayor exploración. Aunque la combinación BT+RL ha sido mencionada en múltiples trabajos de investigación, su aplicación práctica sigue siendo escasa. Los autores utilizan AMD Schola —un complemento para entrenar agentes de RL en Unreal Engine— para demostrar la viabilidad de este enfoque mediante la creación de NPCs multitarea en un entorno 3D complejo inspirado en el videojuego comercial "The Last of Us".

Contexto de Investigación y Motivación

1. Problema Central

A pesar del rápido desarrollo de técnicas de aprendizaje por refuerzo, la adopción de NPCs impulsados por RL en el desarrollo de juegos comerciales enfrenta desafíos significativos. Los métodos tradicionales de árboles de comportamiento, aunque altamente estructurados, se vuelven complejos y carecen de adaptabilidad al manejar múltiples tareas; mientras que los métodos de RL, aunque poseen capacidad de adaptación dinámica, presentan dificultades en la configuración de recompensas, transferencia de aprendizaje negativa y altos requisitos computacionales.

2. Importancia del Problema

Experiencia de Juego: La consistencia y naturalidad del comportamiento de los NPCs son cruciales para mantener la calidad del juego y mejorar la experiencia del usuario
Eficiencia de Desarrollo: Los desarrolladores de juegos prefieren reutilizar activos ya desarrollados, requiriendo modelos reutilizables y ajustables
Barrera Técnica: Falta de herramientas de soporte suficientes, particularmente en interpretabilidad y controlabilidad

3. Limitaciones de Métodos Existentes

Enfoque BT Puro: El desarrollo de BT multitarea complejo es tedioso, carece de adaptabilidad y tiende a producir experiencias de juego repetitivas
Enfoque RL Puro: Dificultad en entrenar modelos de capacidades generales, con problemas de configuración de recompensas, transferencia negativa de tareas y altos costos computacionales
Enfoque de Modelos Grandes: Aumentar parámetros del modelo o utilizar modelos base grandes incrementa significativamente el tiempo de entrenamiento y la latencia del juego

Contribuciones Principales

Propuesta de Arquitectura Híbrida BT+RL: Integración de modelos de RL en árboles de comportamiento, combinando las ventajas de ambos enfoques
Desarrollo de Sistema de NPCs Multihabilidad: Implementación de cinco habilidades principales incluyendo Huida (Flee), Búsqueda (Search), Combate (Combat), Ocultamiento (Hide) y Movimiento (Move)
Construcción de Marco de Entrenamiento Completo: Basado en el complemento AMD Schola, proporcionando una solución integral para entrenamiento e implementación en Unreal Engine
Verificación Empírica: Validación de la efectividad del método en un entorno 3D inspirado en "The Last of Us"
Implementación de Código Abierto: Inclusión de entorno, modelos y código de implementación para promover la investigación comunitaria

Explicación Detallada del Método

Definición de Tareas

Construcción de NPCs capaces de ejecutar múltiples habilidades en entornos 3D complejos, incluyendo específicamente:

Entrada: Observaciones del entorno (información de profundidad, estado de salud, cantidad de munición, dirección del objetivo, etc.)
Salida: Secuencias de acciones (movimiento, disparo, rotación, etc.)
Restricciones: Mantener consistencia de comportamiento, asegurar equilibrio del juego

Arquitectura del Modelo

1. Estructura del Árbol de Comportamiento

Raíz → ¿Saludable? → [Munición>0 → Recopilar → EnVista → Combate]
                               ↓
                           Buscar → [Distancia<2000 → Huir]
                                           ↓
                                        Ocultarse

2. Configuración del Modelo de RL

Observación Principal: 36 rayos de detección para objetivo, obstáculos y ubicaciones de recarga de munición; observaciones de punto flotante incluyendo salud actual, cantidad de munición, dirección normalizada del objetivo
Arquitectura de Red:
- Habilidades Básicas: MLP con profundidad 2 y ancho 64
- Aprendizaje por Currículum: MLP con profundidad 2, ancho 128 + capa de atención (dimensión de atención 60, longitud máxima de secuencia 20)
Espacio de Acciones: Movimiento lateral, movimiento hacia adelante, disparo

3. Configuración Específica de Habilidades

Habilidad	Observación Especial	Acción Especial	Condición de Terminación	Pasos de Entrenamiento
Huida	Visibilidad del jugador, distancia	Movimiento	Distancia del jugador<1000	2M
Combate	-	Disparo	Salud del jugador≤0	2M
Ocultamiento	Visibilidad del jugador, distancia de obstáculos	Movimiento	Jugador descubierto	10M
Recopilación	Ubicación de munición más cercana	Movimiento	Recarga exitosa	12M

Puntos de Innovación Técnica

Diseño Modular: Cada habilidad se entrena independientemente, permitiendo reutilización y composición
Control Jerárquico: BT responsable de decisiones de alto nivel, RL responsable de ejecución específica
Interpretabilidad: Los desarrolladores pueden comprender y ajustar la lógica del comportamiento del NPC
Garantía de Consistencia: La estructura de BT asegura previsibilidad del comportamiento

Configuración Experimental

Conjunto de Datos

Entorno: Mapa cuadrado cerrado de 4000×4000 unidades, incluyendo obstáculos estáticos y 8 puntos de recarga de munición
Configuración del NPC: 100 HP, 10 municiones, 10 HP de daño por ataque, intervalo de disparo de 0.15 segundos, velocidad de movimiento de 600 unidades/segundo
Entorno de Entrenamiento: Escenarios de entrenamiento especializados diseñados para cada habilidad

Métricas de Evaluación

Tasa de Victoria: Proporción de victorias contra diferentes oponentes
Promedio de Pasos: Duración de cada partida de juego
Daño de Salida: Daño causado al enfrentarse a NPCs agresivos
Rendimiento de FPS: Desempeño de fotogramas por segundo en tiempo real

Métodos de Comparación

Línea Base BT Puro: Utilización de la misma estructura de árbol pero con tareas BT predefinidas en nodos hoja
RL con Aprendizaje por Currículum: Modelo de RL de extremo a extremo entrenado con aprendizaje por currículum de 5 etapas
NPC Estático: Objeto de prueba que no se mueve ni ataca
NPC Agresivo: Control BT simplificado con ventaja de ataque (munición ilimitada)

Detalles de Implementación

Algoritmo de Optimización: Proximal Policy Optimization (PPO)
Tasa de Aprendizaje: 3e-4
Número Máximo de Pasos: 2000 pasos por partida
Marco de Entrenamiento: RLlib con complemento AMD Schola

Resultados Experimentales

Resultados Principales

Comparación de Desempeño en Combate

Método	Tasa de Victoria vs NPC Estático	Tasa de Victoria vs NPC Agresivo	Promedio de Pasos	Daño de Salida
BT	1.00	0.59	1839.63	170.48
Método Híbrido	1.00	0.53	3969.22	149.86
Aprendizaje por Currículum	1.00	0.41	3836.95	137.80

Análisis de Rendimiento

Tasa de Victoria: El método híbrido supera significativamente al RL con aprendizaje por currículum, aunque es ligeramente inferior al método BT puro
Duración del Juego: El método BT presenta el menor número de pasos con distribución concentrada; los métodos de RL muestran mayor variabilidad, indicando diversidad de comportamiento
Rendimiento Computacional: BT Puro > Aprendizaje por Currículum > Método Híbrido

Pruebas de Rendimiento de FPS

Configuración	1 Agente	10 Agentes
Sin Modelo	267.73±3.37	188.83±4.14
BT	261.90±10.88	155.82±4.31
Método Híbrido	211.90±4.11	109.71±1.88
Aprendizaje por Currículum	215.80±9.77	116.14±2.54

Hallazgos Experimentales

Diversidad de Comportamiento: Los métodos de RL producen trayectorias de juego más diversificadas, aumentando la impredecibilidad del juego
Compensación de Rendimiento: El método híbrido proporciona mejor adaptabilidad mientras mantiene rendimiento razonable
Potencial de Optimización: Se puede mejorar aún más el rendimiento del método híbrido mediante técnicas como procesamiento por lotes

Trabajo Relacionado

Direcciones Principales de Investigación

Aplicaciones de RL en IA de Juegos: Clonación de comportamiento y aprendizaje por refuerzo en juegos como Counter-Strike
Aprendizaje por Refuerzo Multitarea: Compartición de conocimiento y aprendizaje de representación contextual
Combinación de BT y RL: Aplicaciones en sistemas críticos de seguridad y robótica
Modelos a Gran Escala: Mejora de capacidades de NPCs mediante expansión de parámetros y modelos base

Diferencias de Contribución de este Artículo

Orientación Práctica: Enfoque en necesidades reales de desarrolladores de juegos, no solo escenarios de investigación pura
Cadena de Herramientas Completa: Proporciona solución integral desde entrenamiento hasta implementación
Implementación de Código Abierto: Promueve adopción comunitaria y desarrollo posterior

Conclusiones y Discusión

Conclusiones Principales

Verificación de Viabilidad: El método híbrido BT+RL demuestra viabilidad práctica en entornos de juego
Equilibrio de Ventajas: Combinación exitosa de adaptabilidad de RL e interpretabilidad de BT
Beneficios de Modularidad: Los módulos de habilidades entrenados independientemente mejoran reutilización y eficiencia de desarrollo

Limitaciones

Sobrecarga de Rendimiento: El costo computacional del método híbrido es superior al método BT puro
Complejidad: Requiere mantener simultáneamente la estructura de BT y múltiples modelos de RL
Espacio de Optimización: No se han explorado completamente técnicas de optimización de rendimiento como procesamiento por lotes
Alcance de Evaluación: Validación principalmente en escenarios de juego específicos, con generalización pendiente de verificación

Direcciones Futuras

Optimización de Rendimiento: Implementación de procesamiento por lotes de modelos y otras técnicas de optimización
Mejora de Arquitectura: Exploración de formas más eficientes de integración BT+RL
Extensión de Aplicaciones: Verificación de efectividad del método en más tipos de juegos y escenarios
Perfeccionamiento de Herramientas: Mejora de funcionalidad y usabilidad del complemento AMD Schola

Evaluación Profunda

Fortalezas

Alto Valor Práctico: Resuelve directamente necesidades reales de la industria de juegos, proporcionando herramientas y métodos utilizables
Innovación Metodológica: Combinación efectiva de ventajas de BT y RL, evitando limitaciones de cada uno
Experimentación Exhaustiva: Evaluación multidimensional incluyendo rendimiento, tasa de victoria, eficiencia computacional y otras métricas clave
Contribución de Código Abierto: La implementación completamente abierta promueve desarrollo comunitario y difusión del método
Detalles Técnicos Completos: Proporciona detalles de implementación detallados y parámetros de configuración

Deficiencias

Análisis Teórico Insuficiente: Falta análisis teórico de la combinación BT+RL y garantías de convergencia
Limitación de Escenarios de Evaluación: Validación principalmente en escenarios de juegos de disparos, con aplicabilidad a otros tipos de juegos desconocida
Líneas Base de Comparación Limitadas: Falta comparación con más métodos avanzados de IA de juegos
Estabilidad a Largo Plazo: No se evalúa la estabilidad y consistencia de funcionamiento prolongado
Experiencia del Usuario: Falta evaluación subjetiva de jugadores reales sobre la calidad del comportamiento del NPC

Impacto

Valor Académico: Proporciona marco de método híbrido práctico para el campo de IA de juegos
Significado Industrial: Ofrece herramientas y métodos directamente aplicables para desarrolladores de juegos
Promoción Tecnológica: La implementación de código abierto facilita adopción generalizada y mejora del método
Aplicaciones Interdisciplinarias: El método puede ser aplicable a otros escenarios que requieren toma de decisiones inteligente

Escenarios Aplicables

Juegos de Acción: Juegos de disparos y combate que requieren comportamiento complejo de NPCs
Juegos de Estrategia: Juegos de estrategia en tiempo real que requieren oponentes inteligentes
Juegos de RPG: Juegos de rol que requieren comportamiento diversificado de NPCs
Sistemas de Entrenamiento por Simulación: Sistemas de entrenamiento por simulación en campos militar y de seguridad

Referencias

Este artículo cita 21 trabajos relacionados, cubriendo investigaciones importantes en múltiples campos de investigación incluyendo IA de juegos, aprendizaje por refuerzo y árboles de comportamiento, proporcionando una base teórica y soporte técnico sólido para la investigación.

Evaluación General: Este es un artículo de investigación orientado a aplicaciones con considerable valor práctico, que convierte exitosamente métodos teóricos en herramientas prácticamente utilizables, haciendo una contribución importante al campo de IA de juegos. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, su naturaleza de código abierto e implementación completa proporciona una base sólida para investigación posterior.