2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

Combinación de Aprendizaje por Refuerzo y Árboles de Comportamiento para NPCs en Videojuegos con AMD Schola

Información Básica

  • ID del Artículo: 2510.14154
  • Título: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • Autores: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • Clasificación: cs.AI cs.LG
  • Fecha de Publicación: 17 de octubre de 2025 (preimpresión)
  • Enlace del Artículo: https://arxiv.org/abs/2510.14154

Resumen

A pesar de los avances significativos en la investigación de aprendizaje por refuerzo (RL), su aplicación en videojuegos comerciales sigue siendo lenta. Este artículo presenta un panorama de los desafíos comunes que enfrenta la comunidad de IA de juegos al utilizar NPCs impulsados por RL, y destaca que la intersección entre RL y árboles de comportamiento tradicionales (BT) es un nodo clave que requiere mayor exploración. Aunque la combinación BT+RL ha sido mencionada en múltiples trabajos de investigación, su aplicación práctica sigue siendo escasa. Los autores utilizan AMD Schola —un complemento para entrenar agentes de RL en Unreal Engine— para demostrar la viabilidad de este enfoque mediante la creación de NPCs multitarea en un entorno 3D complejo inspirado en el videojuego comercial "The Last of Us".

Contexto de Investigación y Motivación

1. Problema Central

A pesar del rápido desarrollo de técnicas de aprendizaje por refuerzo, la adopción de NPCs impulsados por RL en el desarrollo de juegos comerciales enfrenta desafíos significativos. Los métodos tradicionales de árboles de comportamiento, aunque altamente estructurados, se vuelven complejos y carecen de adaptabilidad al manejar múltiples tareas; mientras que los métodos de RL, aunque poseen capacidad de adaptación dinámica, presentan dificultades en la configuración de recompensas, transferencia de aprendizaje negativa y altos requisitos computacionales.

2. Importancia del Problema

  • Experiencia de Juego: La consistencia y naturalidad del comportamiento de los NPCs son cruciales para mantener la calidad del juego y mejorar la experiencia del usuario
  • Eficiencia de Desarrollo: Los desarrolladores de juegos prefieren reutilizar activos ya desarrollados, requiriendo modelos reutilizables y ajustables
  • Barrera Técnica: Falta de herramientas de soporte suficientes, particularmente en interpretabilidad y controlabilidad

3. Limitaciones de Métodos Existentes

  • Enfoque BT Puro: El desarrollo de BT multitarea complejo es tedioso, carece de adaptabilidad y tiende a producir experiencias de juego repetitivas
  • Enfoque RL Puro: Dificultad en entrenar modelos de capacidades generales, con problemas de configuración de recompensas, transferencia negativa de tareas y altos costos computacionales
  • Enfoque de Modelos Grandes: Aumentar parámetros del modelo o utilizar modelos base grandes incrementa significativamente el tiempo de entrenamiento y la latencia del juego

Contribuciones Principales

  1. Propuesta de Arquitectura Híbrida BT+RL: Integración de modelos de RL en árboles de comportamiento, combinando las ventajas de ambos enfoques
  2. Desarrollo de Sistema de NPCs Multihabilidad: Implementación de cinco habilidades principales incluyendo Huida (Flee), Búsqueda (Search), Combate (Combat), Ocultamiento (Hide) y Movimiento (Move)
  3. Construcción de Marco de Entrenamiento Completo: Basado en el complemento AMD Schola, proporcionando una solución integral para entrenamiento e implementación en Unreal Engine
  4. Verificación Empírica: Validación de la efectividad del método en un entorno 3D inspirado en "The Last of Us"
  5. Implementación de Código Abierto: Inclusión de entorno, modelos y código de implementación para promover la investigación comunitaria

Explicación Detallada del Método

Definición de Tareas

Construcción de NPCs capaces de ejecutar múltiples habilidades en entornos 3D complejos, incluyendo específicamente:

  • Entrada: Observaciones del entorno (información de profundidad, estado de salud, cantidad de munición, dirección del objetivo, etc.)
  • Salida: Secuencias de acciones (movimiento, disparo, rotación, etc.)
  • Restricciones: Mantener consistencia de comportamiento, asegurar equilibrio del juego

Arquitectura del Modelo

1. Estructura del Árbol de Comportamiento

Raíz → ¿Saludable? → [Munición>0 → Recopilar → EnVista → Combate]
                               ↓
                           Buscar → [Distancia<2000 → Huir]
                                           ↓
                                        Ocultarse

2. Configuración del Modelo de RL

  • Observación Principal: 36 rayos de detección para objetivo, obstáculos y ubicaciones de recarga de munición; observaciones de punto flotante incluyendo salud actual, cantidad de munición, dirección normalizada del objetivo
  • Arquitectura de Red:
    • Habilidades Básicas: MLP con profundidad 2 y ancho 64
    • Aprendizaje por Currículum: MLP con profundidad 2, ancho 128 + capa de atención (dimensión de atención 60, longitud máxima de secuencia 20)
  • Espacio de Acciones: Movimiento lateral, movimiento hacia adelante, disparo

3. Configuración Específica de Habilidades

HabilidadObservación EspecialAcción EspecialCondición de TerminaciónPasos de Entrenamiento
HuidaVisibilidad del jugador, distanciaMovimientoDistancia del jugador<10002M
Combate-DisparoSalud del jugador≤02M
OcultamientoVisibilidad del jugador, distancia de obstáculosMovimientoJugador descubierto10M
RecopilaciónUbicación de munición más cercanaMovimientoRecarga exitosa12M

Puntos de Innovación Técnica

  1. Diseño Modular: Cada habilidad se entrena independientemente, permitiendo reutilización y composición
  2. Control Jerárquico: BT responsable de decisiones de alto nivel, RL responsable de ejecución específica
  3. Interpretabilidad: Los desarrolladores pueden comprender y ajustar la lógica del comportamiento del NPC
  4. Garantía de Consistencia: La estructura de BT asegura previsibilidad del comportamiento

Configuración Experimental

Conjunto de Datos

  • Entorno: Mapa cuadrado cerrado de 4000×4000 unidades, incluyendo obstáculos estáticos y 8 puntos de recarga de munición
  • Configuración del NPC: 100 HP, 10 municiones, 10 HP de daño por ataque, intervalo de disparo de 0.15 segundos, velocidad de movimiento de 600 unidades/segundo
  • Entorno de Entrenamiento: Escenarios de entrenamiento especializados diseñados para cada habilidad

Métricas de Evaluación

  • Tasa de Victoria: Proporción de victorias contra diferentes oponentes
  • Promedio de Pasos: Duración de cada partida de juego
  • Daño de Salida: Daño causado al enfrentarse a NPCs agresivos
  • Rendimiento de FPS: Desempeño de fotogramas por segundo en tiempo real

Métodos de Comparación

  1. Línea Base BT Puro: Utilización de la misma estructura de árbol pero con tareas BT predefinidas en nodos hoja
  2. RL con Aprendizaje por Currículum: Modelo de RL de extremo a extremo entrenado con aprendizaje por currículum de 5 etapas
  3. NPC Estático: Objeto de prueba que no se mueve ni ataca
  4. NPC Agresivo: Control BT simplificado con ventaja de ataque (munición ilimitada)

Detalles de Implementación

  • Algoritmo de Optimización: Proximal Policy Optimization (PPO)
  • Tasa de Aprendizaje: 3e-4
  • Número Máximo de Pasos: 2000 pasos por partida
  • Marco de Entrenamiento: RLlib con complemento AMD Schola

Resultados Experimentales

Resultados Principales

Comparación de Desempeño en Combate

MétodoTasa de Victoria vs NPC EstáticoTasa de Victoria vs NPC AgresivoPromedio de PasosDaño de Salida
BT1.000.591839.63170.48
Método Híbrido1.000.533969.22149.86
Aprendizaje por Currículum1.000.413836.95137.80

Análisis de Rendimiento

  • Tasa de Victoria: El método híbrido supera significativamente al RL con aprendizaje por currículum, aunque es ligeramente inferior al método BT puro
  • Duración del Juego: El método BT presenta el menor número de pasos con distribución concentrada; los métodos de RL muestran mayor variabilidad, indicando diversidad de comportamiento
  • Rendimiento Computacional: BT Puro > Aprendizaje por Currículum > Método Híbrido

Pruebas de Rendimiento de FPS

Configuración1 Agente10 Agentes
Sin Modelo267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
Método Híbrido211.90±4.11109.71±1.88
Aprendizaje por Currículum215.80±9.77116.14±2.54

Hallazgos Experimentales

  1. Diversidad de Comportamiento: Los métodos de RL producen trayectorias de juego más diversificadas, aumentando la impredecibilidad del juego
  2. Compensación de Rendimiento: El método híbrido proporciona mejor adaptabilidad mientras mantiene rendimiento razonable
  3. Potencial de Optimización: Se puede mejorar aún más el rendimiento del método híbrido mediante técnicas como procesamiento por lotes

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Aplicaciones de RL en IA de Juegos: Clonación de comportamiento y aprendizaje por refuerzo en juegos como Counter-Strike
  2. Aprendizaje por Refuerzo Multitarea: Compartición de conocimiento y aprendizaje de representación contextual
  3. Combinación de BT y RL: Aplicaciones en sistemas críticos de seguridad y robótica
  4. Modelos a Gran Escala: Mejora de capacidades de NPCs mediante expansión de parámetros y modelos base

Diferencias de Contribución de este Artículo

  • Orientación Práctica: Enfoque en necesidades reales de desarrolladores de juegos, no solo escenarios de investigación pura
  • Cadena de Herramientas Completa: Proporciona solución integral desde entrenamiento hasta implementación
  • Implementación de Código Abierto: Promueve adopción comunitaria y desarrollo posterior

Conclusiones y Discusión

Conclusiones Principales

  1. Verificación de Viabilidad: El método híbrido BT+RL demuestra viabilidad práctica en entornos de juego
  2. Equilibrio de Ventajas: Combinación exitosa de adaptabilidad de RL e interpretabilidad de BT
  3. Beneficios de Modularidad: Los módulos de habilidades entrenados independientemente mejoran reutilización y eficiencia de desarrollo

Limitaciones

  1. Sobrecarga de Rendimiento: El costo computacional del método híbrido es superior al método BT puro
  2. Complejidad: Requiere mantener simultáneamente la estructura de BT y múltiples modelos de RL
  3. Espacio de Optimización: No se han explorado completamente técnicas de optimización de rendimiento como procesamiento por lotes
  4. Alcance de Evaluación: Validación principalmente en escenarios de juego específicos, con generalización pendiente de verificación

Direcciones Futuras

  1. Optimización de Rendimiento: Implementación de procesamiento por lotes de modelos y otras técnicas de optimización
  2. Mejora de Arquitectura: Exploración de formas más eficientes de integración BT+RL
  3. Extensión de Aplicaciones: Verificación de efectividad del método en más tipos de juegos y escenarios
  4. Perfeccionamiento de Herramientas: Mejora de funcionalidad y usabilidad del complemento AMD Schola

Evaluación Profunda

Fortalezas

  1. Alto Valor Práctico: Resuelve directamente necesidades reales de la industria de juegos, proporcionando herramientas y métodos utilizables
  2. Innovación Metodológica: Combinación efectiva de ventajas de BT y RL, evitando limitaciones de cada uno
  3. Experimentación Exhaustiva: Evaluación multidimensional incluyendo rendimiento, tasa de victoria, eficiencia computacional y otras métricas clave
  4. Contribución de Código Abierto: La implementación completamente abierta promueve desarrollo comunitario y difusión del método
  5. Detalles Técnicos Completos: Proporciona detalles de implementación detallados y parámetros de configuración

Deficiencias

  1. Análisis Teórico Insuficiente: Falta análisis teórico de la combinación BT+RL y garantías de convergencia
  2. Limitación de Escenarios de Evaluación: Validación principalmente en escenarios de juegos de disparos, con aplicabilidad a otros tipos de juegos desconocida
  3. Líneas Base de Comparación Limitadas: Falta comparación con más métodos avanzados de IA de juegos
  4. Estabilidad a Largo Plazo: No se evalúa la estabilidad y consistencia de funcionamiento prolongado
  5. Experiencia del Usuario: Falta evaluación subjetiva de jugadores reales sobre la calidad del comportamiento del NPC

Impacto

  1. Valor Académico: Proporciona marco de método híbrido práctico para el campo de IA de juegos
  2. Significado Industrial: Ofrece herramientas y métodos directamente aplicables para desarrolladores de juegos
  3. Promoción Tecnológica: La implementación de código abierto facilita adopción generalizada y mejora del método
  4. Aplicaciones Interdisciplinarias: El método puede ser aplicable a otros escenarios que requieren toma de decisiones inteligente

Escenarios Aplicables

  1. Juegos de Acción: Juegos de disparos y combate que requieren comportamiento complejo de NPCs
  2. Juegos de Estrategia: Juegos de estrategia en tiempo real que requieren oponentes inteligentes
  3. Juegos de RPG: Juegos de rol que requieren comportamiento diversificado de NPCs
  4. Sistemas de Entrenamiento por Simulación: Sistemas de entrenamiento por simulación en campos militar y de seguridad

Referencias

Este artículo cita 21 trabajos relacionados, cubriendo investigaciones importantes en múltiples campos de investigación incluyendo IA de juegos, aprendizaje por refuerzo y árboles de comportamiento, proporcionando una base teórica y soporte técnico sólido para la investigación.


Evaluación General: Este es un artículo de investigación orientado a aplicaciones con considerable valor práctico, que convierte exitosamente métodos teóricos en herramientas prácticamente utilizables, haciendo una contribución importante al campo de IA de juegos. Aunque hay espacio para mejora en profundidad teórica y amplitud de evaluación, su naturaleza de código abierto e implementación completa proporciona una base sólida para investigación posterior.