Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
Combinaison de l'Apprentissage par Renforcement et des Arbres de Comportement pour les PNJ dans les Jeux Vidéo avec AMD Schola
Malgré les progrès significatifs dans le domaine de la recherche en apprentissage par renforcement (RL), son application dans les jeux vidéo commerciaux reste limitée. Cet article présente un aperçu des défis courants auxquels la communauté de l'IA ludique est confrontée lors de l'utilisation pratique de PNJ pilotés par RL, et souligne que l'intersection entre RL et les arbres de comportement (BT) traditionnels constitue un nœud clé nécessitant une exploration approfondie. Bien que la combinaison BT+RL ait été mentionnée dans plusieurs articles de recherche, ses applications pratiques restent rares. Les auteurs utilisent AMD Schola—un plugin pour l'entraînement d'agents RL dans Unreal Engine—pour démontrer la faisabilité de cette approche en créant des PNJ multitâches dans un environnement 3D complexe inspiré du jeu commercial « The Last of Us ».
Bien que les techniques d'apprentissage par renforcement se développent rapidement, l'adoption de PNJ pilotés par RL dans le développement de jeux commerciaux fait face à des défis majeurs. Les méthodes traditionnelles d'arbres de comportement, bien que hautement structurées, deviennent complexes et manquent d'adaptabilité lors du traitement de multiples tâches ; tandis que les méthodes RL, bien que dotées de capacités d'adaptation dynamique, présentent des difficultés de façonnage des récompenses, d'apprentissage par transfert négatif et de besoins élevés en ressources informatiques.
Expérience de jeu: La cohérence et l'humanité du comportement des PNJ sont essentielles pour maintenir la qualité du jeu et améliorer l'expérience utilisateur
Efficacité du développement: Les développeurs de jeux préfèrent réutiliser les ressources déjà développées, nécessitant des modèles réutilisables et ajustables
Barrière technologique: Manque de support d'outils suffisant, particulièrement en matière d'interprétabilité et de contrôlabilité
Approche BT pure: Le développement de BT complexes multitâches est fastidieux, manque d'adaptabilité et produit facilement des expériences de jeu répétitives
Approche RL pure: Difficultés à entraîner des modèles de capacités générales, avec des problèmes de façonnage des récompenses, de transfert négatif entre tâches et de coûts informatiques élevés
Approches par modèles volumineux: L'augmentation des paramètres du modèle ou l'utilisation de grands modèles fondamentaux augmente considérablement le temps d'entraînement et la latence du jeu
Proposition d'une architecture hybride BT+RL: Intégration de modèles RL dans les arbres de comportement, combinant les avantages des deux approches
Développement d'un système de PNJ multitâches: Implémentation de cinq compétences fondamentales incluant la fuite (Flee), la recherche (Search), le combat (Combat), la dissimulation (Hide) et le mouvement (Move)
Construction d'un cadre d'entraînement complet: Basé sur le plugin AMD Schola, fournissant une solution complète pour l'entraînement et le déploiement dans Unreal Engine
Fourniture d'une validation empirique: Vérification de l'efficacité de la méthode dans un environnement 3D inspiré de « The Last of Us »
Mise en open-source de l'implémentation complète: Incluant l'environnement, les modèles et le code d'implémentation, favorisant la recherche communautaire
Observations principales: 36 rayons de détection pour les cibles, obstacles et positions de rechargement de munitions; observations en virgule flottante incluant la santé actuelle, la quantité de munitions, la direction normalisée de la cible
Architecture réseau:
Compétences de base: MLP de profondeur 2, largeur 64
Apprentissage par curriculum: MLP de profondeur 2, largeur 128 + couche d'attention (dimension d'attention 60, longueur maximale de séquence 20)
Espace d'actions: Mouvement latéral, mouvement avant, tir
Environnement: Carte carrée fermée de 4000×4000 unités, contenant des obstacles statiques et 8 points de rechargement de munitions
Configuration des PNJ: 100 HP, 10 munitions, 10 HP de dégâts par attaque, intervalle de tir de 0,15 seconde, vitesse de mouvement de 600 unités/seconde
Environnement d'entraînement: Scènes d'entraînement spécialisées conçues pour chaque compétence
Taux de victoire: La méthode hybride surpasse significativement l'RL avec apprentissage par curriculum, légèrement inférieure à la méthode BT pure
Durée du jeu: La méthode BT a le moins d'étapes avec une distribution concentrée, les méthodes RL montrent une plus grande variabilité, indiquant une diversité comportementale
Analyse théorique insuffisante: Manque d'analyse théorique de la combinaison BT+RL et de garanties de convergence
Limitation des scénarios d'évaluation: Validation principalement dans des scénarios de jeux de tir, l'applicabilité à d'autres types de jeux est inconnue
Lignes de base de comparaison limitées: Absence de comparaison avec des méthodes d'IA ludique plus avancées
Stabilité à long terme: Absence d'évaluation de la stabilité et de la cohérence lors d'une exécution prolongée
Expérience utilisateur: Manque d'évaluation subjective de la qualité du comportement des PNJ par de vrais joueurs
Cet article cite 21 références pertinentes, couvrant des travaux importants dans plusieurs domaines de recherche incluant l'IA ludique, l'apprentissage par renforcement et les arbres de comportement, fournissant une base théorique et un support technique solides pour la recherche.
Évaluation Globale: Cet article est une recherche appliquée d'une valeur pratique relativement élevée, convertissant avec succès les méthodes théoriques en outils pratiquement utilisables, apportant une contribution importante au domaine de l'IA ludique. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de largeur d'évaluation, sa nature open-source et son implémentation complète jettent une base solide pour la recherche ultérieure.