2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

Combinaison de l'Apprentissage par Renforcement et des Arbres de Comportement pour les PNJ dans les Jeux Vidéo avec AMD Schola

Informations Fondamentales

  • ID de l'article: 2510.14154
  • Titre: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • Auteurs: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • Classification: cs.AI cs.LG
  • Date de publication: 17 octobre 2025 (prépublication)
  • Lien de l'article: https://arxiv.org/abs/2510.14154

Résumé

Malgré les progrès significatifs dans le domaine de la recherche en apprentissage par renforcement (RL), son application dans les jeux vidéo commerciaux reste limitée. Cet article présente un aperçu des défis courants auxquels la communauté de l'IA ludique est confrontée lors de l'utilisation pratique de PNJ pilotés par RL, et souligne que l'intersection entre RL et les arbres de comportement (BT) traditionnels constitue un nœud clé nécessitant une exploration approfondie. Bien que la combinaison BT+RL ait été mentionnée dans plusieurs articles de recherche, ses applications pratiques restent rares. Les auteurs utilisent AMD Schola—un plugin pour l'entraînement d'agents RL dans Unreal Engine—pour démontrer la faisabilité de cette approche en créant des PNJ multitâches dans un environnement 3D complexe inspiré du jeu commercial « The Last of Us ».

Contexte et Motivation de la Recherche

1. Problème Central

Bien que les techniques d'apprentissage par renforcement se développent rapidement, l'adoption de PNJ pilotés par RL dans le développement de jeux commerciaux fait face à des défis majeurs. Les méthodes traditionnelles d'arbres de comportement, bien que hautement structurées, deviennent complexes et manquent d'adaptabilité lors du traitement de multiples tâches ; tandis que les méthodes RL, bien que dotées de capacités d'adaptation dynamique, présentent des difficultés de façonnage des récompenses, d'apprentissage par transfert négatif et de besoins élevés en ressources informatiques.

2. Importance du Problème

  • Expérience de jeu: La cohérence et l'humanité du comportement des PNJ sont essentielles pour maintenir la qualité du jeu et améliorer l'expérience utilisateur
  • Efficacité du développement: Les développeurs de jeux préfèrent réutiliser les ressources déjà développées, nécessitant des modèles réutilisables et ajustables
  • Barrière technologique: Manque de support d'outils suffisant, particulièrement en matière d'interprétabilité et de contrôlabilité

3. Limitations des Approches Existantes

  • Approche BT pure: Le développement de BT complexes multitâches est fastidieux, manque d'adaptabilité et produit facilement des expériences de jeu répétitives
  • Approche RL pure: Difficultés à entraîner des modèles de capacités générales, avec des problèmes de façonnage des récompenses, de transfert négatif entre tâches et de coûts informatiques élevés
  • Approches par modèles volumineux: L'augmentation des paramètres du modèle ou l'utilisation de grands modèles fondamentaux augmente considérablement le temps d'entraînement et la latence du jeu

Contributions Principales

  1. Proposition d'une architecture hybride BT+RL: Intégration de modèles RL dans les arbres de comportement, combinant les avantages des deux approches
  2. Développement d'un système de PNJ multitâches: Implémentation de cinq compétences fondamentales incluant la fuite (Flee), la recherche (Search), le combat (Combat), la dissimulation (Hide) et le mouvement (Move)
  3. Construction d'un cadre d'entraînement complet: Basé sur le plugin AMD Schola, fournissant une solution complète pour l'entraînement et le déploiement dans Unreal Engine
  4. Fourniture d'une validation empirique: Vérification de l'efficacité de la méthode dans un environnement 3D inspiré de « The Last of Us »
  5. Mise en open-source de l'implémentation complète: Incluant l'environnement, les modèles et le code d'implémentation, favorisant la recherche communautaire

Détails de la Méthode

Définition des Tâches

Construction de PNJ capables d'exécuter plusieurs compétences dans un environnement 3D complexe, incluant spécifiquement:

  • Entrées: Observations environnementales (informations de profondeur, état de santé, quantité de munitions, direction de la cible, etc.)
  • Sorties: Séquences d'actions (mouvement, tir, rotation, etc.)
  • Contraintes: Maintien de la cohérence comportementale, assurance de l'équilibre du jeu

Architecture du Modèle

1. Structure de l'Arbre de Comportement

Racine → En bonne santé? → [Munitions>0 → Collecter → En vue → Combat]
                                    ↓
                            Rechercher → [Distance<2000 → Fuir]
                                                ↓
                                            Se cacher

2. Configuration du Modèle RL

  • Observations principales: 36 rayons de détection pour les cibles, obstacles et positions de rechargement de munitions; observations en virgule flottante incluant la santé actuelle, la quantité de munitions, la direction normalisée de la cible
  • Architecture réseau:
    • Compétences de base: MLP de profondeur 2, largeur 64
    • Apprentissage par curriculum: MLP de profondeur 2, largeur 128 + couche d'attention (dimension d'attention 60, longueur maximale de séquence 20)
  • Espace d'actions: Mouvement latéral, mouvement avant, tir

3. Configurations Spécifiques aux Compétences

CompétenceObservations SpécialesActions SpécialesConditions de TerminaisonÉtapes d'Entraînement
FuirVisibilité du joueur, distanceMouvementDistance du joueur<10002M
Combat-TirSanté du joueur≤02M
Se cacherVisibilité du joueur, distance aux obstaclesMouvementJoueur découvert10M
CollecterPosition des munitions les plus prochesMouvementRechargement réussi12M

Points d'Innovation Technique

  1. Conception modulaire: Chaque compétence entraînée indépendamment, réutilisable et composable
  2. Contrôle hiérarchique: BT responsable des décisions de haut niveau, RL responsable de l'exécution concrète
  3. Interprétabilité: Les développeurs peuvent comprendre et ajuster la logique comportementale des PNJ
  4. Garantie de cohérence: La structure BT assure la prévisibilité du comportement

Configuration Expérimentale

Ensemble de Données

  • Environnement: Carte carrée fermée de 4000×4000 unités, contenant des obstacles statiques et 8 points de rechargement de munitions
  • Configuration des PNJ: 100 HP, 10 munitions, 10 HP de dégâts par attaque, intervalle de tir de 0,15 seconde, vitesse de mouvement de 600 unités/seconde
  • Environnement d'entraînement: Scènes d'entraînement spécialisées conçues pour chaque compétence

Métriques d'Évaluation

  • Taux de victoire: Proportion de victoires contre différents adversaires
  • Nombre moyen d'étapes: Durée de chaque partie
  • Dégâts infligés: Dégâts causés lors de l'affrontement avec des PNJ agressifs
  • Performance FPS: Performance en images par seconde lors de l'exécution en temps réel

Méthodes de Comparaison

  1. Ligne de base BT pure: Utilisation de la même structure d'arbre mais avec des tâches BT prédéfinies aux nœuds feuilles
  2. RL avec apprentissage par curriculum: Modèle RL bout à bout entraîné avec apprentissage par curriculum en 5 étapes
  3. PNJ statique: Objet de test qui ne se déplace pas et n'attaque pas
  4. PNJ agressif: Contrôle BT simplifié avec avantage d'attaque (munitions infinies)

Détails d'Implémentation

  • Algorithme d'optimisation: Proximal Policy Optimization (PPO)
  • Taux d'apprentissage: 3e-4
  • Nombre maximum d'étapes: 2000 étapes par partie
  • Framework d'entraînement: RLlib avec plugin AMD Schola

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances de Combat

MéthodeTaux de Victoire contre PNJ StatiqueTaux de Victoire contre PNJ AgressifNombre Moyen d'ÉtapesDégâts Infligés
BT1.000.591839.63170.48
Méthode Hybride1.000.533969.22149.86
Apprentissage par Curriculum1.000.413836.95137.80

Analyse des Performances

  • Taux de victoire: La méthode hybride surpasse significativement l'RL avec apprentissage par curriculum, légèrement inférieure à la méthode BT pure
  • Durée du jeu: La méthode BT a le moins d'étapes avec une distribution concentrée, les méthodes RL montrent une plus grande variabilité, indiquant une diversité comportementale
  • Performance informatique: BT pur > Apprentissage par curriculum > Méthode hybride

Tests de Performance FPS

Configuration1 Agent Intelligent10 Agents Intelligents
Sans modèle267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
Méthode Hybride211.90±4.11109.71±1.88
Apprentissage par Curriculum215.80±9.77116.14±2.54

Découvertes Expérimentales

  1. Diversité comportementale: Les méthodes RL produisent des trajectoires de jeu plus variées, augmentant l'imprévisibilité du jeu
  2. Compromis de performance: La méthode hybride offre une meilleure adaptabilité tout en maintenant des performances raisonnables
  3. Potentiel d'optimisation: La performance de la méthode hybride peut être davantage optimisée grâce à des techniques telles que le traitement par lots

Travaux Connexes

Principales Directions de Recherche

  1. Applications de RL dans l'IA ludique: Clonage comportemental et apprentissage par renforcement dans des jeux comme Counter-Strike
  2. Apprentissage par renforcement multitâche: Partage de connaissances et apprentissage de représentations contextuelles
  3. Combinaison BT et RL: Applications dans les systèmes critiques pour la sécurité et la robotique
  4. Modèles à grande échelle: Amélioration des capacités des PNJ par extension de paramètres et modèles fondamentaux

Différences des Contributions de cet Article

  • Orientation pratique: Accent sur les besoins réels des développeurs de jeux, plutôt que sur des scénarios purement académiques
  • Chaîne d'outils complète: Fourniture d'une solution complète de l'entraînement au déploiement
  • Implémentation open-source: Promotion de l'adoption communautaire et du développement ultérieur

Conclusion et Discussion

Conclusions Principales

  1. Vérification de faisabilité: La méthode hybride BT+RL présente une faisabilité pratique dans les environnements de jeu
  2. Équilibre des avantages: Combinaison réussie de l'adaptabilité du RL et de l'interprétabilité du BT
  3. Bénéfices de la modularité: Les modules de compétences entraînés indépendamment améliorent la réutilisabilité et l'efficacité du développement

Limitations

  1. Surcharge de performance: Le coût informatique de la méthode hybride est supérieur à celui de la méthode BT pure
  2. Complexité: Nécessité de maintenir simultanément la structure BT et plusieurs modèles RL
  3. Espace d'optimisation: Exploration insuffisante des techniques d'optimisation de performance telles que le traitement par lots
  4. Portée d'évaluation: Validation principalement dans des scénarios de jeu spécifiques, la généralisation reste à vérifier

Directions Futures

  1. Optimisation de performance: Implémentation du traitement par lots de modèles et d'autres techniques d'optimisation
  2. Amélioration architecturale: Exploration de méthodes d'intégration BT+RL plus efficaces
  3. Extension d'application: Vérification de l'efficacité de la méthode dans plus de types et scénarios de jeux
  4. Perfectionnement des outils: Amélioration des fonctionnalités et de la convivialité du plugin AMD Schola

Évaluation Approfondie

Points Forts

  1. Valeur pratique élevée: Résolution directe des besoins réels de l'industrie du jeu, fourniture d'outils et de méthodes utilisables
  2. Innovation méthodologique: Combinaison efficace des avantages du BT et du RL, évitement des limitations respectives
  3. Expérimentation suffisante: Évaluation multidimensionnelle incluant performance, taux de victoire, efficacité informatique et autres indicateurs clés
  4. Contribution open-source: La mise en open-source complète favorise le développement et la promotion de la méthode communautaire
  5. Détails techniques complets: Fourniture de détails d'implémentation détaillés et de paramètres de configuration

Insuffisances

  1. Analyse théorique insuffisante: Manque d'analyse théorique de la combinaison BT+RL et de garanties de convergence
  2. Limitation des scénarios d'évaluation: Validation principalement dans des scénarios de jeux de tir, l'applicabilité à d'autres types de jeux est inconnue
  3. Lignes de base de comparaison limitées: Absence de comparaison avec des méthodes d'IA ludique plus avancées
  4. Stabilité à long terme: Absence d'évaluation de la stabilité et de la cohérence lors d'une exécution prolongée
  5. Expérience utilisateur: Manque d'évaluation subjective de la qualité du comportement des PNJ par de vrais joueurs

Impact

  1. Valeur académique: Fourniture d'un cadre de méthode hybride pratique pour le domaine de l'IA ludique
  2. Signification industrielle: Fourniture d'outils et de méthodes directement applicables aux développeurs de jeux
  3. Promotion technologique: L'implémentation open-source facilite l'adoption généralisée et l'amélioration de la méthode
  4. Applications interdisciplinaires: La méthode peut être applicable à d'autres scénarios d'application nécessitant une prise de décision intelligente

Scénarios Applicables

  1. Jeux d'action: Jeux de tir et de combat nécessitant des comportements complexes des PNJ
  2. Jeux de stratégie: Jeux de stratégie en temps réel nécessitant des adversaires intelligents
  3. Jeux de rôle: Jeux de rôle nécessitant des comportements variés des PNJ
  4. Systèmes de simulation d'entraînement: Systèmes de simulation d'entraînement dans les domaines militaire et de la sécurité

Références

Cet article cite 21 références pertinentes, couvrant des travaux importants dans plusieurs domaines de recherche incluant l'IA ludique, l'apprentissage par renforcement et les arbres de comportement, fournissant une base théorique et un support technique solides pour la recherche.


Évaluation Globale: Cet article est une recherche appliquée d'une valeur pratique relativement élevée, convertissant avec succès les méthodes théoriques en outils pratiquement utilisables, apportant une contribution importante au domaine de l'IA ludique. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de largeur d'évaluation, sa nature open-source et son implémentation complète jettent une base solide pour la recherche ultérieure.