2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

Combinaison de l'Apprentissage par Renforcement et des Arbres de Comportement pour les PNJ dans les Jeux Vidéo avec AMD Schola

Informations Fondamentales

ID de l'article: 2510.14154
Titre: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Auteurs: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
Classification: cs.AI cs.LG
Date de publication: 17 octobre 2025 (prépublication)
Lien de l'article: https://arxiv.org/abs/2510.14154

Résumé

Malgré les progrès significatifs dans le domaine de la recherche en apprentissage par renforcement (RL), son application dans les jeux vidéo commerciaux reste limitée. Cet article présente un aperçu des défis courants auxquels la communauté de l'IA ludique est confrontée lors de l'utilisation pratique de PNJ pilotés par RL, et souligne que l'intersection entre RL et les arbres de comportement (BT) traditionnels constitue un nœud clé nécessitant une exploration approfondie. Bien que la combinaison BT+RL ait été mentionnée dans plusieurs articles de recherche, ses applications pratiques restent rares. Les auteurs utilisent AMD Schola—un plugin pour l'entraînement d'agents RL dans Unreal Engine—pour démontrer la faisabilité de cette approche en créant des PNJ multitâches dans un environnement 3D complexe inspiré du jeu commercial « The Last of Us ».

Contexte et Motivation de la Recherche

1. Problème Central

Bien que les techniques d'apprentissage par renforcement se développent rapidement, l'adoption de PNJ pilotés par RL dans le développement de jeux commerciaux fait face à des défis majeurs. Les méthodes traditionnelles d'arbres de comportement, bien que hautement structurées, deviennent complexes et manquent d'adaptabilité lors du traitement de multiples tâches ; tandis que les méthodes RL, bien que dotées de capacités d'adaptation dynamique, présentent des difficultés de façonnage des récompenses, d'apprentissage par transfert négatif et de besoins élevés en ressources informatiques.

2. Importance du Problème

Expérience de jeu: La cohérence et l'humanité du comportement des PNJ sont essentielles pour maintenir la qualité du jeu et améliorer l'expérience utilisateur
Efficacité du développement: Les développeurs de jeux préfèrent réutiliser les ressources déjà développées, nécessitant des modèles réutilisables et ajustables
Barrière technologique: Manque de support d'outils suffisant, particulièrement en matière d'interprétabilité et de contrôlabilité

3. Limitations des Approches Existantes

Approche BT pure: Le développement de BT complexes multitâches est fastidieux, manque d'adaptabilité et produit facilement des expériences de jeu répétitives
Approche RL pure: Difficultés à entraîner des modèles de capacités générales, avec des problèmes de façonnage des récompenses, de transfert négatif entre tâches et de coûts informatiques élevés
Approches par modèles volumineux: L'augmentation des paramètres du modèle ou l'utilisation de grands modèles fondamentaux augmente considérablement le temps d'entraînement et la latence du jeu

Contributions Principales

Proposition d'une architecture hybride BT+RL: Intégration de modèles RL dans les arbres de comportement, combinant les avantages des deux approches
Développement d'un système de PNJ multitâches: Implémentation de cinq compétences fondamentales incluant la fuite (Flee), la recherche (Search), le combat (Combat), la dissimulation (Hide) et le mouvement (Move)
Construction d'un cadre d'entraînement complet: Basé sur le plugin AMD Schola, fournissant une solution complète pour l'entraînement et le déploiement dans Unreal Engine
Fourniture d'une validation empirique: Vérification de l'efficacité de la méthode dans un environnement 3D inspiré de « The Last of Us »
Mise en open-source de l'implémentation complète: Incluant l'environnement, les modèles et le code d'implémentation, favorisant la recherche communautaire

Détails de la Méthode

Définition des Tâches

Construction de PNJ capables d'exécuter plusieurs compétences dans un environnement 3D complexe, incluant spécifiquement:

Entrées: Observations environnementales (informations de profondeur, état de santé, quantité de munitions, direction de la cible, etc.)
Sorties: Séquences d'actions (mouvement, tir, rotation, etc.)
Contraintes: Maintien de la cohérence comportementale, assurance de l'équilibre du jeu

Architecture du Modèle

1. Structure de l'Arbre de Comportement

Racine → En bonne santé? → [Munitions>0 → Collecter → En vue → Combat]
                                    ↓
                            Rechercher → [Distance<2000 → Fuir]
                                                ↓
                                            Se cacher

2. Configuration du Modèle RL

Observations principales: 36 rayons de détection pour les cibles, obstacles et positions de rechargement de munitions; observations en virgule flottante incluant la santé actuelle, la quantité de munitions, la direction normalisée de la cible
Architecture réseau:
- Compétences de base: MLP de profondeur 2, largeur 64
- Apprentissage par curriculum: MLP de profondeur 2, largeur 128 + couche d'attention (dimension d'attention 60, longueur maximale de séquence 20)
Espace d'actions: Mouvement latéral, mouvement avant, tir

3. Configurations Spécifiques aux Compétences

Compétence	Observations Spéciales	Actions Spéciales	Conditions de Terminaison	Étapes d'Entraînement
Fuir	Visibilité du joueur, distance	Mouvement	Distance du joueur<1000	2M
Combat	-	Tir	Santé du joueur≤0	2M
Se cacher	Visibilité du joueur, distance aux obstacles	Mouvement	Joueur découvert	10M
Collecter	Position des munitions les plus proches	Mouvement	Rechargement réussi	12M

Points d'Innovation Technique

Conception modulaire: Chaque compétence entraînée indépendamment, réutilisable et composable
Contrôle hiérarchique: BT responsable des décisions de haut niveau, RL responsable de l'exécution concrète
Interprétabilité: Les développeurs peuvent comprendre et ajuster la logique comportementale des PNJ
Garantie de cohérence: La structure BT assure la prévisibilité du comportement

Configuration Expérimentale

Ensemble de Données

Environnement: Carte carrée fermée de 4000×4000 unités, contenant des obstacles statiques et 8 points de rechargement de munitions
Configuration des PNJ: 100 HP, 10 munitions, 10 HP de dégâts par attaque, intervalle de tir de 0,15 seconde, vitesse de mouvement de 600 unités/seconde
Environnement d'entraînement: Scènes d'entraînement spécialisées conçues pour chaque compétence

Métriques d'Évaluation

Taux de victoire: Proportion de victoires contre différents adversaires
Nombre moyen d'étapes: Durée de chaque partie
Dégâts infligés: Dégâts causés lors de l'affrontement avec des PNJ agressifs
Performance FPS: Performance en images par seconde lors de l'exécution en temps réel

Méthodes de Comparaison

Ligne de base BT pure: Utilisation de la même structure d'arbre mais avec des tâches BT prédéfinies aux nœuds feuilles
RL avec apprentissage par curriculum: Modèle RL bout à bout entraîné avec apprentissage par curriculum en 5 étapes
PNJ statique: Objet de test qui ne se déplace pas et n'attaque pas
PNJ agressif: Contrôle BT simplifié avec avantage d'attaque (munitions infinies)

Détails d'Implémentation

Algorithme d'optimisation: Proximal Policy Optimization (PPO)
Taux d'apprentissage: 3e-4
Nombre maximum d'étapes: 2000 étapes par partie
Framework d'entraînement: RLlib avec plugin AMD Schola

Résultats Expérimentaux

Résultats Principaux

Comparaison des Performances de Combat

Méthode	Taux de Victoire contre PNJ Statique	Taux de Victoire contre PNJ Agressif	Nombre Moyen d'Étapes	Dégâts Infligés
BT	1.00	0.59	1839.63	170.48
Méthode Hybride	1.00	0.53	3969.22	149.86
Apprentissage par Curriculum	1.00	0.41	3836.95	137.80

Analyse des Performances

Taux de victoire: La méthode hybride surpasse significativement l'RL avec apprentissage par curriculum, légèrement inférieure à la méthode BT pure
Durée du jeu: La méthode BT a le moins d'étapes avec une distribution concentrée, les méthodes RL montrent une plus grande variabilité, indiquant une diversité comportementale
Performance informatique: BT pur > Apprentissage par curriculum > Méthode hybride

Tests de Performance FPS

Configuration	1 Agent Intelligent	10 Agents Intelligents
Sans modèle	267.73±3.37	188.83±4.14
BT	261.90±10.88	155.82±4.31
Méthode Hybride	211.90±4.11	109.71±1.88
Apprentissage par Curriculum	215.80±9.77	116.14±2.54

Découvertes Expérimentales

Diversité comportementale: Les méthodes RL produisent des trajectoires de jeu plus variées, augmentant l'imprévisibilité du jeu
Compromis de performance: La méthode hybride offre une meilleure adaptabilité tout en maintenant des performances raisonnables
Potentiel d'optimisation: La performance de la méthode hybride peut être davantage optimisée grâce à des techniques telles que le traitement par lots

Travaux Connexes

Principales Directions de Recherche

Applications de RL dans l'IA ludique: Clonage comportemental et apprentissage par renforcement dans des jeux comme Counter-Strike
Apprentissage par renforcement multitâche: Partage de connaissances et apprentissage de représentations contextuelles
Combinaison BT et RL: Applications dans les systèmes critiques pour la sécurité et la robotique
Modèles à grande échelle: Amélioration des capacités des PNJ par extension de paramètres et modèles fondamentaux

Différences des Contributions de cet Article

Orientation pratique: Accent sur les besoins réels des développeurs de jeux, plutôt que sur des scénarios purement académiques
Chaîne d'outils complète: Fourniture d'une solution complète de l'entraînement au déploiement
Implémentation open-source: Promotion de l'adoption communautaire et du développement ultérieur

Conclusion et Discussion

Conclusions Principales

Vérification de faisabilité: La méthode hybride BT+RL présente une faisabilité pratique dans les environnements de jeu
Équilibre des avantages: Combinaison réussie de l'adaptabilité du RL et de l'interprétabilité du BT
Bénéfices de la modularité: Les modules de compétences entraînés indépendamment améliorent la réutilisabilité et l'efficacité du développement

Limitations

Surcharge de performance: Le coût informatique de la méthode hybride est supérieur à celui de la méthode BT pure
Complexité: Nécessité de maintenir simultanément la structure BT et plusieurs modèles RL
Espace d'optimisation: Exploration insuffisante des techniques d'optimisation de performance telles que le traitement par lots
Portée d'évaluation: Validation principalement dans des scénarios de jeu spécifiques, la généralisation reste à vérifier

Directions Futures

Optimisation de performance: Implémentation du traitement par lots de modèles et d'autres techniques d'optimisation
Amélioration architecturale: Exploration de méthodes d'intégration BT+RL plus efficaces
Extension d'application: Vérification de l'efficacité de la méthode dans plus de types et scénarios de jeux
Perfectionnement des outils: Amélioration des fonctionnalités et de la convivialité du plugin AMD Schola

Évaluation Approfondie

Points Forts

Valeur pratique élevée: Résolution directe des besoins réels de l'industrie du jeu, fourniture d'outils et de méthodes utilisables
Innovation méthodologique: Combinaison efficace des avantages du BT et du RL, évitement des limitations respectives
Expérimentation suffisante: Évaluation multidimensionnelle incluant performance, taux de victoire, efficacité informatique et autres indicateurs clés
Contribution open-source: La mise en open-source complète favorise le développement et la promotion de la méthode communautaire
Détails techniques complets: Fourniture de détails d'implémentation détaillés et de paramètres de configuration

Insuffisances

Analyse théorique insuffisante: Manque d'analyse théorique de la combinaison BT+RL et de garanties de convergence
Limitation des scénarios d'évaluation: Validation principalement dans des scénarios de jeux de tir, l'applicabilité à d'autres types de jeux est inconnue
Lignes de base de comparaison limitées: Absence de comparaison avec des méthodes d'IA ludique plus avancées
Stabilité à long terme: Absence d'évaluation de la stabilité et de la cohérence lors d'une exécution prolongée
Expérience utilisateur: Manque d'évaluation subjective de la qualité du comportement des PNJ par de vrais joueurs

Impact

Valeur académique: Fourniture d'un cadre de méthode hybride pratique pour le domaine de l'IA ludique
Signification industrielle: Fourniture d'outils et de méthodes directement applicables aux développeurs de jeux
Promotion technologique: L'implémentation open-source facilite l'adoption généralisée et l'amélioration de la méthode
Applications interdisciplinaires: La méthode peut être applicable à d'autres scénarios d'application nécessitant une prise de décision intelligente

Scénarios Applicables

Jeux d'action: Jeux de tir et de combat nécessitant des comportements complexes des PNJ
Jeux de stratégie: Jeux de stratégie en temps réel nécessitant des adversaires intelligents
Jeux de rôle: Jeux de rôle nécessitant des comportements variés des PNJ
Systèmes de simulation d'entraînement: Systèmes de simulation d'entraînement dans les domaines militaire et de la sécurité

Références

Cet article cite 21 références pertinentes, couvrant des travaux importants dans plusieurs domaines de recherche incluant l'IA ludique, l'apprentissage par renforcement et les arbres de comportement, fournissant une base théorique et un support technique solides pour la recherche.

Évaluation Globale: Cet article est une recherche appliquée d'une valeur pratique relativement élevée, convertissant avec succès les méthodes théoriques en outils pratiquement utilisables, apportant une contribution importante au domaine de l'IA ludique. Bien qu'il y ait de la place pour l'amélioration en termes de profondeur théorique et de largeur d'évaluation, sa nature open-source et son implémentation complète jettent une base solide pour la recherche ultérieure.