Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
Kombination von Reinforcement Learning und Behavior Trees für NPCs in Videospielen mit AMD Schola
Trotz erheblicher Fortschritte in der Reinforcement-Learning-Forschung (RL) ist die Anwendung in kommerziellen Videospielen noch begrenzt. Dieses Paper gibt einen Überblick über häufige Herausforderungen, denen sich die Game-AI-Community bei der praktischen Verwendung von RL-gesteuerten NPCs gegenübersieht, und hebt die Schnittmenge zwischen RL und traditionellen Behavior Trees (BT) als kritischen Knoten hervor, der weitere Erforschung verdient. Obwohl die Kombination BT+RL in mehreren Forschungsarbeiten erwähnt wurde, ist ihre praktische Anwendung noch selten. Die Autoren verwenden AMD Schola – ein Plugin zum Trainieren von RL-Agenten in der Unreal Engine – und demonstrieren die Machbarkeit dieses Ansatzes durch die Erstellung von Multi-Task-NPCs in einer komplexen 3D-Umgebung, die vom kommerziellen Spiel „The Last of Us" inspiriert ist.
Obwohl sich die Reinforcement-Learning-Technologie schnell entwickelt, stehen die Einführung von RL-gesteuerten NPCs in der kommerziellen Spieleentwicklung vor erheblichen Herausforderungen. Traditionelle Behavior-Tree-Methoden bieten zwar hohe Strukturiertheit, werden aber bei der Verarbeitung mehrerer Aufgaben komplex und mangeln an Adaptivität; RL-Methoden hingegen bieten dynamische Anpassungsfähigkeit, sind aber mit schwieriger Reward-Gestaltung, negativem Transfer Learning und hohem Ressourcenbedarf konfrontiert.
Spielerlebnis: Die Konsistenz und Menschenähnlichkeit des NPC-Verhaltens sind entscheidend für die Aufrechterhaltung der Spielqualität und die Verbesserung der Benutzererfahrung
Entwicklungseffizienz: Spieleentwickler bevorzugen die Wiederverwendung bereits entwickelter Assets und benötigen wiederverwendbare und anpassbare Modelle
Technische Hürden: Mangel an ausreichender Werkzeugunterstützung, insbesondere in Bezug auf Interpretierbarkeit und Kontrollierbarkeit
Reine BT-Methode: Die Entwicklung komplexer Multi-Task-BTs ist mühsam, mangelt an Adaptivität und führt leicht zu wiederholten Spielerfahrungen
Reine RL-Methode: Schwierigkeiten beim Training universeller Fähigkeitsmodelle, Reward-Gestaltung, negativer Task-Transfer und hohe Rechenkosten
Großmodell-Ansätze: Die Erhöhung der Modellparameter oder die Verwendung großer Foundation Models erhöht erheblich die Trainingszeit und Spielverzögerung
Vorschlag einer hybriden BT+RL-Architektur: Integration von RL-Modellen in Behavior Trees, die Vorteile beider Methoden kombiniert
Entwicklung eines Multi-Skill-NPC-Systems: Implementierung von fünf Kernfähigkeiten – Flucht (Flee), Suche (Search), Kampf (Combat), Verstecken (Hide) und Bewegung (Move)
Aufbau eines vollständigen Trainingsrahmens: Basierend auf dem AMD Schola Plugin mit einer kompletten Lösung für Training und Bereitstellung in der Unreal Engine
Empirische Validierung: Verifikation der Methodeneffektivität in einer von „The Last of Us" inspirierten 3D-Umgebung
Open-Source-Implementierung: Vollständige Veröffentlichung von Umgebung, Modellen und Implementierungscode zur Förderung der Gemeinschaftsforschung
Gewinnquote: Hybrid-Methode deutlich überlegen gegenüber Curriculum-Learning-RL, nur leicht unter reiner BT-Methode
Spiellänge: BT-Methode mit wenigsten Schritten und konzentrierter Verteilung, RL-Methoden zeigen größere Variabilität und deuten auf Verhaltensvielfalt hin
Dieses Paper zitiert 21 relevante Arbeiten, die wichtige Werke aus mehreren Forschungsbereichen wie Game-AI, Reinforcement Learning und Behavior Trees abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.
Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit hohem praktischen Wert, das theoretische Methoden erfolgreich in praktisch nutzbare Werkzeuge umwandelt und wichtige Beiträge zum Game-AI-Bereich leistet. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und Evaluierungsbreite gibt, legt seine Open-Source-Natur und vollständige Implementierung eine gute Grundlage für nachfolgende Forschung.