2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

Kombination von Reinforcement Learning und Behavior Trees für NPCs in Videospielen mit AMD Schola

Grundinformationen

Paper-ID: 2510.14154
Titel: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Autoren: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
Klassifizierung: cs.AI cs.LG
Veröffentlichungsdatum: 17. Oktober 2025 (Preprint)
Paper-Link: https://arxiv.org/abs/2510.14154

Zusammenfassung

Trotz erheblicher Fortschritte in der Reinforcement-Learning-Forschung (RL) ist die Anwendung in kommerziellen Videospielen noch begrenzt. Dieses Paper gibt einen Überblick über häufige Herausforderungen, denen sich die Game-AI-Community bei der praktischen Verwendung von RL-gesteuerten NPCs gegenübersieht, und hebt die Schnittmenge zwischen RL und traditionellen Behavior Trees (BT) als kritischen Knoten hervor, der weitere Erforschung verdient. Obwohl die Kombination BT+RL in mehreren Forschungsarbeiten erwähnt wurde, ist ihre praktische Anwendung noch selten. Die Autoren verwenden AMD Schola – ein Plugin zum Trainieren von RL-Agenten in der Unreal Engine – und demonstrieren die Machbarkeit dieses Ansatzes durch die Erstellung von Multi-Task-NPCs in einer komplexen 3D-Umgebung, die vom kommerziellen Spiel „The Last of Us" inspiriert ist.

Forschungshintergrund und Motivation

1. Kernproblem

Obwohl sich die Reinforcement-Learning-Technologie schnell entwickelt, stehen die Einführung von RL-gesteuerten NPCs in der kommerziellen Spieleentwicklung vor erheblichen Herausforderungen. Traditionelle Behavior-Tree-Methoden bieten zwar hohe Strukturiertheit, werden aber bei der Verarbeitung mehrerer Aufgaben komplex und mangeln an Adaptivität; RL-Methoden hingegen bieten dynamische Anpassungsfähigkeit, sind aber mit schwieriger Reward-Gestaltung, negativem Transfer Learning und hohem Ressourcenbedarf konfrontiert.

2. Bedeutung des Problems

Spielerlebnis: Die Konsistenz und Menschenähnlichkeit des NPC-Verhaltens sind entscheidend für die Aufrechterhaltung der Spielqualität und die Verbesserung der Benutzererfahrung
Entwicklungseffizienz: Spieleentwickler bevorzugen die Wiederverwendung bereits entwickelter Assets und benötigen wiederverwendbare und anpassbare Modelle
Technische Hürden: Mangel an ausreichender Werkzeugunterstützung, insbesondere in Bezug auf Interpretierbarkeit und Kontrollierbarkeit

3. Einschränkungen bestehender Methoden

Reine BT-Methode: Die Entwicklung komplexer Multi-Task-BTs ist mühsam, mangelt an Adaptivität und führt leicht zu wiederholten Spielerfahrungen
Reine RL-Methode: Schwierigkeiten beim Training universeller Fähigkeitsmodelle, Reward-Gestaltung, negativer Task-Transfer und hohe Rechenkosten
Großmodell-Ansätze: Die Erhöhung der Modellparameter oder die Verwendung großer Foundation Models erhöht erheblich die Trainingszeit und Spielverzögerung

Kernbeiträge

Vorschlag einer hybriden BT+RL-Architektur: Integration von RL-Modellen in Behavior Trees, die Vorteile beider Methoden kombiniert
Entwicklung eines Multi-Skill-NPC-Systems: Implementierung von fünf Kernfähigkeiten – Flucht (Flee), Suche (Search), Kampf (Combat), Verstecken (Hide) und Bewegung (Move)
Aufbau eines vollständigen Trainingsrahmens: Basierend auf dem AMD Schola Plugin mit einer kompletten Lösung für Training und Bereitstellung in der Unreal Engine
Empirische Validierung: Verifikation der Methodeneffektivität in einer von „The Last of Us" inspirierten 3D-Umgebung
Open-Source-Implementierung: Vollständige Veröffentlichung von Umgebung, Modellen und Implementierungscode zur Förderung der Gemeinschaftsforschung

Methodische Details

Aufgabendefinition

Konstruktion von NPCs, die mehrere Fähigkeiten in komplexen 3D-Umgebungen ausführen können, insbesondere:

Eingaben: Umgebungsbeobachtungen (Tiefeninfo, Gesundheitsstatus, Munitionsmenge, Zielrichtung usw.)
Ausgaben: Aktionssequenzen (Bewegung, Schießen, Drehung usw.)
Einschränkungen: Aufrechterhaltung der Verhaltenskonsistenz, Gewährleistung des Spielgleichgewichts

Modellarchitektur

1. Behavior-Tree-Struktur

Root → Healthy? → [Ammo>0 → Collect → InSight → Combat]
                               ↓
                           Search → [Distance<2000 → Flee]
                                           ↓
                                        Hide

2. RL-Modellkonfiguration

Kernbeobachtungen: 36 Raystrahlen zur Erkennung von Zielen, Hindernissen und Munitionsnachladepositionen; Gleitkommabeobachtungen umfassen aktuellen Gesundheitswert, Munitionsmenge, normalisierte Zielrichtung
Netzwerkarchitektur:
- Grundfähigkeiten: MLP mit Tiefe 2 und Breite 64
- Curriculum Learning: MLP mit Tiefe 2 und Breite 128 + Attention-Schicht (Attention-Dimension 60, maximale Sequenzlänge 20)
Aktionsraum: Seitliche Bewegung, Vorwärtsbewegung, Schießen

3. Fähigkeitsspezifische Konfiguration

Fähigkeit	Spezielle Beobachtungen	Spezielle Aktionen	Beendigungsbedingung	Trainingsschritte
Flee	Spielersichtbarkeit, Entfernung	Bewegung	Spielerentfernung<1000	2M
Combat	-	Schießen	Spielergesundheit≤0	2M
Hide	Spielersichtbarkeit, Hindernistentfernung	Bewegung	Spieler entdeckt	10M
Collect	Nächste Munitionsposition	Bewegung	Erfolgreiches Nachladen	12M

Technische Innovationen

Modulares Design: Jede Fähigkeit wird unabhängig trainiert, wiederverwendbar und kombinierbar
Hierarchische Kontrolle: BT übernimmt hochrangige Entscheidungen, RL übernimmt konkrete Ausführung
Interpretierbarkeit: Entwickler können NPC-Verhaltenslogik verstehen und anpassen
Konsistenzgarantie: BT-Struktur gewährleistet vorhersagbares Verhalten

Experimentelle Einrichtung

Datensatz

Umgebung: 4000×4000 Einheiten große geschlossene quadratische Karte mit statischen Hindernissen und 8 Munitionsnachladepunkten
NPC-Konfiguration: 100 HP, 10 Munition, 10 HP Schaden pro Angriff, 0,15 Sekunden Schussintervall, 600 Einheiten/Sekunde Bewegungsgeschwindigkeit
Trainingsumgebung: Speziell für jede Fähigkeit entworfene Trainingsszenarien

Evaluierungsmetriken

Gewinnquote: Gewinnanteil gegen verschiedene Gegner
Durchschnittliche Schritte: Dauer jedes Spiels
Schadensleistung: Verursachter Schaden gegen aggressive NPCs
FPS-Leistung: Bildrate während der Echtzeitausführung

Vergleichsmethoden

Reine BT-Baseline: Verwendung der gleichen Baumstruktur mit vordefinierten BT-Aufgaben in Blattknoten
Curriculum-Learning-RL: End-to-End-RL-Modell trainiert mit 5-stufigem Curriculum Learning
Statischer NPC: Testgegenstand ohne Bewegung und Angriff
Aggressiver NPC: Vereinfachte BT-Kontrolle mit Angriffsvorteil (unbegrenzte Munition)

Implementierungsdetails

Optimierungsalgorithmus: Proximal Policy Optimization (PPO)
Lernrate: 3e-4
Maximale Schritte: 2000 Schritte pro Spiel
Trainingsframework: RLlib mit AMD Schola Plugin

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Kampfleistung

Methode	Gewinnquote gegen statischen NPC	Gewinnquote gegen aggressiven NPC	Durchschnittliche Schritte	Schadensleistung
BT	1.00	0.59	1839.63	170.48
Hybrid-Methode	1.00	0.53	3969.22	149.86
Curriculum Learning	1.00	0.41	3836.95	137.80

Leistungsanalyse

Gewinnquote: Hybrid-Methode deutlich überlegen gegenüber Curriculum-Learning-RL, nur leicht unter reiner BT-Methode
Spiellänge: BT-Methode mit wenigsten Schritten und konzentrierter Verteilung, RL-Methoden zeigen größere Variabilität und deuten auf Verhaltensvielfalt hin
Rechenleistung: Reine BT > Curriculum Learning > Hybrid-Methode

FPS-Leistungstest

Konfiguration	1 Agent	10 Agenten
Kein Modell	267.73±3.37	188.83±4.14
BT	261.90±10.88	155.82±4.31
Hybrid-Methode	211.90±4.11	109.71±1.88
Curriculum Learning	215.80±9.77	116.14±2.54

Experimentelle Erkenntnisse

Verhaltensvielfalt: RL-Methoden erzeugen vielfältigere Spieltrajektorien und erhöhen die Unvorhersehbarkeit des Spiels
Leistungsabwägung: Hybrid-Methode bietet bessere Adaptivität bei Aufrechterhaltung angemessener Leistung
Optimierungspotenzial: Weitere Leistungsoptimierung der Hybrid-Methode durch Batch-Processing möglich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Machbarkeitsverifikation: BT+RL-Hybrid-Methode ist praktisch machbar in Spielumgebungen
Ausgeglichene Vorteile: Erfolgreiche Kombination von RL-Adaptivität und BT-Interpretierbarkeit
Modularisierungsgewinne: Unabhängig trainierte Fähigkeitsmodule erhöhen Wiederverwendbarkeit und Entwicklungseffizienz

Einschränkungen

Rechenaufwand: Hybrid-Methode hat höhere Rechenkosten als reine BT-Methode
Komplexität: Erfordert gleichzeitige Wartung von BT-Struktur und mehreren RL-Modellen
Optimierungsraum: Leistungsoptimierungstechniken wie Batch-Processing nicht vollständig erforscht
Evaluierungsumfang: Hauptsächlich in spezifischen Spielszenarien validiert, Generalisierbarkeit bedarf weiterer Verifikation

Zukünftige Richtungen

Leistungsoptimierung: Implementierung von Modell-Batch-Processing und anderen Optimierungstechniken
Architekturverbesserung: Erforschung effizienterer BT+RL-Integrationsmethoden
Anwendungserweiterung: Validierung der Methode in mehr Spieltypen und Szenarien
Werkzeugverbesserung: Verbesserung der Funktionalität und Benutzerfreundlichkeit des AMD Schola Plugins

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Direkte Lösung tatsächlicher Anforderungen der Spieleindustrie mit verwendbaren Werkzeugen und Methoden
Methodische Innovation: Effektive Kombination der Vorteile von BT und RL, Vermeidung jeweiliger Einschränkungen
Umfassende Experimente: Multidimensionale Evaluierung einschließlich Leistung, Gewinnquote und Recheneffizienz
Open-Source-Beitrag: Vollständige Open-Source-Veröffentlichung fördert Gemeinschaftsentwicklung und Methodenverbreitung
Vollständige technische Details: Detaillierte Implementierungsdetails und Konfigurationsparameter

Schwächen

Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der BT+RL-Kombination und Konvergenzgarantien
Begrenzte Evaluierungsszenarien: Hauptsächlich in Schießspiel-Szenarien validiert, Anwendbarkeit auf andere Spieltypen unklar
Begrenzte Vergleichsbaselines: Keine Vergleiche mit mehr fortgeschrittenen Game-AI-Methoden
Langzeitstabilität: Stabilität und Konsistenz bei längerer Laufzeit nicht evaluiert
Benutzererfahrung: Mangel an subjektiver Bewertung der NPC-Verhaltensqualität durch echte Spieler

Auswirkungen

Akademischer Wert: Bietet praktisches Hybrid-Methoden-Framework für Game-AI-Forschung
Industrielle Bedeutung: Bietet Spieleentwicklern direkt anwendbare Werkzeuge und Methoden
Technologieverbreitung: Open-Source-Implementierung fördert breite Adoption und Verbesserung
Interdisziplinäre Anwendungen: Methode könnte auf andere Szenarien mit intelligenter Entscheidungsfindung anwendbar sein

Anwendungsszenarien

Action-Spiele: Schießspiele und Kampfspiele mit komplexem NPC-Verhalten
Strategiespiele: Echtzeit-Strategiespiele mit intelligenten Gegnern
RPG-Spiele: Rollenspiele mit vielfältigem NPC-Verhalten
Simulationstraining: Simulationstrainingsysteme in Militär- und Sicherheitsbereich

Literaturverzeichnis

Dieses Paper zitiert 21 relevante Arbeiten, die wichtige Werke aus mehreren Forschungsbereichen wie Game-AI, Reinforcement Learning und Behavior Trees abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.

Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit hohem praktischen Wert, das theoretische Methoden erfolgreich in praktisch nutzbare Werkzeuge umwandelt und wichtige Beiträge zum Game-AI-Bereich leistet. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und Evaluierungsbreite gibt, legt seine Open-Source-Natur und vollständige Implementierung eine gute Grundlage für nachfolgende Forschung.