2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

Kombination von Reinforcement Learning und Behavior Trees für NPCs in Videospielen mit AMD Schola

Grundinformationen

  • Paper-ID: 2510.14154
  • Titel: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • Autoren: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • Klassifizierung: cs.AI cs.LG
  • Veröffentlichungsdatum: 17. Oktober 2025 (Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.14154

Zusammenfassung

Trotz erheblicher Fortschritte in der Reinforcement-Learning-Forschung (RL) ist die Anwendung in kommerziellen Videospielen noch begrenzt. Dieses Paper gibt einen Überblick über häufige Herausforderungen, denen sich die Game-AI-Community bei der praktischen Verwendung von RL-gesteuerten NPCs gegenübersieht, und hebt die Schnittmenge zwischen RL und traditionellen Behavior Trees (BT) als kritischen Knoten hervor, der weitere Erforschung verdient. Obwohl die Kombination BT+RL in mehreren Forschungsarbeiten erwähnt wurde, ist ihre praktische Anwendung noch selten. Die Autoren verwenden AMD Schola – ein Plugin zum Trainieren von RL-Agenten in der Unreal Engine – und demonstrieren die Machbarkeit dieses Ansatzes durch die Erstellung von Multi-Task-NPCs in einer komplexen 3D-Umgebung, die vom kommerziellen Spiel „The Last of Us" inspiriert ist.

Forschungshintergrund und Motivation

1. Kernproblem

Obwohl sich die Reinforcement-Learning-Technologie schnell entwickelt, stehen die Einführung von RL-gesteuerten NPCs in der kommerziellen Spieleentwicklung vor erheblichen Herausforderungen. Traditionelle Behavior-Tree-Methoden bieten zwar hohe Strukturiertheit, werden aber bei der Verarbeitung mehrerer Aufgaben komplex und mangeln an Adaptivität; RL-Methoden hingegen bieten dynamische Anpassungsfähigkeit, sind aber mit schwieriger Reward-Gestaltung, negativem Transfer Learning und hohem Ressourcenbedarf konfrontiert.

2. Bedeutung des Problems

  • Spielerlebnis: Die Konsistenz und Menschenähnlichkeit des NPC-Verhaltens sind entscheidend für die Aufrechterhaltung der Spielqualität und die Verbesserung der Benutzererfahrung
  • Entwicklungseffizienz: Spieleentwickler bevorzugen die Wiederverwendung bereits entwickelter Assets und benötigen wiederverwendbare und anpassbare Modelle
  • Technische Hürden: Mangel an ausreichender Werkzeugunterstützung, insbesondere in Bezug auf Interpretierbarkeit und Kontrollierbarkeit

3. Einschränkungen bestehender Methoden

  • Reine BT-Methode: Die Entwicklung komplexer Multi-Task-BTs ist mühsam, mangelt an Adaptivität und führt leicht zu wiederholten Spielerfahrungen
  • Reine RL-Methode: Schwierigkeiten beim Training universeller Fähigkeitsmodelle, Reward-Gestaltung, negativer Task-Transfer und hohe Rechenkosten
  • Großmodell-Ansätze: Die Erhöhung der Modellparameter oder die Verwendung großer Foundation Models erhöht erheblich die Trainingszeit und Spielverzögerung

Kernbeiträge

  1. Vorschlag einer hybriden BT+RL-Architektur: Integration von RL-Modellen in Behavior Trees, die Vorteile beider Methoden kombiniert
  2. Entwicklung eines Multi-Skill-NPC-Systems: Implementierung von fünf Kernfähigkeiten – Flucht (Flee), Suche (Search), Kampf (Combat), Verstecken (Hide) und Bewegung (Move)
  3. Aufbau eines vollständigen Trainingsrahmens: Basierend auf dem AMD Schola Plugin mit einer kompletten Lösung für Training und Bereitstellung in der Unreal Engine
  4. Empirische Validierung: Verifikation der Methodeneffektivität in einer von „The Last of Us" inspirierten 3D-Umgebung
  5. Open-Source-Implementierung: Vollständige Veröffentlichung von Umgebung, Modellen und Implementierungscode zur Förderung der Gemeinschaftsforschung

Methodische Details

Aufgabendefinition

Konstruktion von NPCs, die mehrere Fähigkeiten in komplexen 3D-Umgebungen ausführen können, insbesondere:

  • Eingaben: Umgebungsbeobachtungen (Tiefeninfo, Gesundheitsstatus, Munitionsmenge, Zielrichtung usw.)
  • Ausgaben: Aktionssequenzen (Bewegung, Schießen, Drehung usw.)
  • Einschränkungen: Aufrechterhaltung der Verhaltenskonsistenz, Gewährleistung des Spielgleichgewichts

Modellarchitektur

1. Behavior-Tree-Struktur

Root → Healthy? → [Ammo>0 → Collect → InSight → Combat]
                               ↓
                           Search → [Distance<2000 → Flee]
                                           ↓
                                        Hide

2. RL-Modellkonfiguration

  • Kernbeobachtungen: 36 Raystrahlen zur Erkennung von Zielen, Hindernissen und Munitionsnachladepositionen; Gleitkommabeobachtungen umfassen aktuellen Gesundheitswert, Munitionsmenge, normalisierte Zielrichtung
  • Netzwerkarchitektur:
    • Grundfähigkeiten: MLP mit Tiefe 2 und Breite 64
    • Curriculum Learning: MLP mit Tiefe 2 und Breite 128 + Attention-Schicht (Attention-Dimension 60, maximale Sequenzlänge 20)
  • Aktionsraum: Seitliche Bewegung, Vorwärtsbewegung, Schießen

3. Fähigkeitsspezifische Konfiguration

FähigkeitSpezielle BeobachtungenSpezielle AktionenBeendigungsbedingungTrainingsschritte
FleeSpielersichtbarkeit, EntfernungBewegungSpielerentfernung<10002M
Combat-SchießenSpielergesundheit≤02M
HideSpielersichtbarkeit, HindernistentfernungBewegungSpieler entdeckt10M
CollectNächste MunitionspositionBewegungErfolgreiches Nachladen12M

Technische Innovationen

  1. Modulares Design: Jede Fähigkeit wird unabhängig trainiert, wiederverwendbar und kombinierbar
  2. Hierarchische Kontrolle: BT übernimmt hochrangige Entscheidungen, RL übernimmt konkrete Ausführung
  3. Interpretierbarkeit: Entwickler können NPC-Verhaltenslogik verstehen und anpassen
  4. Konsistenzgarantie: BT-Struktur gewährleistet vorhersagbares Verhalten

Experimentelle Einrichtung

Datensatz

  • Umgebung: 4000×4000 Einheiten große geschlossene quadratische Karte mit statischen Hindernissen und 8 Munitionsnachladepunkten
  • NPC-Konfiguration: 100 HP, 10 Munition, 10 HP Schaden pro Angriff, 0,15 Sekunden Schussintervall, 600 Einheiten/Sekunde Bewegungsgeschwindigkeit
  • Trainingsumgebung: Speziell für jede Fähigkeit entworfene Trainingsszenarien

Evaluierungsmetriken

  • Gewinnquote: Gewinnanteil gegen verschiedene Gegner
  • Durchschnittliche Schritte: Dauer jedes Spiels
  • Schadensleistung: Verursachter Schaden gegen aggressive NPCs
  • FPS-Leistung: Bildrate während der Echtzeitausführung

Vergleichsmethoden

  1. Reine BT-Baseline: Verwendung der gleichen Baumstruktur mit vordefinierten BT-Aufgaben in Blattknoten
  2. Curriculum-Learning-RL: End-to-End-RL-Modell trainiert mit 5-stufigem Curriculum Learning
  3. Statischer NPC: Testgegenstand ohne Bewegung und Angriff
  4. Aggressiver NPC: Vereinfachte BT-Kontrolle mit Angriffsvorteil (unbegrenzte Munition)

Implementierungsdetails

  • Optimierungsalgorithmus: Proximal Policy Optimization (PPO)
  • Lernrate: 3e-4
  • Maximale Schritte: 2000 Schritte pro Spiel
  • Trainingsframework: RLlib mit AMD Schola Plugin

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Kampfleistung

MethodeGewinnquote gegen statischen NPCGewinnquote gegen aggressiven NPCDurchschnittliche SchritteSchadensleistung
BT1.000.591839.63170.48
Hybrid-Methode1.000.533969.22149.86
Curriculum Learning1.000.413836.95137.80

Leistungsanalyse

  • Gewinnquote: Hybrid-Methode deutlich überlegen gegenüber Curriculum-Learning-RL, nur leicht unter reiner BT-Methode
  • Spiellänge: BT-Methode mit wenigsten Schritten und konzentrierter Verteilung, RL-Methoden zeigen größere Variabilität und deuten auf Verhaltensvielfalt hin
  • Rechenleistung: Reine BT > Curriculum Learning > Hybrid-Methode

FPS-Leistungstest

Konfiguration1 Agent10 Agenten
Kein Modell267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
Hybrid-Methode211.90±4.11109.71±1.88
Curriculum Learning215.80±9.77116.14±2.54

Experimentelle Erkenntnisse

  1. Verhaltensvielfalt: RL-Methoden erzeugen vielfältigere Spieltrajektorien und erhöhen die Unvorhersehbarkeit des Spiels
  2. Leistungsabwägung: Hybrid-Methode bietet bessere Adaptivität bei Aufrechterhaltung angemessener Leistung
  3. Optimierungspotenzial: Weitere Leistungsoptimierung der Hybrid-Methode durch Batch-Processing möglich

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. RL-Anwendungen in Game-AI: Behavior Cloning und Reinforcement Learning in Spielen wie Counter-Strike
  2. Multi-Task-Reinforcement-Learning: Wissensaustausch und kontextuelle Repräsentationslernverfahren
  3. BT- und RL-Kombination: Anwendungen in sicherheitskritischen Systemen und Robotik
  4. Großskalige Modelle: Verbesserung von NPC-Fähigkeiten durch Parametererweiterung und Foundation Models

Unterschiede des Beitrags dieses Papers

  • Praktische Ausrichtung: Fokus auf tatsächliche Anforderungen von Spieleentwicklern statt reiner Forschungsszenarien
  • Vollständige Werkzeugkette: Bereitstellung einer kompletten Lösung vom Training bis zur Bereitstellung
  • Open-Source-Implementierung: Förderung der Gemeinschaftsadoption und Weiterentwicklung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Machbarkeitsverifikation: BT+RL-Hybrid-Methode ist praktisch machbar in Spielumgebungen
  2. Ausgeglichene Vorteile: Erfolgreiche Kombination von RL-Adaptivität und BT-Interpretierbarkeit
  3. Modularisierungsgewinne: Unabhängig trainierte Fähigkeitsmodule erhöhen Wiederverwendbarkeit und Entwicklungseffizienz

Einschränkungen

  1. Rechenaufwand: Hybrid-Methode hat höhere Rechenkosten als reine BT-Methode
  2. Komplexität: Erfordert gleichzeitige Wartung von BT-Struktur und mehreren RL-Modellen
  3. Optimierungsraum: Leistungsoptimierungstechniken wie Batch-Processing nicht vollständig erforscht
  4. Evaluierungsumfang: Hauptsächlich in spezifischen Spielszenarien validiert, Generalisierbarkeit bedarf weiterer Verifikation

Zukünftige Richtungen

  1. Leistungsoptimierung: Implementierung von Modell-Batch-Processing und anderen Optimierungstechniken
  2. Architekturverbesserung: Erforschung effizienterer BT+RL-Integrationsmethoden
  3. Anwendungserweiterung: Validierung der Methode in mehr Spieltypen und Szenarien
  4. Werkzeugverbesserung: Verbesserung der Funktionalität und Benutzerfreundlichkeit des AMD Schola Plugins

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Wert: Direkte Lösung tatsächlicher Anforderungen der Spieleindustrie mit verwendbaren Werkzeugen und Methoden
  2. Methodische Innovation: Effektive Kombination der Vorteile von BT und RL, Vermeidung jeweiliger Einschränkungen
  3. Umfassende Experimente: Multidimensionale Evaluierung einschließlich Leistung, Gewinnquote und Recheneffizienz
  4. Open-Source-Beitrag: Vollständige Open-Source-Veröffentlichung fördert Gemeinschaftsentwicklung und Methodenverbreitung
  5. Vollständige technische Details: Detaillierte Implementierungsdetails und Konfigurationsparameter

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der BT+RL-Kombination und Konvergenzgarantien
  2. Begrenzte Evaluierungsszenarien: Hauptsächlich in Schießspiel-Szenarien validiert, Anwendbarkeit auf andere Spieltypen unklar
  3. Begrenzte Vergleichsbaselines: Keine Vergleiche mit mehr fortgeschrittenen Game-AI-Methoden
  4. Langzeitstabilität: Stabilität und Konsistenz bei längerer Laufzeit nicht evaluiert
  5. Benutzererfahrung: Mangel an subjektiver Bewertung der NPC-Verhaltensqualität durch echte Spieler

Auswirkungen

  1. Akademischer Wert: Bietet praktisches Hybrid-Methoden-Framework für Game-AI-Forschung
  2. Industrielle Bedeutung: Bietet Spieleentwicklern direkt anwendbare Werkzeuge und Methoden
  3. Technologieverbreitung: Open-Source-Implementierung fördert breite Adoption und Verbesserung
  4. Interdisziplinäre Anwendungen: Methode könnte auf andere Szenarien mit intelligenter Entscheidungsfindung anwendbar sein

Anwendungsszenarien

  1. Action-Spiele: Schießspiele und Kampfspiele mit komplexem NPC-Verhalten
  2. Strategiespiele: Echtzeit-Strategiespiele mit intelligenten Gegnern
  3. RPG-Spiele: Rollenspiele mit vielfältigem NPC-Verhalten
  4. Simulationstraining: Simulationstrainingsysteme in Militär- und Sicherheitsbereich

Literaturverzeichnis

Dieses Paper zitiert 21 relevante Arbeiten, die wichtige Werke aus mehreren Forschungsbereichen wie Game-AI, Reinforcement Learning und Behavior Trees abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.


Gesamtbewertung: Dies ist ein anwendungsorientiertes Forschungspapier mit hohem praktischen Wert, das theoretische Methoden erfolgreich in praktisch nutzbare Werkzeuge umwandelt und wichtige Beiträge zum Game-AI-Bereich leistet. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und Evaluierungsbreite gibt, legt seine Open-Source-Natur und vollständige Implementierung eine gute Grundlage für nachfolgende Forschung.