2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic

Combinare l'Apprendimento per Rinforzo e gli Alberi di Comportamento per i PNG nei Videogiochi con AMD Schola

Informazioni Fondamentali

  • ID Articolo: 2510.14154
  • Titolo: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
  • Autori: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
  • Classificazione: cs.AI cs.LG
  • Data di Pubblicazione: 17 ottobre 2025 (preprint)
  • Link Articolo: https://arxiv.org/abs/2510.14154

Riassunto

Nonostante i progressi significativi nella ricerca sull'apprendimento per rinforzo (RL), la sua applicazione nei videogiochi commerciali rimane limitata. Questo articolo illustra le sfide comuni affrontate dalla comunità di sviluppo di giochi nell'utilizzo di PNG controllati da RL e sottolinea l'intersezione tra RL e gli alberi di comportamento tradizionali (BT) come un nodo critico che necessita di ulteriore esplorazione. Sebbene la combinazione BT+RL sia stata menzionata in numerosi articoli di ricerca, le sue applicazioni pratiche rimangono scarse. Gli autori utilizzano AMD Schola—un plugin per l'addestramento di agenti RL in Unreal Engine—per dimostrare la fattibilità di questo approccio creando PNG multitask in ambienti 3D complessi ispirati al videogioco commerciale "The Last of Us".

Contesto di Ricerca e Motivazione

1. Problema Centrale

Nonostante il rapido sviluppo della tecnologia di apprendimento per rinforzo, l'adozione di PNG controllati da RL nello sviluppo di giochi commerciali affronta sfide significative. I metodi tradizionali basati su alberi di comportamento, sebbene altamente strutturati, diventano complessi e mancano di adattabilità nel gestire compiti multipli; i metodi RL, pur possedendo capacità di adattamento dinamico, presentano difficoltà nella modellazione delle ricompense, trasferimento negativo dell'apprendimento e elevati requisiti computazionali.

2. Importanza del Problema

  • Esperienza di Gioco: La coerenza e l'umanità del comportamento dei PNG sono cruciali per mantenere la qualità del gioco e migliorare l'esperienza dell'utente
  • Efficienza di Sviluppo: Gli sviluppatori di giochi preferiscono riutilizzare risorse già sviluppate, richiedendo modelli riutilizzabili e regolabili
  • Barriera Tecnologica: Mancanza di supporto strumentale adeguato, in particolare per quanto riguarda l'interpretabilità e il controllo

3. Limitazioni dei Metodi Esistenti

  • Approccio BT Puro: Lo sviluppo di BT complessi per multitask è tedioso, manca di adattabilità e tende a produrre esperienze di gioco ripetitive
  • Approccio RL Puro: Difficoltà nell'addestramento di modelli di capacità generiche, con problemi di modellazione delle ricompense, trasferimento negativo tra compiti e costi computazionali elevati
  • Approcci con Modelli Grandi: L'aumento dei parametri del modello o l'utilizzo di grandi modelli fondazionali aumenta significativamente il tempo di addestramento e la latenza di gioco

Contributi Principali

  1. Proposta di un'architettura ibrida BT+RL: Integrazione di modelli RL negli alberi di comportamento, combinando i vantaggi di entrambi gli approcci
  2. Sviluppo di un sistema PNG multi-abilità: Implementazione di cinque abilità fondamentali incluse fuga (Flee), ricerca (Search), combattimento (Combat), nascondiglio (Hide) e movimento (Move)
  3. Costruzione di un framework di addestramento completo: Basato sul plugin AMD Schola, fornisce una soluzione completa per l'addestramento e il deployment in Unreal Engine
  4. Verifica empirica: Validazione dell'efficacia del metodo in ambienti 3D ispirati a "The Last of Us"
  5. Rilascio open-source dell'implementazione completa: Incluso ambiente, modelli e codice di implementazione, promuovendo la ricerca della comunità

Dettagli del Metodo

Definizione dei Compiti

Costruzione di PNG in grado di eseguire molteplici abilità in ambienti 3D complessi, specificamente:

  • Input: Osservazioni ambientali (informazioni di profondità, stato di salute, quantità di munizioni, direzione dell'obiettivo, ecc.)
  • Output: Sequenze di azioni (movimento, sparo, rotazione, ecc.)
  • Vincoli: Mantenimento della coerenza comportamentale, garanzia dell'equilibrio di gioco

Architettura del Modello

1. Struttura dell'Albero di Comportamento

Root → Sano? → [Munizioni>0 → Raccogli → InVista → Combatti]
                               ↓
                           Ricerca → [Distanza<2000 → Fuggi]
                                           ↓
                                        Nascondi

2. Configurazione del Modello RL

  • Osservazioni Fondamentali: 36 raggi per il rilevamento di obiettivi, ostacoli e posizioni di ricarica munizioni; osservazioni in virgola mobile includono salute attuale, quantità di munizioni, direzione normalizzata dell'obiettivo
  • Architettura di Rete:
    • Abilità di base: MLP con profondità 2 e larghezza 64
    • Apprendimento curricolare: MLP con profondità 2 e larghezza 128 + strato di attenzione (dimensione attenzione 60, lunghezza massima sequenza 20)
  • Spazio di Azione: Movimento laterale, movimento in avanti, sparo

3. Configurazione Specifica per Abilità

AbilitàOsservazioni SpecialiAzioni SpecialiCondizioni di TerminazionePassi di Addestramento
FuggiVisibilità giocatore, distanzaMovimentoDistanza giocatore<10002M
Combatti-SparoSalute giocatore≤02M
NascondiVisibilità giocatore, distanza ostacoloMovimentoGiocatore scoperto10M
RaccogliPosizione munizioni più vicinaMovimentoRicarica riuscita12M

Punti di Innovazione Tecnica

  1. Progettazione Modulare: Ogni abilità viene addestrata indipendentemente, consentendo riutilizzo e composizione
  2. Controllo Gerarchico: BT responsabile delle decisioni di alto livello, RL responsabile dell'esecuzione specifica
  3. Interpretabilità: Gli sviluppatori possono comprendere e regolare la logica del comportamento dei PNG
  4. Garanzia di Coerenza: La struttura BT assicura la prevedibilità del comportamento

Configurazione Sperimentale

Dataset

  • Ambiente: Mappa quadrata chiusa di 4000×4000 unità, contenente ostacoli statici e 8 punti di ricarica munizioni
  • Configurazione PNG: 100 HP, 10 munizioni, 10 HP di danno per attacco, intervallo di sparo 0,15 secondi, velocità di movimento 600 unità/secondo
  • Ambiente di Addestramento: Scene di addestramento specializzate progettate per ogni abilità

Metriche di Valutazione

  • Tasso di Vittoria: Percentuale di vittorie contro diversi avversari
  • Numero Medio di Passi: Durata di ogni partita di gioco
  • Danno in Uscita: Danno inflitto quando si combatte contro PNG aggressivi
  • Prestazioni FPS: Prestazioni della frequenza fotogrammi durante l'esecuzione in tempo reale

Metodi di Confronto

  1. Baseline BT Puro: Utilizzo della stessa struttura di albero ma con compiti BT predefiniti nei nodi foglia
  2. RL con Apprendimento Curricolare: Modello RL end-to-end addestrato con apprendimento curricolare a 5 stadi
  3. PNG Statico: Oggetto di prova che non si muove e non attacca
  4. PNG Aggressivo: Controllo BT semplificato con vantaggi di attacco (munizioni illimitate)

Dettagli di Implementazione

  • Algoritmo di Ottimizzazione: Proximal Policy Optimization (PPO)
  • Tasso di Apprendimento: 3e-4
  • Numero Massimo di Passi: 2000 passi per partita
  • Framework di Addestramento: RLlib con plugin AMD Schola

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni di Combattimento

MetodoTasso Vittoria vs PNG StaticoTasso Vittoria vs PNG AggressivoNumero Medio PassiDanno in Uscita
BT1.000.591839.63170.48
Metodo Ibrido1.000.533969.22149.86
Apprendimento Curricolare1.000.413836.95137.80

Analisi delle Prestazioni

  • Tasso di Vittoria: Il metodo ibrido supera significativamente l'RL con apprendimento curricolare, leggermente inferiore solo al metodo BT puro
  • Durata del Gioco: Il metodo BT ha il minor numero di passi con distribuzione concentrata, i metodi RL mostrano maggiore variabilità, indicando diversità comportamentale
  • Prestazioni Computazionali: BT puro > Apprendimento curricolare > Metodo ibrido

Test delle Prestazioni FPS

Configurazione1 Agente10 Agenti
Nessun Modello267.73±3.37188.83±4.14
BT261.90±10.88155.82±4.31
Metodo Ibrido211.90±4.11109.71±1.88
Apprendimento Curricolare215.80±9.77116.14±2.54

Scoperte Sperimentali

  1. Diversità Comportamentale: I metodi RL producono traiettorie di gioco più diversificate, aumentando l'imprevedibilità del gioco
  2. Compromesso di Prestazioni: Il metodo ibrido fornisce migliore adattabilità mantenendo prestazioni ragionevoli
  3. Potenziale di Ottimizzazione: Ulteriori ottimizzazioni del metodo ibrido sono possibili attraverso tecniche come l'elaborazione batch

Lavori Correlati

Principali Direzioni di Ricerca

  1. Applicazioni di RL nei Giochi: Clonazione comportamentale e apprendimento per rinforzo in giochi come Counter-Strike
  2. Apprendimento per Rinforzo Multi-Compito: Condivisione della conoscenza e apprendimento della rappresentazione contestuale
  3. Combinazione di BT e RL: Applicazioni in sistemi critici per la sicurezza e nella robotica
  4. Modelli su Larga Scala: Potenziamento delle capacità dei PNG attraverso espansione parametrica e modelli fondazionali

Differenze nel Contributo di Questo Articolo

  • Orientamento Pratico: Focalizzato sulle esigenze effettive degli sviluppatori di giochi, piuttosto che su scenari puramente di ricerca
  • Catena di Strumenti Completa: Fornisce una soluzione completa dall'addestramento al deployment
  • Implementazione Open-Source: Promuove l'adozione della comunità e lo sviluppo ulteriore

Conclusioni e Discussione

Conclusioni Principali

  1. Verifica di Fattibilità: Il metodo ibrido BT+RL dimostra fattibilità pratica negli ambienti di gioco
  2. Equilibrio dei Vantaggi: Combinazione riuscita dell'adattabilità di RL e dell'interpretabilità di BT
  3. Benefici della Modularità: I moduli di abilità addestrati indipendentemente migliorano la riutilizzabilità e l'efficienza di sviluppo

Limitazioni

  1. Sovraccarico di Prestazioni: Il costo computazionale del metodo ibrido è superiore al metodo BT puro
  2. Complessità: Richiede la manutenzione simultanea della struttura BT e di molteplici modelli RL
  3. Spazio di Ottimizzazione: Tecniche di ottimizzazione delle prestazioni come l'elaborazione batch non sono state completamente esplorate
  4. Portata di Valutazione: La validazione è principalmente in scenari di gioco specifici, la generalizzabilità richiede ulteriore verifica

Direzioni Future

  1. Ottimizzazione delle Prestazioni: Implementazione dell'elaborazione batch dei modelli e altre tecniche di ottimizzazione
  2. Miglioramento dell'Architettura: Esplorazione di modi più efficienti per integrare BT+RL
  3. Estensione dell'Applicazione: Validazione del metodo in più tipi di giochi e scenari
  4. Perfezionamento degli Strumenti: Miglioramento delle funzionalità e dell'usabilità del plugin AMD Schola

Valutazione Approfondita

Punti di Forza

  1. Alto Valore Pratico: Affronta direttamente le esigenze effettive dell'industria dei giochi, fornendo strumenti e metodi utilizzabili
  2. Innovazione Metodologica: Combinazione efficace dei vantaggi di BT e RL, evitando le limitazioni di ciascuno
  3. Sperimentazione Completa: Valutazione multi-angolare includendo prestazioni, tasso di vittoria, efficienza computazionale e altri indicatori chiave
  4. Contributo Open-Source: Il rilascio open-source completo promuove lo sviluppo della comunità e la diffusione del metodo
  5. Dettagli Tecnici Completi: Fornisce dettagli di implementazione e parametri di configurazione dettagliati

Insufficienze

  1. Analisi Teorica Insufficiente: Mancanza di analisi teorica della combinazione BT+RL e garanzie di convergenza
  2. Limitazioni dello Scenario di Valutazione: La validazione è principalmente in scenari di giochi sparatutto, l'applicabilità ad altri tipi di giochi è sconosciuta
  3. Baseline di Confronto Limitati: Mancanza di confronti con metodi più avanzati di IA per giochi
  4. Stabilità a Lungo Termine: Mancanza di valutazione della stabilità e della coerenza durante l'esecuzione prolungata
  5. Esperienza Utente: Assenza di valutazione soggettiva da parte di veri giocatori sulla qualità del comportamento dei PNG

Impatto

  1. Valore Accademico: Fornisce un framework di metodo ibrido pratico per il campo dell'IA nei giochi
  2. Significato Industriale: Fornisce agli sviluppatori di giochi strumenti e metodi direttamente applicabili
  3. Promozione Tecnologica: L'implementazione open-source facilita l'adozione diffusa e il miglioramento del metodo
  4. Applicazioni Interdisciplinari: Il metodo potrebbe essere applicabile ad altri scenari che richiedono decisioni intelligenti

Scenari Applicabili

  1. Giochi d'Azione: Giochi di sparatutto e combattimento che richiedono comportamenti complessi dei PNG
  2. Giochi di Strategia: Giochi di strategia in tempo reale che richiedono avversari intelligenti
  3. Giochi di Ruolo: Giochi di ruolo che richiedono comportamenti diversificati dei PNG
  4. Sistemi di Simulazione di Addestramento: Sistemi di simulazione di addestramento nei settori militare e della sicurezza

Riferimenti Bibliografici

Questo articolo cita 21 articoli correlati, coprendo importanti lavori in molteplici campi di ricerca inclusi IA per giochi, apprendimento per rinforzo e alberi di comportamento, fornendo una base teorica e un supporto tecnico solido per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca orientato all'applicazione con elevato valore pratico, che ha trasformato con successo metodi teorici in strumenti praticamente utilizzabili, fornendo contributi significativi al campo dell'IA nei giochi. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nell'ampiezza della valutazione, la sua natura open-source e l'implementazione completa forniscono una base solida per la ricerca successiva.