2025-11-24T19:19:17.959493

Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola

Liu, Cann, Colbert et al.

While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.

academic

Combinare l'Apprendimento per Rinforzo e gli Alberi di Comportamento per i PNG nei Videogiochi con AMD Schola

Informazioni Fondamentali

ID Articolo: 2510.14154
Titolo: Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Autori: Tian Liu, Alex Cann, Ian Colbert, Mehdi Saeedi (Advanced Micro Devices)
Classificazione: cs.AI cs.LG
Data di Pubblicazione: 17 ottobre 2025 (preprint)
Link Articolo: https://arxiv.org/abs/2510.14154

Riassunto

Nonostante i progressi significativi nella ricerca sull'apprendimento per rinforzo (RL), la sua applicazione nei videogiochi commerciali rimane limitata. Questo articolo illustra le sfide comuni affrontate dalla comunità di sviluppo di giochi nell'utilizzo di PNG controllati da RL e sottolinea l'intersezione tra RL e gli alberi di comportamento tradizionali (BT) come un nodo critico che necessita di ulteriore esplorazione. Sebbene la combinazione BT+RL sia stata menzionata in numerosi articoli di ricerca, le sue applicazioni pratiche rimangono scarse. Gli autori utilizzano AMD Schola—un plugin per l'addestramento di agenti RL in Unreal Engine—per dimostrare la fattibilità di questo approccio creando PNG multitask in ambienti 3D complessi ispirati al videogioco commerciale "The Last of Us".

Contesto di Ricerca e Motivazione

1. Problema Centrale

Nonostante il rapido sviluppo della tecnologia di apprendimento per rinforzo, l'adozione di PNG controllati da RL nello sviluppo di giochi commerciali affronta sfide significative. I metodi tradizionali basati su alberi di comportamento, sebbene altamente strutturati, diventano complessi e mancano di adattabilità nel gestire compiti multipli; i metodi RL, pur possedendo capacità di adattamento dinamico, presentano difficoltà nella modellazione delle ricompense, trasferimento negativo dell'apprendimento e elevati requisiti computazionali.

2. Importanza del Problema

Esperienza di Gioco: La coerenza e l'umanità del comportamento dei PNG sono cruciali per mantenere la qualità del gioco e migliorare l'esperienza dell'utente
Efficienza di Sviluppo: Gli sviluppatori di giochi preferiscono riutilizzare risorse già sviluppate, richiedendo modelli riutilizzabili e regolabili
Barriera Tecnologica: Mancanza di supporto strumentale adeguato, in particolare per quanto riguarda l'interpretabilità e il controllo

3. Limitazioni dei Metodi Esistenti

Approccio BT Puro: Lo sviluppo di BT complessi per multitask è tedioso, manca di adattabilità e tende a produrre esperienze di gioco ripetitive
Approccio RL Puro: Difficoltà nell'addestramento di modelli di capacità generiche, con problemi di modellazione delle ricompense, trasferimento negativo tra compiti e costi computazionali elevati
Approcci con Modelli Grandi: L'aumento dei parametri del modello o l'utilizzo di grandi modelli fondazionali aumenta significativamente il tempo di addestramento e la latenza di gioco

Contributi Principali

Proposta di un'architettura ibrida BT+RL: Integrazione di modelli RL negli alberi di comportamento, combinando i vantaggi di entrambi gli approcci
Sviluppo di un sistema PNG multi-abilità: Implementazione di cinque abilità fondamentali incluse fuga (Flee), ricerca (Search), combattimento (Combat), nascondiglio (Hide) e movimento (Move)
Costruzione di un framework di addestramento completo: Basato sul plugin AMD Schola, fornisce una soluzione completa per l'addestramento e il deployment in Unreal Engine
Verifica empirica: Validazione dell'efficacia del metodo in ambienti 3D ispirati a "The Last of Us"
Rilascio open-source dell'implementazione completa: Incluso ambiente, modelli e codice di implementazione, promuovendo la ricerca della comunità

Dettagli del Metodo

Definizione dei Compiti

Costruzione di PNG in grado di eseguire molteplici abilità in ambienti 3D complessi, specificamente:

Input: Osservazioni ambientali (informazioni di profondità, stato di salute, quantità di munizioni, direzione dell'obiettivo, ecc.)
Output: Sequenze di azioni (movimento, sparo, rotazione, ecc.)
Vincoli: Mantenimento della coerenza comportamentale, garanzia dell'equilibrio di gioco

Architettura del Modello

1. Struttura dell'Albero di Comportamento

Root → Sano? → [Munizioni>0 → Raccogli → InVista → Combatti]
                               ↓
                           Ricerca → [Distanza<2000 → Fuggi]
                                           ↓
                                        Nascondi

2. Configurazione del Modello RL

Osservazioni Fondamentali: 36 raggi per il rilevamento di obiettivi, ostacoli e posizioni di ricarica munizioni; osservazioni in virgola mobile includono salute attuale, quantità di munizioni, direzione normalizzata dell'obiettivo
Architettura di Rete:
- Abilità di base: MLP con profondità 2 e larghezza 64
- Apprendimento curricolare: MLP con profondità 2 e larghezza 128 + strato di attenzione (dimensione attenzione 60, lunghezza massima sequenza 20)
Spazio di Azione: Movimento laterale, movimento in avanti, sparo

3. Configurazione Specifica per Abilità

Abilità	Osservazioni Speciali	Azioni Speciali	Condizioni di Terminazione	Passi di Addestramento
Fuggi	Visibilità giocatore, distanza	Movimento	Distanza giocatore<1000	2M
Combatti	-	Sparo	Salute giocatore≤0	2M
Nascondi	Visibilità giocatore, distanza ostacolo	Movimento	Giocatore scoperto	10M
Raccogli	Posizione munizioni più vicina	Movimento	Ricarica riuscita	12M

Punti di Innovazione Tecnica

Progettazione Modulare: Ogni abilità viene addestrata indipendentemente, consentendo riutilizzo e composizione
Controllo Gerarchico: BT responsabile delle decisioni di alto livello, RL responsabile dell'esecuzione specifica
Interpretabilità: Gli sviluppatori possono comprendere e regolare la logica del comportamento dei PNG
Garanzia di Coerenza: La struttura BT assicura la prevedibilità del comportamento

Configurazione Sperimentale

Dataset

Ambiente: Mappa quadrata chiusa di 4000×4000 unità, contenente ostacoli statici e 8 punti di ricarica munizioni
Configurazione PNG: 100 HP, 10 munizioni, 10 HP di danno per attacco, intervallo di sparo 0,15 secondi, velocità di movimento 600 unità/secondo
Ambiente di Addestramento: Scene di addestramento specializzate progettate per ogni abilità

Metriche di Valutazione

Tasso di Vittoria: Percentuale di vittorie contro diversi avversari
Numero Medio di Passi: Durata di ogni partita di gioco
Danno in Uscita: Danno inflitto quando si combatte contro PNG aggressivi
Prestazioni FPS: Prestazioni della frequenza fotogrammi durante l'esecuzione in tempo reale

Metodi di Confronto

Baseline BT Puro: Utilizzo della stessa struttura di albero ma con compiti BT predefiniti nei nodi foglia
RL con Apprendimento Curricolare: Modello RL end-to-end addestrato con apprendimento curricolare a 5 stadi
PNG Statico: Oggetto di prova che non si muove e non attacca
PNG Aggressivo: Controllo BT semplificato con vantaggi di attacco (munizioni illimitate)

Dettagli di Implementazione

Algoritmo di Ottimizzazione: Proximal Policy Optimization (PPO)
Tasso di Apprendimento: 3e-4
Numero Massimo di Passi: 2000 passi per partita
Framework di Addestramento: RLlib con plugin AMD Schola

Risultati Sperimentali

Risultati Principali

Confronto delle Prestazioni di Combattimento

Metodo	Tasso Vittoria vs PNG Statico	Tasso Vittoria vs PNG Aggressivo	Numero Medio Passi	Danno in Uscita
BT	1.00	0.59	1839.63	170.48
Metodo Ibrido	1.00	0.53	3969.22	149.86
Apprendimento Curricolare	1.00	0.41	3836.95	137.80

Analisi delle Prestazioni

Tasso di Vittoria: Il metodo ibrido supera significativamente l'RL con apprendimento curricolare, leggermente inferiore solo al metodo BT puro
Durata del Gioco: Il metodo BT ha il minor numero di passi con distribuzione concentrata, i metodi RL mostrano maggiore variabilità, indicando diversità comportamentale
Prestazioni Computazionali: BT puro > Apprendimento curricolare > Metodo ibrido

Test delle Prestazioni FPS

Configurazione	1 Agente	10 Agenti
Nessun Modello	267.73±3.37	188.83±4.14
BT	261.90±10.88	155.82±4.31
Metodo Ibrido	211.90±4.11	109.71±1.88
Apprendimento Curricolare	215.80±9.77	116.14±2.54

Scoperte Sperimentali

Diversità Comportamentale: I metodi RL producono traiettorie di gioco più diversificate, aumentando l'imprevedibilità del gioco
Compromesso di Prestazioni: Il metodo ibrido fornisce migliore adattabilità mantenendo prestazioni ragionevoli
Potenziale di Ottimizzazione: Ulteriori ottimizzazioni del metodo ibrido sono possibili attraverso tecniche come l'elaborazione batch

Lavori Correlati

Principali Direzioni di Ricerca

Applicazioni di RL nei Giochi: Clonazione comportamentale e apprendimento per rinforzo in giochi come Counter-Strike
Apprendimento per Rinforzo Multi-Compito: Condivisione della conoscenza e apprendimento della rappresentazione contestuale
Combinazione di BT e RL: Applicazioni in sistemi critici per la sicurezza e nella robotica
Modelli su Larga Scala: Potenziamento delle capacità dei PNG attraverso espansione parametrica e modelli fondazionali

Differenze nel Contributo di Questo Articolo

Orientamento Pratico: Focalizzato sulle esigenze effettive degli sviluppatori di giochi, piuttosto che su scenari puramente di ricerca
Catena di Strumenti Completa: Fornisce una soluzione completa dall'addestramento al deployment
Implementazione Open-Source: Promuove l'adozione della comunità e lo sviluppo ulteriore

Conclusioni e Discussione

Conclusioni Principali

Verifica di Fattibilità: Il metodo ibrido BT+RL dimostra fattibilità pratica negli ambienti di gioco
Equilibrio dei Vantaggi: Combinazione riuscita dell'adattabilità di RL e dell'interpretabilità di BT
Benefici della Modularità: I moduli di abilità addestrati indipendentemente migliorano la riutilizzabilità e l'efficienza di sviluppo

Limitazioni

Sovraccarico di Prestazioni: Il costo computazionale del metodo ibrido è superiore al metodo BT puro
Complessità: Richiede la manutenzione simultanea della struttura BT e di molteplici modelli RL
Spazio di Ottimizzazione: Tecniche di ottimizzazione delle prestazioni come l'elaborazione batch non sono state completamente esplorate
Portata di Valutazione: La validazione è principalmente in scenari di gioco specifici, la generalizzabilità richiede ulteriore verifica

Direzioni Future

Ottimizzazione delle Prestazioni: Implementazione dell'elaborazione batch dei modelli e altre tecniche di ottimizzazione
Miglioramento dell'Architettura: Esplorazione di modi più efficienti per integrare BT+RL
Estensione dell'Applicazione: Validazione del metodo in più tipi di giochi e scenari
Perfezionamento degli Strumenti: Miglioramento delle funzionalità e dell'usabilità del plugin AMD Schola

Valutazione Approfondita

Punti di Forza

Alto Valore Pratico: Affronta direttamente le esigenze effettive dell'industria dei giochi, fornendo strumenti e metodi utilizzabili
Innovazione Metodologica: Combinazione efficace dei vantaggi di BT e RL, evitando le limitazioni di ciascuno
Sperimentazione Completa: Valutazione multi-angolare includendo prestazioni, tasso di vittoria, efficienza computazionale e altri indicatori chiave
Contributo Open-Source: Il rilascio open-source completo promuove lo sviluppo della comunità e la diffusione del metodo
Dettagli Tecnici Completi: Fornisce dettagli di implementazione e parametri di configurazione dettagliati

Insufficienze

Analisi Teorica Insufficiente: Mancanza di analisi teorica della combinazione BT+RL e garanzie di convergenza
Limitazioni dello Scenario di Valutazione: La validazione è principalmente in scenari di giochi sparatutto, l'applicabilità ad altri tipi di giochi è sconosciuta
Baseline di Confronto Limitati: Mancanza di confronti con metodi più avanzati di IA per giochi
Stabilità a Lungo Termine: Mancanza di valutazione della stabilità e della coerenza durante l'esecuzione prolungata
Esperienza Utente: Assenza di valutazione soggettiva da parte di veri giocatori sulla qualità del comportamento dei PNG

Impatto

Valore Accademico: Fornisce un framework di metodo ibrido pratico per il campo dell'IA nei giochi
Significato Industriale: Fornisce agli sviluppatori di giochi strumenti e metodi direttamente applicabili
Promozione Tecnologica: L'implementazione open-source facilita l'adozione diffusa e il miglioramento del metodo
Applicazioni Interdisciplinari: Il metodo potrebbe essere applicabile ad altri scenari che richiedono decisioni intelligenti

Scenari Applicabili

Giochi d'Azione: Giochi di sparatutto e combattimento che richiedono comportamenti complessi dei PNG
Giochi di Strategia: Giochi di strategia in tempo reale che richiedono avversari intelligenti
Giochi di Ruolo: Giochi di ruolo che richiedono comportamenti diversificati dei PNG
Sistemi di Simulazione di Addestramento: Sistemi di simulazione di addestramento nei settori militare e della sicurezza

Riferimenti Bibliografici

Questo articolo cita 21 articoli correlati, coprendo importanti lavori in molteplici campi di ricerca inclusi IA per giochi, apprendimento per rinforzo e alberi di comportamento, fornendo una base teorica e un supporto tecnico solido per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca orientato all'applicazione con elevato valore pratico, che ha trasformato con successo metodi teorici in strumenti praticamente utilizzabili, fornendo contributi significativi al campo dell'IA nei giochi. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nell'ampiezza della valutazione, la sua natura open-source e l'implementazione completa forniscono una base solida per la ricerca successiva.