Combining Reinforcement Learning and Behavior Trees for NPCs in Video Games with AMD Schola
Liu, Cann, Colbert et al.
While the rapid advancements in the reinforcement learning (RL) research community have been remarkable, the adoption in commercial video games remains slow. In this paper, we outline common challenges the Game AI community faces when using RL-driven NPCs in practice, and highlight the intersection of RL with traditional behavior trees (BTs) as a crucial juncture to be explored further. Although the BT+RL intersection has been suggested in several research papers, its adoption is rare. We demonstrate the viability of this approach using AMD Schola -- a plugin for training RL agents in Unreal Engine -- by creating multi-task NPCs in a complex 3D environment inspired by the commercial video game ``The Last of Us". We provide detailed methodologies for jointly training RL models with BTs while showcasing various skills.
academic
Combinare l'Apprendimento per Rinforzo e gli Alberi di Comportamento per i PNG nei Videogiochi con AMD Schola
Nonostante i progressi significativi nella ricerca sull'apprendimento per rinforzo (RL), la sua applicazione nei videogiochi commerciali rimane limitata. Questo articolo illustra le sfide comuni affrontate dalla comunità di sviluppo di giochi nell'utilizzo di PNG controllati da RL e sottolinea l'intersezione tra RL e gli alberi di comportamento tradizionali (BT) come un nodo critico che necessita di ulteriore esplorazione. Sebbene la combinazione BT+RL sia stata menzionata in numerosi articoli di ricerca, le sue applicazioni pratiche rimangono scarse. Gli autori utilizzano AMD Schola—un plugin per l'addestramento di agenti RL in Unreal Engine—per dimostrare la fattibilità di questo approccio creando PNG multitask in ambienti 3D complessi ispirati al videogioco commerciale "The Last of Us".
Nonostante il rapido sviluppo della tecnologia di apprendimento per rinforzo, l'adozione di PNG controllati da RL nello sviluppo di giochi commerciali affronta sfide significative. I metodi tradizionali basati su alberi di comportamento, sebbene altamente strutturati, diventano complessi e mancano di adattabilità nel gestire compiti multipli; i metodi RL, pur possedendo capacità di adattamento dinamico, presentano difficoltà nella modellazione delle ricompense, trasferimento negativo dell'apprendimento e elevati requisiti computazionali.
Esperienza di Gioco: La coerenza e l'umanità del comportamento dei PNG sono cruciali per mantenere la qualità del gioco e migliorare l'esperienza dell'utente
Efficienza di Sviluppo: Gli sviluppatori di giochi preferiscono riutilizzare risorse già sviluppate, richiedendo modelli riutilizzabili e regolabili
Barriera Tecnologica: Mancanza di supporto strumentale adeguato, in particolare per quanto riguarda l'interpretabilità e il controllo
Approccio BT Puro: Lo sviluppo di BT complessi per multitask è tedioso, manca di adattabilità e tende a produrre esperienze di gioco ripetitive
Approccio RL Puro: Difficoltà nell'addestramento di modelli di capacità generiche, con problemi di modellazione delle ricompense, trasferimento negativo tra compiti e costi computazionali elevati
Approcci con Modelli Grandi: L'aumento dei parametri del modello o l'utilizzo di grandi modelli fondazionali aumenta significativamente il tempo di addestramento e la latenza di gioco
Proposta di un'architettura ibrida BT+RL: Integrazione di modelli RL negli alberi di comportamento, combinando i vantaggi di entrambi gli approcci
Sviluppo di un sistema PNG multi-abilità: Implementazione di cinque abilità fondamentali incluse fuga (Flee), ricerca (Search), combattimento (Combat), nascondiglio (Hide) e movimento (Move)
Costruzione di un framework di addestramento completo: Basato sul plugin AMD Schola, fornisce una soluzione completa per l'addestramento e il deployment in Unreal Engine
Verifica empirica: Validazione dell'efficacia del metodo in ambienti 3D ispirati a "The Last of Us"
Rilascio open-source dell'implementazione completa: Incluso ambiente, modelli e codice di implementazione, promuovendo la ricerca della comunità
Osservazioni Fondamentali: 36 raggi per il rilevamento di obiettivi, ostacoli e posizioni di ricarica munizioni; osservazioni in virgola mobile includono salute attuale, quantità di munizioni, direzione normalizzata dell'obiettivo
Architettura di Rete:
Abilità di base: MLP con profondità 2 e larghezza 64
Apprendimento curricolare: MLP con profondità 2 e larghezza 128 + strato di attenzione (dimensione attenzione 60, lunghezza massima sequenza 20)
Spazio di Azione: Movimento laterale, movimento in avanti, sparo
Tasso di Vittoria: Il metodo ibrido supera significativamente l'RL con apprendimento curricolare, leggermente inferiore solo al metodo BT puro
Durata del Gioco: Il metodo BT ha il minor numero di passi con distribuzione concentrata, i metodi RL mostrano maggiore variabilità, indicando diversità comportamentale
Prestazioni Computazionali: BT puro > Apprendimento curricolare > Metodo ibrido
Analisi Teorica Insufficiente: Mancanza di analisi teorica della combinazione BT+RL e garanzie di convergenza
Limitazioni dello Scenario di Valutazione: La validazione è principalmente in scenari di giochi sparatutto, l'applicabilità ad altri tipi di giochi è sconosciuta
Baseline di Confronto Limitati: Mancanza di confronti con metodi più avanzati di IA per giochi
Stabilità a Lungo Termine: Mancanza di valutazione della stabilità e della coerenza durante l'esecuzione prolungata
Esperienza Utente: Assenza di valutazione soggettiva da parte di veri giocatori sulla qualità del comportamento dei PNG
Questo articolo cita 21 articoli correlati, coprendo importanti lavori in molteplici campi di ricerca inclusi IA per giochi, apprendimento per rinforzo e alberi di comportamento, fornendo una base teorica e un supporto tecnico solido per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca orientato all'applicazione con elevato valore pratico, che ha trasformato con successo metodi teorici in strumenti praticamente utilizzabili, fornendo contributi significativi al campo dell'IA nei giochi. Sebbene vi sia spazio per miglioramenti nella profondità teorica e nell'ampiezza della valutazione, la sua natura open-source e l'implementazione completa forniscono una base solida per la ricerca successiva.