Sebbene i framework di pianificazione game-teorica siano efficaci nella modellazione delle interazioni multi-agente, richiedono la risoluzione di problemi di ottimizzazione di grandi dimensioni, con il numero di variabili che aumenta con il numero di agenti, causando tempi di calcolo eccessivi e limitando l'applicazione in sistemi real-time su larga scala. Per affrontare questo problema, il presente articolo propone: 1) PSN Game - un framework di predizione e pianificazione game-teorica basato su apprendimento, che riduce il tempo di esecuzione attraverso l'apprendimento di una rete di selezione dei giocatori (PSN); 2) una rete di inferenza degli obiettivi (GIN), che consente a PSN di essere utilizzata in giochi a informazione incompleta dove gli intenti degli agenti sono sconosciuti. PSN produce una maschera di selezione dei giocatori che distingue i giocatori influenti da quelli meno rilevanti, permettendo all'agente autonomo di risolvere giochi mascherati di dimensioni ridotte che coinvolgono solo i giocatori selezionati. Riducendo il numero di giocatori nel gioco e, di conseguenza, il numero di variabili nel corrispondente problema di ottimizzazione, PSN riduce direttamente il tempo di calcolo.
Il problema fondamentale affrontato dai framework di pianificazione game-teorica nei sistemi multi-agente è la crescita cubica della complessità computazionale con il numero di agenti. Come mostrato nella Figura 2, utilizzando risolutori esistenti, il tempo di calcolo cresce secondo O(N³), dove N è il numero di giocatori. Ciò rende i metodi game-teorici impraticabili nei sistemi real-time su larga scala.
I metodi attuali di selezione dei giocatori presentano i seguenti problemi:
Si consideri un gioco di Nash in forma aperta a orizzonte finito e tempo discreto con N agenti, dove ogni agente i possiede uno stato e un ingresso di controllo . La transizione di stato di ogni agente segue l'equazione dinamica:
L'obiettivo di ogni agente è minimizzare il costo cumulativo:
PSN è una rete neurale il cui compito è inferire una maschera per bilanciare le prestazioni con la sparsità. Vengono fornite due varianti:
Struttura della Rete:
Si definisce la maschera di selezione dei giocatori , dove:
1, & \text{l'agente j è incluso nel gioco} \\ 0, & \text{l'agente j è escluso} \end{cases}$$ Il gioco mascherato $\Gamma^i(\tilde{x}_0, \tilde{f}; \theta, M^i)$ mantiene solo i parametri e gli stati degli agenti più rilevanti per l'agente i. #### 3. Rete di Inferenza degli Obiettivi (GIN) GIN è una rete guidata dai dati che inferisce gli obiettivi degli agenti $p_g^i$ dalle osservazioni di traiettorie parziali: - Ingresso: Traiettoria storica $\{h(x_k)\}_{k=0}^K$ - Uscita: Posizione obiettivo 2D $p_g^i$ - Funzione di perdita: Errore quadratico medio $L_{Goal} = \frac{1}{|D| \cdot N}\sum_{d \in D}\sum_{i \in [N]} \|p_{g,ref}^i - G_\phi(x_{0:K})\|$ ### Progettazione della Funzione di Perdita L'addestramento di PSN utilizza una funzione di perdita composita: **Compito di Predizione**: $$L_{Pred} = L_{Binary} + \sigma_1 L_{Sparsity} + \sigma_2 L_{Similarity}$$ **Compito di Pianificazione**: $$L_{Plan} = L_{Binary} + \sigma_3 L_{Sparsity} + \sigma_4 L_{Cost}$$ Dove: - $L_{Binary} = \frac{1}{N}\sum_{j=1}^N m_j^i(1-m_j^i)$: Promuove la binarizzazione delle maschere - $L_{Sparsity} = \frac{\|M^i\|_1}{N}$: Incoraggia la selezione di meno agenti - $L_{Similarity}$: Incoraggia la selezione di sottoinsiemi di agenti che recuperano le traiettorie osservate - $L_{Cost}$: Incoraggia la selezione di agenti appropriati per minimizzare il costo del gioco ### Implementazione dell'Orizzonte Temporale Decrescente L'algoritmo ad ogni passo temporale $k$: 1. Inferisce gli obiettivi degli agenti tramite GIN 2. Ottiene la maschera adattiva $M_k^i$ utilizzando PSN 3. Risolve il gioco mascherato per ottenere la strategia OLNE 4. Esegue il primo ingresso di controllo e aggiorna lo stato ## Configurazione Sperimentale ### Dataset **Scenari di Simulazione**: - Scenario a 4 agenti: ambiente 5m×5m - Scenario a 10 agenti: ambiente 7m×7m - Scenario a 20 agenti: ambiente 7m×7m (test di scalabilità) **Dati Reali**: - Dataset di Pedoni CITR: ambiente 7.5m×25.5m, 10 pedoni **Configurazione del Gioco**: - Spazio di stato: 4 dimensioni (posizione + velocità) - Dinamica: Modello di doppio integratore - Funzione di costo: Include tracciamento dell'obiettivo, penalità di velocità, costo di controllo e evitamento delle collisioni ### Metriche di Valutazione **Compito di Predizione**: - ADE (Average Displacement Error): Errore di spostamento medio - FDE (Final Displacement Error): Errore di spostamento finale - Consistency: Coerenza della selezione **Compito di Pianificazione**: - Navigation Cost: Costo di navigazione - Collision Cost: Costo di collisione - Control Cost: Costo di controllo - Minimum Distance: Distanza minima - Trajectory Smoothness: Levigatezza della traiettoria - Trajectory Length: Lunghezza della traiettoria ### Metodi di Confronto 1. **Varianti PSN**: PSN-Threshold, PSN-Rank 2. **Metodi Basati su Distanza**: Distance, kNNs 3. **Metodi Basati su Gradiente**: Gradient, Hessian, Cost Evolution 4. **Metodi Vincolati**: BF (Barrier Function), CBF (Control Barrier Function) ## Risultati Sperimentali ### Risultati Principali #### Prestazioni di Predizione (Tabella 2) Nello scenario a 4 agenti: - PSN-Full ADE: 0.1834m (ottimale) - PSN-Partial ADE: 0.1876m - Migliore baseline (Cost Evolution) ADE: 0.1861m Nello scenario a 10 agenti: - PSN-Partial ADE: 0.2213m (ottimale) - PSN-Full ADE: 0.2314m - Migliore baseline (kNNs) ADE: 0.2343m #### Prestazioni di Pianificazione (Tabella 3) PSN mostra prestazioni eccellenti negli indicatori di sicurezza: - **Costo di Collisione**: Raggiunge l'optimum negli scenari a 4 e 10 agenti - **Distanza Minima**: Tra i primi tre in entrambi gli scenari - Degradazione minore della sicurezza rispetto al gioco completo ### Adattabilità ai Giochi a Informazione Incompleta In scenari con obiettivi sconosciuti (Tabelle 4-5), PSN combinato con GIN: - Mantiene gli indicatori di predizione tra i primi due - Tutti gli indicatori di pianificazione sono tra i primi tre - Gli indicatori di sicurezza rimangono ottimali ### Verifica della Scalabilità Utilizzando PSN addestrato su 10 agenti nello scenario a 20 agenti: - PSN-Full ADE: 0.3108m (ottimale) - PSN-Partial ADE: 0.3152m (secondo) - Adatta a scenari di scala maggiore senza necessità di riaddestrare ### Generalizzazione su Dati Reali Nel dataset di pedoni CITR: - PSN-Partial ADE: 0.4931m (ottimale) - PSN-Full ADE: 0.4966m - Supera persino le prestazioni della risoluzione del gioco completo ## Lavori Correlati ### Pianificazione Game-Teorica I metodi esistenti si concentrano principalmente su ambienti di piccola scala (≤5 agenti), utilizzando risolutori di tipo Newton per risolvere iterativamente. La complessità cresce cubicamente con il numero di giocatori, rappresentando un ostacolo fondamentale per i sistemi real-time su larga scala. ### Metodi di Selezione dei Giocatori **Metodi Basati su Soglia**: Selezionano agenti basandosi su soglie di distanza predefinite, richiedendo una vasta sintonizzazione dei parametri. **Metodi Basati su Ordinamento**: Selezionano i top-k agenti più influenti, ma la selezione di un numero fisso potrebbe essere eccessivamente aggressiva o conservativa. **Vantaggi del Presente Lavoro**: 1. Richiede solo osservazioni di traiettorie storiche, senza informazioni privilegiate 2. Non richiede sintonizzazione dei parametri online 3. Selezione adattiva del numero di agenti ## Conclusioni e Discussione ### Conclusioni Principali 1. PSN Game riduce con successo la dimensione del gioco del 50%-75%, realizzando un'accelerazione computazionale significativa 2. Supera i metodi baseline esistenti in termini di accuratezza di predizione e sicurezza di pianificazione 3. Possiede buone capacità di generalizzazione, adattandosi a scenari di scala maggiore e dati reali ### Limitazioni 1. **Approssimazione di Maschera Continua**: Utilizza maschere continue per supportare la retropropagazione, richiedendo la soglia di conversione durante l'esecuzione 2. **Dipendenza dai Dati di Addestramento**: Richiede dati di addestramento generati da giochi completi 3. **Assunzioni di Modello Dinamico**: Gli esperimenti si basano principalmente sul modello di doppio integratore ### Direzioni Future 1. Estensione a modelli dinamici più complessi 2. Ricerca su altri tipi di inferenza dei parametri del gioco 3. Esplorazione di strategie di addestramento end-to-end ## Valutazione Approfondita ### Punti di Forza 1. **Importanza del Problema**: Affronta il collo di bottiglia computazionale fondamentale nella pianificazione game-teorica 2. **Innovazione del Metodo**: Prima combinazione di apprendimento profondo e teoria dei giochi per la selezione dei giocatori 3. **Completezza Sperimentale**: Copre simulazioni e dati reali, verificando molteplici ipotesi 4. **Valore Pratico**: Fornisce un meccanismo generico direttamente integrabile nei framework esistenti ### Carenze 1. **Mancanza di Analisi Teorica**: Non fornisce garanzie teoriche sulla convergenza o errore di approssimazione 2. **Sovraccarico Computazionale**: Sebbene riduca il tempo di risoluzione del gioco, aggiunge il sovraccarico dell'inferenza di rete 3. **Limitazioni dello Scenario**: Principalmente verificato su compiti di navigazione, l'applicabilità ad altri tipi di giochi è sconosciuta ### Impatto 1. **Contributo Accademico**: Fornisce un nuovo approccio per sistemi multi-agente su larga scala 2. **Applicazione Pratica**: Ha valore di applicazione diretta in campi come la guida autonoma e i gruppi di robot 3. **Riproducibilità**: Fornisce dettagli di implementazione e impostazioni di parametri dettagliati ### Scenari Applicabili 1. **Ambienti Multi-Agente Densi**: Come traffico urbano e navigazione di folle 2. **Sistemi con Elevati Requisiti di Real-Time**: Ambienti dinamici che richiedono repianificazione frequente 3. **Scenari Parzialmente Osservabili**: Giochi a informazione incompleta dove gli intenti degli agenti sono sconosciuti ## Bibliografia L'articolo cita 35 riferimenti correlati, coprendo principalmente: - Metodi di pianificazione game-teorica [8, 28, 9, 15] - Modellazione di interazioni multi-agente [17, 20, 21, 24] - Metodi euristici di selezione dei giocatori [2, 27, 30] - Meccanismi di attenzione e selezione dei vicini [3, 6, 32] --- Questo articolo fornisce un contributo importante nel risolvere la complessità computazionale della pianificazione game-teorica, migliorando significativamente l'efficienza computazionale dei sistemi multi-agente attraverso la selezione dei giocatori guidata dall'apprendimento, aprendo la strada alle applicazioni real-time su larga scala.