2025-11-13T11:52:11.240496

Robust Multi-Agent Decision-Making in Finite-Population Games

Park, Bezerra

We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.

academic

Processo Decisionale Robusto Multi-Agente in Giochi a Popolazione Finita

Informazioni Fondamentali

ID Articolo: 2505.06200
Titolo: Robust Decision-Making in Finite-Population Games
Autori: Shinkyu Park, Lucas C. D. Bezerra (King Abdullah University of Science and Technology)
Classificazione: cs.MA (Multi-Agent Systems), cs.SY (Systems and Control), eess.SY (Systems and Control)
Data di Pubblicazione: arXiv preprint, maggio 2025 (v2: 6 novembre 2025)
Link Articolo: https://arxiv.org/abs/2505.06200v2

Riassunto

Questo articolo esamina la robustezza dei modelli decisionali degli agenti nei giochi a popolazione finita, con particolare attenzione al modello di apprendimento regolarizzato con divergenza di Kullback-Leibler (KLD-RL). Lo studio analizza come i parametri del modello influenzano l'impatto di varie fonti di rumore e errori di modellazione sulle decisioni degli agenti—fattori ubiqui nelle applicazioni ingegneristiche dei giochi di popolazione. L'analisi fornisce intuizioni su come regolare efficacemente questi parametri per mitigare tali effetti. I risultati teorici sono supportati da esempi numerici e studi di simulazione, che convalidano l'analisi e illustrano strategie pratiche per la scelta dei parametri.

Contesto di Ricerca e Motivazione

1. Problema Centrale

I giochi di popolazione e i framework della dinamica evolutiva forniscono una base solida per modellare e analizzare le interazioni strategiche ripetute tra agenti decisionali. Tuttavia, i framework tradizionali si basano su tre assunzioni critiche:

Osservazioni di payoff prive di rumore
Commutazione di strategie senza ritardi
Dimensione della popolazione infinita

Queste assunzioni sono spesso irrealistiche nelle applicazioni ingegneristiche.

2. Importanza del Problema

Nelle applicazioni ingegneristiche pratiche (come l'allocazione di compiti multi-robot), gli agenti affrontano:

Dimensione finita della popolazione: numero limitato di agenti (ad es. N=10-40)
Stima rumorosa dei payoff: osservazioni rumorose basate su azioni passate
Ritardi temporali: ritardi nell'aggiornamento delle strategie

Il rumore e gli errori di modellazione causano un aumento della variabilità nelle decisioni degli agenti, ostacolando la convergenza verso scelte di strategie ottimali.

3. Limitazioni degli Approcci Esistenti

Protocollo di Smith: ampiamente studiato, ma robustezza limitata in ambienti rumorosi
Modelli di risposta ottimale perturbata: assumono che il rumore sia indipendente dai payoff e dallo stato della popolazione, il che non corrisponde alla realtà
Mancanza di comprensione sistematica di come l'ottimizzazione dei parametri possa mitigare gli effetti del rumore

4. Motivazione della Ricerca

Questo articolo esplora il modello KLD-RL come soluzione, poiché possiede una forte passività (passivity with surplus), che consente agli agenti di mantenere robustezza sotto perturbazioni. L'obiettivo della ricerca è comprendere come ridurre gli effetti dell'incertezza attraverso l'ottimizzazione dei parametri, mantenendo al contempo la capacità di apprendimento dell'equilibrio.

Contributi Principali

Framework di Analisi Teorica: stabilisce un framework di analisi teorica della robustezza del modello KLD-RL nei giochi a popolazione finita, considerando la stima rumorosa dei payoff e i ritardi temporali
Caratterizzazione dell'Influenza dei Parametri:
- Attraverso il Teorema 1 quantifica come i parametri λ (frequenza di revisione della strategia) e η (parametro di regolarizzazione) influenzano l'impatto del rumore sulle decisioni
- Rivela la relazione di compromesso tra λ e η: ridurre λ abbassa il livello di rumore ma aumenta la sensibilità, richiedendo compensazione attraverso l'aumento di η
Identificazione delle Condizioni al Contorno: il Teorema 1 dimostra che quando η è troppo grande, l'evoluzione dello stato della popolazione si disaccoppia dal vettore dei payoff, causando degradazione delle prestazioni
Strategie Pratiche di Scelta dei Parametri: fornisce indicazioni per l'ottimizzazione dei parametri basate sull'analisi teorica, verificate attraverso scenari di raccolta di risorse multi-robot
Verifica dei Vantaggi di Prestazione: le simulazioni mostrano che KLD-RL è più robusto del protocollo di Smith in ambienti rumorosi

Dettagli del Metodo

Definizione del Compito

Si consideri un gioco a popolazione finita con N agenti, dove ogni agente sceglie da n strategie disponibili.

Input:

Stato della popolazione $X^N(t) = (X^N_1(t), \cdots, X^N_n(t)) \in \mathcal{X}^N$ , dove $X^N_i(t)$ rappresenta la proporzione di agenti che scelgono la strategia i
Vettore dei payoff $p(t) = (p_1(t), \cdots, p_n(t)) \in \mathbb{R}^n$

Output:

Distribuzione della scelta di strategia degli agenti, minimizzando la necessità di compiti a lungo termine $\lim\sup_{t\to\infty} \|q(t)\|_\infty$

Vincoli:

Dimensione finita della popolazione N
Stima rumorosa dei payoff $\hat{p}(t)$
Ritardo temporale d > 0

Architettura del Modello

1. Modello di Gioco di Allocazione di Compiti

Il meccanismo di payoff dinamico è determinato dallo stato interno $q(t)$ e dallo stato della popolazione $X^N(t)$ :

$\dot{q}_i(t) = -F_i(q_i(t), X^N(t)) + w_i$ $p_i(t) = G_i(q(t), X^N(t))$

dove:

$q_i(t) \geq 0$ : quantità di lavoro rimanente per il compito i
$F_i$ : velocità di completamento del compito (continuamente differenziabile)
$w_i > 0$ : velocità di arrivo di nuovi compiti
Caso semplificato: $G_i(q(t), X^N(t)) = q_i(t)$

Esempio (raccolta di risorse multi-robot): $F_i(q_i, X_i) = R_i \frac{e^{\alpha_i q_i} - 1}{e^{\alpha_i q_i} + 1} X_i^{\beta_i}$ dove $R_i, \alpha_i > 0$ , $0 < \beta_i < 1$ catturano gli effetti di saturazione e i rendimenti decrescenti.

2. Protocollo di Revisione della Strategia KLD-RL

Gli agenti revisionano le strategie ai tempi di arrivo di un processo di Poisson (parametro di velocità λ). Il protocollo KLD-RL è definito come:

$\rho^{\text{KLD-RL}}_{ji}(p, X^N) = C^{\eta,\theta}_i(p) = \frac{\theta_i \exp(\eta^{-1}p_i)}{\sum_{l=1}^n \theta_l \exp(\eta^{-1}p_l)}$

Equivalentemente: $C^{\eta,\theta}(p) = \arg\max_{z \in \mathcal{X}} (z^\top p - \eta D(z \| \theta))$

Parametri Chiave:

η > 0: parametro di regolarizzazione, controlla il compromesso
- η grande: mantiene la vicinanza alla distribuzione di riferimento θ
- η piccolo: più sensibile al vettore dei payoff p
θ ∈ X: distribuzione di riferimento (impostata all'equilibrio ottimale $x^*$ )
λ > 0: frequenza di revisione della strategia

3. Modello di Sistema ad Anello Chiuso

Si consideri il modello completo ad anello chiuso con rumore e ritardo:

$\dot{q}_i(t) = -F_i(q_i(t), \tilde{X}^N(t)) + w_i + \tilde{w}^N_i(t)$ $p_i(t) = q_i(t)$ $\dot{\tilde{X}}^N_i(t) = \lambda(C^{\eta,\theta}_i(p(t)) - \tilde{X}^N_i(t)) + \lambda(\epsilon^N_i(t) + \tilde{v}_i(t))$

dove:

$\tilde{X}^N(t)$ : interpolazione lineare a tratti di $X^N(t)$
$\epsilon^N_i(t)$ : errore di approssimazione dell'interpolazione
$\tilde{w}^N_i(t)$ : errore di modellazione causato dalla popolazione finita
$\tilde{v}_i(t) = C^{\eta,\theta}_i(\hat{p}(t-d)) - C^{\eta,\theta}_i(p(t))$ : rumore causato da stima e ritardo

Punti di Innovazione Tecnica

1. Framework di Analisi Basato sulla Passività

Passività δ (con surplus): il modello di dinamica evolutiva soddisfa $S(p(t), x(t)) - S(p(t_0), x(t_0)) \leq \int_{t_0}^t (\lambda^{-1}\dot{p}^\top(\tau)\dot{x}(\tau) - \lambda\eta^* V^\top V) d\tau$

KLD-RL soddisfa $\eta^* = \eta > 0$ , mentre il protocollo di Smith soddisfa solo $\eta^* = 0$ , il che è la chiave della robustezza di KLD-RL.

Anti-passività δ: il gioco di allocazione di compiti soddisfa $L(q(t), x(t)) - L(q(t_0), x(t_0)) \leq -\int_{t_0}^t \dot{p}^\top(\tau)\dot{x}(\tau) d\tau$

L'interconnessione dei due garantisce la stabilità.

2. Caratterizzazione Quantitativa dell'Impatto del Rumore (Teorema 1)

Stabilisce la disuguaglianza chiave: $\int_0^T \|C^{\eta,\theta}(p(t)) - \tilde{X}^N(t)\|_2^2 dt \leq \frac{1}{\lambda^2\eta}\left(\alpha_\lambda + \int_0^T |g_\lambda(\cdot)|dt\right)$

Intuizioni Chiave:

Fattore $(\lambda^2\eta)^{-1}$ : ridurre λ o η amplifica l'impatto del rumore
La funzione $g_\lambda$ contiene termini di rumore, il cui limite superiore cresce linearmente con λ
Compromesso: ridurre λ abbassa l'ampiezza del rumore ma aumenta la sensibilità

3. Continuità di Lipschitz (Corollario del Teorema 1)

Dimostra che: $\|\tilde{v}(t)\|_2 \leq \eta^{-1}\|p(t) - \hat{p}(t-d)\|_2$

Significato: aumentare η riduce direttamente l'impatto dell'errore di stima, a condizione che $\|p(t) - \hat{p}(t-d)\|_2$ sia limitato.

4. Effetti al Contorno di η Eccessivamente Grande (Proposizione 1)

Quando η è troppo grande, $C^{\eta,\theta}(p(t)) \approx x^*$ , lo stato della popolazione sotto distribuzione stazionaria: $\mathbb{E}(X^N(t)) = x^*$ $\sum_{i=1}^n \text{Var}(X^N_i(t)) = N^{-1}(1 - x^{*\top}x^*)$

Problema: l'evoluzione è indipendente da $p(t)$ , incapace di adattare dinamicamente le strategie, causando:

Overshoot nella fase iniziale
Aumento della varianza nella fase successiva (specialmente quando N è piccolo)

Configurazione Sperimentale

Dataset/Scenario

Scenario di raccolta di risorse multi-robot (Esempio 1):

Numero di strategie: n = 3 punti di risorse distribuiti spazialmente
Parametri del gioco: $R_1 = R_2 = R_3 = 3.44$ , $\alpha_1 = \alpha_2 = \alpha_3 = 0.036$ , $\beta_1 = \beta_2 = \beta_3 = 0.91$
Velocità di arrivo dei compiti: $w = (0.5, 1, 2)$
Ritardo temporale: d = 10
Condizioni iniziali: $q(0) = (100, 200, 300)$ , strategie iniziali casuali degli agenti

Dimensione della Popolazione

N = 10, 20, 40 agenti

Meccanismo di Stima dei Payoff

Gli agenti mantengono una stima dei payoff $\hat{p}^{(k)}(t)$
Osservatori (10% degli agenti): accesso diretto a $p(t)$
Altri agenti: aggiornamento basato su consenso (equazione 15) $\hat{p}^{(k)}(t) = \frac{1}{|\mathcal{N}_k|}\sum_{l \in \mathcal{N}_k} \hat{p}^{(l)}(t)$
Grafo di comunicazione: grafo casuale di Erdős-Rényi fortemente connesso (probabilità di connessione 0.2)
Stima iniziale: $\hat{p}^{(k)}(0) = (0, 0, 0)$

Metriche di Valutazione

Metrica principale: $\lim\sup_{t\to\infty} \|q(t)\|_\infty$ (massima necessità di compiti a lungo termine)
Metriche ausiliarie: varianza della traiettoria, velocità di convergenza

Metodi di Confronto

Protocollo di Smith:

undefined