2025-11-13T11:52:11.240496

Robust Multi-Agent Decision-Making in Finite-Population Games

Park, Bezerra

We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.

academic

Toma de Decisiones Robusta Multi-Agente en Juegos de Población Finita

Información Básica

ID del Artículo: 2505.06200
Título: Toma de Decisiones Robusta en Juegos de Población Finita
Autores: Shinkyu Park, Lucas C. D. Bezerra (King Abdullah University of Science and Technology)
Clasificación: cs.MA (Sistemas Multi-Agente), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
Fecha de Publicación: preprint arXiv, mayo de 2025 (v2: 6 de noviembre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2505.06200v2

Resumen

Este artículo investiga la robustez de modelos de decisión de agentes en juegos de población finita, enfocándose particularmente en el modelo de aprendizaje regularizado por divergencia de Kullback-Leibler (KLD-RL). El estudio examina cómo los parámetros del modelo afectan el impacto de diversas fuentes de ruido y errores de modelado en las decisiones de los agentes—factores que son omnipresentes en aplicaciones de ingeniería de juegos de población. El análisis proporciona perspectivas sobre cómo ajustar efectivamente estos parámetros para mitigar tales impactos. Los resultados teóricos se respaldan mediante ejemplos numéricos y estudios de simulación que validan el análisis e ilustran estrategias prácticas para la selección de parámetros.

Contexto de Investigación y Motivación

1. Problema Central

Los juegos de población y marcos de dinámica evolutiva proporcionan una base sólida para modelar y analizar interacciones estratégicas repetidas entre agentes que toman decisiones. Sin embargo, los marcos tradicionales dependen de tres supuestos clave:

Observación de pagos sin ruido
Cambio de estrategia sin retrasos
Tamaño de población infinito

Estos supuestos frecuentemente no son realistas en aplicaciones de ingeniería.

2. Importancia del Problema

En aplicaciones de ingeniería práctica (como asignación de tareas en múltiples robots), los agentes enfrentan:

Tamaño de población finito: número limitado de agentes (por ejemplo, N=10-40)
Estimación de pagos ruidosa: observaciones ruidosas basadas en acciones pasadas
Retrasos temporales: retrasos en la actualización de estrategias

El ruido y los errores de modelado conducen a mayor variabilidad en las decisiones de los agentes, obstaculizando la convergencia hacia selecciones de estrategia óptimas.

3. Limitaciones de Métodos Existentes

Protocolo de Smith: aunque ampliamente estudiado, tiene robustez limitada en entornos ruidosos
Modelos de mejor respuesta perturbada: asumen que el ruido es independiente de los pagos y el estado de la población, lo cual no coincide con la realidad
Falta de comprensión sistemática de cómo la sintonización de parámetros mitiga los efectos del ruido

4. Motivación de la Investigación

Este artículo explora el modelo KLD-RL como solución, ya que posee pasividad fuerte (pasividad con excedente), permitiendo que los agentes mantengan robustez bajo perturbaciones. El objetivo de la investigación es comprender cómo la optimización de parámetros puede reducir los efectos de la incertidumbre mientras se mantiene la capacidad de aprendizaje de equilibrio.

Contribuciones Principales

Marco de Análisis Teórico: Establece un marco de análisis teórico de robustez para el modelo KLD-RL en juegos de población finita, considerando estimación de pagos ruidosa y retrasos temporales
Caracterización de Efectos de Parámetros:
- Mediante el Teorema 1 se cuantifica cómo los parámetros λ (frecuencia de revisión de estrategia) y η (parámetro de regularización) afectan el impacto del ruido en las decisiones
- Se revela la relación de compensación entre λ y η: reducir λ disminuye el nivel de ruido pero aumenta la sensibilidad, requiriendo compensación mediante aumento de η
Identificación de Condiciones Límite: Mediante la Proposición 1 se prueba que cuando η es demasiado grande, la evolución del estado de la población se desacopla del vector de pagos, causando degradación del desempeño
Estrategias Prácticas de Selección de Parámetros: Proporciona orientación de sintonización de parámetros basada en análisis teórico, validada mediante escenarios de recolección de recursos multi-robot
Verificación de Ventajas de Desempeño: Las simulaciones demuestran que KLD-RL es más robusto que el protocolo de Smith en entornos ruidosos

Explicación Detallada del Método

Definición de Tarea

Considere un juego de población finita con N agentes, donde cada agente selecciona de n estrategias disponibles.

Entrada:

Estado de la población $X^N(t) = (X^N_1(t), \cdots, X^N_n(t)) \in \mathcal{X}^N$ , donde $X^N_i(t)$ representa la proporción de agentes que seleccionan la estrategia i
Vector de pagos $p(t) = (p_1(t), \cdots, p_n(t)) \in \mathbb{R}^n$

Salida:

Distribución de selección de estrategia de agentes, minimizando la demanda de tarea a largo plazo $\lim\sup_{t\to\infty} \|q(t)\|_\infty$

Restricciones:

Tamaño de población finito N
Estimación de pagos ruidosa $\hat{p}(t)$
Retraso temporal d > 0

Arquitectura del Modelo

1. Modelo de Juego de Asignación de Tareas

El mecanismo de pago dinámico se determina por el estado interno $q(t)$ y el estado de la población $X^N(t)$ :

$\dot{q}_i(t) = -F_i(q_i(t), X^N(t)) + w_i$ $p_i(t) = G_i(q(t), X^N(t))$

Donde:

$q_i(t) \geq 0$ : carga de trabajo restante de la tarea i
$F_i$ : tasa de finalización de tarea (continuamente diferenciable)
$w_i > 0$ : tasa de llegada de nuevas tareas
Caso simplificado: $G_i(q(t), X^N(t)) = q_i(t)$

Ejemplo (Recolección de Recursos Multi-Robot): $F_i(q_i, X_i) = R_i \frac{e^{\alpha_i q_i} - 1}{e^{\alpha_i q_i} + 1} X_i^{\beta_i}$ Donde $R_i, \alpha_i > 0$ , $0 < \beta_i < 1$ capturan efectos de saturación y rendimientos decrecientes.

2. Protocolo de Revisión de Estrategia KLD-RL

Los agentes revisan estrategias en tiempos de llegada de un proceso de Poisson (parámetro de tasa λ). El protocolo KLD-RL se define como:

$\rho^{\text{KLD-RL}}_{ji}(p, X^N) = C^{\eta,\theta}_i(p) = \frac{\theta_i \exp(\eta^{-1}p_i)}{\sum_{l=1}^n \theta_l \exp(\eta^{-1}p_l)}$

Equivalentemente: $C^{\eta,\theta}(p) = \arg\max_{z \in \mathcal{X}} (z^\top p - \eta D(z \| \theta))$

Parámetros Clave:

η > 0: parámetro de regularización, controla el equilibrio
- η grande: mantiene proximidad a la distribución de referencia θ
- η pequeño: más sensible al vector de pagos p
θ ∈ X: distribución de referencia (establecida como equilibrio óptimo $x^*$ )
λ > 0: frecuencia de revisión de estrategia

3. Modelo de Sistema en Lazo Cerrado

Considerando el modelo completo en lazo cerrado con ruido y retraso:

$\dot{q}_i(t) = -F_i(q_i(t), \tilde{X}^N(t)) + w_i + \tilde{w}^N_i(t)$ $p_i(t) = q_i(t)$ $\dot{\tilde{X}}^N_i(t) = \lambda(C^{\eta,\theta}_i(p(t)) - \tilde{X}^N_i(t)) + \lambda(\epsilon^N_i(t) + \tilde{v}_i(t))$

Donde:

$\tilde{X}^N(t)$ : interpolación lineal por partes de $X^N(t)$
$\epsilon^N_i(t)$ : error de aproximación por interpolación
$\tilde{w}^N_i(t)$ : error de modelado causado por población finita
$\tilde{v}_i(t) = C^{\eta,\theta}_i(\hat{p}(t-d)) - C^{\eta,\theta}_i(p(t))$ : ruido causado por estimación y retraso

Puntos de Innovación Técnica

1. Marco de Análisis Basado en Pasividad

Pasividad δ (con excedente): El modelo de dinámica evolutiva satisface $S(p(t), x(t)) - S(p(t_0), x(t_0)) \leq \int_{t_0}^t (\lambda^{-1}\dot{p}^\top(\tau)\dot{x}(\tau) - \lambda\eta^* V^\top V) d\tau$

KLD-RL satisface $\eta^* = \eta > 0$ , mientras que el protocolo de Smith solo satisface $\eta^* = 0$ , siendo esta la clave de la robustez de KLD-RL.

Anti-pasividad δ: El juego de asignación de tareas satisface $L(q(t), x(t)) - L(q(t_0), x(t_0)) \leq -\int_{t_0}^t \dot{p}^\top(\tau)\dot{x}(\tau) d\tau$

La interconexión de ambas garantiza estabilidad.

2. Caracterización Cuantitativa del Impacto del Ruido (Teorema 1)

Establece la desigualdad clave: $\int_0^T \|C^{\eta,\theta}(p(t)) - \tilde{X}^N(t)\|_2^2 dt \leq \frac{1}{\lambda^2\eta}\left(\alpha_\lambda + \int_0^T |g_\lambda(\cdot)|dt\right)$

Perspectivas Clave:

Factor $(\lambda^2\eta)^{-1}$ : reducir λ o η amplifica el impacto del ruido
Función $g_\lambda$ contiene términos de ruido, cuya cota superior crece linealmente con λ
Compensación: reducir λ disminuye la amplitud del ruido pero aumenta la sensibilidad

3. Continuidad de Lipschitz (Corolario del Teorema 1)

Se prueba que: $\|\tilde{v}(t)\|_2 \leq \eta^{-1}\|p(t) - \hat{p}(t-d)\|_2$

Significado: aumentar η reduce directamente el impacto del error de estimación, siempre que $\|p(t) - \hat{p}(t-d)\|_2$ esté acotado.

4. Efectos Límite de η Excesivamente Grande (Proposición 1)

Cuando η es demasiado grande, $C^{\eta,\theta}(p(t)) \approx x^*$ , el estado de la población bajo distribución estacionaria: $\mathbb{E}(X^N(t)) = x^*$ $\sum_{i=1}^n \text{Var}(X^N_i(t)) = N^{-1}(1 - x^{*\top}x^*)$

Problema: la evolución es independiente de $p(t)$ , incapaz de ajustar estrategias adaptativamente, resultando en:

Sobrepaso en etapas tempranas
Aumento de varianza en etapas posteriores (especialmente cuando N es pequeño)

Configuración Experimental

Conjunto de Datos/Escenario

Escenario de recolección de recursos multi-robot (Ejemplo 1):

Número de estrategias: n = 3 puntos de recursos distribuidos espacialmente
Parámetros del juego: $R_1 = R_2 = R_3 = 3.44$ , $\alpha_1 = \alpha_2 = \alpha_3 = 0.036$ , $\beta_1 = \beta_2 = \beta_3 = 0.91$
Tasa de llegada de tareas: $w = (0.5, 1, 2)$
Retraso temporal: d = 10
Condiciones iniciales: $q(0) = (100, 200, 300)$ , estrategia inicial aleatoria de agentes

Tamaño de Población

N = 10, 20, 40 agentes

Mecanismo de Estimación de Pagos

Los agentes mantienen estimación de pagos $\hat{p}^{(k)}(t)$
Observadores (10% de agentes): acceso directo a $p(t)$
Otros agentes: actualización basada en consenso (ecuación 15) $\hat{p}^{(k)}(t) = \frac{1}{|\mathcal{N}_k|}\sum_{l \in \mathcal{N}_k} \hat{p}^{(l)}(t)$
Gráfico de comunicación: gráfico aleatorio Erdős-Rényi fuertemente conectado (probabilidad de conexión 0.2)
Estimación inicial: $\hat{p}^{(k)}(0) = (0, 0, 0)$

Métricas de Evaluación

Métrica principal: $\lim\sup_{t\to\infty} \|q(t)\|_\infty$ (demanda máxima de tarea a largo plazo)
Métricas auxiliares: varianza de trayectoria, velocidad de convergencia

Métodos de Comparación

Protocolo de Smith:

undefined