We study the robustness of an agent decision-making model in finite-population games, with a particular focus on the Kullback-Leibler Divergence Regularized Learning (KLD-RL) model. Specifically, we examine how the model's parameters influence the impact of various sources of noise and modeling inaccuracies -- factors commonly encountered in engineering applications of population games -- on agents' decision-making. Our analysis provides insights into how these parameters can be effectively tuned to mitigate such effects. Theoretical results are supported by numerical examples and simulation studies that validate the analysis and illustrate practical strategies for parameter selection.
- ID del Artículo: 2505.06200
- Título: Toma de Decisiones Robusta en Juegos de Población Finita
- Autores: Shinkyu Park, Lucas C. D. Bezerra (King Abdullah University of Science and Technology)
- Clasificación: cs.MA (Sistemas Multi-Agente), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
- Fecha de Publicación: preprint arXiv, mayo de 2025 (v2: 6 de noviembre de 2025)
- Enlace del Artículo: https://arxiv.org/abs/2505.06200v2
Este artículo investiga la robustez de modelos de decisión de agentes en juegos de población finita, enfocándose particularmente en el modelo de aprendizaje regularizado por divergencia de Kullback-Leibler (KLD-RL). El estudio examina cómo los parámetros del modelo afectan el impacto de diversas fuentes de ruido y errores de modelado en las decisiones de los agentes—factores que son omnipresentes en aplicaciones de ingeniería de juegos de población. El análisis proporciona perspectivas sobre cómo ajustar efectivamente estos parámetros para mitigar tales impactos. Los resultados teóricos se respaldan mediante ejemplos numéricos y estudios de simulación que validan el análisis e ilustran estrategias prácticas para la selección de parámetros.
Los juegos de población y marcos de dinámica evolutiva proporcionan una base sólida para modelar y analizar interacciones estratégicas repetidas entre agentes que toman decisiones. Sin embargo, los marcos tradicionales dependen de tres supuestos clave:
- Observación de pagos sin ruido
- Cambio de estrategia sin retrasos
- Tamaño de población infinito
Estos supuestos frecuentemente no son realistas en aplicaciones de ingeniería.
En aplicaciones de ingeniería práctica (como asignación de tareas en múltiples robots), los agentes enfrentan:
- Tamaño de población finito: número limitado de agentes (por ejemplo, N=10-40)
- Estimación de pagos ruidosa: observaciones ruidosas basadas en acciones pasadas
- Retrasos temporales: retrasos en la actualización de estrategias
El ruido y los errores de modelado conducen a mayor variabilidad en las decisiones de los agentes, obstaculizando la convergencia hacia selecciones de estrategia óptimas.
- Protocolo de Smith: aunque ampliamente estudiado, tiene robustez limitada en entornos ruidosos
- Modelos de mejor respuesta perturbada: asumen que el ruido es independiente de los pagos y el estado de la población, lo cual no coincide con la realidad
- Falta de comprensión sistemática de cómo la sintonización de parámetros mitiga los efectos del ruido
Este artículo explora el modelo KLD-RL como solución, ya que posee pasividad fuerte (pasividad con excedente), permitiendo que los agentes mantengan robustez bajo perturbaciones. El objetivo de la investigación es comprender cómo la optimización de parámetros puede reducir los efectos de la incertidumbre mientras se mantiene la capacidad de aprendizaje de equilibrio.
- Marco de Análisis Teórico: Establece un marco de análisis teórico de robustez para el modelo KLD-RL en juegos de población finita, considerando estimación de pagos ruidosa y retrasos temporales
- Caracterización de Efectos de Parámetros:
- Mediante el Teorema 1 se cuantifica cómo los parámetros λ (frecuencia de revisión de estrategia) y η (parámetro de regularización) afectan el impacto del ruido en las decisiones
- Se revela la relación de compensación entre λ y η: reducir λ disminuye el nivel de ruido pero aumenta la sensibilidad, requiriendo compensación mediante aumento de η
- Identificación de Condiciones Límite: Mediante la Proposición 1 se prueba que cuando η es demasiado grande, la evolución del estado de la población se desacopla del vector de pagos, causando degradación del desempeño
- Estrategias Prácticas de Selección de Parámetros: Proporciona orientación de sintonización de parámetros basada en análisis teórico, validada mediante escenarios de recolección de recursos multi-robot
- Verificación de Ventajas de Desempeño: Las simulaciones demuestran que KLD-RL es más robusto que el protocolo de Smith en entornos ruidosos
Considere un juego de población finita con N agentes, donde cada agente selecciona de n estrategias disponibles.
Entrada:
- Estado de la población XN(t)=(X1N(t),⋯,XnN(t))∈XN, donde XiN(t) representa la proporción de agentes que seleccionan la estrategia i
- Vector de pagos p(t)=(p1(t),⋯,pn(t))∈Rn
Salida:
- Distribución de selección de estrategia de agentes, minimizando la demanda de tarea a largo plazo limsupt→∞∥q(t)∥∞
Restricciones:
- Tamaño de población finito N
- Estimación de pagos ruidosa p^(t)
- Retraso temporal d > 0
El mecanismo de pago dinámico se determina por el estado interno q(t) y el estado de la población XN(t):
q˙i(t)=−Fi(qi(t),XN(t))+wipi(t)=Gi(q(t),XN(t))
Donde:
- qi(t)≥0: carga de trabajo restante de la tarea i
- Fi: tasa de finalización de tarea (continuamente diferenciable)
- wi>0: tasa de llegada de nuevas tareas
- Caso simplificado: Gi(q(t),XN(t))=qi(t)
Ejemplo (Recolección de Recursos Multi-Robot):
Fi(qi,Xi)=Rieαiqi+1eαiqi−1Xiβi
Donde Ri,αi>0, 0<βi<1 capturan efectos de saturación y rendimientos decrecientes.
Los agentes revisan estrategias en tiempos de llegada de un proceso de Poisson (parámetro de tasa λ). El protocolo KLD-RL se define como:
ρjiKLD-RL(p,XN)=Ciη,θ(p)=∑l=1nθlexp(η−1pl)θiexp(η−1pi)
Equivalentemente:
Cη,θ(p)=argmaxz∈X(z⊤p−ηD(z∥θ))
Parámetros Clave:
- η > 0: parámetro de regularización, controla el equilibrio
- η grande: mantiene proximidad a la distribución de referencia θ
- η pequeño: más sensible al vector de pagos p
- θ ∈ X: distribución de referencia (establecida como equilibrio óptimo x∗)
- λ > 0: frecuencia de revisión de estrategia
Considerando el modelo completo en lazo cerrado con ruido y retraso:
q˙i(t)=−Fi(qi(t),X~N(t))+wi+w~iN(t)pi(t)=qi(t)X~˙iN(t)=λ(Ciη,θ(p(t))−X~iN(t))+λ(ϵiN(t)+v~i(t))
Donde:
- X~N(t): interpolación lineal por partes de XN(t)
- ϵiN(t): error de aproximación por interpolación
- w~iN(t): error de modelado causado por población finita
- v~i(t)=Ciη,θ(p^(t−d))−Ciη,θ(p(t)): ruido causado por estimación y retraso
Pasividad δ (con excedente): El modelo de dinámica evolutiva satisface
S(p(t),x(t))−S(p(t0),x(t0))≤∫t0t(λ−1p˙⊤(τ)x˙(τ)−λη∗V⊤V)dτ
KLD-RL satisface η∗=η>0, mientras que el protocolo de Smith solo satisface η∗=0, siendo esta la clave de la robustez de KLD-RL.
Anti-pasividad δ: El juego de asignación de tareas satisface
L(q(t),x(t))−L(q(t0),x(t0))≤−∫t0tp˙⊤(τ)x˙(τ)dτ
La interconexión de ambas garantiza estabilidad.
Establece la desigualdad clave:
∫0T∥Cη,θ(p(t))−X~N(t)∥22dt≤λ2η1(αλ+∫0T∣gλ(⋅)∣dt)
Perspectivas Clave:
- Factor (λ2η)−1: reducir λ o η amplifica el impacto del ruido
- Función gλ contiene términos de ruido, cuya cota superior crece linealmente con λ
- Compensación: reducir λ disminuye la amplitud del ruido pero aumenta la sensibilidad
Se prueba que:
∥v~(t)∥2≤η−1∥p(t)−p^(t−d)∥2
Significado: aumentar η reduce directamente el impacto del error de estimación, siempre que ∥p(t)−p^(t−d)∥2 esté acotado.
Cuando η es demasiado grande, Cη,θ(p(t))≈x∗, el estado de la población bajo distribución estacionaria:
E(XN(t))=x∗∑i=1nVar(XiN(t))=N−1(1−x∗⊤x∗)
Problema: la evolución es independiente de p(t), incapaz de ajustar estrategias adaptativamente, resultando en:
- Sobrepaso en etapas tempranas
- Aumento de varianza en etapas posteriores (especialmente cuando N es pequeño)
Escenario de recolección de recursos multi-robot (Ejemplo 1):
- Número de estrategias: n = 3 puntos de recursos distribuidos espacialmente
- Parámetros del juego: R1=R2=R3=3.44, α1=α2=α3=0.036, β1=β2=β3=0.91
- Tasa de llegada de tareas: w=(0.5,1,2)
- Retraso temporal: d = 10
- Condiciones iniciales: q(0)=(100,200,300), estrategia inicial aleatoria de agentes
- Los agentes mantienen estimación de pagos p^(k)(t)
- Observadores (10% de agentes): acceso directo a p(t)
- Otros agentes: actualización basada en consenso (ecuación 15)
p^(k)(t)=∣Nk∣1∑l∈Nkp^(l)(t)
- Gráfico de comunicación: gráfico aleatorio Erdős-Rényi fuertemente conectado (probabilidad de conexión 0.2)
- Estimación inicial: p^(k)(0)=(0,0,0)
- Métrica principal: limsupt→∞∥q(t)∥∞ (demanda máxima de tarea a largo plazo)
- Métricas auxiliares: varianza de trayectoria, velocidad de convergencia
Protocolo de Smith:
undefined