Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
Algoritmos Justos con Sondeo para Bandidos Multi-Agente Multi-Brazo
Este artículo propone un marco de bandidos multi-brazo multi-agente (MA-MAB) diseñado para garantizar equidad entre agentes mientras se maximiza el desempeño general del sistema. Ante el desafío de decisiones con información limitada sobre recompensas de brazos, se introduce un mecanismo novedoso de sondeo que recopila estratégicamente información de brazos seleccionados antes de la asignación. En la configuración sin conexión (con distribuciones de recompensas conocidas), se diseña un algoritmo de sondeo codicioso con garantías de aproximación de factor constante utilizando propiedades submodulares. En la configuración en línea, se desarrolla un algoritmo que logra arrepentimiento sublineal mientras mantiene equidad. Experimentos extensos en conjuntos de datos sintéticos y del mundo real demuestran que el método supera a los métodos de referencia tanto en equidad como en eficiencia.
Los problemas tradicionales de bandidos multi-brazo típicamente optimizan el bienestar utilitarista (es decir, la suma total de recompensas), pero esto conduce a fenómenos graves de inequidad. Por ejemplo, en escenarios de transporte compartido, cuando un sistema central de despacho asigna conductores a diferentes regiones geográficas, optimizar el ingreso total puede resultar en que algunos conductores no reciban ningún pedido, causando un fenómeno de "inanición" (starvation).
Falta de Equidad: Los métodos MA-MAB existentes se enfocaban principalmente en maximizar recompensas totales, ignorando la equidad individual
Dependencia de Información: Dependen de retroalimentación inmediata para actualizar estimaciones, con mal desempeño en entornos con información incompleta o ruidosa
Exploración Insuficiente: Carecen de mecanismos de recopilación de información activa, causando que errores de estimación en brazos inciertos se propaguen a decisiones de asignación
Este artículo cierra la brecha entre métodos multi-agente justos y estrategias de exploración activa introduciendo mecanismos de sondeo y objetivos de Bienestar Social de Nash (NSW), permitiendo que la información obtenida a través de exploración activa se traduzca directamente en resultados justos para todos los agentes.
Nuevo Marco: Extiende el marco MA-MAB introduciendo mecanismos de sondeo para probar brazos seleccionados antes de la asignación, asegurando equidad a través de optimización NSW
Algoritmo Sin Conexión: Desarrolla una estrategia de sondeo codicioso simple pero efectiva con garantías de desempeño comprobables para patrones de recompensas conocidos
Algoritmo En Línea: Propone un algoritmo que equilibra exploración con equidad, demostrando que el sondeo y la asignación justa no comprometen el desempeño asintótico (arrepentimiento sublineal)
Verificación Experimental: Demuestra en datos sintéticos y reales que el método supera a los métodos de referencia en equidad y eficiencia
Distribuciones de Recompensas: Cada par agente-brazo (j,a) tiene una distribución desconocida D_{j,a} con media μ_{j,a} ∈ 0,1
Proceso de Decisión (cada ronda t):
Fase de Sondeo: Selecciona conjunto de sondeo S_t ⊆ A, obteniendo nuevas muestras de recompensa R_{j,a,t} para cada a ∈ S_t
Fase de Asignación: Basada en recompensas observadas y estimaciones actuales, asigna brazos a agentes mediante política π_t
Objetivo de Equidad: Maximizar Bienestar Social de Nash (NSW)
NSW(St,Rt,μ,πt)=∏j∈[M](∑a∈Stπj,a,tRj,a,t+∑a∈/Stπj,a,tμj,a)
Costo de Sondeo: La recompensa efectiva es
Rttotal=(1−α(∣St∣))ERt[NSW(St,Rt,μ,πt)]
donde α(·) es una función de costo no decreciente, con α(0)=0, α(I)=1
Definición de Arrepentimiento:
Rregret(T)=∑t=1T[(1−α(∣St∗∣))E[NSW(St∗,Rt,μ,πt∗)]−Rttotal]
Entrada: Distribuciones {F_{m,a}}, función de costo α(·), presupuesto I, parámetro ζ≥1
Salida: Conjunto de sondeo S_pr
1. Inicializar S_0 = ∅
2. Para i = 1 hasta I:
- Seleccionar brazo con máxima ganancia marginal:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. Ordenar conjunto candidato por (1-α(|S_j|))f_upper(S_j) en orden descendente
4. Iterar sobre conjunto ordenado:
- Si (1-α(|S_j|))f_upper(S_j) < h(∅), retornar ∅
- Si (1-α(|S_j|))f_upper(S_j) > ζR(S_j), continuar
- En caso contrario, retornar S_j
Teorema 1 (Garantía de Aproximación): Para cualquier ζ≥1, el conjunto S_pr retornado por el algoritmo satisface
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
Esta garantía se deriva del factor de aproximación (1-1/e) para maximización submodular.
Se construyen CDF empíricas F̂_{j,a,t} y estimaciones de media μ̂_{j,a,t}
Fase de Bucle Principal (t > MA):
Selección de Conjunto de Sondeo: Se invoca el Algoritmo 1 basado en estimaciones actuales F̂_{j,a,t} para seleccionar S_t
Actualización de Sondeo: Se muestrean brazos en S_t, actualizando estadísticas y cotas de confianza superiores
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
donde w_{j,a,t} es el ancho de confianza basado en la desigualdad de Freedman
Optimización de Política:
πt=argmaxπt∈ΔA(1−α(∣St∣))ERt[NSW(St,Rt,Ut,πt)]
Extracción de Brazos: Cada agente j extrae brazos según π_t, observa recompensas y actualiza
Lema 7 (Cota de Concentración): Con probabilidad al menos 1-δ/2, para todo t>A, a∈A, j∈M:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
Combinación de Sondeo y Equidad: Primera combinación de mecanismos de sondeo activo con objetivos de equidad NSW, diferente de trabajos previos que solo optimizan recompensas totales
Técnica de Aproximación Submodular: Transforma problemas no submodulares en optimización submodular mediante cotas superiores lineales por segmentos, manteniendo tratabilidad
Fusión UCB-NSW: El algoritmo en línea combina ingeniosamente cotas de confianza UCB con optimización NSW, equilibrando exploración-explotación con equidad
Análisis de Arrepentimiento Estratificado: Divide rondas en categorías de "γ grande" y "γ pequeño", manejando separadamente casos de alta y baja incertidumbre
Los trabajos existentes se enfocaban en MAB justo dependiendo de retroalimentación pasiva, o investigaban sondeo ignorando equidad. Este artículo cierra esta brecha.
Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - Trabajo base directamente extendido por este artículo
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" - Fundamentos teóricos de optimización NSW
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - Trabajo pionero en mecanismos de sondeo
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" - Aplicación de sondeo submodular
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" - Teoría de equidad NSW
Este artículo realiza contribuciones importantes en el campo de bandidos multi-brazo multi-agente, siendo el primero en combinar sistemáticamente mecanismos de sondeo activo con objetivos de equidad. Teóricamente riguroso (aproximación de factor constante y arrepentimiento sublineal), experimentalmente suficiente (datos sintéticos + reales), e innovador metodológicamente (aproximación submodular + fusión UCB-NSW). Las limitaciones principales radican en complejidad computacional y escala experimental, pero no afectan su valor académico y potencial práctico. Este trabajo abre nuevas direcciones de investigación en aprendizaje justo y toma de decisiones en línea, mereciendo exploración y aplicación adicionales.