2025-11-24T01:22:17.846878

Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need

Sarkar, Pandey, Chowdhury

Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms. To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.

academic

Información Básica

ID del Artículo: 2510.21312
Título: Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Autores: Dhruv Sarkar (IIT Kharagpur), Nishant Pandey (IIT Kanpur), Sayak Ray Chowdhury (IIT Kanpur)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 24 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.21312
Enlace del Código: https://github.com/NP-Hardest/UCBisAllYouNeed

Resumen

Este artículo investiga cuestiones de equidad en el problema de bandidos multiarmados (Multi-Armed Bandits, MAB). La métrica tradicional de arrepentimiento (regret) basada en promedios aritméticos no puede garantizar equidad entre usuarios. Para abordar este problema, la comunidad académica ha introducido la métrica de arrepentimiento de Nash (Nash regret) basada en promedios geométricos. Sin embargo, los métodos existentes para minimizar el arrepentimiento de Nash requieren diseño de algoritmos especializados y suposiciones fuertes (como desigualdades de concentración multiplicativas, recompensas no negativas acotadas), e incluso no son aplicables a distribuciones gaussianas. Este artículo demuestra que, mediante una fase de exploración uniforme inicial adaptativa a los datos, combinada con el algoritmo UCB estándar, se puede lograr arrepentimiento de Nash casi óptimo, dependiendo únicamente de desigualdades aditivas de Hoeffding, extendiéndose naturalmente a recompensas subgaussianas. Además, el artículo generaliza el algoritmo a la categoría amplia de métricas de equidad de p-media, probando límites de arrepentimiento (casi) óptimos para todos los valores de p, sin necesidad de las suposiciones estrictas de trabajos anteriores.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: En el problema de bandidos multiarmados, ¿cómo maximizar la recompensa acumulada mientras se garantiza equidad entre pasos de tiempo (correspondientes a diferentes usuarios/pacientes)? El arrepentimiento promedio tradicional (Average Regret) solo se enfoca en la utilidad general, lo que puede resultar en recompensas extremadamente bajas en ciertos pasos de tiempo, careciendo de garantías de equidad.
Importancia: En ensayos clínicos, asignación de recursos y otros escenarios de aplicación, cada paso de tiempo corresponde a un individuo independiente (como un paciente). Optimizar solo la utilidad promedio puede llevar a un trato injusto de algunos individuos, lo cual es inaceptable desde perspectivas éticas y de bienestar social.
Limitaciones de Métodos Existentes:
- Barman et al. (2023) propone el algoritmo Nash Confidence Bound (NCB), pero depende de desigualdades de Hoeffding/Chernoff multiplicativas, requiere recompensas acotadas y no negativas, no es aplicable a distribuciones generales como la gaussiana, y requiere implícitamente conocer una cota superior de μ*
- Krishna et al. (2025) estudia arrepentimiento de p-media, pero requiere que la recompensa esperada de cada brazo sea al menos Ω̃(√k/T^(1/4)), una suposición extremadamente restrictiva que excluye muchos escenarios prácticos, y produce límites de arrepentimiento subóptimos en ciertos valores de p
Motivación de Investigación: Desarrollar un marco general que utilice el algoritmo UCB clásico para lograr objetivos de equidad, sin necesidad de diseñar límites de confianza especializados, y que sea aplicable a distribuciones subgaussianas generales, sin requerir suposiciones poco realistas sobre medias desconocidas.

Contribuciones Principales

Marco de Reducción: Propone reducir la minimización de arrepentimiento de Nash/p-media a exploración uniforme breve adaptativa a los datos + algoritmo de bandido estándar (como UCB), siendo la innovación clave una regla de parada adaptativa a los datos
Diseño de Algoritmo: Diseña el algoritmo Welfarist-UCB mediante una estrategia de dos fases:
- Fase I: Exploración uniforme hasta satisfacer la condición de terminación adaptativa
- Fase II: Exploración-explotación usando el índice UCB estándar
Garantías Teóricas:
- Para arrepentimiento de Nash (p=0): Alcanza un límite order-optimal de Õ(σ√(k/T)), aplicable a recompensas σ-subgaussianas
- Para p∈0,1: Alcanza un límite order-optimal de Õ(σ√(k/T))
- Para p∈[-1,0): Alcanza Õ(k/√T), mejorando el Õ(k^(3/4)T^(-1/4)) de Krishna et al.
- Para p<-1: Alcanza Õ(|p|k^((|p|+1)/2)/√T), estrictamente mejor que trabajos anteriores en rangos de T prácticamente relevantes
Innovación Técnica: Utiliza desigualdades aditivas de Hoeffding en lugar de multiplicativas, evitando restricciones estrictas en la distribución de recompensas, y no requiere cota superior de μ*
Verificación Experimental: Valida el algoritmo mediante simulaciones numéricas en diferentes valores de p, demostrando el principio de "no hay almuerzo gratis": requisitos de equidad más fuertes conducen a mayor arrepentimiento

Explicación Detallada del Método

Definición de Tarea

Entrada:

k brazos, donde cada brazo i tiene distribución de recompensa ρᵢ que es σ-subgaussiana, con media μᵢ≥0 (desconocida)
Rango temporal T
Parámetro de equidad p∈(-∞,1]

Salida: Brazo Iₜ seleccionado en cada ronda t∈T

Objetivo: Minimizar el arrepentimiento de p-media $R^p_T := \mu^* - \left(\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p\right)^{1/p}$ donde μ*=maxᵢμᵢ. En particular, p=0 corresponde a arrepentimiento de Nash (media geométrica).

Arquitectura del Modelo

Fase I: Exploración Uniforme Adaptativa a los Datos

Estrategia de Exploración:

Cada k pasos constituyen un bloque
Al inicio de cada bloque, se muestrea uniformemente una permutación aleatoria π∈Πₖ de los brazos
Se tiran los brazos en orden π(1), π(2), ..., π(k)

Condición de Terminación: La Fase I termina cuando existe algún brazo i que satisface ambas condiciones:

$\hat{\mu}_i > 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$
$n_i > \frac{192p_a^2\sigma^2\log T}{(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2}$

donde:

nᵢ: número de veces que se tira el brazo i
μ̂ᵢ: media empírica de recompensas observadas del brazo i
pₐ = 1 (si p≥-1), pₐ = p (si p<-1)

Propiedad Clave (Lema 4.1): En el evento de alta probabilidad E, el tiempo de duración de la Fase I τ satisface $32kS \leq \tau \leq 128kS$ donde $S = \frac{4p_a^2\sigma^2\log T}{(\mu^*)^2}$

Esto significa que cada brazo se tira Θ(1/(μ*)²) veces, lo cual es clave para el análisis posterior.

Fase II: Exploración-Explotación UCB

Utiliza el índice UCB estándar: $\text{UCB}_i = \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$

En cada ronda se selecciona el brazo con el mayor valor de UCB.

Puntos de Innovación Técnica

1. Diseño de la Condición de Terminación Adaptativa a los Datos

Innovación: El denominador en la condición de terminación $(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2$ asegura que la Fase I termine después de Θ(1/(μ*)²) rondas, en lugar de un número fijo de Θ(√T) o Θ(1/μ*) rondas.

Justificación:

Cuando μ* es grande, se requiere menos exploración para identificar buenos brazos
Cuando μ* es pequeño, se requiere más exploración para diferenciar entre brazos
Esta adaptabilidad asegura que en la Fase II, para cualquier brazo i que se tire, se garantiza que $\xi_i := \frac{2\sqrt{2\sigma^2\log T}}{\mu^*\sqrt{n_i}} \leq 1/2$ , lo cual es clave para controlar el arrepentimiento de Nash

2. Uso de Desigualdades Aditivas de Hoeffding

Comparación con NCB:

NCB: Condiciona en el evento $\{\forall i, \mu_i \in [\hat{\mu}_i - 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}, \hat{\mu}_i + 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}]\}$ , requiere desigualdad de Hoeffding multiplicativa
Este Artículo: Condiciona en el evento $\{\forall i, \mu_i \in [\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}}, \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}]\}$ , requiere solo desigualdad aditiva de Hoeffding

Ventajas:

La desigualdad aditiva es aplicable a cualquier distribución subgaussiana (incluyendo gaussiana, acotada, etc.)
No requiere que las recompensas sean estrictamente no negativas o acotadas
No requiere conocer previamente una cota superior de μ*

3. Equivalencia del Muestreo de Permutaciones (Lema B.3)

Observación Clave: La estrategia de muestreo de permutaciones en la Fase I es equivalente en distribución marginal al muestreo uniforme independiente en cada ronda, es decir, PrIₜ=i=1/k, por lo tanto 𝔼μ_{Iₜ}≥μ*/k.

Significado Técnico: Este acoplamiento estático (static coupling) simplifica el análisis de la Fase I, permitiendo usar directamente las propiedades del muestreo uniforme.

Configuración Experimental

Conjunto de Datos

Este artículo utiliza datos sintéticos para simulaciones numéricas:

Brazos Bernoulli: k=50 brazos, medias muestreadas uniformemente de 0.005, 1
Brazos Gaussianos: k=50 brazos, medias muestreadas uniformemente de 10, 1000, desviación estándar σ=20

Métricas de Evaluación

Arrepentimiento de Nash (p=0): $\mu^* - (\prod_{t=1}^T \mathbb{E}[\mu_{I_t}])^{1/T}$
Arrepentimiento de p-media: $\mu^* - (\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p)^{1/p}$

Se estima 𝔼μ_{Iₜ} mediante la recompensa promedio de 50 ejecuciones.

Métodos de Comparación

NCB (Barman et al., 2023): Utiliza índice Nash Confidence Bound
Explore-then-UCB (Krishna et al., 2025): Fase de exploración fija seguida de UCB

Detalles de Implementación

Rango temporal T aumenta gradualmente desde valores pequeños a valores grandes
Se prueba para diferentes valores de p (p=0.5, 0, -0.5, -1.5)
Todos los experimentos pueden reproducirse mediante el repositorio de código proporcionado

Resultados Experimentales

Resultados Principales

1. Arrepentimiento de Nash (p=0)

Recompensas Bernoulli (Figura 1a):

El arrepentimiento de Nash de Welfarist-UCB disminuye significativamente más rápido que NCB conforme T aumenta
Verifica la tasa de convergencia teórica de Õ(√(k/T))

Recompensas Subgaussianas (Figura 1b):

Welfarist-UCB sigue minimizando efectivamente el arrepentimiento de Nash bajo distribución gaussiana
NCB muestra peor desempeño en esta configuración, verificando la aplicabilidad del método propuesto a distribuciones generales

2. Arrepentimiento de p-media en Tres Intervalos

p=0.5 (0<p≤1) (Figura 1c):

Welfarist-UCB supera a Explore-then-UCB en todos los valores de T
La velocidad de disminución del arrepentimiento coincide con la predicción teórica de Õ(√(k/T))

p=-0.5 (-1<p<0) (Figura 1d):

Welfarist-UCB supera significativamente a Explore-then-UCB
Verifica que el límite Õ(k/√T) es mejor que el Õ(k^(3/4)T^(-1/4)) de Krishna et al.

p=-1.5 (p≤-1) (Figura 1e):

Requisitos de equidad más estrictos conducen a mayor arrepentimiento
Welfarist-UCB sigue siendo superior a los métodos de referencia

3. Experimento de Ablación: Impacto del Valor de p (Figura 1f)

Hallazgos Clave:

Conforme p disminuye (requisitos de equidad aumentan), el arrepentimiento de p-media aumenta continuamente
Verifica la hipótesis de "no hay almuerzo gratis": mayor equidad tiene el costo de mayor arrepentimiento
Cuando p→-∞ (equidad Rawlsiana), el límite de arrepentimiento se vuelve vacío, indicando que la equidad extrema no es alcanzable a corto plazo

Hallazgos Experimentales

Efectividad Práctica: Welfarist-UCB demuestra desempeño superior en todos los escenarios de prueba
Robustez de Distribución: El algoritmo es efectivo para diferentes distribuciones de recompensa (Bernoulli, gaussiana), verificando la amplia aplicabilidad de la teoría
Compensación Equidad-Utilidad: Los experimentos demuestran claramente la relación de compensación entre el parámetro de equidad p y el arrepentimiento, proporcionando orientación para seleccionar valores apropiados de p en aplicaciones prácticas
Velocidad de Convergencia: En todos los intervalos de p, la velocidad de disminución del arrepentimiento de Welfarist-UCB coincide con las predicciones teóricas y supera a métodos existentes

Trabajo Relacionado

1. Equidad en Bandidos Multiarmados

Diferentes Conceptos de Equidad:

Equidad de Brazos (Joseph et al. 2016; Patil et al. 2021): Asegurar que diferentes brazos sean tratados equitativamente
Equidad Multiagente (Hossain et al. 2021; Jones et al. 2023): Distribuir equitativamente recompensas entre múltiples agentes en cada extracción
Enfoque de Este Artículo: Equidad a través del tiempo, donde cada paso de tiempo corresponde a un individuo independiente

2. Arrepentimiento de Nash

Barman et al. (2023):

Propone por primera vez el concepto de arrepentimiento de Nash
Diseña algoritmo NCB, alcanzando límite Õ(√(k/T))
Limitaciones: Requiere desigualdades de concentración multiplicativas, restringido a recompensas acotadas no negativas

3. Bienestar de p-media

Fundamentos Teóricos (Moulin 2004):

La función de p-media se define mediante cinco axiomas: anonimato, invariancia de escala, continuidad, monotonicidad, simetría
Satisface el principio de transferencia de Pigou-Dalton (cuando p≤1)

Krishna et al. (2025):

Estudia arrepentimiento de p-media general
Utiliza Explore-then-UCB
Limitaciones: Requiere μᵢ≥Ω̃(√k/T^(1/4)), límites de arrepentimiento subóptimos en ciertos intervalos

4. Otras Direcciones Relacionadas

Arrepentimiento de Nash en Bandidos Lineales (Sawarni et al. 2024)
Maximización de Bienestar Social de Nash en Línea (Zhang et al. 2024)
Equidad en Aprendizaje por Refuerzo Multiagente (Mandal & Gan 2022)
Intersección de Privacidad y Equidad (Sarkar et al. 2025): Marco DP-NCB

Ventajas de Este Artículo Comparado con Trabajo Relacionado

Suposiciones Más Débiles: Solo requiere μᵢ≥0 y subgaussianidad, sin necesidad de cota inferior en μᵢ o recompensas acotadas
Límites Mejorados: Alcanza Õ(k/√T) para p∈[-1,0), mejor que el anterior Õ(k^(3/4)T^(-1/4))
Marco Unificado: Un único algoritmo maneja todos los valores de p, sin necesidad de diseñar estrategias diferentes para diferentes p
Simplicidad Técnica: Utiliza UCB estándar y desigualdades aditivas de Hoeffding, evitando diseños especializados complejos

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Demuestra que el algoritmo UCB clásico combinado con exploración adaptativa a los datos puede lograr garantías de equidad casi óptimas, sin necesidad de diseñar límites de confianza especializados
Significado Práctico: Hace que la toma de decisiones secuencial consciente de la equidad sea más práctica y ampliamente aplicable, especialmente en escenarios que requieren manejar distribuciones generales (como gaussiana)
Principio de "No Hay Almuerzo Gratis": Requisitos de equidad más estrictos aumentan intrínsecamente la dificultad del problema de aprendizaje, requiriendo más muestras para lograr bajo arrepentimiento

Limitaciones

Restricciones de Suposiciones:
- Aún requiere la suposición μᵢ≥0 (aunque estándar, puede ser restrictiva en algunas aplicaciones)
- La suposición de subgaussianidad puede no ser aplicable a distribuciones de cola pesada
Límites para p<-1:
- El límite de arrepentimiento crece exponencialmente con |p|, volviéndose vacío cuando T≤p²k^|p|
- Aunque es mejor que trabajos anteriores en rangos de T prácticamente relevantes, hay espacio para mejora
Ausencia de Límites Inferiores:
- Falta prueba de límites inferiores coincidentes para el intervalo p<-1
- No se puede determinar si los límites superiores actuales son ajustados
Escala de Experimentos:
- Los experimentos se realizan principalmente a escala media con k=50
- El desempeño en experimentos a gran escala (k≫50) no se ha explorado suficientemente

Direcciones Futuras

Perfeccionamiento Teórico:
- Probar límites inferiores coincidentes para p<-1, formalizando el principio de "no hay almuerzo gratis"
- Explorar si se pueden mejorar aún más los límites superiores para p<-1
Relajación de Suposiciones:
- Investigar cómo manejar casos donde μᵢ puede ser significativamente negativo
- Extender a distribuciones de cola pesada u otras distribuciones no subgaussianas
Extensión de Algoritmo:
- Generalizar a configuraciones de bandidos contextuales o aprendizaje por refuerzo
- Combinar con otros conceptos de equidad (como equidad individual)
Aplicación Práctica:
- Validar en escenarios reales de ensayos clínicos o asignación de recursos
- Desarrollar métodos para seleccionar adaptativamente el valor de p
Eficiencia Computacional:
- La verificación de la condición de terminación en la Fase I puede ser computacionalmente intensiva, explorar implementaciones más eficientes

Evaluación Profunda

Fortalezas

Fuerte Innovación Teórica:
- El diseño de la condición de terminación adaptativa a los datos es ingenioso, resolviendo el fracaso de UCB en minimizar arrepentimiento de Nash
- Usar desigualdades aditivas de Hoeffding en lugar de multiplicativas es un avance técnico clave, expandiendo significativamente el rango de aplicabilidad
- El marco para manejar todos los valores de p de manera unificada es elegante y poderoso
Suficiencia Experimental:
- Cubre múltiples intervalos de p (p>0, p=0, -1<p<0, p<-1)
- Compara múltiples métodos de referencia (NCB, Explore-then-UCB)
- Incluye experimentos de ablación verificando la hipótesis de "no hay almuerzo gratis"
Poder Convincente de Resultados:
- Los límites teóricos son order-optimal o cercanos a optimal en la mayoría de casos
- Los resultados experimentales coinciden altamente con predicciones teóricas
- Pruebas matemáticas rigurosas, con lemas técnicos (como Lema 4.1, 4.2) lógicamente claros
Claridad de Escritura:
- Motivación clara, definición de problema precisa
- La sección de técnicas de prueba (Sección 4) proporciona explicaciones intuitivas
- Comparación detallada y justa con trabajos anteriores (Observaciones 3.1, 3.2, 3.3)
Reproducibilidad:
- Proporciona repositorio de código completo
- Pseudocódigo de algoritmo claro (Algoritmo 1)
- Descripción detallada de configuración experimental

Insuficiencias

Limitaciones del Método:
- La suposición μᵢ≥0 es restrictiva en algunas aplicaciones (aunque la Observación 2.1 proporciona justificación razonable)
- La condición de terminación de la Fase I involucra término p², cuando |p| es grande puede resultar en fase de exploración prolongada
- Los límites para p<-1 no son tan ajustados como en otros intervalos
Defectos en Configuración Experimental:
- Solo utiliza datos sintéticos, carece de validación en conjuntos de datos reales
- La escala k=50 es relativamente pequeña, el desempeño en escenarios a gran escala (k=1000+) es desconocido
- No explora cómo cambios en valor σ afectan el desempeño del algoritmo
Análisis Insuficiente:
- Falta estadísticas experimentales del tiempo real de terminación de Fase I (el límite teórico es 32kS a 128kS, ¿cuál es la distribución real?)
- No discute complejidad computacional del algoritmo (especialmente verificación de condición de terminación)
- Análisis insuficiente del comportamiento del algoritmo bajo diferentes valores de μ*
Vacíos Teóricos:
- Falta límites inferiores para p<-1, imposible juzgar si los límites superiores son ajustados
- No explora cómo seleccionar σ² cuando μ* es desconocido (el algoritmo requiere σ² como entrada)
- La necesidad del factor log k en el límite de arrepentimiento de Nash no se discute suficientemente

Impacto

Contribución al Campo:
- Avanza significativamente la comprensión teórica de algoritmos de bandidos conscientes de equidad
- Demuestra la aplicabilidad de algoritmos clásicos (UCB) en nuevos problemas, alentando revisión de métodos simples
- Proporciona base teórica sólida para aplicación de bienestar de p-media en aprendizaje en línea
Valor Práctico:
- Algoritmo simple, fácil de implementar y desplegar
- Aplicable a amplio rango de tipos de distribución, aumentando potencial de aplicación práctica
- Proporciona cuantificación de compensación equidad-utilidad, guiando selección de valor p en práctica
Reproducibilidad:
- Código de fuente abierta, descripción de algoritmo clara
- Prueba teórica completa, lemas técnicos disponibles para referencia de trabajos posteriores
- Configuración experimental estandarizada, fácil de reproducir y extender
Significado Inspirador:
- El descubrimiento del principio de "no hay almuerzo gratis" tiene profunda perspicacia
- La idea de exploración adaptativa a los datos puede inspirar investigación en otras variantes de bandidos
- La discusión de desigualdades aditivas vs multiplicativas de concentración tiene significado metodológico para diseño de algoritmos

Escenarios Aplicables

Ensayos Clínicos: Necesidad de explorar tratamientos efectivos mientras se garantiza trato justo a cada paciente
Asignación de Recursos: Asignación en línea de recursos limitados (como recursos computacionales, espacios publicitarios) a diferentes usuarios, necesitando equilibrio entre eficiencia y equidad
Sistemas de Recomendación: Recomendar contenido a usuarios en diferentes períodos de tiempo, necesitando evitar experiencia extremadamente pobre en ciertos períodos
Pruebas A/B: En pruebas de productos necesitando considerar bienestar de participantes, no solo métricas promedio
Asignación de Recursos Educativos: Asignar recursos educativos a estudiantes en diferentes períodos de admisión, necesitando equidad entre cohortes

Escenarios No Aplicables:

Aplicaciones a corto plazo requiriendo equidad Rawlsiana extrema (p→-∞) (límite teórico se vuelve vacío)
Escenarios donde distribución de recompensa es de cola pesada o no subgaussiana
Aplicaciones donde μᵢ puede ser significativamente negativo

Referencias (Seleccionadas)

Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - Propone por primera vez concepto de arrepentimiento de Nash
Krishna et al. (2025): "p-mean regret for stochastic bandits" - Estudia arrepentimiento de p-media general
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - Texto clásico de MAB
Moulin (2004): "Fair division and collective welfare" - Fundamentos axiomáticos de bienestar de p-media
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - Arrepentimiento de Nash en bandidos lineales

Evaluación General: Este es un artículo de alta calidad en aprendizaje automático teórico, haciendo contribuciones importantes en el campo de algoritmos de bandidos conscientes de equidad. Mediante diseño de algoritmo ingenioso y análisis teórico riguroso, demuestra la efectividad de métodos simples (UCB) en objetivos complejos (equidad). Los resultados teóricos son poderosos, la verificación experimental es suficiente, con impacto significativo en el campo. Las principales insuficiencias están en falta de validación en datos reales y ciertos vacíos teóricos (como límites inferiores para p<-1). Se recomienda que trabajos posteriores se enfoquen en validación de aplicación práctica y perfeccionamiento teórico.

Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need

Revisitando el Bienestar Social en Bandidos: UCB es (Casi) Todo lo que Necesitas