Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
Algoritmi Equi con Probing per Bandit Multi-Agente Multi-Braccio
Questo articolo propone un framework per bandit multi-agente multi-braccio (MA-MAB) volto a garantire equità tra gli agenti massimizzando contemporaneamente le prestazioni complessive del sistema. Affrontando la sfida decisionale con informazioni limitate sulle ricompense dei bracci, introduce un innovativo meccanismo di probing che raccoglie strategicamente informazioni su bracci selezionati prima dell'allocazione. Nell'impostazione offline (con distribuzioni di ricompensa note), sfrutta proprietà di submodularità per progettare algoritmi greedy di probing con garanzie di approssimazione a fattore costante. Nell'impostazione online, sviluppa un algoritmo che realizza rimpianto sublineare mantenendo l'equità. Esperimenti estensivi su dataset sintetici e reali dimostrano che il metodo supera gli approcci baseline sia in equità che in efficienza.
I tradizionali problemi di bandit multi-braccio tipicamente ottimizzano il benessere utilitaristico (utilitarian welfare, ovvero la somma totale delle ricompense), ma ciò comporta gravi fenomeni di iniquità. Ad esempio, negli scenari di ride-sharing, un sistema di dispatching centralizzato che assegna autisti a diverse aree geografiche potrebbe causare che alcuni autisti rimangono completamente senza ordini, generando fenomeni di "starvazione" (starvation).
Assenza di Equità: I metodi MA-MAB esistenti si concentrano principalmente sulla massimizzazione della ricompensa totale, trascurando l'equità individuale
Dipendenza Informativa: Dipendono da feedback immediato per aggiornare le stime, con prestazioni scadenti in ambienti con informazioni incomplete o rumorosi
Esplorazione Insufficiente: Mancano meccanismi di raccolta attiva di informazioni, causando propagazione di errori di stima per bracci incerti alle decisioni di allocazione
Questo articolo colma il divario tra approcci equi multi-agente e strategie di esplorazione attiva introducendo meccanismi di probing e l'obiettivo di Benessere Sociale di Nash (Nash Social Welfare, NSW), convertendo direttamente le informazioni acquisite attraverso esplorazione attiva in risultati equi per tutti gli agenti.
Nuovo Framework: Estende il framework MA-MAB introducendo meccanismi di probing per testare bracci selezionati prima dell'allocazione, garantendo equità attraverso ottimizzazione NSW
Algoritmo Offline: Sviluppa una strategia di probing greedy semplice ed efficace con garanzie di prestazione provabili per pattern di ricompensa noti
Algoritmo Online: Propone un algoritmo che bilancia esplorazione e equità, provando che probing e allocazione equa non compromettono le prestazioni asintotiche (rimpianto sublineare)
Verifica Sperimentale: Dimostra su dati sintetici e reali che il metodo supera i baseline in equità ed efficienza
Distribuzioni di Ricompensa: Ogni coppia agente-braccio (j,a) ha una distribuzione sconosciuta D_{j,a} con media μ_{j,a} ∈ 0,1
Processo Decisionale (per ogni round t):
Fase di Probing: Seleziona l'insieme di probing S_t ⊆ A, ottenendo campioni di ricompensa freschi R_{j,a,t} per ogni a ∈ S_t
Fase di Allocazione: Basandosi sulle ricompense osservate e sulle stime correnti, alloca bracci agli agenti attraverso la politica π_t
Obiettivo di Equità: Massimizzare il Benessere Sociale di Nash (NSW)
NSW(St,Rt,μ,πt)=∏j∈[M](∑a∈Stπj,a,tRj,a,t+∑a∈/Stπj,a,tμj,a)
Costo di Probing: La ricompensa effettiva è
Rttotal=(1−α(∣St∣))ERt[NSW(St,Rt,μ,πt)]
dove α(·) è una funzione di costo non decrescente, con α(0)=0, α(I)=1
Definizione di Rimpianto:
Rregret(T)=∑t=1T[(1−α(∣St∗∣))E[NSW(St∗,Rt,μ,πt∗)]−Rttotal]
Input: Distribuzioni {F_{m,a}}, funzione di costo α(·), budget I, parametro ζ≥1
Output: Insieme di probing S_pr
1. Inizializza S_0 = ∅
2. Per i = 1 fino a I:
- Seleziona il braccio con guadagno marginale massimo:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. Ordina i candidati per (1-α(|S_j|))f_upper(S_j) in ordine decrescente
4. Itera attraverso l'insieme ordinato:
- Se (1-α(|S_j|))f_upper(S_j) < h(∅), ritorna ∅
- Se (1-α(|S_j|))f_upper(S_j) > ζR(S_j), continua
- Altrimenti ritorna S_j
Teorema 1 (Garanzia di Approssimazione): Per ogni ζ≥1, l'insieme S_pr restituito dall'algoritmo soddisfa
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
derivato dal fattore di approssimazione (1-1/e) della massimizzazione submodulare.
Ogni coppia agente-braccio viene esplorata almeno una volta
Costruisce la CDF empirica F̂_{j,a,t} e la stima della media μ̂_{j,a,t}
Fase del Ciclo Principale (t > MA):
Selezione dell'Insieme di Probing: Chiama l'Algoritmo 1 basato sulle stime correnti F̂_{j,a,t} per selezionare S_t
Aggiornamento di Probing: Campiona i bracci in S_t, aggiorna le statistiche e i limiti di confidenza superiori
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
dove w_{j,a,t} è la larghezza di confidenza basata sulla disuguaglianza di Freedman
Ottimizzazione della Politica:
πt=argmaxπt∈ΔA(1−α(∣St∣))ERt[NSW(St,Rt,Ut,πt)]
Estrazione dei Bracci: Ogni agente j estrae il braccio secondo π_t, osserva la ricompensa e aggiorna
Lemma 7 (Limite di Concentrazione): Con probabilità almeno 1-δ/2, per tutti t>A, a∈A, j∈M:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
Combinazione di Probing e Equità: Prima volta che il meccanismo di probing attivo viene combinato con l'obiettivo di equità NSW, diversamente dai lavori precedenti che ottimizzano solo la ricompensa totale
Tecnica di Approssimazione Submodulare: Trasforma il problema non submodulare in ottimizzazione submodulare attraverso limiti superiori lineari a tratti, mantenendo la trattabilità
Fusione UCB-NSW: L'algoritmo online combina abilmente i limiti di confidenza UCB con l'ottimizzazione NSW, bilanciando esplorazione-sfruttamento ed equità
Analisi del Rimpianto Stratificata: Divide i round in due categorie "grande γ" e "piccolo γ", gestendo separatamente i casi di alta e bassa incertezza
I lavori esistenti si concentrano su MAB equo ma dipendono da feedback passivo, oppure studiano il probing ignorando l'equità. Questo articolo colma questa lacuna.
Jones, Nguyen & Nguyen (2023): "An efficient algorithm for fair multi-agent multi-armed bandit with low regret" - Lavoro fondamentale direttamente esteso da questo articolo
Cole & Gkatzelis (2015): "Approximating the Nash social welfare with indivisible items" - Fondamenti teorici dell'ottimizzazione NSW
Zuo, Zhang & Joe-Wong (2020): "Observe Before Play: Multi-Armed Bandit with Pre-Observations" - Lavoro pionieristico su meccanismi di probing
Bhaskara et al. (2020): "Adaptive probing policies for shortest path routing" - Applicazione del probing submodulare
Caragiannis et al. (2019): "The unreasonable fairness of maximum Nash welfare" - Teoria dell'equità NSW
Questo articolo fornisce un contributo importante nel campo dei bandit multi-agente multi-braccio, combinando sistematicamente per la prima volta il meccanismo di probing attivo con l'obiettivo di equità. È rigoroso teoricamente (approssimazione a fattore costante e rimpianto sublineare), sufficientemente sperimentale (dati sintetici + reali), e innovativo metodologicamente (approssimazione submodulare + fusione UCB-NSW). Le limitazioni principali riguardano la complessità computazionale e la scala sperimentale, ma non compromettono il valore accademico e il potenziale pratico. Questo lavoro apre nuove direzioni di ricerca nel campo dell'apprendimento automatico equo e del processo decisionale online, meritevole di ulteriore esplorazione e applicazione.