Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Xu, Liu, Mattei et al.
We propose a multi-agent multi-armed bandit (MA-MAB) framework aimed at ensuring fair outcomes across agents while maximizing overall system performance. A key challenge in this setting is decision-making under limited information about arm rewards. To address this, we introduce a novel probing framework that strategically gathers information about selected arms before allocation. In the offline setting, where reward distributions are known, we leverage submodular properties to design a greedy probing algorithm with a provable performance bound. For the more complex online setting, we develop an algorithm that achieves sublinear regret while maintaining fairness. Extensive experiments on synthetic and real-world datasets show that our approach outperforms baseline methods, achieving better fairness and efficiency.
academic
Fair Algorithms with Probing for Multi-Agent Multi-Armed Bandits
Dieses Papier präsentiert ein MehrAgenten-Mehrarmiges-Bandit-Framework (MA-MAB), das darauf abzielt, Fairness zwischen Agenten zu gewährleisten und gleichzeitig die Gesamtleistung des Systems zu maximieren. Um die Herausforderung von Entscheidungen mit begrenzten Informationen über Armbelohnungen zu bewältigen, wird ein neuartiger Sondierungsmechanismus eingeführt, der strategisch Informationen über ausgewählte Arme vor der Zuweisung sammelt. In der Offline-Einstellung (bekannte Belohnungsverteilungen) wird ein gieriger Sondierungsalgorithmus mit konstanten Approximationsfaktoren entwickelt, der die Submodularität nutzt. In der Online-Einstellung wird ein Algorithmus entwickelt, der sublineare Reue erreicht und gleichzeitig Fairness bewahrt. Umfangreiche Experimente auf synthetischen und realen Datensätzen zeigen, dass die Methode Baseline-Methoden sowohl in Fairness als auch in Effizienz übertrifft.
Traditionelle Mehrarmige-Bandit-Probleme optimieren typischerweise utilitaristische Wohlfahrt (Summe der Gesamtbelohnungen), was jedoch zu schwerwiegenden Unfairness-Phänomenen führt. Beispielsweise kann in Ride-Sharing-Szenarien die Optimierung der Gesamteinnahmen durch ein zentrales Dispatch-System dazu führen, dass einige Fahrer überhaupt keine Aufträge erhalten und damit "verhungern".
Fehlende Fairness: Bestehende MA-MAB-Methoden konzentrieren sich hauptsächlich auf Maximierung der Gesamtbelohnung und ignorieren individuelle Fairness
Informationsabhängigkeit: Abhängigkeit von sofortigen Rückmeldungen zur Aktualisierung von Schätzungen; schlechte Leistung bei unvollständigen oder verrauschten Informationen
Unzureichende Exploration: Fehlende aktive Informationsbeschaffungsmechanismen führen zu Fehlerausbreitung bei Schätzungen unsicherer Arme in Zuweisungsentscheidungen
Dieses Papier überbrückt die Lücke zwischen fairen MehrAgenten-Methoden und aktiven Explorationsstrategien durch Einführung eines Sondierungsmechanismus und des Nash Social Welfare (NSW)-Ziels, wodurch durch aktive Exploration gewonnene Informationen direkt in faire Ergebnisse für alle Agenten umgewandelt werden.
Neues Framework: Erweiterung des MA-MAB-Frameworks mit Sondierungsmechanismus zum Testen ausgewählter Arme vor der Zuweisung; Sicherung von Fairness durch NSW-Optimierung
Offline-Algorithmus: Entwicklung einer einfachen und effektiven gierigen Sondierungsstrategie mit nachweisbaren Leistungsgarantien für bekannte Belohnungsmuster
Online-Algorithmus: Vorschlag eines Algorithmus, der Exploration und Fairness ausgleicht; Nachweis, dass Sondierung und faire Zuweisung die asymptotische Leistung nicht beeinträchtigen (sublineare Reue)
Experimentelle Validierung: Nachweis der Überlegenheit der Methode gegenüber Baselines in Fairness und Effizienz auf synthetischen und realen Daten
Belohnungsverteilungen: Jedes Agenten-Arm-Paar (j,a) hat eine unbekannte Verteilung D_{j,a} mit Mittelwert μ_{j,a} ∈ 0,1
Entscheidungsprozess (pro Runde t):
Sondierungsphase: Wähle Sondierungsmenge S_t ⊆ A; erhalte neue Belohnungsstichproben R_{j,a,t} für jedes a ∈ S_t
Zuweisungsphase: Basierend auf beobachteten Belohnungen und aktuellen Schätzungen; weise Arme durch Strategie π_t Agenten zu
Fairness-Ziel: Maximierung der Nash Social Welfare (NSW)
NSW(St,Rt,μ,πt)=∏j∈[M](∑a∈Stπj,a,tRj,a,t+∑a∈/Stπj,a,tμj,a)
Sondierungskosten: Effektive Belohnung ist
Rttotal=(1−α(∣St∣))ERt[NSW(St,Rt,μ,πt)]
wobei α(·) eine nicht abnehmende Kostenfunktion ist mit α(0)=0, α(I)=1
Eingabe: Verteilungen {F_{m,a}}, Kostenfunktion α(·), Budget I, Parameter ζ≥1
Ausgabe: Sondierungsmenge S_pr
1. Initialisiere S_0 = ∅
2. Für i = 1 bis I:
- Wähle Arm mit maximaler Marginalverstärkung:
a = argmax_{a∉S_{i-1}} [f_upper(S_{i-1}∪{a}) - f_upper(S_{i-1})]
- S_i = S_{i-1} ∪ {a}
3. Sortiere Kandidatenmenge nach (1-α(|S_j|))f_upper(S_j) in absteigender Reihenfolge
4. Durchlaufe sortierte Menge:
- Wenn (1-α(|S_j|))f_upper(S_j) < h(∅), gebe ∅ zurück
- Wenn (1-α(|S_j|))f_upper(S_j) > ζR(S_j), fortfahren
- Andernfalls gebe S_j zurück
Theorem 1 (Approximationsgarantie): Für beliebiges ζ≥1 erfüllt die vom Algorithmus zurückgegebene Menge S_pr
R(Spr)≥2e−1e−1⋅ζ1⋅R(S∗)
Dies wird aus dem (1-1/e)-Approximationsfaktor der submodularen Maximierung abgeleitet.
Jedes Agenten-Arm-Paar wird mindestens einmal erkundet
Konstruktion empirischer CDF F̂_{j,a,t} und Mittelwertschätzung μ̂_{j,a,t}
Hauptschleife (t > MA):
Sondierungsmenge-Auswahl: Rufe Algorithmus 1 basierend auf aktuellen Schätzungen F̂_{j,a,t} auf, um S_t auszuwählen
Sondierungs-Update: Stichprobenentnahme für Arme in S_t; Aktualisierung statistischer Größen und Konfidenzoberschranken
Uj,a,t=min(μ^j,a,t+wj,a,t,1)
wobei w_{j,a,t} die Konfidenzbreite basierend auf der Freedman-Ungleichung ist
Lemma 7 (Konzentrationsgrenzen): Mit Wahrscheinlichkeit mindestens 1-δ/2 für alle t>A, a∈A, j∈M:
∣μj,a−μ^j,a,t∣≤Nj,a,t2(μ^j,a,t−μ^j,a,t2)ln(δ2MAT)+3Nj,a,tln(δ2MAT)=wj,a,t
Kombination von Sondierung und Fairness: Erstmalige Kombination aktiver Sondierungsmechanismen mit NSW-Fairness-Zielen, anders als frühere Arbeiten, die nur Gesamtbelohnung optimieren
Submodulare Approximationstechnik: Umwandlung nicht-submodularer Probleme in submodulare Optimierung durch stückweise lineare Oberschranken unter Beibehaltung der Behandelbarkeit
UCB-NSW-Fusion: Online-Algorithmus kombiniert geschickt UCB-Konfidenzgrenzen mit NSW-Optimierung und balanciert Explorations-Exploitations-Dilemma mit Fairness
Geschichtete Reue-Analyse: Aufteilung von Runden in "großes γ" und "kleines γ", separate Behandlung von hoher und niedriger Unsicherheit
Non-Probing: Algorithmus von Jones et al. (2023) für faire MAB ohne Sondierungsfähigkeit; optimiert Zuweisung nur basierend auf aktuellen Informationen
Random P+A: Zufällige Auswahl fester Anzahl Arme zum Sondieren, dann zufällige Zuweisung
Greedy P+A: Verwendung gleicher gieriger Sondierungsstrategie, aber zufällige Zuweisung nach Sondierung
Bestehende Arbeiten konzentrieren sich entweder auf faire MAB mit passiven Rückmeldungen oder auf Sondierung ohne Fairness. Dieses Papier füllt diese Lücke.
Dieses Papier leistet wichtige Beiträge im Mehragenten-Mehrarmiges-Bandit-Feld durch erstmalige systematische Kombination aktiver Sondierungsmechanismen mit Fairness-Zielen. Theoretisch streng (konstante Approximation und sublineare Reue), experimentell umfassend (synthetische + reale Daten), methodisch innovativ (submodulare Approximation + UCB-NSW-Fusion). Haupteinschränkungen liegen in Rechenkomplexität und experimenteller Skala, beeinträchtigen aber nicht den akademischen Wert und praktisches Potenzial. Diese Arbeit eröffnet neue Forschungsrichtungen in fairer Maschinelles Lernen und Online-Entscheidungsfindung und verdient weitere Erforschung und Anwendung.