Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Sarkar, Pandey, Chowdhury
Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms.
To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.
academic
Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Dieses Papier untersucht Fairnessfragen im Problem der Multi-Armed Bandits (MAB). Traditionelle Bedauerungsmetriken (Regret) basieren auf arithmetischen Mittelwerten und können keine Fairness über Benutzer hinweg garantieren. Um dieses Problem zu lösen, hat die Forschungsgemeinde die auf geometrischen Mittelwerten basierende Nash-Bedauerungsmetrik eingeführt. Allerdings erfordern bestehende Methoden zur Minimierung von Nash-Bedauern spezialisierte Algorithmusdesigns und starke Annahmen (wie multiplikative Konzentrationsungleichungen, begrenzte nicht-negative Belohnungen) und sind nicht auf Gaußsche Verteilungen anwendbar. Dieses Papier zeigt, dass durch eine datengesteuerte anfängliche gleichmäßige Explorationsphase in Kombination mit dem Standard-UCB-Algorithmus nahezu optimales Nash-Bedauern erreicht werden kann, wobei nur additive Hoeffding-Grenzen erforderlich sind, die sich natürlich auf subgaussische Belohnungen erweitern. Darüber hinaus verallgemeinert das Papier den Algorithmus auf p-Mittel-Bedauern, eine breite Klasse von Fairnessmaßen, und beweist (nahezu) optimale Bedauerungsgrenzen für alle p-Werte ohne die strengen Annahmen früherer Arbeiten.
Kernproblem: Wie kann man im Multi-Armed-Bandit-Problem kumulative Belohnungen maximieren und gleichzeitig Fairness über Zeitschritte hinweg (entsprechend verschiedenen Benutzern/Patienten) gewährleisten? Das traditionelle durchschnittliche Bedauern konzentriert sich nur auf den Gesamtnutzen und kann dazu führen, dass bestimmte Zeitschritte extrem niedrige Belohnungen erhalten, was Fairnessgarantien fehlt.
Bedeutung: In Anwendungsszenarien wie klinischen Studien und Ressourcenallokation entspricht jeder Zeitschritt einem unabhängigen Individuum (z. B. einem Patienten). Die ausschließliche Optimierung des durchschnittlichen Nutzens kann zu unfairer Behandlung einiger Individuen führen, was ethisch und gesellschaftlich inakzeptabel ist.
Einschränkungen bestehender Methoden:
Barman et al. (2023) schlagen den Nash Confidence Bound (NCB)-Algorithmus vor, der jedoch von multiplikativen Hoeffding/Chernoff-Grenzen abhängt, begrenzte und nicht-negative Belohnungen erfordert, nicht auf allgemeine Verteilungen wie Gaußsche anwendbar ist und implizit eine Obergrenze für μ* benötigt
Krishna et al. (2025) untersuchen p-Mittel-Bedauern, erfordern aber, dass die erwartete Belohnung jedes Arms mindestens Ω̃(√k/T^(1/4)) beträgt – eine äußerst strenge Annahme, die viele praktische Szenarien ausschließt und bei bestimmten p-Werten suboptimale Bedauerungsgrenzen liefert
Forschungsmotivation: Entwicklung eines universellen Rahmens, der mit dem klassischen UCB-Algorithmus Fairnessziele erreicht, ohne spezialisierte Konfidenzgrenzen zu benötigen, und auf allgemeine subgaussische Verteilungen anwendbar ist, ohne unrealistische Annahmen über unbekannte Mittelwerte.
Reduktionsrahmen: Vorschlag eines Rahmens zur Reduktion der Nash/p-Mittel-Bedauerungsminimierung auf kurzzeitige datengesteuerte gleichmäßige Exploration + Standard-Bandit-Algorithmen (wie UCB), wobei die Schlüsselinnovation eine datengesteuerte Stoppregeln ist
Algorithmusdesign: Entwurf des Welfarist-UCB-Algorithmus durch eine zweiphasige Strategie:
Phase I: Gleichmäßige Exploration bis zur Erfüllung einer adaptiven Abbruchbedingung
Phase II: Exploration-Ausbeutung mit Standard-UCB-Index
Theoretische Garantien:
Für Nash-Bedauern (p=0): Erreicht die order-optimale Grenze Õ(σ√(k/T)), anwendbar auf σ-subgaussische Belohnungen
Für p∈0,1: Erreicht die order-optimale Grenze Õ(σ√(k/T))
Für p∈[-1,0): Erreicht Õ(k/√T), besser als Krishnas Õ(k^(3/4)T^(-1/4))
Für p<-1: Erreicht Õ(|p|k^((|p|+1)/2)/√T), streng besser als frühere Arbeiten in praktisch relevanten T-Bereichen
Technische Innovationen: Verwendung additiver Hoeffding-Grenzen statt multiplikativer Grenzen, Vermeidung strenger Beschränkungen auf Belohnungsverteilungen und Verzicht auf Obergrenze für μ*
Experimentelle Validierung: Numerische Simulationen validieren die Algorithmuseffektivität über verschiedene p-Werte und zeigen das "No-Free-Lunch"-Prinzip: Stärkere Fairnessanforderungen führen zu höherem Bedauern
k Arms mit Belohnungsverteilungen ρᵢ für jeden Arm i, die σ-subgaussisch mit Mittelwert μᵢ≥0 (unbekannt) sind
Zeitbereich T
Fairness-Parameter p∈(-∞,1]
Ausgabe: Für jede Runde t∈T ausgewählter Arm Iₜ
Ziel: Minimierung des p-Mittel-Bedauerns
RTp:=μ∗−(T1∑t=1T(E[μIt])p)1/p
wobei μ*=maxᵢμᵢ. Insbesondere entspricht p=0 Nash-Bedauern (geometrisches Mittel).
Innovation: Der Nenner in der Abbruchbedingung (μ^i−2ni2σ2logT)2 stellt sicher, dass Phase I nach Θ(1/(μ*)²) Runden endet, nicht nach festem Θ(√T) oder Θ(1/μ*).
Begründung:
Wenn μ* groß ist, ist weniger Exploration erforderlich, um gute Arms zu identifizieren
Wenn μ* klein ist, ist mehr Exploration erforderlich, um Unterschiede zwischen Arms zu unterscheiden
Diese Adaptivität stellt sicher, dass für jeden gezogenen Arm i ξi:=μ∗ni22σ2logT≤1/2 gilt, was entscheidend für die Kontrolle des Nash-Bedauerns ist
Schlüsselbeobachtung: Die Permutationsstichproben-Strategie in Phase I ist in der Randverteilung äquivalent zu unabhängiger gleichmäßiger Stichprobennahme in jeder Runde, d.h. PrIₜ=i=1/k, daher 𝔼μ_{Iₜ}≥μ*/k.
Technische Bedeutung: Diese statische Kopplung vereinfacht die Analyse von Phase I und ermöglicht die direkte Verwendung von Eigenschaften der gleichmäßigen Stichprobennahme.
Praktische Effektivität: Welfarist-UCB zeigt überlegene praktische Leistung in allen Testszenarien
Verteilungsrobustheit: Der Algorithmus ist für verschiedene Belohnungsverteilungen (Bernoulli, Gaußsch) effektiv, validiert die breite Anwendbarkeit der Theorie
Fairness-Nutzen-Abwägung: Experimente zeigen deutlich die Abwägungsbeziehung zwischen Fairness-Parameter p und Bedauern und bieten Orientierung für die Wahl geeigneter p-Werte in praktischen Anwendungen
Konvergenzgeschwindigkeit: In allen p-Wert-Intervallen entspricht die Bedauerungsabnahmerate von Welfarist-UCB den theoretischen Vorhersagen und ist besser als bestehende Methoden
Theoretischer Beitrag: Zeigt, dass der klassische UCB-Algorithmus in Kombination mit datengesteuerter Exploration nahezu optimale Fairnessgarantien erreichen kann, ohne spezialisierte Konfidenzgrenzen zu benötigen
Praktische Bedeutung: Macht fairnessgesteuerte sequenzielle Entscheidungsfindung praktischer und breiter anwendbar, besonders in Szenarien mit allgemeinen Verteilungen (wie Gaußsche)
"No-Free-Lunch"-Prinzip: Strengere Fairnessanforderungen erhöhen grundsätzlich die Schwierigkeit des Lernproblems und erfordern mehr Stichproben für niedriges Bedauern
Ressourcenallokation: Online-Verteilung begrenzter Ressourcen (wie Rechenressourcen, Werbeplätze) an verschiedene Benutzer, Ausgleich zwischen Effizienz und Fairness
Empfehlungssysteme: Empfehlung von Inhalten an Benutzer zu verschiedenen Zeiten, Vermeidung extremer Benutzererfahrung in bestimmten Zeiträumen
A/B-Tests: Produkttests mit Berücksichtigung des Wohlbefindens der Teilnehmer, nicht nur Durchschnittskennzahlen
Bildungsressourcenverteilung: Verteilung von Bildungsressourcen an Schüler verschiedener Kohorten, Gewährleistung von Fairness über Kohorten hinweg
Nicht anwendbare Szenarien:
Anwendungen, die extreme Rawlsian-Fairness (p→-∞) kurzfristig erfordern (theoretische Grenze wird leer)
Szenarien mit schwerschwänzigen oder nicht-subgaussischen Belohnungsverteilungen
Anwendungen, in denen μᵢ signifikant negativ sein kann
Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - Führt erstmals Nash-Bedauern ein
Krishna et al. (2025): "p-mean regret for stochastic bandits" - Untersucht allgemeines p-Mittel-Bedauern
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - Klassisches MAB-Lehrbuch
Moulin (2004): "Fair division and collective welfare" - Axiomatische Grundlagen der p-Mittel-Wohlfahrt
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - Nash-Bedauern in linearen Bandits
Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Machine-Learning-Papier, das wichtige Beiträge zum Forschungsgebiet fairnessgesteuerter Bandit-Algorithmen leistet. Durch raffiniertes Algorithmusdesign und strenge theoretische Analyse wird die Effektivität einfacher Methoden (UCB) bei komplexen Zielen (Fairness) nachgewiesen. Die theoretischen Ergebnisse sind kraftvoll, experimentelle Validierung ausreichend, mit signifikanten Auswirkungen auf das Forschungsgebiet. Hauptmängel sind fehlende Validierung mit echten Daten und bestimmte theoretische Lücken (wie untere Grenzen für p<-1). Empfohlene zukünftige Arbeiten sollten sich auf praktische Anwendungsvalidierung und theoretische Verbesserung konzentrieren.