2025-11-24T01:22:17.846878

Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need

Sarkar, Pandey, Chowdhury

Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms. To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.

academic

Grundinformationen

Papier-ID: 2510.21312
Titel: Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Autoren: Dhruv Sarkar (IIT Kharagpur), Nishant Pandey (IIT Kanpur), Sayak Ray Chowdhury (IIT Kanpur)
Klassifizierung: cs.LG (Machine Learning)
Veröffentlichungsdatum: 24. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.21312
Code-Link: https://github.com/NP-Hardest/UCBisAllYouNeed

Zusammenfassung

Dieses Papier untersucht Fairnessfragen im Problem der Multi-Armed Bandits (MAB). Traditionelle Bedauerungsmetriken (Regret) basieren auf arithmetischen Mittelwerten und können keine Fairness über Benutzer hinweg garantieren. Um dieses Problem zu lösen, hat die Forschungsgemeinde die auf geometrischen Mittelwerten basierende Nash-Bedauerungsmetrik eingeführt. Allerdings erfordern bestehende Methoden zur Minimierung von Nash-Bedauern spezialisierte Algorithmusdesigns und starke Annahmen (wie multiplikative Konzentrationsungleichungen, begrenzte nicht-negative Belohnungen) und sind nicht auf Gaußsche Verteilungen anwendbar. Dieses Papier zeigt, dass durch eine datengesteuerte anfängliche gleichmäßige Explorationsphase in Kombination mit dem Standard-UCB-Algorithmus nahezu optimales Nash-Bedauern erreicht werden kann, wobei nur additive Hoeffding-Grenzen erforderlich sind, die sich natürlich auf subgaussische Belohnungen erweitern. Darüber hinaus verallgemeinert das Papier den Algorithmus auf p-Mittel-Bedauern, eine breite Klasse von Fairnessmaßen, und beweist (nahezu) optimale Bedauerungsgrenzen für alle p-Werte ohne die strengen Annahmen früherer Arbeiten.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Wie kann man im Multi-Armed-Bandit-Problem kumulative Belohnungen maximieren und gleichzeitig Fairness über Zeitschritte hinweg (entsprechend verschiedenen Benutzern/Patienten) gewährleisten? Das traditionelle durchschnittliche Bedauern konzentriert sich nur auf den Gesamtnutzen und kann dazu führen, dass bestimmte Zeitschritte extrem niedrige Belohnungen erhalten, was Fairnessgarantien fehlt.
Bedeutung: In Anwendungsszenarien wie klinischen Studien und Ressourcenallokation entspricht jeder Zeitschritt einem unabhängigen Individuum (z. B. einem Patienten). Die ausschließliche Optimierung des durchschnittlichen Nutzens kann zu unfairer Behandlung einiger Individuen führen, was ethisch und gesellschaftlich inakzeptabel ist.
Einschränkungen bestehender Methoden:
- Barman et al. (2023) schlagen den Nash Confidence Bound (NCB)-Algorithmus vor, der jedoch von multiplikativen Hoeffding/Chernoff-Grenzen abhängt, begrenzte und nicht-negative Belohnungen erfordert, nicht auf allgemeine Verteilungen wie Gaußsche anwendbar ist und implizit eine Obergrenze für μ* benötigt
- Krishna et al. (2025) untersuchen p-Mittel-Bedauern, erfordern aber, dass die erwartete Belohnung jedes Arms mindestens Ω̃(√k/T^(1/4)) beträgt – eine äußerst strenge Annahme, die viele praktische Szenarien ausschließt und bei bestimmten p-Werten suboptimale Bedauerungsgrenzen liefert
Forschungsmotivation: Entwicklung eines universellen Rahmens, der mit dem klassischen UCB-Algorithmus Fairnessziele erreicht, ohne spezialisierte Konfidenzgrenzen zu benötigen, und auf allgemeine subgaussische Verteilungen anwendbar ist, ohne unrealistische Annahmen über unbekannte Mittelwerte.

Kernbeiträge

Reduktionsrahmen: Vorschlag eines Rahmens zur Reduktion der Nash/p-Mittel-Bedauerungsminimierung auf kurzzeitige datengesteuerte gleichmäßige Exploration + Standard-Bandit-Algorithmen (wie UCB), wobei die Schlüsselinnovation eine datengesteuerte Stoppregeln ist
Algorithmusdesign: Entwurf des Welfarist-UCB-Algorithmus durch eine zweiphasige Strategie:
- Phase I: Gleichmäßige Exploration bis zur Erfüllung einer adaptiven Abbruchbedingung
- Phase II: Exploration-Ausbeutung mit Standard-UCB-Index
Theoretische Garantien:
- Für Nash-Bedauern (p=0): Erreicht die order-optimale Grenze Õ(σ√(k/T)), anwendbar auf σ-subgaussische Belohnungen
- Für p∈0,1: Erreicht die order-optimale Grenze Õ(σ√(k/T))
- Für p∈[-1,0): Erreicht Õ(k/√T), besser als Krishnas Õ(k^(3/4)T^(-1/4))
- Für p<-1: Erreicht Õ(|p|k^((|p|+1)/2)/√T), streng besser als frühere Arbeiten in praktisch relevanten T-Bereichen
Technische Innovationen: Verwendung additiver Hoeffding-Grenzen statt multiplikativer Grenzen, Vermeidung strenger Beschränkungen auf Belohnungsverteilungen und Verzicht auf Obergrenze für μ*
Experimentelle Validierung: Numerische Simulationen validieren die Algorithmuseffektivität über verschiedene p-Werte und zeigen das "No-Free-Lunch"-Prinzip: Stärkere Fairnessanforderungen führen zu höherem Bedauern

Methodische Details

Aufgabendefinition

Eingabe:

k Arms mit Belohnungsverteilungen ρᵢ für jeden Arm i, die σ-subgaussisch mit Mittelwert μᵢ≥0 (unbekannt) sind
Zeitbereich T
Fairness-Parameter p∈(-∞,1]

Ausgabe: Für jede Runde t∈T ausgewählter Arm Iₜ

Ziel: Minimierung des p-Mittel-Bedauerns $R^p_T := \mu^* - \left(\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p\right)^{1/p}$ wobei μ*=maxᵢμᵢ. Insbesondere entspricht p=0 Nash-Bedauern (geometrisches Mittel).

Modellarchitektur

Phase I: Datengesteuerte gleichmäßige Exploration

Explorationsstrategie:

Jede k Schritte bilden einen Block
Zu Beginn jedes Blocks wird eine gleichmäßig zufällige Permutation π∈Πₖ der Arms gezogen
Arms werden in der Reihenfolge π(1), π(2), ..., π(k) nacheinander gezogen

Abbruchbedingung: Phase I endet, wenn es einen Arm i gibt, der beide Bedingungen erfüllt:

$\hat{\mu}_i > 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$
$n_i > \frac{192p_a^2\sigma^2\log T}{(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2}$

wobei:

nᵢ: Anzahl der Züge von Arm i
μ̂ᵢ: Empirischer Mittelwert der beobachteten Belohnungen von Arm i
pₐ = 1 (wenn p≥-1), pₐ = p (wenn p<-1)

Schlüsseleigenschaft (Lemma 4.1): Unter einem hochwahrscheinlichen Ereignis E dauert Phase I τ Schritte, wobei $32kS \leq \tau \leq 128kS$ mit $S = \frac{4p_a^2\sigma^2\log T}{(\mu^*)^2}$

Dies bedeutet, dass jeder Arm Θ(1/(μ*)²) mal gezogen wird, was für die nachfolgende Analyse entscheidend ist.

Phase II: UCB-Exploration-Ausbeutung

Verwendung des Standard-UCB-Index: $\text{UCB}_i = \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$

In jeder Runde wird der Arm mit dem höchsten UCB-Wert ausgewählt.

Technische Innovationspunkte

1. Design der datengesteuerten Abbruchbedingung

Innovation: Der Nenner in der Abbruchbedingung $(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2$ stellt sicher, dass Phase I nach Θ(1/(μ*)²) Runden endet, nicht nach festem Θ(√T) oder Θ(1/μ*).

Begründung:

Wenn μ* groß ist, ist weniger Exploration erforderlich, um gute Arms zu identifizieren
Wenn μ* klein ist, ist mehr Exploration erforderlich, um Unterschiede zwischen Arms zu unterscheiden
Diese Adaptivität stellt sicher, dass für jeden gezogenen Arm i $\xi_i := \frac{2\sqrt{2\sigma^2\log T}}{\mu^*\sqrt{n_i}} \leq 1/2$ gilt, was entscheidend für die Kontrolle des Nash-Bedauerns ist

2. Verwendung additiver Hoeffding-Grenzen

Vergleich mit NCB:

NCB: Bedingt auf das Ereignis $\{\forall i, \mu_i \in [\hat{\mu}_i - 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}, \hat{\mu}_i + 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}]\}$ , benötigt multiplikative Hoeffding-Grenzen
Dieses Papier: Bedingt auf das Ereignis $\{\forall i, \mu_i \in [\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}}, \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}]\}$ , benötigt nur additive Hoeffding-Grenzen

Vorteile:

Additive Grenzen gelten für beliebige subgaussische Verteilungen (einschließlich Gaußsche, begrenzte, etc.)
Belohnungen müssen nicht streng nicht-negativ oder begrenzt sein
Keine vorherige Kenntnis einer Obergrenze für μ* erforderlich

3. Äquivalenz der Permutationsstichprobennahme (Lemma B.3)

Schlüsselbeobachtung: Die Permutationsstichproben-Strategie in Phase I ist in der Randverteilung äquivalent zu unabhängiger gleichmäßiger Stichprobennahme in jeder Runde, d.h. PrIₜ=i=1/k, daher 𝔼μ_{Iₜ}≥μ*/k.

Technische Bedeutung: Diese statische Kopplung vereinfacht die Analyse von Phase I und ermöglicht die direkte Verwendung von Eigenschaften der gleichmäßigen Stichprobennahme.

Experimentelles Setup

Datensätze

Dieses Papier verwendet synthetische Daten für numerische Simulationen:

Bernoulli-Arms: k=50 Arms mit Mittelwerten, die gleichmäßig zufällig aus 0.005, 1 gezogen werden
Gaußsche Arms: k=50 Arms mit Mittelwerten, die gleichmäßig zufällig aus 10, 1000 gezogen werden, Standardabweichung σ=20

Bewertungsmetriken

Nash-Bedauern (p=0): $\mu^* - (\prod_{t=1}^T \mathbb{E}[\mu_{I_t}])^{1/T}$
p-Mittel-Bedauern: $\mu^* - (\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p)^{1/p}$

𝔼μ_{Iₜ} wird durch durchschnittliche Belohnungen über 50 Läufe geschätzt.

Vergleichsmethoden

NCB (Barman et al., 2023): Verwendung des Nash Confidence Bound-Index
Explore-then-UCB (Krishna et al., 2025): UCB nach fester Explorationsphase

Implementierungsdetails

Zeitbereich T wird schrittweise von kleineren zu größeren Werten erhöht
Tests für verschiedene p-Werte (p=0.5, 0, -0.5, -1.5)
Alle Experimente sind über das bereitgestellte Code-Repository reproduzierbar

Experimentelle Ergebnisse

Hauptergebnisse

1. Nash-Bedauern (p=0)

Bernoulli-Belohnungen (Abbildung 1a):

Das Nash-Bedauern von Welfarist-UCB sinkt deutlich schneller als NCB mit zunehmendem T
Validiert die theoretische Konvergenzrate Õ(√(k/T))

Subgaussische Belohnungen (Abbildung 1b):

Welfarist-UCB kann Nash-Bedauern unter Gaußscher Verteilung effektiv minimieren
NCB zeigt in dieser Einstellung schlechtere Leistung, validiert die Anwendbarkeit der Methode auf allgemeine Verteilungen

2. p-Mittel-Bedauern in drei Intervallen

p=0.5 (0<p≤1) (Abbildung 1c):

Welfarist-UCB ist bei allen T-Werten Explore-then-UCB überlegen
Bedauerungsabnahmerate entspricht der theoretisch vorhergesagten Õ(√(k/T))

p=-0.5 (-1<p<0) (Abbildung 1d):

Welfarist-UCB ist deutlich besser als Explore-then-UCB
Validiert, dass Õ(k/√T) besser ist als Krishnas Õ(k^(3/4)T^(-1/4))

p=-1.5 (p≤-1) (Abbildung 1e):

Strengere Fairnessanforderungen führen zu höherem Bedauern
Welfarist-UCB ist immer noch besser als Baseline-Methoden

3. Ablationsstudie: Einfluss des p-Wertes (Abbildung 1f)

Schlüsselfunde:

Mit sinkendem p (verstärkte Fairnessanforderungen) steigt das p-Mittel-Bedauern kontinuierlich
Validiert die "No-Free-Lunch"-Hypothese: Stärkere Fairness mit höherem Bedauern erkauft
Wenn p→-∞ (Rawlsian-Fairness), wird die Bedauerungsgrenze leer, was zeigt, dass extreme Fairness kurzfristig nicht erreichbar ist

Experimentelle Erkenntnisse

Praktische Effektivität: Welfarist-UCB zeigt überlegene praktische Leistung in allen Testszenarien
Verteilungsrobustheit: Der Algorithmus ist für verschiedene Belohnungsverteilungen (Bernoulli, Gaußsch) effektiv, validiert die breite Anwendbarkeit der Theorie
Fairness-Nutzen-Abwägung: Experimente zeigen deutlich die Abwägungsbeziehung zwischen Fairness-Parameter p und Bedauern und bieten Orientierung für die Wahl geeigneter p-Werte in praktischen Anwendungen
Konvergenzgeschwindigkeit: In allen p-Wert-Intervallen entspricht die Bedauerungsabnahmerate von Welfarist-UCB den theoretischen Vorhersagen und ist besser als bestehende Methoden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Zeigt, dass der klassische UCB-Algorithmus in Kombination mit datengesteuerter Exploration nahezu optimale Fairnessgarantien erreichen kann, ohne spezialisierte Konfidenzgrenzen zu benötigen
Praktische Bedeutung: Macht fairnessgesteuerte sequenzielle Entscheidungsfindung praktischer und breiter anwendbar, besonders in Szenarien mit allgemeinen Verteilungen (wie Gaußsche)
"No-Free-Lunch"-Prinzip: Strengere Fairnessanforderungen erhöhen grundsätzlich die Schwierigkeit des Lernproblems und erfordern mehr Stichproben für niedriges Bedauern

Einschränkungen

Annahmeeinschränkungen:
- Benötigt immer noch die Annahme μᵢ≥0 (obwohl Standard, kann in einigen Anwendungen einschränkend sein)
- Subgaussische Annahme kann nicht auf schwerschwänzige Verteilungen anwendbar sein
Grenzen für p<-1:
- Bedauerungsgrenze wächst exponentiell mit |p|, wenn T≤p²k^|p| wird die Grenze leer
- Obwohl besser als frühere Arbeiten in praktisch relevanten T-Bereichen, gibt es noch Verbesserungspotenzial
Fehlende untere Grenzen:
- Keine passenden unteren Grenzen für p<-1-Intervall bewiesen
- Kann nicht bestätigen, ob aktuelle obere Grenzen eng sind
Experimentelle Skalierung:
- Experimente hauptsächlich bei mittlerer Skalierung (k=50) durchgeführt
- Leistung bei großer Skalierung (k≫50) nicht ausreichend erforscht

Zukünftige Richtungen

Theoretische Verbesserung:
- Beweis passender unterer Grenzen für p<-1, Formalisierung des "No-Free-Lunch"-Prinzips
- Erkundung weiterer Verbesserungen der oberen Grenzen für p<-1
Annahmelockerung:
- Untersuchung der Behandlung von Fällen, in denen μᵢ signifikant negativ sein kann
- Erweiterung auf schwerschwänzige oder andere nicht-subgaussische Verteilungen
Algorithmuserweiterung:
- Verallgemeinerung auf kontextuelle Bandits oder Reinforcement-Learning-Einstellungen
- Kombination mit anderen Fairness-Konzepten (wie individuelle Fairness)
Praktische Anwendungen:
- Validierung in echten klinischen Studien oder Ressourcenallokationsszenarien
- Entwicklung von Methoden zur adaptiven Auswahl des p-Wertes
Rechnerische Effizienz:
- Überprüfung der Abbruchbedingung in Phase I kann rechnerisch intensiv sein, Erkundung effizienterer Implementierungen

Tiefgreifende Bewertung

Stärken

Starke theoretische Innovation:
- Das Design der datengesteuerten Abbruchbedingung ist raffiniert und löst das Versagen von UCB bei der Nash-Bedauerungsminimierung
- Die Verwendung additiver statt multiplikativer Hoeffding-Grenzen ist ein Schlüsseldurchbruch, der die Anwendbarkeit erheblich erweitert
- Der einheitliche Rahmen zur Behandlung aller p-Werte ist elegant und kraftvoll
Ausreichende experimentelle Validierung:
- Abdeckung mehrerer p-Wert-Intervalle (p>0, p=0, -1<p<0, p<-1)
- Vergleich mit mehreren Baseline-Methoden (NCB, Explore-then-UCB)
- Einschluss von Ablationsstudien zur Validierung der "No-Free-Lunch"-Hypothese
Überzeugungskraft der Ergebnisse:
- Theoretische Grenzen sind in den meisten Fällen order-optimal oder nahezu optimal
- Experimentelle Ergebnisse stimmen stark mit theoretischen Vorhersagen überein
- Strenge mathematische Beweise mit klarer Logik in technischen Lemmata (wie Lemma 4.1, 4.2)
Klarheit der Darstellung:
- Motivation ist klar dargelegt, Problemdefinition präzise
- Beweistechniken (Abschnitt 4) bieten intuitive Erklärungen
- Detaillierte und faire Vergleiche mit früheren Arbeiten (Bemerkungen 3.1, 3.2, 3.3)
Reproduzierbarkeit:
- Vollständiges Code-Repository bereitgestellt
- Algorithmus-Pseudocode ist klar (Algorithmus 1)
- Experimentelles Setup detailliert beschrieben

Schwächen

Methodische Einschränkungen:
- Die Annahme μᵢ≥0 ist in einigen Anwendungen restriktiv (obwohl Bemerkung 2.1 eine angemessene Rechtfertigung bietet)
- Die Abbruchbedingung in Phase I beinhaltet p²-Term, bei großem |p| kann dies zu längerer Explorationsphase führen
- Grenzen für p<-1 sind nicht so eng wie in anderen Intervallen
Experimentelle Mängel:
- Nur synthetische Daten verwendet, Validierung mit echten Datensätzen fehlt
- Skalierung von k=50 ist relativ klein, Leistung in großen Szenarien (k=1000+) unbekannt
- Einfluss von σ-Wertänderungen auf Algorithmusleistung nicht erforscht
Unzureichende Analyse:
- Keine experimentelle Statistik der tatsächlichen Phase-I-Abbruchzeit (theoretische Grenze ist 32kS bis 128kS, wie ist die tatsächliche Verteilung?)
- Rechenkomplexität nicht diskutiert (besonders Überprüfung der Abbruchbedingung)
- Analyse des Algorithmusverhaltens unter verschiedenen μ*-Werten nicht ausreichend tiefgreifend
Theoretische Lücken:
- Fehlende untere Grenzen für p<-1, kann Engheit der oberen Grenzen nicht beurteilen
- Nicht erforscht, wie σ² gewählt wird, wenn μ* unbekannt ist (Algorithmus benötigt σ² als Eingabe)
- Notwendigkeit des log k-Faktors in Nash-Bedauerungsgrenze nicht ausreichend diskutiert

Auswirkungen

Beitrag zum Forschungsgebiet:
- Erhebliche Fortschritte in der theoretischen Verständnis fairnessgesteuerter Bandit-Algorithmen
- Zeigt die Anwendbarkeit klassischer Algorithmen (UCB) auf neue Probleme, ermutigt zur Neubewertung einfacher Methoden
- Bietet solide theoretische Grundlagen für die Anwendung von p-Mittel-Wohlfahrt im Online-Lernen
Praktischer Wert:
- Algorithmus ist einfach, leicht zu implementieren und bereitzustellen
- Anwendbar auf breite Verteilungsklassen, erhöht praktisches Anwendungspotenzial
- Bietet quantitative Charakterisierung der Fairness-Nutzen-Abwägung, leitet p-Wahl in der Praxis
Reproduzierbarkeit:
- Code ist Open-Source, Algorithmusbeschreibung ist klar
- Theoretische Beweise sind vollständig, technische Lemmata können für nachfolgende Arbeiten referenziert werden
- Experimentelles Setup ist standardisiert, leicht zu reproduzieren und zu erweitern
Inspirationswert:
- Die Entdeckung des "No-Free-Lunch"-Prinzips bietet tiefe Einsichten
- Die Idee der datengesteuerten Exploration kann andere Bandit-Varianten inspirieren
- Die Diskussion additiver vs. multiplikativer Konzentrationsungleichungen hat methodologische Bedeutung für Algorithmusdesign

Anwendungsszenarien

Klinische Studien: Erfordern Exploration wirksamer Behandlungsmethoden bei gleichzeitiger fairer Behandlung jedes Patienten
Ressourcenallokation: Online-Verteilung begrenzter Ressourcen (wie Rechenressourcen, Werbeplätze) an verschiedene Benutzer, Ausgleich zwischen Effizienz und Fairness
Empfehlungssysteme: Empfehlung von Inhalten an Benutzer zu verschiedenen Zeiten, Vermeidung extremer Benutzererfahrung in bestimmten Zeiträumen
A/B-Tests: Produkttests mit Berücksichtigung des Wohlbefindens der Teilnehmer, nicht nur Durchschnittskennzahlen
Bildungsressourcenverteilung: Verteilung von Bildungsressourcen an Schüler verschiedener Kohorten, Gewährleistung von Fairness über Kohorten hinweg

Nicht anwendbare Szenarien:

Anwendungen, die extreme Rawlsian-Fairness (p→-∞) kurzfristig erfordern (theoretische Grenze wird leer)
Szenarien mit schwerschwänzigen oder nicht-subgaussischen Belohnungsverteilungen
Anwendungen, in denen μᵢ signifikant negativ sein kann

Ausgewählte Referenzen

Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - Führt erstmals Nash-Bedauern ein
Krishna et al. (2025): "p-mean regret for stochastic bandits" - Untersucht allgemeines p-Mittel-Bedauern
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - Klassisches MAB-Lehrbuch
Moulin (2004): "Fair division and collective welfare" - Axiomatische Grundlagen der p-Mittel-Wohlfahrt
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - Nash-Bedauern in linearen Bandits

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Machine-Learning-Papier, das wichtige Beiträge zum Forschungsgebiet fairnessgesteuerter Bandit-Algorithmen leistet. Durch raffiniertes Algorithmusdesign und strenge theoretische Analyse wird die Effektivität einfacher Methoden (UCB) bei komplexen Zielen (Fairness) nachgewiesen. Die theoretischen Ergebnisse sind kraftvoll, experimentelle Validierung ausreichend, mit signifikanten Auswirkungen auf das Forschungsgebiet. Hauptmängel sind fehlende Validierung mit echten Daten und bestimmte theoretische Lücken (wie untere Grenzen für p<-1). Empfohlene zukünftige Arbeiten sollten sich auf praktische Anwendungsvalidierung und theoretische Verbesserung konzentrieren.