2025-11-24T01:22:17.846878

Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need

Sarkar, Pandey, Chowdhury

Regret in stochastic multi-armed bandits traditionally measures the difference between the highest reward and either the arithmetic mean of accumulated rewards or the final reward. These conventional metrics often fail to address fairness among agents receiving rewards, particularly in settings where rewards are distributed across a population, such as patients in clinical trials. To address this, a recent body of work has introduced Nash regret, which evaluates performance via the geometric mean of accumulated rewards, aligning with the Nash social welfare function known for satisfying fairness axioms. To minimize Nash regret, existing approaches require specialized algorithm designs and strong assumptions, such as multiplicative concentration inequalities and bounded, non-negative rewards, making them unsuitable for even Gaussian reward distributions. We demonstrate that an initial uniform exploration phase followed by a standard Upper Confidence Bound (UCB) algorithm achieves near-optimal Nash regret, while relying only on additive Hoeffding bounds, and naturally extending to sub-Gaussian rewards. Furthermore, we generalize the algorithm to a broad class of fairness metrics called the $p$-mean regret, proving (nearly) optimal regret bounds uniformly across all $p$ values. This is in contrast to prior work, which made extremely restrictive assumptions on the bandit instances and even then achieved suboptimal regret bounds.

academic

Rivisitare il Benessere Sociale nei Banditi: UCB è (Quasi) Tutto Ciò di Cui Hai Bisogno

Informazioni Fondamentali

ID Articolo: 2510.21312
Titolo: Revisiting Social Welfare in Bandits: UCB is (Nearly) All You Need
Autori: Dhruv Sarkar (IIT Kharagpur), Nishant Pandey (IIT Kanpur), Sayak Ray Chowdhury (IIT Kanpur)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 24 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.21312
Link Codice: https://github.com/NP-Hardest/UCBisAllYouNeed

Riassunto

Questo articolo studia il problema dell'equità nei problemi dei banditi multi-braccio (Multi-Armed Bandits, MAB). La metrica tradizionale del rimpianto (regret) basata sulla media aritmetica non garantisce l'equità tra gli utenti. Per affrontare questo problema, la comunità scientifica ha introdotto la metrica del rimpianto di Nash (Nash regret) basata sulla media geometrica. Tuttavia, i metodi esistenti per minimizzare il rimpianto di Nash richiedono una progettazione algoritmica specializzata e ipotesi forti (come disuguaglianze di concentrazione moltiplicative, premi limitati e non negativi), e non si applicano nemmeno alle distribuzioni gaussiane. Questo articolo dimostra che, attraverso una fase di esplorazione uniforme iniziale adattiva ai dati, combinata con l'algoritmo UCB standard, è possibile ottenere un rimpianto di Nash quasi-ottimale, dipendendo solo dal limite additivo di Hoeffding, estendendosi naturalmente ai premi sub-gaussiani. Inoltre, l'articolo generalizza l'algoritmo alla categoria di misure di equità p-mean, dimostrando limiti di rimpianto (quasi) ottimali per tutti i valori di p, senza le ipotesi ristrittive dei lavori precedenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Nel problema dei banditi multi-braccio, come massimizzare il premio cumulativo garantendo al contempo l'equità tra i passi temporali (corrispondenti a diversi utenti/pazienti)? Il rimpianto medio tradizionale (Average Regret) si concentra solo sull'utilità complessiva, potendo portare a certi passi temporali che ricevono premi estremamente bassi, mancando di garanzie di equità.
Importanza: In scenari applicativi come i trial clinici e l'allocazione di risorse, ogni passo temporale corrisponde a un individuo indipendente (come un paziente). Ottimizzare solo l'utilità media potrebbe portare a un trattamento iniquo di alcuni individui, il che è inaccettabile sia dal punto di vista etico che del benessere sociale.
Limitazioni dei Metodi Esistenti:
- Barman et al. (2023) propone l'algoritmo Nash Confidence Bound (NCB), ma dipende da disuguaglianze di Hoeffding/Chernoff moltiplicative, richiedendo premi limitati e non negativi, non applicabile a distribuzioni generali come le gaussiane, e implicitamente richiede di conoscere un limite superiore di μ*
- Krishna et al. (2025) studia il rimpianto p-mean, ma richiede che il premio atteso di ogni braccio sia almeno Ω̃(√k/T^(1/4)), un'ipotesi estremamente ristrittiva che esclude molti scenari pratici, e il limite di rimpianto è sub-ottimale per certi valori di p
Motivazione della Ricerca: Sviluppare un framework generale che utilizzi l'algoritmo UCB classico per raggiungere obiettivi di equità, senza necessità di progettare limiti di confidenza specializzati, e applicabile a distribuzioni sub-gaussiane generali, senza ipotesi irrealistiche su medie sconosciute.

Contributi Principali

Framework di Riduzione: Propone di ridurre la minimizzazione del rimpianto Nash/p-mean a una breve esplorazione uniforme adattiva ai dati + algoritmo bandit standard (come UCB), con l'innovazione chiave di una regola di arresto adattiva ai dati
Progettazione Algoritmica: Progetta l'algoritmo Welfarist-UCB, attraverso una strategia a due fasi:
- Fase I: Esplorazione uniforme fino al soddisfacimento della condizione di terminazione adattiva
- Fase II: Esplorazione-sfruttamento utilizzando l'indice UCB standard
Garanzie Teoriche:
- Per rimpianto di Nash (p=0): raggiunge il limite order-optimal di Õ(σ√(k/T)), applicabile a premi σ-sub-gaussiani
- Per p∈0,1: raggiunge il limite order-optimal di Õ(σ√(k/T))
- Per p∈[-1,0): raggiunge Õ(k/√T), migliore di Õ(k^(3/4)T^(-1/4)) di Krishna et al.
- Per p<-1: raggiunge Õ(|p|k^((|p|+1)/2)/√T), strettamente migliore del lavoro precedente negli intervalli T praticamente rilevanti
Innovazione Tecnica: Utilizza il limite additivo di Hoeffding anziché il limite moltiplicativo, evitando restrizioni severe sulla distribuzione dei premi, e non richiede il limite superiore di μ*
Verifica Sperimentale: Attraverso simulazioni numeriche verifica l'efficacia dell'algoritmo per diversi valori di p, dimostrando il principio "no-free-lunch": requisiti di equità più forti portano a rimpianti più elevati

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input:

k bracci, dove ogni braccio i ha distribuzione di premio ρᵢ σ-sub-gaussiana, media μᵢ≥0 (sconosciuta)
Intervallo temporale T
Parametro di equità p∈(-∞,1]

Output: Braccio Iₜ selezionato per ogni round t∈T

Obiettivo: Minimizzare il rimpianto p-mean $R^p_T := \mu^* - \left(\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p\right)^{1/p}$ dove μ*=maxᵢμᵢ. In particolare, p=0 corrisponde al rimpianto di Nash (media geometrica).

Architettura del Modello

Fase I: Esplorazione Uniforme Adattiva ai Dati

Strategia di Esplorazione:

Ogni k passi costituiscono un blocco
All'inizio di ogni blocco, campionare uniformemente una permutazione π dei bracci da Πₖ
Tirare sequenzialmente i bracci nell'ordine π(1), π(2), ..., π(k)

Condizione di Terminazione: Terminare la Fase I quando esiste un braccio i che soddisfa entrambe le condizioni:

$\hat{\mu}_i > 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$
$n_i > \frac{192p_a^2\sigma^2\log T}{(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2}$

dove:

nᵢ: numero di volte che il braccio i è stato tirato
μ̂ᵢ: media empirica dei premi osservati del braccio i
pₐ = 1 (se p≥-1), pₐ = p (se p<-1)

Proprietà Chiave (Lemma 4.1): Nell'evento ad alta probabilità E, la durata della Fase I τ soddisfa $32kS \leq \tau \leq 128kS$ dove $S = \frac{4p_a^2\sigma^2\log T}{(\mu^*)^2}$

Questo significa che ogni braccio viene tirato Θ(1/(μ*)²) volte, il che è cruciale per l'analisi successiva.

Fase II: Esplorazione-Sfruttamento UCB

Utilizzare l'indice UCB standard: $\text{UCB}_i = \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}$

Ogni round selezionare il braccio con il valore UCB massimo.

Punti di Innovazione Tecnica

1. Progettazione della Condizione di Terminazione Adattiva ai Dati

Innovazione: Il denominatore nella condizione di terminazione $(\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}})^2$ assicura che la Fase I termini dopo Θ(1/(μ*)²) round, anziché un numero fisso di Θ(√T) o Θ(1/μ*) round.

Razionalità:

Quando μ* è grande, è necessaria meno esplorazione per identificare bracci buoni
Quando μ* è piccolo, è necessaria più esplorazione per distinguere le differenze tra bracci
Questa adattività assicura che nella Fase II, per qualsiasi braccio i tirato, si possa garantire che $\xi_i := \frac{2\sqrt{2\sigma^2\log T}}{\mu^*\sqrt{n_i}} \leq 1/2$ , il che è cruciale per controllare il rimpianto di Nash

2. Utilizzo del Limite Additivo di Hoeffding

Confronto con NCB:

NCB: Condizionato sull'evento $\{\forall i, \mu_i \in [\hat{\mu}_i - 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}, \hat{\mu}_i + 4\sqrt{\frac{\hat{\mu}_i\log T}{n_i}}]\}$ , richiede il limite di Hoeffding moltiplicativo
Questo Articolo: Condizionato sull'evento $\{\forall i, \mu_i \in [\hat{\mu}_i - 2\sqrt{\frac{2\sigma^2\log T}{n_i}}, \hat{\mu}_i + 2\sqrt{\frac{2\sigma^2\log T}{n_i}}]\}$ , richiede solo il limite additivo di Hoeffding

Vantaggi:

Il limite additivo si applica a qualsiasi distribuzione sub-gaussiana (incluse gaussiane, limitate, ecc.)
Non richiede che i premi siano strettamente non negativi o limitati
Non richiede di conoscere preventivamente il limite superiore di μ*

3. Equivalenza del Campionamento di Permutazioni (Lemma B.3)

Osservazione Chiave: La strategia di campionamento di permutazioni della Fase I è equivalente in distribuzione marginale al campionamento uniforme indipendente ad ogni round, cioè PrIₜ=i=1/k, quindi 𝔼μ_{Iₜ}≥μ*/k.

Significato Tecnico: Questo accoppiamento statico (static coupling) semplifica l'analisi della Fase I, permettendo di utilizzare direttamente le proprietà del campionamento uniforme.

Configurazione Sperimentale

Dataset

Questo articolo utilizza simulazioni numeriche con dati sintetici:

Bracci Bernoulli: k=50 bracci, medie campionate uniformemente da 0.005, 1
Bracci Gaussiani: k=50 bracci, medie campionate uniformemente da 10, 1000, deviazione standard σ=20

Metriche di Valutazione

Rimpianto di Nash (p=0): $\mu^* - (\prod_{t=1}^T \mathbb{E}[\mu_{I_t}])^{1/T}$
Rimpianto p-mean: $\mu^* - (\frac{1}{T}\sum_{t=1}^T (\mathbb{E}[\mu_{I_t}])^p)^{1/p}$

Stimare 𝔼μ_{Iₜ} attraverso la media dei premi su 50 esecuzioni.

Metodi di Confronto

NCB (Barman et al., 2023): Utilizzo dell'indice Nash Confidence Bound
Explore-then-UCB (Krishna et al., 2025): UCB dopo una fase di esplorazione fissa

Dettagli di Implementazione

Intervallo temporale T aumentato gradualmente da valori piccoli a valori grandi
Test separati per diversi valori di p (p=0.5, 0, -0.5, -1.5)
Tutti gli esperimenti sono riproducibili attraverso il repository di codice fornito

Risultati Sperimentali

Risultati Principali

1. Rimpianto di Nash (p=0)

Premi Bernoulli (Figura 1a):

Il rimpianto di Nash di Welfarist-UCB diminuisce significativamente più velocemente di NCB al crescere di T
Verifica il tasso di convergenza teorico di Õ(√(k/T))

Premi Sub-Gaussiani (Figura 1b):

Welfarist-UCB minimizza efficacemente il rimpianto di Nash anche con distribuzioni gaussiane
NCB mostra prestazioni inferiori in questo contesto, verificando l'applicabilità del metodo a distribuzioni generali

2. Rimpianto p-mean nei Tre Intervalli

p=0.5 (0<p≤1) (Figura 1c):

Welfarist-UCB supera Explore-then-UCB per tutti i valori di T
La velocità di diminuzione del rimpianto è conforme al tasso teorico previsto di Õ(√(k/T))

p=-0.5 (-1<p<0) (Figura 1d):

Welfarist-UCB supera significativamente Explore-then-UCB
Verifica che il limite di Õ(k/√T) è migliore di Õ(k^(3/4)T^(-1/4)) di Krishna et al.

p=-1.5 (p≤-1) (Figura 1e):

Requisiti di equità più ristretti portano a rimpianti più elevati
Welfarist-UCB rimane superiore ai metodi di base

3. Esperimento di Ablazione: Effetto del Valore di p (Figura 1f)

Scoperte Chiave:

Al diminuire di p (requisiti di equità più forti), il rimpianto p-mean aumenta continuamente
Verifica l'ipotesi "no-free-lunch": l'equità più forte comporta rimpianti più elevati
Quando p→-∞ (equità Rawlsiana), il limite di rimpianto diventa vuoto, indicando che l'equità estrema non è raggiungibile nel breve termine

Scoperte Sperimentali

Efficacia Pratica: Welfarist-UCB dimostra prestazioni superiori in tutti gli scenari testati
Robustezza Distributiva: L'algoritmo è efficace per diverse distribuzioni di premi (Bernoulli, gaussiana), verificando l'ampia applicabilità della teoria
Compromesso Equità-Utilità: L'esperimento dimostra chiaramente la relazione di compromesso tra il parametro di equità p e il rimpianto, fornendo indicazioni per la scelta di p appropriato nelle applicazioni pratiche
Velocità di Convergenza: Per tutti gli intervalli di p, la velocità di diminuzione del rimpianto di Welfarist-UCB è conforme alle previsioni teoriche e superiore ai metodi esistenti

Lavori Correlati

1. Equità nei Banditi Multi-Braccio

Diversi Concetti di Equità:

Equità dei Bracci (Joseph et al. 2016; Patil et al. 2021): Assicurare che diversi bracci siano trattati equamente
Equità Multi-Agente (Hossain et al. 2021; Jones et al. 2023): Distribuzione equa dei premi tra più agenti ad ogni estrazione
Focus di Questo Articolo: Equità nel Tempo, dove ogni passo temporale corrisponde a un individuo indipendente

2. Rimpianto di Nash

Barman et al. (2023):

Primo a proporre il concetto di rimpianto di Nash
Progetta l'algoritmo NCB, raggiungendo il limite di Õ(√(k/T))
Limitazioni: richiede disuguaglianze di concentrazione moltiplicative, limitato a premi limitati e non negativi

3. Benessere p-mean

Fondamenti Teorici (Moulin 2004):

La funzione p-mean è definita da cinque assiomi: anonimità, invarianza di scala, continuità, monotonicità, simmetria
Soddisfa il principio di trasferimento di Pigou-Dalton (quando p≤1)

Krishna et al. (2025):

Studia il rimpianto p-mean generale
Utilizza Explore-then-UCB
Limitazioni: richiede μᵢ≥Ω̃(√k/T^(1/4)), il limite di rimpianto è sub-ottimale in certi intervalli

4. Altre Direzioni Correlate

Rimpianto di Nash nei Banditi Lineari (Sawarni et al. 2024)
Massimizzazione Online del Benessere Sociale di Nash (Zhang et al. 2024)
Equità nell'Apprendimento per Rinforzo Multi-Agente (Mandal & Gan 2022)
Intersezione tra Privacy ed Equità (Sarkar et al. 2025): Framework DP-NCB

Vantaggi di Questo Articolo Rispetto ai Lavori Correlati

Ipotesi Più Deboli: Richiede solo μᵢ≥0 e sub-gaussianità, senza limiti inferiori su μᵢ o limitatezza dei premi
Limiti Migliori: Raggiunge Õ(k/√T) per p∈[-1,0), migliore di Õ(k^(3/4)T^(-1/4)) precedente
Framework Unificato: Un singolo algoritmo gestisce tutti i valori di p, senza necessità di progettare strategie diverse per p diversi
Semplicità Tecnica: Utilizza UCB standard e limite additivo di Hoeffding, evitando progettazioni specializzate complesse

Conclusioni e Discussione

Conclusioni Principali

Contributo Teorico: Dimostra che l'algoritmo UCB classico combinato con esplorazione adattiva ai dati può raggiungere garanzie di equità quasi-ottimali, senza necessità di progettare limiti di confidenza specializzati
Significato Pratico: Rende il processo decisionale sequenziale consapevole dell'equità più pratico e ampiamente applicabile, specialmente in scenari che richiedono la gestione di distribuzioni generali (come gaussiane)
Principio "No-Free-Lunch": Requisiti di equità più ristretti aumentano intrinsecamente la difficoltà del problema di apprendimento, richiedendo più campioni per raggiungere bassi rimpianti

Limitazioni

Restrizioni di Ipotesi:
- Richiede ancora l'ipotesi μᵢ≥0 (sebbene standard, potrebbe essere limitante in alcune applicazioni)
- L'ipotesi sub-gaussiana potrebbe non applicarsi a distribuzioni con code pesanti
Limite per p<-1:
- Il limite di rimpianto cresce esponenzialmente con |p|, il limite diventa vuoto quando T≤p²k^|p|
- Sebbene migliore del lavoro precedente negli intervalli T praticamente rilevanti, c'è ancora spazio per miglioramenti
Assenza di Limiti Inferiori:
- Mancano prove di limiti inferiori corrispondenti per l'intervallo p<-1
- Non è possibile determinare se i limiti superiori attuali sono stretti
Scala Sperimentale:
- Gli esperimenti sono principalmente condotti su scala media con k=50
- Le prestazioni in scenari su larga scala (k≫50) non sono sufficientemente esplorate

Direzioni Future

Perfezionamento Teorico:
- Provare limiti inferiori corrispondenti per p<-1, formalizzando il principio "no-free-lunch"
- Esplorare se il limite superiore per p<-1 può essere ulteriormente migliorato
Rilassamento di Ipotesi:
- Ricercare come gestire il caso in cui μᵢ può essere significativamente negativo
- Estendere a distribuzioni con code pesanti o altre distribuzioni non sub-gaussiane
Estensione Algoritmica:
- Generalizzare a impostazioni di bandit contestuale o apprendimento per rinforzo
- Combinare con altri concetti di equità (come equità individuale)
Applicazioni Pratiche:
- Verificare in scenari reali di trial clinici o allocazione di risorse
- Sviluppare metodi per selezionare adattivamente il valore di p
Efficienza Computazionale:
- Il controllo della condizione di terminazione della Fase I potrebbe essere computazionalmente intensivo, esplorare implementazioni più efficienti

Valutazione Approfondita

Punti di Forza

Forte Innovazione Teorica:
- La progettazione della condizione di terminazione adattiva ai dati è ingegnosa, risolvendo il fallimento di UCB nella minimizzazione del rimpianto di Nash
- L'utilizzo del limite additivo di Hoeffding anziché moltiplicativo è una svolta tecnica chiave, estendendo significativamente l'applicabilità
- Il framework che gestisce uniformemente tutti i valori di p è elegante e potente
Sufficienza Sperimentale:
- Copre più intervalli di p (p>0, p=0, -1<p<0, p<-1)
- Confronta con più metodi di base (NCB, Explore-then-UCB)
- Include esperimenti di ablazione verificando l'ipotesi "no-free-lunch"
Convincenza dei Risultati:
- I limiti teorici sono order-optimal o vicini all'ottimalità nella maggior parte dei casi
- I risultati sperimentali sono altamente coerenti con le previsioni teoriche
- Prove matematiche rigorose, i lemmi tecnici (come Lemma 4.1, 4.2) hanno logica chiara
Chiarezza della Scrittura:
- La motivazione è ben articolata, la definizione del problema è precisa
- La sezione sulle tecniche di prova (Sezione 4) fornisce spiegazioni intuitive
- Il confronto con i lavori precedenti è dettagliato e imparziale (Osservazioni 3.1, 3.2, 3.3)
Riproducibilità:
- Fornisce repository di codice completo
- Lo pseudocodice dell'algoritmo è chiaro (Algoritmo 1)
- La descrizione della configurazione sperimentale è dettagliata

Carenze

Limitazioni del Metodo:
- L'ipotesi μᵢ≥0 è piuttosto restrittiva in alcune applicazioni (sebbene l'Osservazione 2.1 fornisca una giustificazione ragionevole)
- La condizione di terminazione della Fase I coinvolge il termine p², quando |p| è grande potrebbe portare a una fase di esplorazione eccessivamente lunga
- Il limite per p<-1 non è altrettanto stretto come in altri intervalli
Difetti nella Configurazione Sperimentale:
- Utilizza solo dati sintetici, mancano verifiche su dataset reali
- La scala di k=50 è relativamente piccola, le prestazioni in scenari su larga scala (k=1000+) sono sconosciute
- Non esplora l'effetto delle variazioni del valore σ sulle prestazioni dell'algoritmo
Analisi Insufficiente:
- Mancano statistiche sul tempo di terminazione effettivo della Fase I (il limite teorico è 32kS a 128kS, ma come è la distribuzione effettiva?)
- Non discute la complessità computazionale dell'algoritmo (specialmente il controllo della condizione di terminazione)
- L'analisi del comportamento dell'algoritmo sotto diversi valori di μ* non è sufficientemente approfondita
Vuoti Teorici:
- Mancano limiti inferiori per p<-1, impossibile giudicare la stretta dei limiti superiori
- Non esplora come scegliere σ² quando μ* è sconosciuto (l'algoritmo richiede σ² come input)
- La necessità del fattore log k nel limite del rimpianto di Nash non è sufficientemente discussa

Impatto

Contributo al Campo:
- Avanza significativamente la comprensione teorica degli algoritmi di bandit consapevoli dell'equità
- Dimostra l'applicabilità di algoritmi classici (UCB) a nuovi problemi, incoraggiando la riconsiderazione di metodi semplici
- Fornisce una base teorica solida per l'applicazione del benessere p-mean nell'apprendimento online
Valore Pratico:
- L'algoritmo è semplice, facile da implementare e distribuire
- Applicabile a un'ampia gamma di tipi di distribuzione, aumentando il potenziale di applicazione pratica
- Fornisce una caratterizzazione quantitativa del compromesso equità-utilità, guidando la scelta del valore di p nella pratica
Riproducibilità:
- Il codice è open source, la descrizione dell'algoritmo è chiara
- La prova teorica è completa, i lemmi tecnici possono servire come riferimento per ricerche future
- La configurazione sperimentale è standardizzata, facile da riprodurre e estendere
Significato Ispiratore:
- La scoperta del principio "no-free-lunch" ha un'intuizione profonda
- L'idea dell'esplorazione adattiva ai dati potrebbe ispirare la ricerca su altre varianti di bandit
- La discussione su disuguaglianze di concentrazione additive vs moltiplicative ha significato metodologico per la progettazione di algoritmi

Scenari Applicabili

Trial Clinici: Necessità di esplorare trattamenti efficaci garantendo al contempo un trattamento equo per ogni paziente
Allocazione di Risorse: Allocazione online di risorse limitate (come risorse di calcolo, spazi pubblicitari) a diversi utenti, bilanciando efficienza ed equità
Sistemi di Raccomandazione: Raccomandare contenuti a utenti in diversi periodi di tempo, evitando che l'esperienza utente di certi periodi sia estremamente scarsa
Test A/B: Nei test di prodotto è necessario considerare il benessere dei partecipanti, non solo metriche medie
Allocazione di Risorse Educative: Allocare risorse educative a studenti che si iscrivono in diversi periodi, garantendo equità tra coorti

Scenari Non Applicabili:

Applicazioni a breve termine che richiedono equità Rawlsiana estrema (p→-∞) (il limite teorico diventa vuoto)
Scenari dove la distribuzione dei premi ha code pesanti o è non sub-gaussiana
Applicazioni dove μᵢ potrebbe essere significativamente negativo

Riferimenti (Selezionati)

Barman et al. (2023): "Fairness and welfare quantification for regret in multi-armed bandits" - Primo a proporre il concetto di rimpianto di Nash
Krishna et al. (2025): "p-mean regret for stochastic bandits" - Studia il rimpianto p-mean generale
Bubeck et al. (2012): "Regret analysis of stochastic and nonstochastic multi-armed bandit problems" - Testo classico su MAB
Moulin (2004): "Fair division and collective welfare" - Fondamenti assiomatici del benessere p-mean
Sawarni et al. (2024): "Nash regret guarantees for linear bandits" - Rimpianto di Nash nei banditi lineari

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo dell'apprendimento automatico teorico, che fornisce contributi importanti nel campo degli algoritmi di bandit consapevoli dell'equità. Attraverso una progettazione algoritmica ingegnosa e un'analisi teorica rigorosa, dimostra l'efficacia di metodi semplici (UCB) su obiettivi complessi (equità). I risultati teorici sono potenti, la verifica sperimentale è sufficiente, con un impatto significativo sul campo. Le carenze principali riguardano la mancanza di verifica su dati reali e alcuni vuoti teorici (come i limiti inferiori per p<-1). Si consiglia che i lavori futuri si concentrino sulla verifica di applicazioni pratiche e sul perfezionamento teorico.