Exploration-free Algorithms for Multi-group Mean Estimation
Wei, Zhong, Li
We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.
academic
Algoritmi Senza Esplorazione per la Stima della Media Multi-Gruppo
Questo articolo affronta il problema della stima della media multi-gruppo, mirando ad allocare un budget di campionamento limitato tra più gruppi al fine di ottenere stime coerenti e accurate delle loro medie. A differenza dei tradizionali banditi multi-braccio (il cui obiettivo è minimizzare il rimpianto identificando e sfruttando il braccio ottimale), l'allocazione ottimale in questo contesto richiede il campionamento di ogni gruppo Θ(T) volte. Questa differenza fondamentale rende gli algoritmi senza esplorazione sia naturali che efficaci. L'articolo fornisce tre contributi principali: in primo luogo, rafforza i risultati esistenti sulla concentrazione della varianza sub-gaussiana utilizzando la disuguaglianza di Hanson-Wright e identifica una classe di distribuzioni rigorosamente sub-gaussiane che produce garanzie più strette; in secondo luogo, progetta algoritmi senza esplorazione non adattivi e adattivi, stabilendo limiti di rimpianto più stretti rispetto ai risultati esistenti; in terzo luogo, estende il framework al contesto dei banditi contestuali, una direzione poco esplorata, proponendo algoritmi che sfruttano informazioni ausiliarie con garanzie provabili.
Il problema della stima della media multi-gruppo richiede di allocare il budget di campionamento tra K gruppi entro un intervallo di tempo finito T, in modo che le stime delle medie di tutti i gruppi raggiungano una precisione coerente. Nello specifico, per il k-esimo gruppo con distribuzione di ricompensa Pk, media μk e varianza σk², l'obiettivo è minimizzare l'obiettivo della p-norma:
Rp(n)={nkσk2}k=1Kp
dove nk è il numero di campioni del k-esimo gruppo.
Esigenze Applicative Pratiche: In sondaggi d'opinione, progettazione sperimentale, raccomandazioni personalizzate e altri campi, è necessario ottenere stime accurate ed eque di più gruppi, non solo del gruppo ottimale.
Sfide Teoriche: A differenza dei tradizionali banditi multi-braccio, lo schema di allocazione ottimale richiede che ogni braccio sia campionato Θ(T) volte, rendendo il tradizionale compromesso esplorazione-sfruttamento non necessario.
Limitazioni dei Metodi Esistenti: Gli algoritmi di tipo UCB introdotti comportano costi di esplorazione non necessari, non sfruttando pienamente le caratteristiche strutturali del problema.
Miglioramenti Teorici: Basati sulla disuguaglianza di Hanson-Wright, migliora le disuguaglianze di concentrazione della varianza sub-gaussiana e identifica la classe di distribuzioni rigorosamente sub-gaussiane, ottenendo garanzie teoriche più strette.
Progettazione di Algoritmi: Propone due algoritmi senza esplorazione:
Algoritmo non adattivo (richiede conoscenza preliminare di un limite inferiore della varianza)
Algoritmo adattivo (non richiede conoscenza preliminare, utilizza intervalli di confidenza)
Estensione del Framework: Estende per la prima volta la stima della media multi-gruppo al contesto dei banditi contestuali, proponendo algoritmi corrispondenti e analisi teorica.
Miglioramento delle Prestazioni: Rispetto ai migliori risultati esistenti, rimuove un fattore log T dal limite di rimpianto, realizzando limiti teorici più stretti.
Dati K gruppi, dove ogni gruppo k ha una distribuzione di ricompensa Pk con media sconosciuta μk e varianza σk². Entro l'intervallo di tempo T, ad ogni istante si seleziona un gruppo per il campionamento, con l'obiettivo di minimizzare la p-norma dell'errore di stima di tutti i gruppi.
Impostazione del Problema: Ogni gruppo k è associato a un vettore di parametri βk, quando si osserva il contesto ct, la ricompensa è:
Xk,n=βkTcn+ηk,n
Funzione Obiettivo:
minE[∑k=1K∥β^k,nk−βk∥2]
Innovazioni Chiave:
Utilizzo dello stimatore di regressione ridge
Strategia di campionamento "decidi prima, osserva dopo"
Mantenimento dell'indipendenza dei vettori di contesto
Strettezza dei Limiti Teorici: I limiti teorici nell'impostazione rigorosamente sub-gaussiana sono più vicini ai risultati empirici, in particolare quando p=∞.
Impatto del Limite Inferiore della Varianza: Quando il limite inferiore della varianza è sconosciuto, le prestazioni dell'algoritmo mostrano un calo significativo, con tempi di calo diversi nelle impostazioni GSG e SSG.
Complessità Temporale: La lunghezza della prima fase nell'impostazione SSG si riduce significativamente, passando da dipendente da σ² a una costante dipendente solo da log T.
Sub-gaussiana Rigorosa vs Sub-gaussiana Generale: La distribuzione rigorosamente sub-gaussiana fornisce fattori costanti migliori e implementazione algoritmica più semplice
Confronto di Diversi Valori di p: p=∞ fornisce il limite teorico più stretto
Impatto della Dimensione Contestuale: Con l'aumento del numero di bracci, le prestazioni mantengono una relazione di scaling stabile
Concentrazione della Varianza: Utilizza la disuguaglianza di Hanson-Wright per migliorare le disuguaglianze di concentrazione della stima della varianza, rimuovendo un fattore log(1/δ).
Sub-gaussiana Rigorosa: Identifica la classe di distribuzioni rigorosamente sub-gaussiane, dove il parametro di varianza è uguale alla varianza reale, fornendo limiti più stretti.
Progettazione Senza Esplorazione: Dimostra che l'esplorazione di tipo UCB è ridondante in questo problema, poiché la soluzione ottimale stessa richiede che ogni braccio sia campionato Θ(T) volte.
Principio Senza Esplorazione: La struttura del problema della stima della media multi-gruppo rende l'esplorazione esplicita non necessaria, in netto contrasto con i tradizionali banditi multi-braccio.
Miglioramenti Teorici: Attraverso disuguaglianze di concentrazione della varianza migliorate e identificazione di distribuzioni rigorosamente sub-gaussiane, si realizzano limiti teorici più stretti.
Progettazione di Algoritmi: Gli algoritmi proposti realizzano prestazioni asintoticamente ottimali mantenendo semplicità.
Estensibilità: Estende con successo il framework al contesto contestuale, aprendo nuove direzioni di ricerca.
Questo articolo cita numerosi lavori correlati importanti, tra cui:
Aznag et al. (2023): An active learning framework for multi-group mean estimation
Carpentier et al. (2011): Upper-confidence-bound algorithms for active learning in multi-armed bandits
Lavori teorici correlati sulla disuguaglianza di Hanson-Wright
Risultati classici su distribuzioni sub-gaussiane e concentrazione della varianza
Questo articolo fornisce importanti contributi sia in teoria che in metodi, offrendo una nuova prospettiva e soluzioni efficaci per il problema della stima della media multi-gruppo. La proposta di algoritmi senza esplorazione sovverte il paradigma classico esplorazione-sfruttamento nei tradizionali banditi multi-braccio, con significativo valore teorico e pratico.