2025-11-24T22:28:17.253920

Exploration-free Algorithms for Multi-group Mean Estimation

Wei, Zhong, Li

We address the problem of multi-group mean estimation, which seeks to allocate a finite sampling budget across multiple groups to obtain uniformly accurate estimates of their means. Unlike classical multi-armed bandits, whose objective is to minimize regret by identifying and exploiting the best arm, the optimal allocation in this setting requires sampling every group on the order of $Î(T)$ times. This fundamental distinction makes exploration-free algorithms both natural and effective. Our work makes three contributions. First, we strengthen the existing results on subgaussian variance concentration using the Hanson-Wright inequality and identify a class of strictly subgaussian distributions that yield sharper guarantees. Second, we design exploration-free non-adaptive and adaptive algorithms, and we establish tighter regret bounds than the existing results. Third, we extend the framework to contextual bandit settings, an underexplored direction, and propose algorithms that leverage side information with provable guarantees. Overall, these results position exploration-free allocation as a principled and efficient approach to multi-group mean estimation, with potential applications in experimental design, personalization, and other domains requiring accurate multi-group inference.

academic

Algoritmi Senza Esplorazione per la Stima della Media Multi-Gruppo

Informazioni Fondamentali

ID Articolo: 2510.10374
Titolo: Exploration-free Algorithms for Multi-group Mean Estimation
Autori: Ziyi Wei (Virginia Tech), Huaiyang Zhong (Virginia Tech), Xiaocheng Li (Imperial College London)
Classificazione: cs.LG, stat.ML
Data di Pubblicazione: 12 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.10374

Riassunto

Questo articolo affronta il problema della stima della media multi-gruppo, mirando ad allocare un budget di campionamento limitato tra più gruppi al fine di ottenere stime coerenti e accurate delle loro medie. A differenza dei tradizionali banditi multi-braccio (il cui obiettivo è minimizzare il rimpianto identificando e sfruttando il braccio ottimale), l'allocazione ottimale in questo contesto richiede il campionamento di ogni gruppo Θ(T) volte. Questa differenza fondamentale rende gli algoritmi senza esplorazione sia naturali che efficaci. L'articolo fornisce tre contributi principali: in primo luogo, rafforza i risultati esistenti sulla concentrazione della varianza sub-gaussiana utilizzando la disuguaglianza di Hanson-Wright e identifica una classe di distribuzioni rigorosamente sub-gaussiane che produce garanzie più strette; in secondo luogo, progetta algoritmi senza esplorazione non adattivi e adattivi, stabilendo limiti di rimpianto più stretti rispetto ai risultati esistenti; in terzo luogo, estende il framework al contesto dei banditi contestuali, una direzione poco esplorata, proponendo algoritmi che sfruttano informazioni ausiliarie con garanzie provabili.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema della stima della media multi-gruppo richiede di allocare il budget di campionamento tra K gruppi entro un intervallo di tempo finito T, in modo che le stime delle medie di tutti i gruppi raggiungano una precisione coerente. Nello specifico, per il k-esimo gruppo con distribuzione di ricompensa Pk, media μk e varianza σk², l'obiettivo è minimizzare l'obiettivo della p-norma:

$R_p(n) = \left\|\left\{\frac{\sigma_k^2}{n_k}\right\}_{k=1}^K\right\|_p$

dove nk è il numero di campioni del k-esimo gruppo.

Motivazione della Ricerca

Esigenze Applicative Pratiche: In sondaggi d'opinione, progettazione sperimentale, raccomandazioni personalizzate e altri campi, è necessario ottenere stime accurate ed eque di più gruppi, non solo del gruppo ottimale.
Sfide Teoriche: A differenza dei tradizionali banditi multi-braccio, lo schema di allocazione ottimale richiede che ogni braccio sia campionato Θ(T) volte, rendendo il tradizionale compromesso esplorazione-sfruttamento non necessario.
Limitazioni dei Metodi Esistenti: Gli algoritmi di tipo UCB introdotti comportano costi di esplorazione non necessari, non sfruttando pienamente le caratteristiche strutturali del problema.

Contributi Principali

Miglioramenti Teorici: Basati sulla disuguaglianza di Hanson-Wright, migliora le disuguaglianze di concentrazione della varianza sub-gaussiana e identifica la classe di distribuzioni rigorosamente sub-gaussiane, ottenendo garanzie teoriche più strette.
Progettazione di Algoritmi: Propone due algoritmi senza esplorazione:
- Algoritmo non adattivo (richiede conoscenza preliminare di un limite inferiore della varianza)
- Algoritmo adattivo (non richiede conoscenza preliminare, utilizza intervalli di confidenza)
Estensione del Framework: Estende per la prima volta la stima della media multi-gruppo al contesto dei banditi contestuali, proponendo algoritmi corrispondenti e analisi teorica.
Miglioramento delle Prestazioni: Rispetto ai migliori risultati esistenti, rimuove un fattore log T dal limite di rimpianto, realizzando limiti teorici più stretti.

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Dati K gruppi, dove ogni gruppo k ha una distribuzione di ricompensa Pk con media sconosciuta μk e varianza σk². Entro l'intervallo di tempo T, ad ogni istante si seleziona un gruppo per il campionamento, con l'obiettivo di minimizzare la p-norma dell'errore di stima di tutti i gruppi.

Schema di Allocazione Ottimale

La Proposizione 2.1 fornisce l'allocazione teoricamente ottimale: $n_k^* = \frac{\sigma_k^q}{\sum_{j=1}^K \sigma_j^q} \cdot T$

dove q = 2p/(p+1) (quando p è finito) o q = 2 (quando p = ∞).

Algoritmo 1: Allocazione Non Adattiva

Idea Centrale: Procedura in due fasi

Prima Fase: Campionamento uniforme di ogni gruppo per τ round, stima della varianza
Seconda Fase: Allocazione del budget rimanente secondo il rapporto ottimale basato sulla varianza stimata

Parametri Chiave:

Lunghezza iniziale: $\tau = \frac{\sigma^q}{\sigma^q + (K-1)\underline{\sigma}^q} \cdot T$
Pesi di allocazione: $\lambda_{k,\tau} = \frac{\hat{\sigma}_{k,\tau}^q}{\sum_{j=1}^K \hat{\sigma}_{j,\tau}^q}$

Algoritmo 2: Algoritmo Adattivo

Miglioramenti: Non richiede conoscenza preliminare del limite inferiore della varianza, regolazione adattiva tramite intervalli di confidenza.

Meccanismo Centrale:

Costruzione dell'Intervallo di Confidenza: Basata sulla disuguaglianza di concentrazione della varianza migliorata per costruire LCB e UCB
Arresto Adattivo: Calcolo dinamico del tempo di arresto per ogni gruppo
Strategia di Eliminazione dei Bracci: Tecnica simile all'eliminazione nell'identificazione del braccio ottimale

Intervalli di Confidenza:

$LCB_{k,n} = \max\{\hat{\sigma}_{k,n}^2 - \varepsilon_{k,n}^+, 0\}$
$UCB_{k,n} = \hat{\sigma}_{k,n}^2 + \varepsilon_{k,n}^-$

Algoritmo 3: Estensione Contestuale

Impostazione del Problema: Ogni gruppo k è associato a un vettore di parametri βk, quando si osserva il contesto ct, la ricompensa è: $X_{k,n} = \beta_k^T c_n + \eta_{k,n}$

Funzione Obiettivo: $\min \mathbb{E}\left[\sum_{k=1}^K \|\hat{\beta}_{k,n_k} - \beta_k\|^2\right]$

Innovazioni Chiave:

Utilizzo dello stimatore di regressione ridge
Strategia di campionamento "decidi prima, osserva dopo"
Mantenimento dell'indipendenza dei vettori di contesto

Impostazione Sperimentale

Dataset

Distribuzione Gaussiana: K=4 gruppi, medie campionate da U(-1,1), varianze {1, 1.5, 2, 2.5}
Rademacher + Gaussiana: Riproduzione dell'impostazione sperimentale di Carpentier et al.
Distribuzione Beta Simmetrica: Verifica dei vantaggi della proprietà di sub-gaussianità rigorosa
Impostazione Contestuale: K∈{5,10,20}, dimensione d=4, contesti campionati uniformemente dall'ipercubo

Metriche di Valutazione

Rimpianto empirico: $R_p(n^{\pi}) - R_p(n^*)$
Strettezza dei limiti teorici
Velocità di convergenza dell'algoritmo

Metodi di Confronto

Impostazione sub-gaussiana generale (GSG) vs impostazione rigorosamente sub-gaussiana (SSG)
Limite inferiore della varianza noto vs sconosciuto
Prestazioni con diversi valori di p

Risultati Sperimentali

Risultati Principali

Strettezza dei Limiti Teorici: I limiti teorici nell'impostazione rigorosamente sub-gaussiana sono più vicini ai risultati empirici, in particolare quando p=∞.
Impatto del Limite Inferiore della Varianza: Quando il limite inferiore della varianza è sconosciuto, le prestazioni dell'algoritmo mostrano un calo significativo, con tempi di calo diversi nelle impostazioni GSG e SSG.
Complessità Temporale: La lunghezza della prima fase nell'impostazione SSG si riduce significativamente, passando da dipendente da σ² a una costante dipendente solo da log T.

Risultati Numerici Specifici

Negli esperimenti gaussiani, quando T > 2×10⁴, l'algoritmo inizia a mostrare le prestazioni teoricamente previste
Il limite teorico nell'impostazione SSG è più stretto di circa un ordine di grandezza rispetto all'impostazione GSG
Negli esperimenti contestuali, la pendenza del rimpianto empirico è prossima a -2, coerente con le previsioni teoriche

Esperimenti di Ablazione

Sub-gaussiana Rigorosa vs Sub-gaussiana Generale: La distribuzione rigorosamente sub-gaussiana fornisce fattori costanti migliori e implementazione algoritmica più semplice
Confronto di Diversi Valori di p: p=∞ fornisce il limite teorico più stretto
Impatto della Dimensione Contestuale: Con l'aumento del numero di bracci, le prestazioni mantengono una relazione di scaling stabile

Lavori Correlati

Stima della Media Multi-Gruppo

Antos et al. (2008, 2010): Primi studi sull'apprendimento attivo con rumore eteroschedastico
Carpentier et al. (2011): Propone algoritmi di tipo UCB per gestire casi non limitati
Aznag et al. (2023): Introduce l'obiettivo della p-norma e stabilisce limiti inferiori

Teoria della Concentrazione della Varianza

Sviluppi moderni della disuguaglianza di Hanson-Wright
Identificazione e proprietà delle distribuzioni rigorosamente sub-gaussiane
Miglioramenti dei limiti empirici di Bernstein

Banditi Contestuali

Stima dei parametri nei banditi lineari
Applicazioni della teoria della progettazione sperimentale
Limitazioni degli algoritmi di tipo UCB nell'impostazione contestuale

Analisi Teorica

Risultati Teorici Principali

Teorema 3.1 (Algoritmo Non Adattivo, p=∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 4\sqrt{2}\sigma^2 F_{Alg1,\infty}(\lambda, \sigma^2) T^{-3/2}\sqrt{\log T} + o(T^{-3/2})$

Teorema 3.2 (Algoritmo Non Adattivo, p<∞): $\mathbb{E}[R_p(n^{\pi_1}) - R_p(n^*)] \leq 24\sigma^4 F_{Alg1,p}(\lambda, \sigma^2) T^{-2}\log T + o(T^{-2})$

Teorema 4.1 (Algoritmo Adattivo): Fornisce limiti dello stesso ordine, ma con fattori costanti leggermente diversi.

Miglioramenti Chiave

Concentrazione della Varianza: Utilizza la disuguaglianza di Hanson-Wright per migliorare le disuguaglianze di concentrazione della stima della varianza, rimuovendo un fattore $\sqrt{\log(1/\delta)}$ .
Sub-gaussiana Rigorosa: Identifica la classe di distribuzioni rigorosamente sub-gaussiane, dove il parametro di varianza è uguale alla varianza reale, fornendo limiti più stretti.
Progettazione Senza Esplorazione: Dimostra che l'esplorazione di tipo UCB è ridondante in questo problema, poiché la soluzione ottimale stessa richiede che ogni braccio sia campionato Θ(T) volte.

Conclusioni e Discussione

Conclusioni Principali

Principio Senza Esplorazione: La struttura del problema della stima della media multi-gruppo rende l'esplorazione esplicita non necessaria, in netto contrasto con i tradizionali banditi multi-braccio.
Miglioramenti Teorici: Attraverso disuguaglianze di concentrazione della varianza migliorate e identificazione di distribuzioni rigorosamente sub-gaussiane, si realizzano limiti teorici più stretti.
Progettazione di Algoritmi: Gli algoritmi proposti realizzano prestazioni asintoticamente ottimali mantenendo semplicità.
Estensibilità: Estende con successo il framework al contesto contestuale, aprendo nuove direzioni di ricerca.

Limitazioni

Ipotesi Distributive: Gli algoritmi si basano sull'ipotesi sub-gaussiana, potrebbe non essere applicabile a distribuzioni con code pesanti.
Fattori Costanti: Sebbene asintoticamente ottimali, i fattori costanti potrebbero essere grandi in casi di piccoli campioni.
Limitazioni Contestuali: L'estensione contestuale richiede una strategia "decidi prima, osserva dopo", limitando la flessibilità delle applicazioni pratiche.

Direzioni Future

Distribuzioni Strutturate: Ricerca su come sfruttare ulteriormente le informazioni sulla struttura distributiva per migliorare gli algoritmi.
Estensioni Non Parametriche: Estensione dei metodi a impostazioni non parametriche.
Applicazioni Pratiche: Verifica dell'efficacia dell'algoritmo in campi di applicazione specifici (come test A/B, studi clinici).

Valutazione Approfondita

Vantaggi

Contributi Teorici Significativi: Miglioramenti sostanziali sia nella teoria della concentrazione della varianza che nella progettazione di algoritmi.
Intuizioni Profonde sul Problema: Identifica le differenze fondamentali tra la stima della media multi-gruppo e i tradizionali problemi di banditi.
Progettazione Elegante dei Metodi: Gli algoritmi sono semplici e intuitivi, facili da comprendere e implementare.
Verifica Sperimentale Completa: Verifica i risultati teorici attraverso molteplici distribuzioni e impostazioni.

Carenze

Verifica Applicativa Limitata: Mancanza di validazione su larga scala su dataset reali.
Analisi della Complessità Computazionale: Manca un'analisi dettagliata della complessità computazionale dell'algoritmo.
Discussione Insufficiente sulla Robustezza: Manca l'analisi delle prestazioni quando le ipotesi distributive vengono violate.

Impatto

Valore Teorico: Fornisce un nuovo framework teorico per problemi di inferenza multi-gruppo.
Valore Pratico: Ha valore di applicazione diretta in progettazione sperimentale, raccomandazioni personalizzate e altri campi.
Riproducibilità: Descrizione chiara degli algoritmi, analisi teorica completa, buona riproducibilità.

Scenari Applicabili

Test A/B: Scenari che richiedono confronti equi tra più gruppi di utenti.
Studi Clinici: Valutazione dell'efficacia di più gruppi di trattamento.
Ricerca di Mercato: Stima accurata delle preferenze di diverse popolazioni.
Sistemi di Raccomandazione: Garanzia di equità multi-gruppo nelle raccomandazioni personalizzate.

Bibliografia

Questo articolo cita numerosi lavori correlati importanti, tra cui:

Aznag et al. (2023): An active learning framework for multi-group mean estimation
Carpentier et al. (2011): Upper-confidence-bound algorithms for active learning in multi-armed bandits
Lavori teorici correlati sulla disuguaglianza di Hanson-Wright
Risultati classici su distribuzioni sub-gaussiane e concentrazione della varianza

Questo articolo fornisce importanti contributi sia in teoria che in metodi, offrendo una nuova prospettiva e soluzioni efficaci per il problema della stima della media multi-gruppo. La proposta di algoritmi senza esplorazione sovverte il paradigma classico esplorazione-sfruttamento nei tradizionali banditi multi-braccio, con significativo valore teorico e pratico.