2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

Teoria dell'ottimalità asintotica degli intervalli di confidenza della media

Informazioni di base

  • ID articolo: 2501.19126
  • Titolo: Asymptotic optimality theory of confidence intervals of the mean
  • Autori: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
  • Classificazione: math.ST stat.TH
  • Data di pubblicazione: Gennaio 2025 (preprint arXiv)
  • Link articolo: https://arxiv.org/abs/2501.19126

Riassunto

Questo articolo affronta il problema classico della costruzione di intervalli di confidenza (IC) per la media di una distribuzione basati su N campioni indipendenti e identicamente distribuiti, richiedendo che l'IC contenga la vera media con probabilità almeno 1-δ. Gli autori caratterizzano tre diversi regimi di apprendimento sulla base della larghezza asintotica minima raggiungibile da qualsiasi IC quando N_δ→∞ e δ→0: (1) regime senza apprendimento: quando N_δ cresce più lentamente di log(1/δ), la larghezza limite dell'IC è uguale alla larghezza del supporto della distribuzione; (2) regime di apprendimento sufficiente: quando N_δ cresce proporzionalmente a log(1/δ), si caratterizza precisamente la larghezza limite minima dipendente da costanti di scala; (3) regime di apprendimento completo: quando N_δ cresce più velocemente di log(1/δ), la larghezza limite dell'IC converge a zero. Gli autori provano che gli IC costruiti mediante disuguaglianze di concentrazione basate sulla divergenza KL raggiungono l'ottimalità asintotica sia nel regime di apprendimento sufficiente che in quello completo.

Contesto e motivazione della ricerca

Importanza del problema

La costruzione di intervalli di confidenza è un problema fondamentale della statistica, con importanti applicazioni nei test A/B, nella progettazione sperimentale, nell'analisi dei dati e nella simulazione. Sebbene esistano molteplici metodi per costruire intervalli di confidenza, manca una caratterizzazione teorica degli IC ottimali con larghezza minima.

Limitazioni dei metodi esistenti

  1. Mancanza di teoria dell'ottimalità: la letteratura esistente fornisce vari metodi di costruzione degli IC, ma non caratterizza gli IC ottimali con larghezza minima
  2. Limiti inferiori non asintotici deboli: i limiti inferiori esistenti (come in Shekhar e Ramdas 2023) sono deboli nel caso asintotico
  3. Ipotesi forti: i limiti inferiori esistenti dipendono da ipotesi forti che la larghezza dell'IC sia determinatamente limitata da funzioni specifiche

Motivazione della ricerca

Questo articolo mira a colmare questo vuoto teorico introducendo un'ipotesi di stabilità, caratterizzando i limiti fondamentali della larghezza dell'IC nel quadro asintotico e provando l'ottimalità dei metodi basati sulla divergenza KL.

Contributi principali

  1. Caratterizzazione di tre regimi di apprendimento: sulla base del ridimensionamento relativo della dimensione campionaria N_δ rispetto alla precisione 1-δ, caratterizza tre diversi regimi: senza apprendimento, apprendimento sufficiente e apprendimento completo
  2. Limiti inferiori stretti: nel regime di apprendimento sufficiente, derivano limiti inferiori stretti per la larghezza limite dell'IC e provano che la costruzione dell'IC basata sulla divergenza KL raggiunge questi limiti
  3. Prova dell'ottimalità asintotica: provano che la costruzione dell'IC basata sulla disuguaglianza di concentrazione della divergenza KL è ottimale nel quadro asintotico studiato
  4. Risultati estesi: estendono i risultati a costi di campionamento casuali, IC unilaterali e distribuzioni non parametriche in contesti più generali

Spiegazione dettagliata dei metodi

Definizione del compito

Dati N campioni indipendenti e identicamente distribuiti X₁,...,X_N da una distribuzione ν (con media μ), costruire un intervallo di confidenza μ̂_L^π(N,δ), μ̂_R^π(N,δ) tale che P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Quadro teorico principale

1. Ipotesi di stabilità

Definizione 1 (Stabilità): Per una data distribuzione ν, una strategia π si dice stabile se quando N_δ→∞ e δ→0:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

dove μ_L^π(ν) ≤ μ e μ_R^π(ν) ≥ μ sono costanti.

2. Tre regimi di apprendimento

Sulla base del valore k = lim_{δ→0} N_δ/log(1/δ):

Regime senza apprendimento (k→0):

  • Larghezza limite dell'IC = larghezza del supporto della distribuzione
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Regime di apprendimento sufficiente (k ∈ (0,∞)):

  • Limite inferiore: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • dove μ_L*(μ,k) < μ e μ_R*(μ,k) > μ soddisfano univocamente: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Regime di apprendimento completo (k→∞):

  • Larghezza limite dell'IC→0

3. Funzione di divergenza KL

Per distribuzioni in una famiglia esponenziale monoparametrica S, si definisce: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Questa funzione possiede proprietà chiave come la quasi-convessità stretta e la continuità.

Metodo ottimale di costruzione dell'IC π₁

Basato sulla disuguaglianza di concentrazione: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

dove β(δ) = log(2/δ), si costruisce l'IC:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Punti di innovazione tecnica

  1. Introduzione del concetto di stabilità: è l'innovazione chiave per analizzare il comportamento asintotico della larghezza dell'IC, rendendo la larghezza limite una costante deterministica
  2. Applicazione astuta della disuguaglianza di elaborazione dei dati: combinata con l'ipotesi di stabilità, consente di considerare simultaneamente l'eliminazione di ipotesi su entrambi i lati
  3. Prova della stretta: provano che il limite inferiore proposto è stretto, cioè esiste un metodo che lo raggiunge

Configurazione sperimentale

Set di dati

  • Distribuzione di Bernoulli: media 0,6 e 0,9
  • Distribuzione Gaussiana: N(0,1) con varianza nota
  • Distribuzione di Pareto: parametro di scala x_m=1, parametro di forma α=3

Metriche di valutazione

  • Larghezza media dell'IC: larghezza media dell'intervallo di confidenza su 1000 set di dati indipendenti
  • Probabilità di copertura: frequenza con cui l'intervallo di confidenza contiene la vera media

Metodi di confronto

  1. IC basato su Hoeffding: basato sulla disuguaglianza di Hoeffding
  2. IC Empirical Bernstein (EB): basato sulla disuguaglianza empirica di Bernstein
  3. IC hedged basato su scommesse: basato sul metodo delle scommesse
  4. Limite inferiore di Shekhar-Ramdas: limite teorico esistente

Dettagli di implementazione

  • δ = 0,01 (esperimenti Bernoulli), δ = 0,05 (esperimenti Pareto)
  • Dimensione campionaria: N ∈ {2000, 3000}
  • Parametro di discretizzazione: m ∈ {1000, 3000, 5000} (metodo delle scommesse)

Risultati sperimentali

Risultati principali

1. Confronto dei limiti teorici

Per il caso Gaussiano, il limite asintotico di questo articolo è 2σ√(2/k), mentre il limite di Shekhar-Ramdas è σ√(2/k), con un fattore di miglioramento di 2.

2. Confronto della larghezza dell'IC (distribuzione di Bernoulli)

Nπ₁Scommesse(m=1000)Scommesse(m=3000)Scommesse(m=5000)HoeffdingEB
media=0,6
20000,07120,06030,05960,05950,07280,0898
30000,05820,05920,05850,05840,05940,0712
media=0,9
20000,04360,03780,03710,03690,07280,0606
30000,03560,03700,03630,03610,05940,0473

3. Risultati per distribuzioni con code pesanti (Pareto)

Dimensione campionariaLarghezza media dell'IC
5000,492
10000,355
20000,255
30000,199

Scoperte sperimentali

  1. Vantaggio asintotico: il metodo π₁ mostra prestazioni eccellenti con grandi campioni, in particolare con N=3000 dove le prestazioni sono comparabili al metodo delle scommesse
  2. Efficienza computazionale: il metodo π₁ è computazionalmente più efficiente del metodo delle scommesse
  3. Verifica teorica: i risultati sperimentali verificano il fattore di miglioramento previsto dalla teoria

Lavori correlati

Teoria classica

  • Dualità tra test di ipotesi e IC: la teoria classica costruisce gli IC invertendo i test di ipotesi
  • Test uniformemente più potenti (UMP): nei contesti parametrici esistono test uniformemente più potenti, ma solitamente limitati a famiglie specifiche (come test non distorti in famiglie esponenziali)

Metodi basati su disuguaglianze di concentrazione

  • Disuguaglianze di Hoeffding e Bernstein: applicabili a distribuzioni con supporto limitato
  • Limite di Chernoff: applicabile quando è noto un limite superiore della funzione generatrice dei momenti
  • Metodi per distribuzioni con code pesanti: utilizzano disuguaglianze di Markov e Chebyshev

Progressi recenti

  • Waudby-Smith e Ramdas (2024): trasformano la costruzione dell'IC in un problema di scommesse
  • Shekhar e Ramdas (2023): forniscono per la prima volta limiti inferiori espliciti con termini di complessità dipendenti dalla distribuzione, ma più deboli

Conclusioni e discussione

Conclusioni principali

  1. Caratterizzazione teorica completa: caratterizzano per la prima volta completamente i limiti fondamentali della larghezza dell'IC, identificando tre diversi regimi di apprendimento
  2. Metodo ottimale: provano che la costruzione dell'IC basata sulla divergenza KL è ottimale nel senso asintotico
  3. Ampia applicabilità: i risultati si applicano a famiglie di distribuzioni parametriche e non parametriche, nonché a contesti con costi casuali

Limitazioni

  1. Proprietà asintotiche: i risultati sono principalmente asintotici, con guida limitata per campioni finiti
  2. Ipotesi di stabilità: sebbene mite, rimane un'ipotesi aggiuntiva
  3. Restrizioni sulla famiglia di distribuzioni: i risultati principali si concentrano su famiglie esponenziali e distribuzioni con supporto limitato

Direzioni future

  1. Risultati non asintotici: sviluppare una teoria non asintotica più raffinata
  2. Altre statistiche: estendere a stime di varianza e quantili
  3. Generalizzazione multidimensionale: considerare regioni di confidenza per parametri multidimensionali

Valutazione approfondita

Punti di forza

  1. Contributo teorico significativo: fornisce per la prima volta una teoria completa dell'ottimalità della larghezza dell'IC, colmando un importante vuoto teorico
  2. Innovazione tecnica notevole: l'introduzione del concetto di stabilità e l'applicazione astuta della disuguaglianza di elaborazione dei dati hanno valore metodologico
  3. Risultati stretti: non solo forniscono limiti inferiori, ma provano che i limiti sono raggiungibili
  4. Ampia applicabilità: estensioni a costi casuali, IC unilaterali e altre impostazioni praticamente rilevanti

Carenze

  1. Esperimenti limitati: gli esperimenti numerici sono relativamente semplici, potrebbero includere set di dati reali più complessi
  2. Complessità computazionale: per il caso non parametrico, il calcolo di KL_inf potrebbe essere complesso
  3. Prestazioni con campioni finiti: la teoria è asintotica, le garanzie di prestazione con campioni finiti non sono sufficientemente forti

Impatto

  1. Impatto teorico: fornisce un nuovo quadro analitico per la teoria degli IC, previsto di essere ampiamente citato
  2. Valore pratico: fornisce guida teorica per la scelta dei metodi di IC nelle applicazioni pratiche
  3. Contributo metodologico: il metodo di analisi della stabilità potrebbe applicarsi ad altri problemi di inferenza statistica

Scenari applicabili

  1. Inferenza statistica con grandi campioni: particolarmente adatto ad applicazioni con dimensioni campionarie elevate
  2. Esperimenti online: scenari come i test A/B che richiedono intervalli di confidenza affidabili
  3. Studi di simulazione: l'impostazione con costi casuali è particolarmente adatta alle applicazioni di simulazione
  4. Machine learning: costruzione di intervalli di confidenza nella valutazione delle prestazioni del modello

Bibliografia

L'articolo cita importanti lavori nel campo della statistica e dell'apprendimento automatico, inclusi:

  • Hoeffding (1994): lavoro classico sulle disuguaglianze di probabilità
  • Waudby-Smith & Ramdas (2024): progressi recenti nel metodo delle scommesse
  • Shekhar & Ramdas (2023): lavori correlati sui limiti inferiori
  • Kaufmann & Koolen (2021): disuguaglianze di concentrazione valide in qualsiasi momento

Questo articolo fornisce contributi importanti alla teoria degli intervalli di confidenza, caratterizzando completamente i limiti fondamentali della larghezza dell'IC attraverso l'introduzione di un nuovo quadro analitico e provando l'ottimalità del metodo basato sulla divergenza KL. Sebbene sia principalmente un lavoro teorico, fornisce una guida preziosa per le applicazioni pratiche.