We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
- ID articolo: 2501.19126
- Titolo: Asymptotic optimality theory of confidence intervals of the mean
- Autori: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
- Classificazione: math.ST stat.TH
- Data di pubblicazione: Gennaio 2025 (preprint arXiv)
- Link articolo: https://arxiv.org/abs/2501.19126
Questo articolo affronta il problema classico della costruzione di intervalli di confidenza (IC) per la media di una distribuzione basati su N campioni indipendenti e identicamente distribuiti, richiedendo che l'IC contenga la vera media con probabilità almeno 1-δ. Gli autori caratterizzano tre diversi regimi di apprendimento sulla base della larghezza asintotica minima raggiungibile da qualsiasi IC quando N_δ→∞ e δ→0: (1) regime senza apprendimento: quando N_δ cresce più lentamente di log(1/δ), la larghezza limite dell'IC è uguale alla larghezza del supporto della distribuzione; (2) regime di apprendimento sufficiente: quando N_δ cresce proporzionalmente a log(1/δ), si caratterizza precisamente la larghezza limite minima dipendente da costanti di scala; (3) regime di apprendimento completo: quando N_δ cresce più velocemente di log(1/δ), la larghezza limite dell'IC converge a zero. Gli autori provano che gli IC costruiti mediante disuguaglianze di concentrazione basate sulla divergenza KL raggiungono l'ottimalità asintotica sia nel regime di apprendimento sufficiente che in quello completo.
La costruzione di intervalli di confidenza è un problema fondamentale della statistica, con importanti applicazioni nei test A/B, nella progettazione sperimentale, nell'analisi dei dati e nella simulazione. Sebbene esistano molteplici metodi per costruire intervalli di confidenza, manca una caratterizzazione teorica degli IC ottimali con larghezza minima.
- Mancanza di teoria dell'ottimalità: la letteratura esistente fornisce vari metodi di costruzione degli IC, ma non caratterizza gli IC ottimali con larghezza minima
- Limiti inferiori non asintotici deboli: i limiti inferiori esistenti (come in Shekhar e Ramdas 2023) sono deboli nel caso asintotico
- Ipotesi forti: i limiti inferiori esistenti dipendono da ipotesi forti che la larghezza dell'IC sia determinatamente limitata da funzioni specifiche
Questo articolo mira a colmare questo vuoto teorico introducendo un'ipotesi di stabilità, caratterizzando i limiti fondamentali della larghezza dell'IC nel quadro asintotico e provando l'ottimalità dei metodi basati sulla divergenza KL.
- Caratterizzazione di tre regimi di apprendimento: sulla base del ridimensionamento relativo della dimensione campionaria N_δ rispetto alla precisione 1-δ, caratterizza tre diversi regimi: senza apprendimento, apprendimento sufficiente e apprendimento completo
- Limiti inferiori stretti: nel regime di apprendimento sufficiente, derivano limiti inferiori stretti per la larghezza limite dell'IC e provano che la costruzione dell'IC basata sulla divergenza KL raggiunge questi limiti
- Prova dell'ottimalità asintotica: provano che la costruzione dell'IC basata sulla disuguaglianza di concentrazione della divergenza KL è ottimale nel quadro asintotico studiato
- Risultati estesi: estendono i risultati a costi di campionamento casuali, IC unilaterali e distribuzioni non parametriche in contesti più generali
Dati N campioni indipendenti e identicamente distribuiti X₁,...,X_N da una distribuzione ν (con media μ), costruire un intervallo di confidenza μ̂_L^π(N,δ), μ̂_R^π(N,δ) tale che P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.
Definizione 1 (Stabilità): Per una data distribuzione ν, una strategia π si dice stabile se quando N_δ→∞ e δ→0:
- lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
- lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)
dove μ_L^π(ν) ≤ μ e μ_R^π(ν) ≥ μ sono costanti.
Sulla base del valore k = lim_{δ→0} N_δ/log(1/δ):
Regime senza apprendimento (k→0):
- Larghezza limite dell'IC = larghezza del supporto della distribuzione
- μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄
Regime di apprendimento sufficiente (k ∈ (0,∞)):
- Limite inferiore: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
- dove μ_L*(μ,k) < μ e μ_R*(μ,k) > μ soddisfano univocamente:
d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k
Regime di apprendimento completo (k→∞):
- Larghezza limite dell'IC→0
Per distribuzioni in una famiglia esponenziale monoparametrica S, si definisce:
d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))
Questa funzione possiede proprietà chiave come la quasi-convessità stretta e la continuità.
Basato sulla disuguaglianza di concentrazione:
P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ
dove β(δ) = log(2/δ), si costruisce l'IC:
- μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- Introduzione del concetto di stabilità: è l'innovazione chiave per analizzare il comportamento asintotico della larghezza dell'IC, rendendo la larghezza limite una costante deterministica
- Applicazione astuta della disuguaglianza di elaborazione dei dati: combinata con l'ipotesi di stabilità, consente di considerare simultaneamente l'eliminazione di ipotesi su entrambi i lati
- Prova della stretta: provano che il limite inferiore proposto è stretto, cioè esiste un metodo che lo raggiunge
- Distribuzione di Bernoulli: media 0,6 e 0,9
- Distribuzione Gaussiana: N(0,1) con varianza nota
- Distribuzione di Pareto: parametro di scala x_m=1, parametro di forma α=3
- Larghezza media dell'IC: larghezza media dell'intervallo di confidenza su 1000 set di dati indipendenti
- Probabilità di copertura: frequenza con cui l'intervallo di confidenza contiene la vera media
- IC basato su Hoeffding: basato sulla disuguaglianza di Hoeffding
- IC Empirical Bernstein (EB): basato sulla disuguaglianza empirica di Bernstein
- IC hedged basato su scommesse: basato sul metodo delle scommesse
- Limite inferiore di Shekhar-Ramdas: limite teorico esistente
- δ = 0,01 (esperimenti Bernoulli), δ = 0,05 (esperimenti Pareto)
- Dimensione campionaria: N ∈ {2000, 3000}
- Parametro di discretizzazione: m ∈ {1000, 3000, 5000} (metodo delle scommesse)
Per il caso Gaussiano, il limite asintotico di questo articolo è 2σ√(2/k), mentre il limite di Shekhar-Ramdas è σ√(2/k), con un fattore di miglioramento di 2.
| N | π₁ | Scommesse(m=1000) | Scommesse(m=3000) | Scommesse(m=5000) | Hoeffding | EB |
|---|
| media=0,6 | | | | | | |
| 2000 | 0,0712 | 0,0603 | 0,0596 | 0,0595 | 0,0728 | 0,0898 |
| 3000 | 0,0582 | 0,0592 | 0,0585 | 0,0584 | 0,0594 | 0,0712 |
| media=0,9 | | | | | | |
| 2000 | 0,0436 | 0,0378 | 0,0371 | 0,0369 | 0,0728 | 0,0606 |
| 3000 | 0,0356 | 0,0370 | 0,0363 | 0,0361 | 0,0594 | 0,0473 |
| Dimensione campionaria | Larghezza media dell'IC |
|---|
| 500 | 0,492 |
| 1000 | 0,355 |
| 2000 | 0,255 |
| 3000 | 0,199 |
- Vantaggio asintotico: il metodo π₁ mostra prestazioni eccellenti con grandi campioni, in particolare con N=3000 dove le prestazioni sono comparabili al metodo delle scommesse
- Efficienza computazionale: il metodo π₁ è computazionalmente più efficiente del metodo delle scommesse
- Verifica teorica: i risultati sperimentali verificano il fattore di miglioramento previsto dalla teoria
- Dualità tra test di ipotesi e IC: la teoria classica costruisce gli IC invertendo i test di ipotesi
- Test uniformemente più potenti (UMP): nei contesti parametrici esistono test uniformemente più potenti, ma solitamente limitati a famiglie specifiche (come test non distorti in famiglie esponenziali)
- Disuguaglianze di Hoeffding e Bernstein: applicabili a distribuzioni con supporto limitato
- Limite di Chernoff: applicabile quando è noto un limite superiore della funzione generatrice dei momenti
- Metodi per distribuzioni con code pesanti: utilizzano disuguaglianze di Markov e Chebyshev
- Waudby-Smith e Ramdas (2024): trasformano la costruzione dell'IC in un problema di scommesse
- Shekhar e Ramdas (2023): forniscono per la prima volta limiti inferiori espliciti con termini di complessità dipendenti dalla distribuzione, ma più deboli
- Caratterizzazione teorica completa: caratterizzano per la prima volta completamente i limiti fondamentali della larghezza dell'IC, identificando tre diversi regimi di apprendimento
- Metodo ottimale: provano che la costruzione dell'IC basata sulla divergenza KL è ottimale nel senso asintotico
- Ampia applicabilità: i risultati si applicano a famiglie di distribuzioni parametriche e non parametriche, nonché a contesti con costi casuali
- Proprietà asintotiche: i risultati sono principalmente asintotici, con guida limitata per campioni finiti
- Ipotesi di stabilità: sebbene mite, rimane un'ipotesi aggiuntiva
- Restrizioni sulla famiglia di distribuzioni: i risultati principali si concentrano su famiglie esponenziali e distribuzioni con supporto limitato
- Risultati non asintotici: sviluppare una teoria non asintotica più raffinata
- Altre statistiche: estendere a stime di varianza e quantili
- Generalizzazione multidimensionale: considerare regioni di confidenza per parametri multidimensionali
- Contributo teorico significativo: fornisce per la prima volta una teoria completa dell'ottimalità della larghezza dell'IC, colmando un importante vuoto teorico
- Innovazione tecnica notevole: l'introduzione del concetto di stabilità e l'applicazione astuta della disuguaglianza di elaborazione dei dati hanno valore metodologico
- Risultati stretti: non solo forniscono limiti inferiori, ma provano che i limiti sono raggiungibili
- Ampia applicabilità: estensioni a costi casuali, IC unilaterali e altre impostazioni praticamente rilevanti
- Esperimenti limitati: gli esperimenti numerici sono relativamente semplici, potrebbero includere set di dati reali più complessi
- Complessità computazionale: per il caso non parametrico, il calcolo di KL_inf potrebbe essere complesso
- Prestazioni con campioni finiti: la teoria è asintotica, le garanzie di prestazione con campioni finiti non sono sufficientemente forti
- Impatto teorico: fornisce un nuovo quadro analitico per la teoria degli IC, previsto di essere ampiamente citato
- Valore pratico: fornisce guida teorica per la scelta dei metodi di IC nelle applicazioni pratiche
- Contributo metodologico: il metodo di analisi della stabilità potrebbe applicarsi ad altri problemi di inferenza statistica
- Inferenza statistica con grandi campioni: particolarmente adatto ad applicazioni con dimensioni campionarie elevate
- Esperimenti online: scenari come i test A/B che richiedono intervalli di confidenza affidabili
- Studi di simulazione: l'impostazione con costi casuali è particolarmente adatta alle applicazioni di simulazione
- Machine learning: costruzione di intervalli di confidenza nella valutazione delle prestazioni del modello
L'articolo cita importanti lavori nel campo della statistica e dell'apprendimento automatico, inclusi:
- Hoeffding (1994): lavoro classico sulle disuguaglianze di probabilità
- Waudby-Smith & Ramdas (2024): progressi recenti nel metodo delle scommesse
- Shekhar & Ramdas (2023): lavori correlati sui limiti inferiori
- Kaufmann & Koolen (2021): disuguaglianze di concentrazione valide in qualsiasi momento
Questo articolo fornisce contributi importanti alla teoria degli intervalli di confidenza, caratterizzando completamente i limiti fondamentali della larghezza dell'IC attraverso l'introduzione di un nuovo quadro analitico e provando l'ottimalità del metodo basato sulla divergenza KL. Sebbene sia principalmente un lavoro teorico, fornisce una guida preziosa per le applicazioni pratiche.