2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja

We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - Î´\), where \(Î´\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_Î´ \to \infty\) and \(Î´\to 0\). In the first regime, where \(N_Î´\) grows slower than \(\log(1/Î´)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_Î´\) scales as \(\log(1/Î´)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_Î´\) grows faster than \(\log(1/Î´)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_Î´\), identifying analogous learning regimes and characterizing the optimal CI construction policy.

academic

Théorie de l'optimalité asymptotique des intervalles de confiance de la moyenne

Informations de base

ID de l'article: 2501.19126
Titre: Asymptotic optimality theory of confidence intervals of the mean
Auteurs: Vikas Deep (NUS, Singapour), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, Inde)
Classification: math.ST stat.TH
Date de publication: Janvier 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2501.19126

Résumé

Cet article étudie le problème classique de la construction d'intervalles de confiance (IC) pour la moyenne d'une distribution basée sur N échantillons indépendants et identiquement distribués, avec la exigence que l'IC contienne la vraie moyenne avec probabilité au moins 1-δ. Les auteurs caractérisent trois régimes d'apprentissage distincts basés sur la largeur asymptotique minimale que tout IC peut atteindre lorsque N_δ→∞ et δ→0 : (1) régime sans apprentissage : lorsque N_δ croît plus lentement que log(1/δ), la largeur limite de l'IC égale la largeur du support de la distribution ; (2) régime d'apprentissage suffisant : lorsque N_δ croît proportionnellement à log(1/δ), la largeur limite minimale dépendant de constantes d'échelle peut être caractérisée précisément ; (3) régime d'apprentissage complet : lorsque N_δ croît plus rapidement que log(1/δ), la largeur limite de l'IC converge vers zéro. Les auteurs prouvent que les IC construits à partir d'inégalités de concentration basées sur la divergence KL atteignent l'optimalité asymptotique dans les régimes d'apprentissage suffisant et complet.

Contexte et motivation de la recherche

Importance du problème

La construction d'intervalles de confiance est un problème fondamental en statistique, avec des applications importantes dans les tests A/B, la conception d'expériences, l'analyse de données et la simulation. Bien que de nombreuses méthodes de construction d'IC existent, il manque une caractérisation théorique des IC optimaux avec largeur minimale.

Limitations des méthodes existantes

Absence de théorie d'optimalité : Bien que la littérature existante fournisse diverses méthodes de construction d'IC, aucun résultat ne caractérise les IC optimaux avec largeur minimale
Bornes non-asymptotiques lâches : Les bornes inférieures non-asymptotiques existantes (comme Shekhar et Ramdas 2023) sont lâches dans le cas asymptotique
Hypothèses fortes : Les bornes existantes dépendent d'hypothèses fortes selon lesquelles la largeur de l'IC est déterministe et bornée par des fonctions spécifiques

Motivation de la recherche

Cet article vise à combler cette lacune théorique en introduisant une hypothèse de stabilité, en caractérisant les limites fondamentales de la largeur de l'IC dans un cadre asymptotique, et en prouvant l'optimalité des méthodes basées sur la divergence KL.

Contributions principales

Caractérisation de trois régimes d'apprentissage : Basée sur l'échelle relative de N_δ par rapport à la précision 1-δ, caractérisation de trois régimes distincts : sans apprentissage, apprentissage suffisant et apprentissage complet
Bornes inférieures nettes : Dérivation de bornes inférieures nettes pour la largeur limite de l'IC dans le régime d'apprentissage suffisant, et preuve que la construction d'IC basée sur la divergence KL atteint ces bornes
Preuve d'optimalité asymptotique : Preuve que la construction d'IC basée sur les bornes de concentration de divergence KL est optimale dans le cadre asymptotique étudié
Résultats étendus : Extension des résultats à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et des distributions non-paramétriques dans des contextes plus généraux

Détails méthodologiques

Définition de la tâche

Étant donné N échantillons indépendants et identiquement distribués X₁,...,X_N d'une distribution ν (de moyenne μ), construire un intervalle de confiance μ̂_L^π(N,δ), μ̂_R^π(N,δ) tel que P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Cadre théorique principal

1. Hypothèse de stabilité

Définition 1 (Stabilité) : Pour une distribution donnée ν, une stratégie π est dite stable si, lorsque N_δ→∞ et δ→0 :

lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

où μ_L^π(ν) ≤ μ et μ_R^π(ν) ≥ μ sont des constantes.

2. Trois régimes d'apprentissage

Basés sur la valeur de lim_{δ→0} N_δ/log(1/δ) notée k :

Régime sans apprentissage (k→0) :

Largeur limite de l'IC = largeur du support de la distribution
μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Régime d'apprentissage suffisant (k ∈ (0,∞)) :

Borne inférieure : μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
où μ_L*(μ,k) < μ et μ_R*(μ,k) > μ satisfont uniquement : d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Régime d'apprentissage complet (k→∞) :

Largeur limite de l'IC→0

3. Fonction de divergence KL

Pour les distributions dans la famille exponentielle uniparamétrique S, on définit : d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Cette fonction possède des propriétés clés telles que la quasi-convexité stricte et la continuité.

Méthode optimale de construction d'IC π₁

Basée sur l'inégalité de concentration : P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

où β(δ) = log(2/δ), on construit l'IC :

μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Points d'innovation technique

Introduction du concept de stabilité : Innovation clé pour analyser le comportement asymptotique de la largeur de l'IC, rendant la largeur limite une constante déterministe
Application astucieuse de l'inégalité de traitement des données : Combinée avec l'hypothèse de stabilité, permet de considérer simultanément l'élimination des hypothèses des deux côtés
Preuve de la finesse : Preuve que les bornes proposées sont nettes, c'est-à-dire qu'il existe des méthodes qui les atteignent

Configuration expérimentale

Ensembles de données

Distribution de Bernoulli : moyennes 0,6 et 0,9
Distribution gaussienne : N(0,1) avec variance connue
Distribution de Pareto : paramètre d'échelle x_m=1, paramètre de forme α=3

Métriques d'évaluation

Largeur moyenne de l'IC : largeur moyenne de l'intervalle de confiance sur 1000 ensembles de données indépendants
Probabilité de couverture : fréquence à laquelle l'intervalle de confiance contient la vraie moyenne

Méthodes de comparaison

IC basé sur Hoeffding : basé sur l'inégalité de Hoeffding
IC de Bernstein empirique (EB) : basé sur l'inégalité de Bernstein empirique
IC couvert basé sur les paris : basé sur la méthode des paris
Borne inférieure de Shekhar-Ramdas : borne théorique existante

Détails d'implémentation

δ = 0,01 (expériences de Bernoulli), δ = 0,05 (expériences de Pareto)
Tailles d'échantillon : N ∈ {2000, 3000}
Paramètre de discrétisation : m ∈ {1000, 3000, 5000} (méthode des paris)

Résultats expérimentaux

Résultats principaux

1. Comparaison des bornes théoriques

Pour le cas gaussien, la borne asymptotique de cet article est 2σ√(2/k), tandis que celle de Shekhar-Ramdas est σ√(2/k), avec un facteur d'amélioration de 2.

2. Comparaison de la largeur de l'IC (distribution de Bernoulli)

N	π₁	Paris(m=1000)	Paris(m=3000)	Paris(m=5000)	Hoeffding	EB
Moyenne=0,6
2000	0,0712	0,0603	0,0596	0,0595	0,0728	0,0898
3000	0,0582	0,0592	0,0585	0,0584	0,0594	0,0712
Moyenne=0,9
2000	0,0436	0,0378	0,0371	0,0369	0,0728	0,0606
3000	0,0356	0,0370	0,0363	0,0361	0,0594	0,0473

3. Résultats pour distributions à queues lourdes (Pareto)

Taille d'échantillon	Largeur moyenne de l'IC
500	0,492
1000	0,355
2000	0,255
3000	0,199

Observations expérimentales

Avantage asymptotique : La méthode π₁ montre d'excellentes performances pour les grands échantillons, en particulier pour N=3000 où elle rivalise avec la méthode des paris
Efficacité computationnelle : La méthode π₁ est plus efficace en calcul que la méthode des paris
Vérification théorique : Les résultats expérimentaux vérifient le facteur d'amélioration prédit par la théorie

Travaux connexes

Théorie classique

Dualité entre tests d'hypothèse et IC : La théorie classique construit les IC par inversion de tests d'hypothèse
Tests uniformément les plus puissants (UMP) : Existent dans les paramètres, mais généralement limités à des familles spécifiques (comme les tests sans biais dans les familles exponentielles)

Méthodes d'inégalités de concentration

Inégalités de Hoeffding et Bernstein : Applicables aux distributions à support borné
Bornes de Chernoff : Applicables lorsque les bornes supérieures de la fonction génératrice des moments sont connues
Méthodes pour distributions à queues lourdes : Utilisant les inégalités de Markov et Chebyshev

Progrès récents

Waudby-Smith et Ramdas (2024) : Transformation de la construction d'IC en problème de paris
Shekhar et Ramdas (2023) : Première fourniture de bornes inférieures explicites avec termes de complexité dépendant de la distribution, mais relativement lâches

Conclusions et discussion

Conclusions principales

Caractérisation théorique complète : Première caractérisation complète des limites fondamentales de la largeur de l'IC, identifiant trois régimes d'apprentissage distincts
Méthode optimale : Preuve que la construction d'IC basée sur la divergence KL est optimale au sens asymptotique
Applicabilité générale : Les résultats s'appliquent aux familles de distributions paramétriques et non-paramétriques, ainsi qu'aux paramètres de coût aléatoire

Limitations

Propriétés asymptotiques : Les résultats sont principalement asymptotiques, avec une guidance limitée pour les échantillons finis
Hypothèse de stabilité : Bien que modérée, c'est une hypothèse supplémentaire
Restriction sur les familles de distributions : Les résultats principaux se concentrent sur les familles exponentielles et les distributions à support borné

Directions futures

Résultats non-asymptotiques : Développement d'une théorie non-asymptotique plus fine
Autres statistiques : Extension à l'estimation de la variance et des quantiles
Généralisation multidimensionnelle : Considération des régions de confiance pour paramètres multidimensionnels

Évaluation approfondie

Avantages

Contribution théorique majeure : Première fourniture d'une théorie complète de l'optimalité de la largeur de l'IC, comblant une lacune théorique importante
Innovation technique significative : L'introduction du concept de stabilité et l'application astucieuse de l'inégalité de traitement des données ont une valeur méthodologique
Résultats nets : Non seulement des bornes inférieures sont fournies, mais la réalisabilité des bornes est également prouvée
Applicabilité générale : Extension à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et d'autres contextes pertinents pour les applications

Insuffisances

Expériences limitées : Les expériences numériques sont relativement simples et pourraient inclure des ensembles de données réelles plus complexes
Complexité computationnelle : Pour les cas non-paramétriques, le calcul de KL_inf peut être complexe
Performance en échantillon fini : La théorie est asymptotique, les garanties de performance en échantillon fini ne sont pas suffisamment fortes

Impact

Impact théorique : Fournit un nouveau cadre d'analyse pour la théorie des IC, devrait être largement cité
Valeur pratique : Fournit une orientation théorique pour le choix des méthodes d'IC dans les applications pratiques
Contribution méthodologique : La méthode d'analyse de stabilité peut s'appliquer à d'autres problèmes d'inférence statistique

Scénarios d'application

Inférence statistique en grand échantillon : Particulièrement applicable aux applications avec tailles d'échantillon importantes
Expériences en ligne : Tests A/B et autres scénarios nécessitant des intervalles de confiance fiables
Études de simulation : Les paramètres de coût aléatoire sont particulièrement adaptés aux applications de simulation
Apprentissage automatique : Construction d'intervalles de confiance pour l'évaluation de performance de modèles

Références

L'article cite des travaux importants dans les domaines de la statistique et de l'apprentissage automatique, notamment :

Hoeffding (1994) : Travail classique sur les inégalités de probabilité
Waudby-Smith & Ramdas (2024) : Progrès récents sur les méthodes de paris
Shekhar & Ramdas (2023) : Travaux connexes sur les bornes inférieures
Kaufmann & Koolen (2021) : Inégalités de concentration valides à tout moment

Cet article apporte une contribution importante à la théorie des intervalles de confiance. En introduisant un nouveau cadre d'analyse, il caractérise complètement les limites fondamentales de la largeur de l'IC et prouve l'optimalité de la méthode basée sur la divergence KL. Bien qu'il s'agisse principalement d'un travail théorique, il fournit des orientations précieuses pour les applications pratiques.