2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

Théorie de l'optimalité asymptotique des intervalles de confiance de la moyenne

Informations de base

  • ID de l'article: 2501.19126
  • Titre: Asymptotic optimality theory of confidence intervals of the mean
  • Auteurs: Vikas Deep (NUS, Singapour), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, Inde)
  • Classification: math.ST stat.TH
  • Date de publication: Janvier 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.19126

Résumé

Cet article étudie le problème classique de la construction d'intervalles de confiance (IC) pour la moyenne d'une distribution basée sur N échantillons indépendants et identiquement distribués, avec la exigence que l'IC contienne la vraie moyenne avec probabilité au moins 1-δ. Les auteurs caractérisent trois régimes d'apprentissage distincts basés sur la largeur asymptotique minimale que tout IC peut atteindre lorsque N_δ→∞ et δ→0 : (1) régime sans apprentissage : lorsque N_δ croît plus lentement que log(1/δ), la largeur limite de l'IC égale la largeur du support de la distribution ; (2) régime d'apprentissage suffisant : lorsque N_δ croît proportionnellement à log(1/δ), la largeur limite minimale dépendant de constantes d'échelle peut être caractérisée précisément ; (3) régime d'apprentissage complet : lorsque N_δ croît plus rapidement que log(1/δ), la largeur limite de l'IC converge vers zéro. Les auteurs prouvent que les IC construits à partir d'inégalités de concentration basées sur la divergence KL atteignent l'optimalité asymptotique dans les régimes d'apprentissage suffisant et complet.

Contexte et motivation de la recherche

Importance du problème

La construction d'intervalles de confiance est un problème fondamental en statistique, avec des applications importantes dans les tests A/B, la conception d'expériences, l'analyse de données et la simulation. Bien que de nombreuses méthodes de construction d'IC existent, il manque une caractérisation théorique des IC optimaux avec largeur minimale.

Limitations des méthodes existantes

  1. Absence de théorie d'optimalité : Bien que la littérature existante fournisse diverses méthodes de construction d'IC, aucun résultat ne caractérise les IC optimaux avec largeur minimale
  2. Bornes non-asymptotiques lâches : Les bornes inférieures non-asymptotiques existantes (comme Shekhar et Ramdas 2023) sont lâches dans le cas asymptotique
  3. Hypothèses fortes : Les bornes existantes dépendent d'hypothèses fortes selon lesquelles la largeur de l'IC est déterministe et bornée par des fonctions spécifiques

Motivation de la recherche

Cet article vise à combler cette lacune théorique en introduisant une hypothèse de stabilité, en caractérisant les limites fondamentales de la largeur de l'IC dans un cadre asymptotique, et en prouvant l'optimalité des méthodes basées sur la divergence KL.

Contributions principales

  1. Caractérisation de trois régimes d'apprentissage : Basée sur l'échelle relative de N_δ par rapport à la précision 1-δ, caractérisation de trois régimes distincts : sans apprentissage, apprentissage suffisant et apprentissage complet
  2. Bornes inférieures nettes : Dérivation de bornes inférieures nettes pour la largeur limite de l'IC dans le régime d'apprentissage suffisant, et preuve que la construction d'IC basée sur la divergence KL atteint ces bornes
  3. Preuve d'optimalité asymptotique : Preuve que la construction d'IC basée sur les bornes de concentration de divergence KL est optimale dans le cadre asymptotique étudié
  4. Résultats étendus : Extension des résultats à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et des distributions non-paramétriques dans des contextes plus généraux

Détails méthodologiques

Définition de la tâche

Étant donné N échantillons indépendants et identiquement distribués X₁,...,X_N d'une distribution ν (de moyenne μ), construire un intervalle de confiance μ̂_L^π(N,δ), μ̂_R^π(N,δ) tel que P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Cadre théorique principal

1. Hypothèse de stabilité

Définition 1 (Stabilité) : Pour une distribution donnée ν, une stratégie π est dite stable si, lorsque N_δ→∞ et δ→0 :

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

où μ_L^π(ν) ≤ μ et μ_R^π(ν) ≥ μ sont des constantes.

2. Trois régimes d'apprentissage

Basés sur la valeur de lim_{δ→0} N_δ/log(1/δ) notée k :

Régime sans apprentissage (k→0) :

  • Largeur limite de l'IC = largeur du support de la distribution
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Régime d'apprentissage suffisant (k ∈ (0,∞)) :

  • Borne inférieure : μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • où μ_L*(μ,k) < μ et μ_R*(μ,k) > μ satisfont uniquement : d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Régime d'apprentissage complet (k→∞) :

  • Largeur limite de l'IC→0

3. Fonction de divergence KL

Pour les distributions dans la famille exponentielle uniparamétrique S, on définit : d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Cette fonction possède des propriétés clés telles que la quasi-convexité stricte et la continuité.

Méthode optimale de construction d'IC π₁

Basée sur l'inégalité de concentration : P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

où β(δ) = log(2/δ), on construit l'IC :

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Points d'innovation technique

  1. Introduction du concept de stabilité : Innovation clé pour analyser le comportement asymptotique de la largeur de l'IC, rendant la largeur limite une constante déterministe
  2. Application astucieuse de l'inégalité de traitement des données : Combinée avec l'hypothèse de stabilité, permet de considérer simultanément l'élimination des hypothèses des deux côtés
  3. Preuve de la finesse : Preuve que les bornes proposées sont nettes, c'est-à-dire qu'il existe des méthodes qui les atteignent

Configuration expérimentale

Ensembles de données

  • Distribution de Bernoulli : moyennes 0,6 et 0,9
  • Distribution gaussienne : N(0,1) avec variance connue
  • Distribution de Pareto : paramètre d'échelle x_m=1, paramètre de forme α=3

Métriques d'évaluation

  • Largeur moyenne de l'IC : largeur moyenne de l'intervalle de confiance sur 1000 ensembles de données indépendants
  • Probabilité de couverture : fréquence à laquelle l'intervalle de confiance contient la vraie moyenne

Méthodes de comparaison

  1. IC basé sur Hoeffding : basé sur l'inégalité de Hoeffding
  2. IC de Bernstein empirique (EB) : basé sur l'inégalité de Bernstein empirique
  3. IC couvert basé sur les paris : basé sur la méthode des paris
  4. Borne inférieure de Shekhar-Ramdas : borne théorique existante

Détails d'implémentation

  • δ = 0,01 (expériences de Bernoulli), δ = 0,05 (expériences de Pareto)
  • Tailles d'échantillon : N ∈ {2000, 3000}
  • Paramètre de discrétisation : m ∈ {1000, 3000, 5000} (méthode des paris)

Résultats expérimentaux

Résultats principaux

1. Comparaison des bornes théoriques

Pour le cas gaussien, la borne asymptotique de cet article est 2σ√(2/k), tandis que celle de Shekhar-Ramdas est σ√(2/k), avec un facteur d'amélioration de 2.

2. Comparaison de la largeur de l'IC (distribution de Bernoulli)

Nπ₁Paris(m=1000)Paris(m=3000)Paris(m=5000)HoeffdingEB
Moyenne=0,6
20000,07120,06030,05960,05950,07280,0898
30000,05820,05920,05850,05840,05940,0712
Moyenne=0,9
20000,04360,03780,03710,03690,07280,0606
30000,03560,03700,03630,03610,05940,0473

3. Résultats pour distributions à queues lourdes (Pareto)

Taille d'échantillonLargeur moyenne de l'IC
5000,492
10000,355
20000,255
30000,199

Observations expérimentales

  1. Avantage asymptotique : La méthode π₁ montre d'excellentes performances pour les grands échantillons, en particulier pour N=3000 où elle rivalise avec la méthode des paris
  2. Efficacité computationnelle : La méthode π₁ est plus efficace en calcul que la méthode des paris
  3. Vérification théorique : Les résultats expérimentaux vérifient le facteur d'amélioration prédit par la théorie

Travaux connexes

Théorie classique

  • Dualité entre tests d'hypothèse et IC : La théorie classique construit les IC par inversion de tests d'hypothèse
  • Tests uniformément les plus puissants (UMP) : Existent dans les paramètres, mais généralement limités à des familles spécifiques (comme les tests sans biais dans les familles exponentielles)

Méthodes d'inégalités de concentration

  • Inégalités de Hoeffding et Bernstein : Applicables aux distributions à support borné
  • Bornes de Chernoff : Applicables lorsque les bornes supérieures de la fonction génératrice des moments sont connues
  • Méthodes pour distributions à queues lourdes : Utilisant les inégalités de Markov et Chebyshev

Progrès récents

  • Waudby-Smith et Ramdas (2024) : Transformation de la construction d'IC en problème de paris
  • Shekhar et Ramdas (2023) : Première fourniture de bornes inférieures explicites avec termes de complexité dépendant de la distribution, mais relativement lâches

Conclusions et discussion

Conclusions principales

  1. Caractérisation théorique complète : Première caractérisation complète des limites fondamentales de la largeur de l'IC, identifiant trois régimes d'apprentissage distincts
  2. Méthode optimale : Preuve que la construction d'IC basée sur la divergence KL est optimale au sens asymptotique
  3. Applicabilité générale : Les résultats s'appliquent aux familles de distributions paramétriques et non-paramétriques, ainsi qu'aux paramètres de coût aléatoire

Limitations

  1. Propriétés asymptotiques : Les résultats sont principalement asymptotiques, avec une guidance limitée pour les échantillons finis
  2. Hypothèse de stabilité : Bien que modérée, c'est une hypothèse supplémentaire
  3. Restriction sur les familles de distributions : Les résultats principaux se concentrent sur les familles exponentielles et les distributions à support borné

Directions futures

  1. Résultats non-asymptotiques : Développement d'une théorie non-asymptotique plus fine
  2. Autres statistiques : Extension à l'estimation de la variance et des quantiles
  3. Généralisation multidimensionnelle : Considération des régions de confiance pour paramètres multidimensionnels

Évaluation approfondie

Avantages

  1. Contribution théorique majeure : Première fourniture d'une théorie complète de l'optimalité de la largeur de l'IC, comblant une lacune théorique importante
  2. Innovation technique significative : L'introduction du concept de stabilité et l'application astucieuse de l'inégalité de traitement des données ont une valeur méthodologique
  3. Résultats nets : Non seulement des bornes inférieures sont fournies, mais la réalisabilité des bornes est également prouvée
  4. Applicabilité générale : Extension à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et d'autres contextes pertinents pour les applications

Insuffisances

  1. Expériences limitées : Les expériences numériques sont relativement simples et pourraient inclure des ensembles de données réelles plus complexes
  2. Complexité computationnelle : Pour les cas non-paramétriques, le calcul de KL_inf peut être complexe
  3. Performance en échantillon fini : La théorie est asymptotique, les garanties de performance en échantillon fini ne sont pas suffisamment fortes

Impact

  1. Impact théorique : Fournit un nouveau cadre d'analyse pour la théorie des IC, devrait être largement cité
  2. Valeur pratique : Fournit une orientation théorique pour le choix des méthodes d'IC dans les applications pratiques
  3. Contribution méthodologique : La méthode d'analyse de stabilité peut s'appliquer à d'autres problèmes d'inférence statistique

Scénarios d'application

  1. Inférence statistique en grand échantillon : Particulièrement applicable aux applications avec tailles d'échantillon importantes
  2. Expériences en ligne : Tests A/B et autres scénarios nécessitant des intervalles de confiance fiables
  3. Études de simulation : Les paramètres de coût aléatoire sont particulièrement adaptés aux applications de simulation
  4. Apprentissage automatique : Construction d'intervalles de confiance pour l'évaluation de performance de modèles

Références

L'article cite des travaux importants dans les domaines de la statistique et de l'apprentissage automatique, notamment :

  • Hoeffding (1994) : Travail classique sur les inégalités de probabilité
  • Waudby-Smith & Ramdas (2024) : Progrès récents sur les méthodes de paris
  • Shekhar & Ramdas (2023) : Travaux connexes sur les bornes inférieures
  • Kaufmann & Koolen (2021) : Inégalités de concentration valides à tout moment

Cet article apporte une contribution importante à la théorie des intervalles de confiance. En introduisant un nouveau cadre d'analyse, il caractérise complètement les limites fondamentales de la largeur de l'IC et prouve l'optimalité de la méthode basée sur la divergence KL. Bien qu'il s'agisse principalement d'un travail théorique, il fournit des orientations précieuses pour les applications pratiques.