We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
- ID de l'article: 2501.19126
- Titre: Asymptotic optimality theory of confidence intervals of the mean
- Auteurs: Vikas Deep (NUS, Singapour), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, Inde)
- Classification: math.ST stat.TH
- Date de publication: Janvier 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2501.19126
Cet article étudie le problème classique de la construction d'intervalles de confiance (IC) pour la moyenne d'une distribution basée sur N échantillons indépendants et identiquement distribués, avec la exigence que l'IC contienne la vraie moyenne avec probabilité au moins 1-δ. Les auteurs caractérisent trois régimes d'apprentissage distincts basés sur la largeur asymptotique minimale que tout IC peut atteindre lorsque N_δ→∞ et δ→0 : (1) régime sans apprentissage : lorsque N_δ croît plus lentement que log(1/δ), la largeur limite de l'IC égale la largeur du support de la distribution ; (2) régime d'apprentissage suffisant : lorsque N_δ croît proportionnellement à log(1/δ), la largeur limite minimale dépendant de constantes d'échelle peut être caractérisée précisément ; (3) régime d'apprentissage complet : lorsque N_δ croît plus rapidement que log(1/δ), la largeur limite de l'IC converge vers zéro. Les auteurs prouvent que les IC construits à partir d'inégalités de concentration basées sur la divergence KL atteignent l'optimalité asymptotique dans les régimes d'apprentissage suffisant et complet.
La construction d'intervalles de confiance est un problème fondamental en statistique, avec des applications importantes dans les tests A/B, la conception d'expériences, l'analyse de données et la simulation. Bien que de nombreuses méthodes de construction d'IC existent, il manque une caractérisation théorique des IC optimaux avec largeur minimale.
- Absence de théorie d'optimalité : Bien que la littérature existante fournisse diverses méthodes de construction d'IC, aucun résultat ne caractérise les IC optimaux avec largeur minimale
- Bornes non-asymptotiques lâches : Les bornes inférieures non-asymptotiques existantes (comme Shekhar et Ramdas 2023) sont lâches dans le cas asymptotique
- Hypothèses fortes : Les bornes existantes dépendent d'hypothèses fortes selon lesquelles la largeur de l'IC est déterministe et bornée par des fonctions spécifiques
Cet article vise à combler cette lacune théorique en introduisant une hypothèse de stabilité, en caractérisant les limites fondamentales de la largeur de l'IC dans un cadre asymptotique, et en prouvant l'optimalité des méthodes basées sur la divergence KL.
- Caractérisation de trois régimes d'apprentissage : Basée sur l'échelle relative de N_δ par rapport à la précision 1-δ, caractérisation de trois régimes distincts : sans apprentissage, apprentissage suffisant et apprentissage complet
- Bornes inférieures nettes : Dérivation de bornes inférieures nettes pour la largeur limite de l'IC dans le régime d'apprentissage suffisant, et preuve que la construction d'IC basée sur la divergence KL atteint ces bornes
- Preuve d'optimalité asymptotique : Preuve que la construction d'IC basée sur les bornes de concentration de divergence KL est optimale dans le cadre asymptotique étudié
- Résultats étendus : Extension des résultats à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et des distributions non-paramétriques dans des contextes plus généraux
Étant donné N échantillons indépendants et identiquement distribués X₁,...,X_N d'une distribution ν (de moyenne μ), construire un intervalle de confiance μ̂_L^π(N,δ), μ̂_R^π(N,δ) tel que P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.
Définition 1 (Stabilité) : Pour une distribution donnée ν, une stratégie π est dite stable si, lorsque N_δ→∞ et δ→0 :
- lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
- lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)
où μ_L^π(ν) ≤ μ et μ_R^π(ν) ≥ μ sont des constantes.
Basés sur la valeur de lim_{δ→0} N_δ/log(1/δ) notée k :
Régime sans apprentissage (k→0) :
- Largeur limite de l'IC = largeur du support de la distribution
- μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄
Régime d'apprentissage suffisant (k ∈ (0,∞)) :
- Borne inférieure : μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
- où μ_L*(μ,k) < μ et μ_R*(μ,k) > μ satisfont uniquement :
d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k
Régime d'apprentissage complet (k→∞) :
Pour les distributions dans la famille exponentielle uniparamétrique S, on définit :
d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))
Cette fonction possède des propriétés clés telles que la quasi-convexité stricte et la continuité.
Basée sur l'inégalité de concentration :
P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ
où β(δ) = log(2/δ), on construit l'IC :
- μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- Introduction du concept de stabilité : Innovation clé pour analyser le comportement asymptotique de la largeur de l'IC, rendant la largeur limite une constante déterministe
- Application astucieuse de l'inégalité de traitement des données : Combinée avec l'hypothèse de stabilité, permet de considérer simultanément l'élimination des hypothèses des deux côtés
- Preuve de la finesse : Preuve que les bornes proposées sont nettes, c'est-à-dire qu'il existe des méthodes qui les atteignent
- Distribution de Bernoulli : moyennes 0,6 et 0,9
- Distribution gaussienne : N(0,1) avec variance connue
- Distribution de Pareto : paramètre d'échelle x_m=1, paramètre de forme α=3
- Largeur moyenne de l'IC : largeur moyenne de l'intervalle de confiance sur 1000 ensembles de données indépendants
- Probabilité de couverture : fréquence à laquelle l'intervalle de confiance contient la vraie moyenne
- IC basé sur Hoeffding : basé sur l'inégalité de Hoeffding
- IC de Bernstein empirique (EB) : basé sur l'inégalité de Bernstein empirique
- IC couvert basé sur les paris : basé sur la méthode des paris
- Borne inférieure de Shekhar-Ramdas : borne théorique existante
- δ = 0,01 (expériences de Bernoulli), δ = 0,05 (expériences de Pareto)
- Tailles d'échantillon : N ∈ {2000, 3000}
- Paramètre de discrétisation : m ∈ {1000, 3000, 5000} (méthode des paris)
Pour le cas gaussien, la borne asymptotique de cet article est 2σ√(2/k), tandis que celle de Shekhar-Ramdas est σ√(2/k), avec un facteur d'amélioration de 2.
| N | π₁ | Paris(m=1000) | Paris(m=3000) | Paris(m=5000) | Hoeffding | EB |
|---|
| Moyenne=0,6 | | | | | | |
| 2000 | 0,0712 | 0,0603 | 0,0596 | 0,0595 | 0,0728 | 0,0898 |
| 3000 | 0,0582 | 0,0592 | 0,0585 | 0,0584 | 0,0594 | 0,0712 |
| Moyenne=0,9 | | | | | | |
| 2000 | 0,0436 | 0,0378 | 0,0371 | 0,0369 | 0,0728 | 0,0606 |
| 3000 | 0,0356 | 0,0370 | 0,0363 | 0,0361 | 0,0594 | 0,0473 |
| Taille d'échantillon | Largeur moyenne de l'IC |
|---|
| 500 | 0,492 |
| 1000 | 0,355 |
| 2000 | 0,255 |
| 3000 | 0,199 |
- Avantage asymptotique : La méthode π₁ montre d'excellentes performances pour les grands échantillons, en particulier pour N=3000 où elle rivalise avec la méthode des paris
- Efficacité computationnelle : La méthode π₁ est plus efficace en calcul que la méthode des paris
- Vérification théorique : Les résultats expérimentaux vérifient le facteur d'amélioration prédit par la théorie
- Dualité entre tests d'hypothèse et IC : La théorie classique construit les IC par inversion de tests d'hypothèse
- Tests uniformément les plus puissants (UMP) : Existent dans les paramètres, mais généralement limités à des familles spécifiques (comme les tests sans biais dans les familles exponentielles)
- Inégalités de Hoeffding et Bernstein : Applicables aux distributions à support borné
- Bornes de Chernoff : Applicables lorsque les bornes supérieures de la fonction génératrice des moments sont connues
- Méthodes pour distributions à queues lourdes : Utilisant les inégalités de Markov et Chebyshev
- Waudby-Smith et Ramdas (2024) : Transformation de la construction d'IC en problème de paris
- Shekhar et Ramdas (2023) : Première fourniture de bornes inférieures explicites avec termes de complexité dépendant de la distribution, mais relativement lâches
- Caractérisation théorique complète : Première caractérisation complète des limites fondamentales de la largeur de l'IC, identifiant trois régimes d'apprentissage distincts
- Méthode optimale : Preuve que la construction d'IC basée sur la divergence KL est optimale au sens asymptotique
- Applicabilité générale : Les résultats s'appliquent aux familles de distributions paramétriques et non-paramétriques, ainsi qu'aux paramètres de coût aléatoire
- Propriétés asymptotiques : Les résultats sont principalement asymptotiques, avec une guidance limitée pour les échantillons finis
- Hypothèse de stabilité : Bien que modérée, c'est une hypothèse supplémentaire
- Restriction sur les familles de distributions : Les résultats principaux se concentrent sur les familles exponentielles et les distributions à support borné
- Résultats non-asymptotiques : Développement d'une théorie non-asymptotique plus fine
- Autres statistiques : Extension à l'estimation de la variance et des quantiles
- Généralisation multidimensionnelle : Considération des régions de confiance pour paramètres multidimensionnels
- Contribution théorique majeure : Première fourniture d'une théorie complète de l'optimalité de la largeur de l'IC, comblant une lacune théorique importante
- Innovation technique significative : L'introduction du concept de stabilité et l'application astucieuse de l'inégalité de traitement des données ont une valeur méthodologique
- Résultats nets : Non seulement des bornes inférieures sont fournies, mais la réalisabilité des bornes est également prouvée
- Applicabilité générale : Extension à des paramètres d'échantillonnage aléatoire, des IC unilatéraux et d'autres contextes pertinents pour les applications
- Expériences limitées : Les expériences numériques sont relativement simples et pourraient inclure des ensembles de données réelles plus complexes
- Complexité computationnelle : Pour les cas non-paramétriques, le calcul de KL_inf peut être complexe
- Performance en échantillon fini : La théorie est asymptotique, les garanties de performance en échantillon fini ne sont pas suffisamment fortes
- Impact théorique : Fournit un nouveau cadre d'analyse pour la théorie des IC, devrait être largement cité
- Valeur pratique : Fournit une orientation théorique pour le choix des méthodes d'IC dans les applications pratiques
- Contribution méthodologique : La méthode d'analyse de stabilité peut s'appliquer à d'autres problèmes d'inférence statistique
- Inférence statistique en grand échantillon : Particulièrement applicable aux applications avec tailles d'échantillon importantes
- Expériences en ligne : Tests A/B et autres scénarios nécessitant des intervalles de confiance fiables
- Études de simulation : Les paramètres de coût aléatoire sont particulièrement adaptés aux applications de simulation
- Apprentissage automatique : Construction d'intervalles de confiance pour l'évaluation de performance de modèles
L'article cite des travaux importants dans les domaines de la statistique et de l'apprentissage automatique, notamment :
- Hoeffding (1994) : Travail classique sur les inégalités de probabilité
- Waudby-Smith & Ramdas (2024) : Progrès récents sur les méthodes de paris
- Shekhar & Ramdas (2023) : Travaux connexes sur les bornes inférieures
- Kaufmann & Koolen (2021) : Inégalités de concentration valides à tout moment
Cet article apporte une contribution importante à la théorie des intervalles de confiance. En introduisant un nouveau cadre d'analyse, il caractérise complètement les limites fondamentales de la largeur de l'IC et prouve l'optimalité de la méthode basée sur la divergence KL. Bien qu'il s'agisse principalement d'un travail théorique, il fournit des orientations précieuses pour les applications pratiques.