2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja

We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - Î´\), where \(Î´\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_Î´ \to \infty\) and \(Î´\to 0\). In the first regime, where \(N_Î´\) grows slower than \(\log(1/Î´)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_Î´\) scales as \(\log(1/Î´)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_Î´\) grows faster than \(\log(1/Î´)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_Î´\), identifying analogous learning regimes and characterizing the optimal CI construction policy.

academic

Teoría de optimalidad asintótica de intervalos de confianza de la media

Información Básica

ID del Artículo: 2501.19126
Título: Asymptotic optimality theory of confidence intervals of the mean
Autores: Vikas Deep (NUS, Singapur), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
Clasificación: math.ST stat.TH
Fecha de Publicación: Enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.19126

Resumen

Este artículo estudia el problema clásico de construir intervalos de confianza (IC) para la media de una distribución basados en N muestras independientes e idénticamente distribuidas, requiriendo que el IC contenga la media verdadera con probabilidad al menos 1-δ. Los autores caracterizan tres regímenes de aprendizaje distintos basados en el ancho asintótico mínimo alcanzable por cualquier IC cuando N_δ→∞ y δ→0: (1) régimen sin aprendizaje: cuando N_δ crece más lentamente que log(1/δ), el ancho límite del IC es igual al ancho del soporte de la distribución; (2) régimen de aprendizaje suficiente: cuando N_δ crece proporcionalmente a log(1/δ), se puede caracterizar precisamente el ancho límite mínimo dependiente de constantes de escala; (3) régimen de aprendizaje completo: cuando N_δ crece más rápidamente que log(1/δ), el ancho límite del IC converge a cero. Los autores demuestran que los IC construidos mediante desigualdades de concentración basadas en divergencia KL alcanzan optimalidad asintótica tanto en los regímenes de aprendizaje suficiente como completo.

Antecedentes y Motivación de la Investigación

Importancia del Problema

La construcción de intervalos de confianza es un problema fundamental en estadística con aplicaciones importantes en pruebas A/B, diseño experimental, análisis de datos y simulación. Aunque existen múltiples métodos para construir intervalos de confianza, falta una caracterización teórica de los IC óptimos con ancho mínimo.

Limitaciones de Métodos Existentes

Falta de teoría de optimalidad: Aunque la literatura existente proporciona diversos métodos de construcción de IC, no hay resultados que caractericen los IC óptimos con ancho mínimo
Cotas inferiores no asintóticas sueltas: Las cotas inferiores existentes (como Shekhar y Ramdas 2023) son sueltas en el régimen asintótico
Supuestos fuertes: Las cotas inferiores existentes dependen de supuestos fuertes que requieren que el ancho del IC esté acotado determinísticamente por funciones específicas

Motivación de la Investigación

Este artículo tiene como objetivo llenar este vacío teórico introduciendo un supuesto de estabilidad, caracterizando los límites fundamentales del ancho del IC en el marco asintótico, y demostrando la optimalidad de métodos basados en divergencia KL.

Contribuciones Principales

Caracterización de tres regímenes de aprendizaje: Basados en el escalado relativo de la cantidad de muestras N_δ respecto a la precisión 1-δ, se caracterizan tres regímenes distintos: sin aprendizaje, aprendizaje suficiente y aprendizaje completo
Cotas inferiores agudas: Se derivan cotas inferiores agudas para el ancho límite del IC en el régimen de aprendizaje suficiente, demostrando que la construcción de IC basada en divergencia KL alcanza estas cotas
Demostración de optimalidad asintótica: Se demuestra que la construcción de IC basada en cotas de concentración de divergencia KL es óptima en el marco asintótico estudiado
Resultados extendidos: Se extienden los resultados a configuraciones más generales incluyendo costos de muestreo aleatorio, IC unilaterales y distribuciones no paramétricas

Explicación Detallada de Métodos

Definición de la Tarea

Dado N muestras independientes e idénticamente distribuidas X₁,...,X_N de una distribución ν (con media μ), construir un intervalo de confianza μ̂_L^π(N,δ), μ̂_R^π(N,δ) tal que P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Marco Teórico Central

1. Supuesto de Estabilidad

Definición 1 (Estabilidad): Para una distribución ν dada, una estrategia π se denomina estable si cuando N_δ→∞ y δ→0:

lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

donde μ_L^π(ν) ≤ μ y μ_R^π(ν) ≥ μ son constantes.

2. Tres Regímenes de Aprendizaje

Basados en el valor de lim_{δ→0} N_δ/log(1/δ) = k:

Régimen sin aprendizaje (k→0):

Ancho límite del IC = ancho del soporte de la distribución
μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Régimen de aprendizaje suficiente (k ∈ (0,∞)):

Cota inferior: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
donde μ_L*(μ,k) < μ y μ_R*(μ,k) > μ satisfacen únicamente: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Régimen de aprendizaje completo (k→∞):

Ancho límite del IC→0

3. Función de Divergencia KL

Para distribuciones en la familia exponencial uniparamétrica S, se define: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Esta función posee propiedades clave como cuasiconvexidad estricta y continuidad.

Método Óptimo de Construcción de IC π₁

Basado en la desigualdad de concentración: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

donde β(δ) = log(2/δ), se construye el IC:

μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Puntos de Innovación Técnica

Introducción del concepto de estabilidad: Esta es la innovación clave para analizar el comportamiento asintótico del ancho del IC, permitiendo que el ancho límite sea una constante determinística
Aplicación ingeniosa de la desigualdad de procesamiento de datos: Combinada con el supuesto de estabilidad, permite considerar simultáneamente la eliminación de hipótesis en ambos lados
Demostración de rigidez: Se demuestra que las cotas inferiores propuestas son rigidas, es decir, existen métodos que alcanzan estas cotas

Configuración Experimental

Conjuntos de Datos

Distribución Bernoulli: medias de 0.6 y 0.9
Distribución Gaussiana: N(0,1) con varianza conocida
Distribución Pareto: parámetro de escala x_m=1, parámetro de forma α=3

Métricas de Evaluación

Ancho promedio del IC: ancho promedio del intervalo de confianza en 1000 conjuntos de datos independientes
Probabilidad de cobertura: frecuencia con la que el intervalo de confianza contiene la media verdadera

Métodos de Comparación

IC basado en Hoeffding: basado en la desigualdad de Hoeffding
IC Bernstein Empírico (EB): basado en la desigualdad de Bernstein empírica
IC hedged basado en apuestas: basado en métodos de apuestas
Cota inferior de Shekhar-Ramdas: cota teórica existente

Detalles de Implementación

δ = 0.01 (experimentos Bernoulli), δ = 0.05 (experimentos Pareto)
Tamaños de muestra: N ∈ {2000, 3000}
Parámetro de discretización: m ∈ {1000, 3000, 5000} (método de apuestas)

Resultados Experimentales

Resultados Principales

1. Comparación de Cotas Teóricas Inferiores

Para el caso Gaussiano, la cota inferior asintótica de este artículo es 2σ√(2/k), mientras que la de Shekhar-Ramdas es σ√(2/k), con un factor de mejora de 2.

2. Comparación de Ancho del IC (Distribución Bernoulli)

N	π₁	Apuestas(m=1000)	Apuestas(m=3000)	Apuestas(m=5000)	Hoeffding	EB
Media=0.6
2000	0.0712	0.0603	0.0596	0.0595	0.0728	0.0898
3000	0.0582	0.0592	0.0585	0.0584	0.0594	0.0712
Media=0.9
2000	0.0436	0.0378	0.0371	0.0369	0.0728	0.0606
3000	0.0356	0.0370	0.0363	0.0361	0.0594	0.0473

3. Resultados de Distribuciones de Colas Pesadas (Pareto)

Tamaño de Muestra	Ancho Promedio del IC
500	0.492
1000	0.355
2000	0.255
3000	0.199

Hallazgos Experimentales

Ventaja asintótica: El método π₁ muestra un desempeño excelente en casos de muestras grandes, siendo comparable al método de apuestas cuando N=3000
Eficiencia computacional: El método π₁ es computacionalmente más eficiente que el método de apuestas
Verificación teórica: Los resultados experimentales verifican el factor de mejora predicho teóricamente

Trabajo Relacionado

Teoría Clásica

Dualidad entre pruebas de hipótesis e IC: La teoría clásica construye IC invirtiendo pruebas de hipótesis
Pruebas UMP: Existen pruebas uniformemente más potentes en configuraciones paramétricas, pero generalmente limitadas a familias específicas (como pruebas insesgadas en familias exponenciales)

Métodos de Desigualdades de Concentración

Desigualdades de Hoeffding y Bernstein: Aplicables a distribuciones con soporte acotado
Cotas de Chernoff: Aplicables cuando se conocen cotas superiores de la función generadora de momentos
Métodos para distribuciones de colas pesadas: Utilizan desigualdades de Markov y Chebyshev

Avances Recientes

Waudby-Smith y Ramdas (2024): Transforman la construcción de IC en problemas de apuestas
Shekhar y Ramdas (2023): Proporcionan por primera vez cotas inferiores explícitas con términos de complejidad dependientes de la distribución, aunque más sueltas

Conclusiones y Discusión

Conclusiones Principales

Caracterización teórica completa: Primera caracterización completa de los límites fundamentales del ancho del IC, identificando tres regímenes de aprendizaje distintos
Método óptimo: Se demuestra que la construcción de IC basada en divergencia KL es óptima en sentido asintótico
Amplia aplicabilidad: Los resultados se aplican a familias de distribuciones paramétricas y no paramétricas, así como a configuraciones con costos aleatorios

Limitaciones

Naturaleza asintótica: Los resultados son principalmente asintóticos, proporcionando orientación limitada para muestras finitas
Supuesto de estabilidad: Aunque moderado, sigue siendo un supuesto adicional
Restricción de familias de distribuciones: Los resultados principales se concentran en familias exponenciales y distribuciones con soporte acotado

Direcciones Futuras

Resultados no asintóticos: Desarrollar teoría no asintótica más refinada
Otros estadísticos: Extender a estimación de varianza y cuantiles
Generalización multidimensional: Considerar regiones de confianza para parámetros multidimensionales

Evaluación Profunda

Fortalezas

Contribución teórica significativa: Proporciona por primera vez una teoría completa sobre optimalidad del ancho del IC, llenando un vacío teórico importante
Innovación técnica notable: La introducción del concepto de estabilidad y la aplicación ingeniosa de la desigualdad de procesamiento de datos tienen valor metodológico
Resultados rigurosos: No solo proporciona cotas inferiores, sino que también demuestra que estas cotas son alcanzables
Amplia aplicabilidad: Se extiende a costos aleatorios, IC unilaterales y otras configuraciones relevantes en la práctica

Deficiencias

Experimentos limitados: Los experimentos numéricos son relativamente simples, podrían incluir conjuntos de datos más complejos y realistas
Complejidad computacional: Para casos no paramétricos, el cálculo de KL_inf puede ser relativamente complejo
Garantías de muestras finitas: La teoría es asintótica, las garantías de desempeño con muestras finitas no son suficientemente fuertes

Impacto

Impacto teórico: Proporciona un nuevo marco de análisis para la teoría de IC, se espera que sea ampliamente citado
Valor práctico: Proporciona orientación teórica para seleccionar métodos de IC en aplicaciones prácticas
Contribución metodológica: El método de análisis de estabilidad puede ser aplicable a otros problemas de inferencia estadística

Escenarios de Aplicación

Inferencia estadística con muestras grandes: Particularmente aplicable a aplicaciones con tamaños de muestra grandes
Experimentos en línea: Escenarios como pruebas A/B que requieren intervalos de confianza confiables
Estudios de simulación: La configuración de costos aleatorios es especialmente adecuada para aplicaciones de simulación
Aprendizaje automático: Construcción de intervalos de confianza en evaluación del desempeño de modelos

Referencias

El artículo cita literatura importante en los campos de estadística y aprendizaje automático, incluyendo:

Hoeffding (1994): Trabajo clásico sobre desigualdades de probabilidad
Waudby-Smith & Ramdas (2024): Avances recientes en métodos de apuestas
Shekhar & Ramdas (2023): Trabajo relacionado sobre cotas inferiores
Kaufmann & Koolen (2021): Desigualdades de concentración válidas en cualquier momento

Este artículo realiza contribuciones importantes en la teoría de intervalos de confianza, caracterizando completamente los límites fundamentales del ancho del IC mediante la introducción de un nuevo marco de análisis, y demostrando la optimalidad del método basado en divergencia KL. Aunque es principalmente un trabajo teórico, proporciona orientación valiosa para aplicaciones prácticas.