2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

Teoría de optimalidad asintótica de intervalos de confianza de la media

Información Básica

  • ID del Artículo: 2501.19126
  • Título: Asymptotic optimality theory of confidence intervals of the mean
  • Autores: Vikas Deep (NUS, Singapur), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
  • Clasificación: math.ST stat.TH
  • Fecha de Publicación: Enero de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.19126

Resumen

Este artículo estudia el problema clásico de construir intervalos de confianza (IC) para la media de una distribución basados en N muestras independientes e idénticamente distribuidas, requiriendo que el IC contenga la media verdadera con probabilidad al menos 1-δ. Los autores caracterizan tres regímenes de aprendizaje distintos basados en el ancho asintótico mínimo alcanzable por cualquier IC cuando N_δ→∞ y δ→0: (1) régimen sin aprendizaje: cuando N_δ crece más lentamente que log(1/δ), el ancho límite del IC es igual al ancho del soporte de la distribución; (2) régimen de aprendizaje suficiente: cuando N_δ crece proporcionalmente a log(1/δ), se puede caracterizar precisamente el ancho límite mínimo dependiente de constantes de escala; (3) régimen de aprendizaje completo: cuando N_δ crece más rápidamente que log(1/δ), el ancho límite del IC converge a cero. Los autores demuestran que los IC construidos mediante desigualdades de concentración basadas en divergencia KL alcanzan optimalidad asintótica tanto en los regímenes de aprendizaje suficiente como completo.

Antecedentes y Motivación de la Investigación

Importancia del Problema

La construcción de intervalos de confianza es un problema fundamental en estadística con aplicaciones importantes en pruebas A/B, diseño experimental, análisis de datos y simulación. Aunque existen múltiples métodos para construir intervalos de confianza, falta una caracterización teórica de los IC óptimos con ancho mínimo.

Limitaciones de Métodos Existentes

  1. Falta de teoría de optimalidad: Aunque la literatura existente proporciona diversos métodos de construcción de IC, no hay resultados que caractericen los IC óptimos con ancho mínimo
  2. Cotas inferiores no asintóticas sueltas: Las cotas inferiores existentes (como Shekhar y Ramdas 2023) son sueltas en el régimen asintótico
  3. Supuestos fuertes: Las cotas inferiores existentes dependen de supuestos fuertes que requieren que el ancho del IC esté acotado determinísticamente por funciones específicas

Motivación de la Investigación

Este artículo tiene como objetivo llenar este vacío teórico introduciendo un supuesto de estabilidad, caracterizando los límites fundamentales del ancho del IC en el marco asintótico, y demostrando la optimalidad de métodos basados en divergencia KL.

Contribuciones Principales

  1. Caracterización de tres regímenes de aprendizaje: Basados en el escalado relativo de la cantidad de muestras N_δ respecto a la precisión 1-δ, se caracterizan tres regímenes distintos: sin aprendizaje, aprendizaje suficiente y aprendizaje completo
  2. Cotas inferiores agudas: Se derivan cotas inferiores agudas para el ancho límite del IC en el régimen de aprendizaje suficiente, demostrando que la construcción de IC basada en divergencia KL alcanza estas cotas
  3. Demostración de optimalidad asintótica: Se demuestra que la construcción de IC basada en cotas de concentración de divergencia KL es óptima en el marco asintótico estudiado
  4. Resultados extendidos: Se extienden los resultados a configuraciones más generales incluyendo costos de muestreo aleatorio, IC unilaterales y distribuciones no paramétricas

Explicación Detallada de Métodos

Definición de la Tarea

Dado N muestras independientes e idénticamente distribuidas X₁,...,X_N de una distribución ν (con media μ), construir un intervalo de confianza μ̂_L^π(N,δ), μ̂_R^π(N,δ) tal que P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Marco Teórico Central

1. Supuesto de Estabilidad

Definición 1 (Estabilidad): Para una distribución ν dada, una estrategia π se denomina estable si cuando N_δ→∞ y δ→0:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

donde μ_L^π(ν) ≤ μ y μ_R^π(ν) ≥ μ son constantes.

2. Tres Regímenes de Aprendizaje

Basados en el valor de lim_{δ→0} N_δ/log(1/δ) = k:

Régimen sin aprendizaje (k→0):

  • Ancho límite del IC = ancho del soporte de la distribución
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Régimen de aprendizaje suficiente (k ∈ (0,∞)):

  • Cota inferior: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • donde μ_L*(μ,k) < μ y μ_R*(μ,k) > μ satisfacen únicamente: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Régimen de aprendizaje completo (k→∞):

  • Ancho límite del IC→0

3. Función de Divergencia KL

Para distribuciones en la familia exponencial uniparamétrica S, se define: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Esta función posee propiedades clave como cuasiconvexidad estricta y continuidad.

Método Óptimo de Construcción de IC π₁

Basado en la desigualdad de concentración: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

donde β(δ) = log(2/δ), se construye el IC:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Puntos de Innovación Técnica

  1. Introducción del concepto de estabilidad: Esta es la innovación clave para analizar el comportamiento asintótico del ancho del IC, permitiendo que el ancho límite sea una constante determinística
  2. Aplicación ingeniosa de la desigualdad de procesamiento de datos: Combinada con el supuesto de estabilidad, permite considerar simultáneamente la eliminación de hipótesis en ambos lados
  3. Demostración de rigidez: Se demuestra que las cotas inferiores propuestas son rigidas, es decir, existen métodos que alcanzan estas cotas

Configuración Experimental

Conjuntos de Datos

  • Distribución Bernoulli: medias de 0.6 y 0.9
  • Distribución Gaussiana: N(0,1) con varianza conocida
  • Distribución Pareto: parámetro de escala x_m=1, parámetro de forma α=3

Métricas de Evaluación

  • Ancho promedio del IC: ancho promedio del intervalo de confianza en 1000 conjuntos de datos independientes
  • Probabilidad de cobertura: frecuencia con la que el intervalo de confianza contiene la media verdadera

Métodos de Comparación

  1. IC basado en Hoeffding: basado en la desigualdad de Hoeffding
  2. IC Bernstein Empírico (EB): basado en la desigualdad de Bernstein empírica
  3. IC hedged basado en apuestas: basado en métodos de apuestas
  4. Cota inferior de Shekhar-Ramdas: cota teórica existente

Detalles de Implementación

  • δ = 0.01 (experimentos Bernoulli), δ = 0.05 (experimentos Pareto)
  • Tamaños de muestra: N ∈ {2000, 3000}
  • Parámetro de discretización: m ∈ {1000, 3000, 5000} (método de apuestas)

Resultados Experimentales

Resultados Principales

1. Comparación de Cotas Teóricas Inferiores

Para el caso Gaussiano, la cota inferior asintótica de este artículo es 2σ√(2/k), mientras que la de Shekhar-Ramdas es σ√(2/k), con un factor de mejora de 2.

2. Comparación de Ancho del IC (Distribución Bernoulli)

Nπ₁Apuestas(m=1000)Apuestas(m=3000)Apuestas(m=5000)HoeffdingEB
Media=0.6
20000.07120.06030.05960.05950.07280.0898
30000.05820.05920.05850.05840.05940.0712
Media=0.9
20000.04360.03780.03710.03690.07280.0606
30000.03560.03700.03630.03610.05940.0473

3. Resultados de Distribuciones de Colas Pesadas (Pareto)

Tamaño de MuestraAncho Promedio del IC
5000.492
10000.355
20000.255
30000.199

Hallazgos Experimentales

  1. Ventaja asintótica: El método π₁ muestra un desempeño excelente en casos de muestras grandes, siendo comparable al método de apuestas cuando N=3000
  2. Eficiencia computacional: El método π₁ es computacionalmente más eficiente que el método de apuestas
  3. Verificación teórica: Los resultados experimentales verifican el factor de mejora predicho teóricamente

Trabajo Relacionado

Teoría Clásica

  • Dualidad entre pruebas de hipótesis e IC: La teoría clásica construye IC invirtiendo pruebas de hipótesis
  • Pruebas UMP: Existen pruebas uniformemente más potentes en configuraciones paramétricas, pero generalmente limitadas a familias específicas (como pruebas insesgadas en familias exponenciales)

Métodos de Desigualdades de Concentración

  • Desigualdades de Hoeffding y Bernstein: Aplicables a distribuciones con soporte acotado
  • Cotas de Chernoff: Aplicables cuando se conocen cotas superiores de la función generadora de momentos
  • Métodos para distribuciones de colas pesadas: Utilizan desigualdades de Markov y Chebyshev

Avances Recientes

  • Waudby-Smith y Ramdas (2024): Transforman la construcción de IC en problemas de apuestas
  • Shekhar y Ramdas (2023): Proporcionan por primera vez cotas inferiores explícitas con términos de complejidad dependientes de la distribución, aunque más sueltas

Conclusiones y Discusión

Conclusiones Principales

  1. Caracterización teórica completa: Primera caracterización completa de los límites fundamentales del ancho del IC, identificando tres regímenes de aprendizaje distintos
  2. Método óptimo: Se demuestra que la construcción de IC basada en divergencia KL es óptima en sentido asintótico
  3. Amplia aplicabilidad: Los resultados se aplican a familias de distribuciones paramétricas y no paramétricas, así como a configuraciones con costos aleatorios

Limitaciones

  1. Naturaleza asintótica: Los resultados son principalmente asintóticos, proporcionando orientación limitada para muestras finitas
  2. Supuesto de estabilidad: Aunque moderado, sigue siendo un supuesto adicional
  3. Restricción de familias de distribuciones: Los resultados principales se concentran en familias exponenciales y distribuciones con soporte acotado

Direcciones Futuras

  1. Resultados no asintóticos: Desarrollar teoría no asintótica más refinada
  2. Otros estadísticos: Extender a estimación de varianza y cuantiles
  3. Generalización multidimensional: Considerar regiones de confianza para parámetros multidimensionales

Evaluación Profunda

Fortalezas

  1. Contribución teórica significativa: Proporciona por primera vez una teoría completa sobre optimalidad del ancho del IC, llenando un vacío teórico importante
  2. Innovación técnica notable: La introducción del concepto de estabilidad y la aplicación ingeniosa de la desigualdad de procesamiento de datos tienen valor metodológico
  3. Resultados rigurosos: No solo proporciona cotas inferiores, sino que también demuestra que estas cotas son alcanzables
  4. Amplia aplicabilidad: Se extiende a costos aleatorios, IC unilaterales y otras configuraciones relevantes en la práctica

Deficiencias

  1. Experimentos limitados: Los experimentos numéricos son relativamente simples, podrían incluir conjuntos de datos más complejos y realistas
  2. Complejidad computacional: Para casos no paramétricos, el cálculo de KL_inf puede ser relativamente complejo
  3. Garantías de muestras finitas: La teoría es asintótica, las garantías de desempeño con muestras finitas no son suficientemente fuertes

Impacto

  1. Impacto teórico: Proporciona un nuevo marco de análisis para la teoría de IC, se espera que sea ampliamente citado
  2. Valor práctico: Proporciona orientación teórica para seleccionar métodos de IC en aplicaciones prácticas
  3. Contribución metodológica: El método de análisis de estabilidad puede ser aplicable a otros problemas de inferencia estadística

Escenarios de Aplicación

  1. Inferencia estadística con muestras grandes: Particularmente aplicable a aplicaciones con tamaños de muestra grandes
  2. Experimentos en línea: Escenarios como pruebas A/B que requieren intervalos de confianza confiables
  3. Estudios de simulación: La configuración de costos aleatorios es especialmente adecuada para aplicaciones de simulación
  4. Aprendizaje automático: Construcción de intervalos de confianza en evaluación del desempeño de modelos

Referencias

El artículo cita literatura importante en los campos de estadística y aprendizaje automático, incluyendo:

  • Hoeffding (1994): Trabajo clásico sobre desigualdades de probabilidad
  • Waudby-Smith & Ramdas (2024): Avances recientes en métodos de apuestas
  • Shekhar & Ramdas (2023): Trabajo relacionado sobre cotas inferiores
  • Kaufmann & Koolen (2021): Desigualdades de concentración válidas en cualquier momento

Este artículo realiza contribuciones importantes en la teoría de intervalos de confianza, caracterizando completamente los límites fundamentales del ancho del IC mediante la introducción de un nuevo marco de análisis, y demostrando la optimalidad del método basado en divergencia KL. Aunque es principalmente un trabajo teórico, proporciona orientación valiosa para aplicaciones prácticas.