2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

Теория асимптотической оптимальности доверительных интервалов среднего

Основная информация

  • ID статьи: 2501.19126
  • Название: Asymptotic optimality theory of confidence intervals of the mean
  • Авторы: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
  • Классификация: math.ST stat.TH
  • Дата публикации: Январь 2025 (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.19126

Аннотация

В данной работе исследуется классическая задача построения доверительных интервалов (ДИ) для среднего значения распределения на основе N независимых одинаково распределённых выборок, требующих, чтобы ДИ содержал истинное среднее с вероятностью не менее 1-δ. Авторы характеризуют три различных режима обучения на основе минимальной асимптотической ширины, достижимой любым ДИ при N_δ→∞ и δ→0: (1) режим без обучения: когда N_δ растёт медленнее log(1/δ), предельная ширина ДИ равна ширине носителя распределения; (2) режим достаточного обучения: когда N_δ растёт пропорционально log(1/δ), точно характеризуется минимальная предельная ширина, зависящая от масштабирующей константы; (3) режим полного обучения: когда N_δ растёт быстрее log(1/δ), предельная ширина ДИ сходится к нулю. Авторы доказывают, что ДИ, построенные на основе концентрационных неравенств, основанных на дивергенции Кульбака-Лейблера (КЛ), достигают асимптотической оптимальности как в режиме достаточного, так и в режиме полного обучения.

Исследовательский контекст и мотивация

Важность проблемы

Построение доверительных интервалов является фундаментальной задачей в статистике с важными приложениями в A/B-тестировании, планировании экспериментов, анализе данных и моделировании. Несмотря на существование множества методов построения доверительных интервалов, отсутствует теоретическая характеризация оптимальных ДИ с минимальной шириной.

Ограничения существующих методов

  1. Отсутствие теории оптимальности: Хотя в литературе предложены различные методы построения ДИ, отсутствуют результаты, характеризующие оптимальные ДИ с минимальной шириной
  2. Слабые нерегулярные нижние границы: Существующие нерегулярные нижние границы (например, Shekhar и Ramdas 2023) являются слабыми в асимптотическом случае
  3. Сильные предположения: Существующие нижние границы зависят от сильного предположения о том, что ширина ДИ ограничена определённой функцией

Исследовательская мотивация

Данная работа направлена на заполнение этого теоретического пробела путём введения предположения об устойчивости и характеризации фундаментальных пределов ширины ДИ в асимптотической схеме, а также доказательства оптимальности методов, основанных на дивергенции КЛ.

Основные вклады

  1. Характеризация трёх режимов обучения: На основе относительного масштабирования размера выборки N_δ относительно точности 1-δ характеризуются три различных режима: без обучения, достаточного обучения и полного обучения
  2. Точные нижние границы: Выведены точные нижние границы предельной ширины ДИ в режиме достаточного обучения и доказано, что методы построения ДИ на основе дивергенции КЛ достигают этих границ
  3. Доказательство асимптотической оптимальности: Доказано, что методы построения ДИ на основе концентрационных границ дивергенции КЛ являются оптимальными в исследуемой асимптотической схеме
  4. Расширенные результаты: Результаты распространены на более общие параметры, включая случайные затраты на выборку, односторонние ДИ и непараметрические распределения

Подробное описание методов

Определение задачи

Дано N независимых одинаково распределённых выборок X₁,...,X_N из распределения ν со средним μ. Требуется построить доверительный интервал μ̂_L^π(N,δ), μ̂_R^π(N,δ) такой, что P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Основная теоретическая схема

1. Предположение об устойчивости

Определение 1 (Устойчивость): Для заданного распределения ν стратегия π называется устойчивой, если при N_δ→∞ и δ→0:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

где μ_L^π(ν) ≤ μ и μ_R^π(ν) ≥ μ являются константами.

2. Три режима обучения

На основе значения lim_{δ→0} N_δ/log(1/δ) = k:

Режим без обучения (k→0):

  • Предельная ширина ДИ = ширина носителя распределения
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Режим достаточного обучения (k ∈ (0,∞)):

  • Нижняя граница: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • где μ_L*(μ,k) < μ и μ_R*(μ,k) > μ единственным образом удовлетворяют: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Режим полного обучения (k→∞):

  • Предельная ширина ДИ→0

3. Функция дивергенции Кульбака-Лейблера

Для распределений в однопараметрическом экспоненциальном семействе S определяется: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Эта функция обладает ключевыми свойствами строгой квазивыпуклости и непрерывности.

Оптимальный метод построения ДИ π₁

На основе концентрационного неравенства: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

где β(δ) = log(2/δ), строится ДИ:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Технические инновации

  1. Введение концепции устойчивости: Это ключевая инновация в анализе асимптотического поведения ширины ДИ, позволяющая предельной ширине быть детерминированной константой
  2. Искусное применение неравенства обработки данных: В сочетании с предположением об устойчивости позволяет одновременно рассматривать исключение гипотез с обеих сторон
  3. Доказательство точности: Доказано, что предложенные нижние границы являются точными, то есть существуют методы, достигающие этих границ

Экспериментальная установка

Наборы данных

  • Распределение Бернулли: среднее 0.6 и 0.9
  • Гауссово распределение: N(0,1) с известной дисперсией
  • Распределение Парето: параметр масштаба x_m=1, параметр формы α=3

Метрики оценки

  • Средняя ширина ДИ: средняя ширина доверительного интервала на 1000 независимых наборах данных
  • Вероятность покрытия: частота, с которой доверительный интервал содержит истинное среднее

Методы сравнения

  1. ДИ на основе Hoeffding: основан на неравенстве Hoeffding
  2. Эмпирический ДИ Бернштейна (EB): основан на эмпирическом неравенстве Бернштейна
  3. ДИ на основе ставок: основан на методе ставок
  4. Нижняя граница Shekhar-Ramdas: существующая теоретическая нижняя граница

Детали реализации

  • δ = 0.01 (эксперименты Бернулли), δ = 0.05 (эксперименты Парето)
  • Размеры выборок: N ∈ {2000, 3000}
  • Параметр дискретизации: m ∈ {1000, 3000, 5000} (метод ставок)

Результаты экспериментов

Основные результаты

1. Сравнение теоретических нижних границ

Для гауссова случая асимптотическая нижняя граница данной работы составляет 2σ√(2/k), в то время как нижняя граница Shekhar-Ramdas составляет σ√(2/k), коэффициент улучшения равен 2.

2. Сравнение ширины ДИ (распределение Бернулли)

Nπ₁Betting(m=1000)Betting(m=3000)Betting(m=5000)HoeffdingEB
среднее=0.6
20000.07120.06030.05960.05950.07280.0898
30000.05820.05920.05850.05840.05940.0712
среднее=0.9
20000.04360.03780.03710.03690.07280.0606
30000.03560.03700.03630.03610.05940.0473

3. Результаты для распределений с тяжёлыми хвостами (Парето)

Размер выборкиСредняя ширина ДИ
5000.492
10000.355
20000.255
30000.199

Экспериментальные находки

  1. Асимптотическое преимущество: Метод π₁ показывает отличные результаты при больших выборках, особенно при N=3000 производительность сопоставима с методом ставок
  2. Вычислительная эффективность: Метод π₁ более эффективен в вычислительном отношении, чем метод ставок
  3. Теоретическая верификация: Экспериментальные результаты подтверждают теоретически предсказанный коэффициент улучшения

Связанные работы

Классическая теория

  • Двойственность проверки гипотез и ДИ: Классическая теория строит ДИ путём инвертирования проверки гипотез
  • Равномерно наиболее мощные (РНМ) тесты: В параметрических параметрах существуют РНМ тесты, но обычно ограничены конкретными семействами (например, несмещённые тесты в экспоненциальных семействах)

Методы концентрационных неравенств

  • Неравенства Hoeffding и Бернштейна: Применимы к распределениям с ограниченным носителем
  • Границы Chernoff: Применимы, когда известна верхняя граница производящей функции моментов
  • Методы для распределений с тяжёлыми хвостами: Используют неравенства Маркова и Чебышёва

Последние достижения

  • Waudby-Smith и Ramdas (2024): Преобразуют построение ДИ в задачу ставок
  • Shekhar и Ramdas (2023): Впервые предоставляют явные нижние границы с зависящими от распределения членами сложности, но они являются слабыми

Выводы и обсуждение

Основные выводы

  1. Полная теоретическая характеризация: Впервые полностью характеризуются фундаментальные пределы ширины ДИ, выявлены три различных режима обучения
  2. Оптимальный метод: Доказано, что методы построения ДИ на основе дивергенции КЛ являются оптимальными в асимптотическом смысле
  3. Широкая применимость: Результаты применимы к параметрическим и непараметрическим семействам распределений, а также к параметрам со случайными затратами

Ограничения

  1. Асимптотические свойства: Результаты в основном асимптотические, что ограничивает их применимость к конечным выборкам
  2. Предположение об устойчивости: Хотя оно мягкое, это дополнительное предположение
  3. Ограничения на семейства распределений: Основные результаты сосредоточены на экспоненциальных семействах и распределениях с ограниченным носителем

Направления будущих исследований

  1. Нерегулярные результаты: Разработка более тонкой нерегулярной теории
  2. Другие статистические величины: Расширение на оценку дисперсии и квантилей
  3. Многомерное обобщение: Рассмотрение доверительных областей для многомерных параметров

Глубокая оценка

Преимущества

  1. Значительный теоретический вклад: Впервые предоставляется полная теория оптимальности ширины ДИ, заполняется важный теоретический пробел
  2. Значительные технические инновации: Введение концепции устойчивости и искусное применение неравенства обработки данных имеют методологическую ценность
  3. Точные результаты: Не только предоставляются нижние границы, но и доказывается их достижимость
  4. Широкие приложения: Расширение на случайные затраты, односторонние ДИ и другие практически релевантные параметры

Недостатки

  1. Ограниченные эксперименты: Численные эксперименты относительно простые, могли бы включать более сложные реальные наборы данных
  2. Вычислительная сложность: Для непараметрического случая вычисление KL_inf может быть довольно сложным
  3. Производительность на конечных выборках: Теория асимптотическая, гарантии производительности на конечных выборках недостаточно сильны

Влияние

  1. Теоретическое влияние: Предоставляет новую аналитическую схему для теории ДИ, ожидается широкое цитирование
  2. Практическая ценность: Предоставляет теоретическое руководство для выбора методов ДИ в практических приложениях
  3. Методологический вклад: Метод анализа устойчивости может быть применим к другим задачам статистического вывода

Применимые сценарии

  1. Статистический вывод на больших выборках: Особенно применим к приложениям с большими размерами выборок
  2. Онлайн-эксперименты: Сценарии типа A/B-тестирования, требующие надёжных доверительных интервалов
  3. Исследования моделирования: Параметр со случайными затратами особенно подходит для приложений моделирования
  4. Машинное обучение: Построение доверительных интервалов при оценке производительности модели

Библиография

Статья цитирует важные работы в области статистики и машинного обучения, включая:

  • Hoeffding (1994): Классические работы по вероятностным неравенствам
  • Waudby-Smith & Ramdas (2024): Последние достижения в методе ставок
  • Shekhar & Ramdas (2023): Связанные работы по нижним границам
  • Kaufmann & Koolen (2021): Концентрационные неравенства, действительные в любой момент времени

Данная статья вносит значительный вклад в теорию доверительных интервалов, предоставляя новую аналитическую схему для полной характеризации фундаментальных пределов ширины ДИ и доказывая оптимальность метода дивергенции КЛ. Хотя работа в основном теоретическая, она предоставляет ценное руководство для практических приложений.