We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
- ID статьи: 2501.19126
- Название: Asymptotic optimality theory of confidence intervals of the mean
- Авторы: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
- Классификация: math.ST stat.TH
- Дата публикации: Январь 2025 (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2501.19126
В данной работе исследуется классическая задача построения доверительных интервалов (ДИ) для среднего значения распределения на основе N независимых одинаково распределённых выборок, требующих, чтобы ДИ содержал истинное среднее с вероятностью не менее 1-δ. Авторы характеризуют три различных режима обучения на основе минимальной асимптотической ширины, достижимой любым ДИ при N_δ→∞ и δ→0: (1) режим без обучения: когда N_δ растёт медленнее log(1/δ), предельная ширина ДИ равна ширине носителя распределения; (2) режим достаточного обучения: когда N_δ растёт пропорционально log(1/δ), точно характеризуется минимальная предельная ширина, зависящая от масштабирующей константы; (3) режим полного обучения: когда N_δ растёт быстрее log(1/δ), предельная ширина ДИ сходится к нулю. Авторы доказывают, что ДИ, построенные на основе концентрационных неравенств, основанных на дивергенции Кульбака-Лейблера (КЛ), достигают асимптотической оптимальности как в режиме достаточного, так и в режиме полного обучения.
Построение доверительных интервалов является фундаментальной задачей в статистике с важными приложениями в A/B-тестировании, планировании экспериментов, анализе данных и моделировании. Несмотря на существование множества методов построения доверительных интервалов, отсутствует теоретическая характеризация оптимальных ДИ с минимальной шириной.
- Отсутствие теории оптимальности: Хотя в литературе предложены различные методы построения ДИ, отсутствуют результаты, характеризующие оптимальные ДИ с минимальной шириной
- Слабые нерегулярные нижние границы: Существующие нерегулярные нижние границы (например, Shekhar и Ramdas 2023) являются слабыми в асимптотическом случае
- Сильные предположения: Существующие нижние границы зависят от сильного предположения о том, что ширина ДИ ограничена определённой функцией
Данная работа направлена на заполнение этого теоретического пробела путём введения предположения об устойчивости и характеризации фундаментальных пределов ширины ДИ в асимптотической схеме, а также доказательства оптимальности методов, основанных на дивергенции КЛ.
- Характеризация трёх режимов обучения: На основе относительного масштабирования размера выборки N_δ относительно точности 1-δ характеризуются три различных режима: без обучения, достаточного обучения и полного обучения
- Точные нижние границы: Выведены точные нижние границы предельной ширины ДИ в режиме достаточного обучения и доказано, что методы построения ДИ на основе дивергенции КЛ достигают этих границ
- Доказательство асимптотической оптимальности: Доказано, что методы построения ДИ на основе концентрационных границ дивергенции КЛ являются оптимальными в исследуемой асимптотической схеме
- Расширенные результаты: Результаты распространены на более общие параметры, включая случайные затраты на выборку, односторонние ДИ и непараметрические распределения
Дано N независимых одинаково распределённых выборок X₁,...,X_N из распределения ν со средним μ. Требуется построить доверительный интервал μ̂_L^π(N,δ), μ̂_R^π(N,δ) такой, что P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.
Определение 1 (Устойчивость): Для заданного распределения ν стратегия π называется устойчивой, если при N_δ→∞ и δ→0:
- lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
- lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)
где μ_L^π(ν) ≤ μ и μ_R^π(ν) ≥ μ являются константами.
На основе значения lim_{δ→0} N_δ/log(1/δ) = k:
Режим без обучения (k→0):
- Предельная ширина ДИ = ширина носителя распределения
- μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄
Режим достаточного обучения (k ∈ (0,∞)):
- Нижняя граница: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
- где μ_L*(μ,k) < μ и μ_R*(μ,k) > μ единственным образом удовлетворяют:
d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k
Режим полного обучения (k→∞):
Для распределений в однопараметрическом экспоненциальном семействе S определяется:
d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))
Эта функция обладает ключевыми свойствами строгой квазивыпуклости и непрерывности.
На основе концентрационного неравенства:
P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ
где β(δ) = log(2/δ), строится ДИ:
- μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
- Введение концепции устойчивости: Это ключевая инновация в анализе асимптотического поведения ширины ДИ, позволяющая предельной ширине быть детерминированной константой
- Искусное применение неравенства обработки данных: В сочетании с предположением об устойчивости позволяет одновременно рассматривать исключение гипотез с обеих сторон
- Доказательство точности: Доказано, что предложенные нижние границы являются точными, то есть существуют методы, достигающие этих границ
- Распределение Бернулли: среднее 0.6 и 0.9
- Гауссово распределение: N(0,1) с известной дисперсией
- Распределение Парето: параметр масштаба x_m=1, параметр формы α=3
- Средняя ширина ДИ: средняя ширина доверительного интервала на 1000 независимых наборах данных
- Вероятность покрытия: частота, с которой доверительный интервал содержит истинное среднее
- ДИ на основе Hoeffding: основан на неравенстве Hoeffding
- Эмпирический ДИ Бернштейна (EB): основан на эмпирическом неравенстве Бернштейна
- ДИ на основе ставок: основан на методе ставок
- Нижняя граница Shekhar-Ramdas: существующая теоретическая нижняя граница
- δ = 0.01 (эксперименты Бернулли), δ = 0.05 (эксперименты Парето)
- Размеры выборок: N ∈ {2000, 3000}
- Параметр дискретизации: m ∈ {1000, 3000, 5000} (метод ставок)
Для гауссова случая асимптотическая нижняя граница данной работы составляет 2σ√(2/k), в то время как нижняя граница Shekhar-Ramdas составляет σ√(2/k), коэффициент улучшения равен 2.
| N | π₁ | Betting(m=1000) | Betting(m=3000) | Betting(m=5000) | Hoeffding | EB |
|---|
| среднее=0.6 | | | | | | |
| 2000 | 0.0712 | 0.0603 | 0.0596 | 0.0595 | 0.0728 | 0.0898 |
| 3000 | 0.0582 | 0.0592 | 0.0585 | 0.0584 | 0.0594 | 0.0712 |
| среднее=0.9 | | | | | | |
| 2000 | 0.0436 | 0.0378 | 0.0371 | 0.0369 | 0.0728 | 0.0606 |
| 3000 | 0.0356 | 0.0370 | 0.0363 | 0.0361 | 0.0594 | 0.0473 |
| Размер выборки | Средняя ширина ДИ |
|---|
| 500 | 0.492 |
| 1000 | 0.355 |
| 2000 | 0.255 |
| 3000 | 0.199 |
- Асимптотическое преимущество: Метод π₁ показывает отличные результаты при больших выборках, особенно при N=3000 производительность сопоставима с методом ставок
- Вычислительная эффективность: Метод π₁ более эффективен в вычислительном отношении, чем метод ставок
- Теоретическая верификация: Экспериментальные результаты подтверждают теоретически предсказанный коэффициент улучшения
- Двойственность проверки гипотез и ДИ: Классическая теория строит ДИ путём инвертирования проверки гипотез
- Равномерно наиболее мощные (РНМ) тесты: В параметрических параметрах существуют РНМ тесты, но обычно ограничены конкретными семействами (например, несмещённые тесты в экспоненциальных семействах)
- Неравенства Hoeffding и Бернштейна: Применимы к распределениям с ограниченным носителем
- Границы Chernoff: Применимы, когда известна верхняя граница производящей функции моментов
- Методы для распределений с тяжёлыми хвостами: Используют неравенства Маркова и Чебышёва
- Waudby-Smith и Ramdas (2024): Преобразуют построение ДИ в задачу ставок
- Shekhar и Ramdas (2023): Впервые предоставляют явные нижние границы с зависящими от распределения членами сложности, но они являются слабыми
- Полная теоретическая характеризация: Впервые полностью характеризуются фундаментальные пределы ширины ДИ, выявлены три различных режима обучения
- Оптимальный метод: Доказано, что методы построения ДИ на основе дивергенции КЛ являются оптимальными в асимптотическом смысле
- Широкая применимость: Результаты применимы к параметрическим и непараметрическим семействам распределений, а также к параметрам со случайными затратами
- Асимптотические свойства: Результаты в основном асимптотические, что ограничивает их применимость к конечным выборкам
- Предположение об устойчивости: Хотя оно мягкое, это дополнительное предположение
- Ограничения на семейства распределений: Основные результаты сосредоточены на экспоненциальных семействах и распределениях с ограниченным носителем
- Нерегулярные результаты: Разработка более тонкой нерегулярной теории
- Другие статистические величины: Расширение на оценку дисперсии и квантилей
- Многомерное обобщение: Рассмотрение доверительных областей для многомерных параметров
- Значительный теоретический вклад: Впервые предоставляется полная теория оптимальности ширины ДИ, заполняется важный теоретический пробел
- Значительные технические инновации: Введение концепции устойчивости и искусное применение неравенства обработки данных имеют методологическую ценность
- Точные результаты: Не только предоставляются нижние границы, но и доказывается их достижимость
- Широкие приложения: Расширение на случайные затраты, односторонние ДИ и другие практически релевантные параметры
- Ограниченные эксперименты: Численные эксперименты относительно простые, могли бы включать более сложные реальные наборы данных
- Вычислительная сложность: Для непараметрического случая вычисление KL_inf может быть довольно сложным
- Производительность на конечных выборках: Теория асимптотическая, гарантии производительности на конечных выборках недостаточно сильны
- Теоретическое влияние: Предоставляет новую аналитическую схему для теории ДИ, ожидается широкое цитирование
- Практическая ценность: Предоставляет теоретическое руководство для выбора методов ДИ в практических приложениях
- Методологический вклад: Метод анализа устойчивости может быть применим к другим задачам статистического вывода
- Статистический вывод на больших выборках: Особенно применим к приложениям с большими размерами выборок
- Онлайн-эксперименты: Сценарии типа A/B-тестирования, требующие надёжных доверительных интервалов
- Исследования моделирования: Параметр со случайными затратами особенно подходит для приложений моделирования
- Машинное обучение: Построение доверительных интервалов при оценке производительности модели
Статья цитирует важные работы в области статистики и машинного обучения, включая:
- Hoeffding (1994): Классические работы по вероятностным неравенствам
- Waudby-Smith & Ramdas (2024): Последние достижения в методе ставок
- Shekhar & Ramdas (2023): Связанные работы по нижним границам
- Kaufmann & Koolen (2021): Концентрационные неравенства, действительные в любой момент времени
Данная статья вносит значительный вклад в теорию доверительных интервалов, предоставляя новую аналитическую схему для полной характеризации фундаментальных пределов ширины ДИ и доказывая оптимальность метода дивергенции КЛ. Хотя работа в основном теоретическая, она предоставляет ценное руководство для практических приложений.