2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja

We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - Î´\), where \(Î´\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_Î´ \to \infty\) and \(Î´\to 0\). In the first regime, where \(N_Î´\) grows slower than \(\log(1/Î´)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_Î´\) scales as \(\log(1/Î´)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_Î´\) grows faster than \(\log(1/Î´)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_Î´\), identifying analogous learning regimes and characterizing the optimal CI construction policy.

academic

Теория асимптотической оптимальности доверительных интервалов среднего

Основная информация

ID статьи: 2501.19126
Название: Asymptotic optimality theory of confidence intervals of the mean
Авторы: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
Классификация: math.ST stat.TH
Дата публикации: Январь 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.19126

Аннотация

В данной работе исследуется классическая задача построения доверительных интервалов (ДИ) для среднего значения распределения на основе N независимых одинаково распределённых выборок, требующих, чтобы ДИ содержал истинное среднее с вероятностью не менее 1-δ. Авторы характеризуют три различных режима обучения на основе минимальной асимптотической ширины, достижимой любым ДИ при N_δ→∞ и δ→0: (1) режим без обучения: когда N_δ растёт медленнее log(1/δ), предельная ширина ДИ равна ширине носителя распределения; (2) режим достаточного обучения: когда N_δ растёт пропорционально log(1/δ), точно характеризуется минимальная предельная ширина, зависящая от масштабирующей константы; (3) режим полного обучения: когда N_δ растёт быстрее log(1/δ), предельная ширина ДИ сходится к нулю. Авторы доказывают, что ДИ, построенные на основе концентрационных неравенств, основанных на дивергенции Кульбака-Лейблера (КЛ), достигают асимптотической оптимальности как в режиме достаточного, так и в режиме полного обучения.

Исследовательский контекст и мотивация

Важность проблемы

Построение доверительных интервалов является фундаментальной задачей в статистике с важными приложениями в A/B-тестировании, планировании экспериментов, анализе данных и моделировании. Несмотря на существование множества методов построения доверительных интервалов, отсутствует теоретическая характеризация оптимальных ДИ с минимальной шириной.

Ограничения существующих методов

Отсутствие теории оптимальности: Хотя в литературе предложены различные методы построения ДИ, отсутствуют результаты, характеризующие оптимальные ДИ с минимальной шириной
Слабые нерегулярные нижние границы: Существующие нерегулярные нижние границы (например, Shekhar и Ramdas 2023) являются слабыми в асимптотическом случае
Сильные предположения: Существующие нижние границы зависят от сильного предположения о том, что ширина ДИ ограничена определённой функцией

Исследовательская мотивация

Данная работа направлена на заполнение этого теоретического пробела путём введения предположения об устойчивости и характеризации фундаментальных пределов ширины ДИ в асимптотической схеме, а также доказательства оптимальности методов, основанных на дивергенции КЛ.

Основные вклады

Характеризация трёх режимов обучения: На основе относительного масштабирования размера выборки N_δ относительно точности 1-δ характеризуются три различных режима: без обучения, достаточного обучения и полного обучения
Точные нижние границы: Выведены точные нижние границы предельной ширины ДИ в режиме достаточного обучения и доказано, что методы построения ДИ на основе дивергенции КЛ достигают этих границ
Доказательство асимптотической оптимальности: Доказано, что методы построения ДИ на основе концентрационных границ дивергенции КЛ являются оптимальными в исследуемой асимптотической схеме
Расширенные результаты: Результаты распространены на более общие параметры, включая случайные затраты на выборку, односторонние ДИ и непараметрические распределения

Подробное описание методов

Определение задачи

Дано N независимых одинаково распределённых выборок X₁,...,X_N из распределения ν со средним μ. Требуется построить доверительный интервал μ̂_L^π(N,δ), μ̂_R^π(N,δ) такой, что P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ.

Основная теоретическая схема

1. Предположение об устойчивости

Определение 1 (Устойчивость): Для заданного распределения ν стратегия π называется устойчивой, если при N_δ→∞ и δ→0:

lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

где μ_L^π(ν) ≤ μ и μ_R^π(ν) ≥ μ являются константами.

2. Три режима обучения

На основе значения lim_{δ→0} N_δ/log(1/δ) = k:

Режим без обучения (k→0):

Предельная ширина ДИ = ширина носителя распределения
μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

Режим достаточного обучения (k ∈ (0,∞)):

Нижняя граница: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
где μ_L*(μ,k) < μ и μ_R*(μ,k) > μ единственным образом удовлетворяют: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

Режим полного обучения (k→∞):

Предельная ширина ДИ→0

3. Функция дивергенции Кульбака-Лейблера

Для распределений в однопараметрическом экспоненциальном семействе S определяется: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

Эта функция обладает ключевыми свойствами строгой квазивыпуклости и непрерывности.

Оптимальный метод построения ДИ π₁

На основе концентрационного неравенства: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

где β(δ) = log(2/δ), строится ДИ:

μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

Технические инновации

Введение концепции устойчивости: Это ключевая инновация в анализе асимптотического поведения ширины ДИ, позволяющая предельной ширине быть детерминированной константой
Искусное применение неравенства обработки данных: В сочетании с предположением об устойчивости позволяет одновременно рассматривать исключение гипотез с обеих сторон
Доказательство точности: Доказано, что предложенные нижние границы являются точными, то есть существуют методы, достигающие этих границ

Экспериментальная установка

Наборы данных

Распределение Бернулли: среднее 0.6 и 0.9
Гауссово распределение: N(0,1) с известной дисперсией
Распределение Парето: параметр масштаба x_m=1, параметр формы α=3

Метрики оценки

Средняя ширина ДИ: средняя ширина доверительного интервала на 1000 независимых наборах данных
Вероятность покрытия: частота, с которой доверительный интервал содержит истинное среднее

Методы сравнения

ДИ на основе Hoeffding: основан на неравенстве Hoeffding
Эмпирический ДИ Бернштейна (EB): основан на эмпирическом неравенстве Бернштейна
ДИ на основе ставок: основан на методе ставок
Нижняя граница Shekhar-Ramdas: существующая теоретическая нижняя граница

Детали реализации

δ = 0.01 (эксперименты Бернулли), δ = 0.05 (эксперименты Парето)
Размеры выборок: N ∈ {2000, 3000}
Параметр дискретизации: m ∈ {1000, 3000, 5000} (метод ставок)

Результаты экспериментов

Основные результаты

1. Сравнение теоретических нижних границ

Для гауссова случая асимптотическая нижняя граница данной работы составляет 2σ√(2/k), в то время как нижняя граница Shekhar-Ramdas составляет σ√(2/k), коэффициент улучшения равен 2.

2. Сравнение ширины ДИ (распределение Бернулли)

N	π₁	Betting(m=1000)	Betting(m=3000)	Betting(m=5000)	Hoeffding	EB
среднее=0.6
2000	0.0712	0.0603	0.0596	0.0595	0.0728	0.0898
3000	0.0582	0.0592	0.0585	0.0584	0.0594	0.0712
среднее=0.9
2000	0.0436	0.0378	0.0371	0.0369	0.0728	0.0606
3000	0.0356	0.0370	0.0363	0.0361	0.0594	0.0473

3. Результаты для распределений с тяжёлыми хвостами (Парето)

Размер выборки	Средняя ширина ДИ
500	0.492
1000	0.355
2000	0.255
3000	0.199

Экспериментальные находки

Асимптотическое преимущество: Метод π₁ показывает отличные результаты при больших выборках, особенно при N=3000 производительность сопоставима с методом ставок
Вычислительная эффективность: Метод π₁ более эффективен в вычислительном отношении, чем метод ставок
Теоретическая верификация: Экспериментальные результаты подтверждают теоретически предсказанный коэффициент улучшения

Связанные работы

Классическая теория

Двойственность проверки гипотез и ДИ: Классическая теория строит ДИ путём инвертирования проверки гипотез
Равномерно наиболее мощные (РНМ) тесты: В параметрических параметрах существуют РНМ тесты, но обычно ограничены конкретными семействами (например, несмещённые тесты в экспоненциальных семействах)

Методы концентрационных неравенств

Неравенства Hoeffding и Бернштейна: Применимы к распределениям с ограниченным носителем
Границы Chernoff: Применимы, когда известна верхняя граница производящей функции моментов
Методы для распределений с тяжёлыми хвостами: Используют неравенства Маркова и Чебышёва

Последние достижения

Waudby-Smith и Ramdas (2024): Преобразуют построение ДИ в задачу ставок
Shekhar и Ramdas (2023): Впервые предоставляют явные нижние границы с зависящими от распределения членами сложности, но они являются слабыми

Выводы и обсуждение

Основные выводы

Полная теоретическая характеризация: Впервые полностью характеризуются фундаментальные пределы ширины ДИ, выявлены три различных режима обучения
Оптимальный метод: Доказано, что методы построения ДИ на основе дивергенции КЛ являются оптимальными в асимптотическом смысле
Широкая применимость: Результаты применимы к параметрическим и непараметрическим семействам распределений, а также к параметрам со случайными затратами

Ограничения

Асимптотические свойства: Результаты в основном асимптотические, что ограничивает их применимость к конечным выборкам
Предположение об устойчивости: Хотя оно мягкое, это дополнительное предположение
Ограничения на семейства распределений: Основные результаты сосредоточены на экспоненциальных семействах и распределениях с ограниченным носителем

Направления будущих исследований

Нерегулярные результаты: Разработка более тонкой нерегулярной теории
Другие статистические величины: Расширение на оценку дисперсии и квантилей
Многомерное обобщение: Рассмотрение доверительных областей для многомерных параметров

Глубокая оценка

Преимущества

Значительный теоретический вклад: Впервые предоставляется полная теория оптимальности ширины ДИ, заполняется важный теоретический пробел
Значительные технические инновации: Введение концепции устойчивости и искусное применение неравенства обработки данных имеют методологическую ценность
Точные результаты: Не только предоставляются нижние границы, но и доказывается их достижимость
Широкие приложения: Расширение на случайные затраты, односторонние ДИ и другие практически релевантные параметры

Недостатки

Ограниченные эксперименты: Численные эксперименты относительно простые, могли бы включать более сложные реальные наборы данных
Вычислительная сложность: Для непараметрического случая вычисление KL_inf может быть довольно сложным
Производительность на конечных выборках: Теория асимптотическая, гарантии производительности на конечных выборках недостаточно сильны

Влияние

Теоретическое влияние: Предоставляет новую аналитическую схему для теории ДИ, ожидается широкое цитирование
Практическая ценность: Предоставляет теоретическое руководство для выбора методов ДИ в практических приложениях
Методологический вклад: Метод анализа устойчивости может быть применим к другим задачам статистического вывода

Применимые сценарии

Статистический вывод на больших выборках: Особенно применим к приложениям с большими размерами выборок
Онлайн-эксперименты: Сценарии типа A/B-тестирования, требующие надёжных доверительных интервалов
Исследования моделирования: Параметр со случайными затратами особенно подходит для приложений моделирования
Машинное обучение: Построение доверительных интервалов при оценке производительности модели

Библиография

Статья цитирует важные работы в области статистики и машинного обучения, включая:

Hoeffding (1994): Классические работы по вероятностным неравенствам
Waudby-Smith & Ramdas (2024): Последние достижения в методе ставок
Shekhar & Ramdas (2023): Связанные работы по нижним границам
Kaufmann & Koolen (2021): Концентрационные неравенства, действительные в любой момент времени

Данная статья вносит значительный вклад в теорию доверительных интервалов, предоставляя новую аналитическую схему для полной характеризации фундаментальных пределов ширины ДИ и доказывая оптимальность метода дивергенции КЛ. Хотя работа в основном теоретическая, она предоставляет ценное руководство для практических приложений.