2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja

We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - Î´\), where \(Î´\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_Î´ \to \infty\) and \(Î´\to 0\). In the first regime, where \(N_Î´\) grows slower than \(\log(1/Î´)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_Î´\) scales as \(\log(1/Î´)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_Î´\) grows faster than \(\log(1/Î´)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_Î´\), identifying analogous learning regimes and characterizing the optimal CI construction policy.

academic

평균의 신뢰구간에 대한 점근 최적성 이론

기본 정보

논문 ID: 2501.19126
제목: Asymptotic optimality theory of confidence intervals of the mean
저자: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
분류: math.ST stat.TH
발표 시간: 2025년 1월 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.19126

초록

본 논문은 N개의 독립동일분포 표본으로부터 분포 평균의 신뢰구간(CI)을 구성하는 고전적 문제를 연구합니다. 신뢰구간이 참 평균을 포함할 확률이 최소 1-δ 이상이어야 합니다. 저자들은 표본량 N_δ→∞이고 δ→0일 때 임의의 신뢰구간이 달성할 수 있는 최소 점근 폭을 기반으로 세 가지 서로 다른 학습 체제를 특성화합니다: (1) 비학습 체제: N_δ가 log(1/δ)보다 느리게 증가할 때, 신뢰구간의 극한 폭은 분포 지지집합의 폭과 같습니다; (2) 충분한 학습 체제: N_δ가 log(1/δ)에 비례하여 증가할 때, 스케일링 상수에 의존하는 최소 극한 폭을 정확히 특성화할 수 있습니다; (3) 완전 학습 체제: N_δ가 log(1/δ)보다 빠르게 증가할 때, 신뢰구간의 극한 폭은 0으로 수렴합니다. 저자들은 KL 발산 기반 농도 부등식으로 구성된 신뢰구간이 충분한 학습과 완전 학습 체제 모두에서 점근 최적 성능을 달성함을 증명합니다.

연구 배경 및 동기

문제의 중요성

신뢰구간 구성은 통계학의 기초 문제이며, A/B 테스트, 실험 설계, 데이터 분석 및 시뮬레이션 분야에서 중요한 응용을 가집니다. 다양한 신뢰구간 구성 방법이 존재하지만, 최소 폭을 갖는 최적 신뢰구간에 대한 이론적 특성화가 부족합니다.

기존 방법의 한계

최적성 이론 부재: 기존 문헌은 다양한 신뢰구간 구성 방법을 제공하지만, 최소 폭을 갖는 최적 신뢰구간을 특성화하는 결과가 없습니다
느슨한 비점근 하한: 기존의 비점근 하한(예: Shekhar와 Ramdas 2023)은 점근 상황에서 느슷합니다
강한 가정 조건: 기존 하한은 신뢰구간 폭이 특정 함수로 결정론적으로 제한된다는 강한 가정에 의존합니다

연구 동기

본 논문은 안정성 가정을 도입하여 이론적 공백을 메우고, 점근 프레임워크에서 신뢰구간 폭의 기본 극한을 특성화하며, KL 발산 기반 방법의 최적성을 증명하는 것을 목표로 합니다.

핵심 기여

세 가지 학습 체제의 특성화: 표본량 N_δ가 정확도 1-δ에 상대적으로 어떻게 스케일되는지에 따라 비학습, 충분한 학습, 완전 학습의 세 가지 서로 다른 체제를 특성화합니다
예리한 하한: 충분한 학습 체제에서 신뢰구간 극한 폭의 예리한 하한을 도출하고, KL 발산 기반 신뢰구간 구성 방법이 이 하한을 달성함을 증명합니다
점근 최적성 증명: KL 발산 농도 경계 기반 신뢰구간 구성 방법이 연구된 점근 프레임워크에서 최적임을 증명합니다
확장된 결과: 결과를 무작위 샘플링 비용, 단측 신뢰구간 및 비모수 분포 등 더 일반적인 설정으로 확장합니다

방법론 상세 설명

작업 정의

분포 ν(평균 μ)로부터의 N개 독립동일분포 표본 X₁,...,X_N이 주어졌을 때, 신뢰구간 μ̂_L^π(N,δ), μ̂_R^π(N,δ)을 구성하여 P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ를 만족하게 합니다.

핵심 이론 프레임워크

1. 안정성 가정

정의 1 (안정성): 주어진 분포 ν에 대해, 전략 π가 안정적이라고 불리는 것은 N_δ→∞이고 δ→0일 때 다음을 만족할 때입니다:

lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

여기서 μ_L^π(ν) ≤ μ이고 μ_R^π(ν) ≥ μ는 상수입니다.

2. 세 가지 학습 체제

lim_{δ→0} N_δ/log(1/δ)의 값 k를 기반으로:

비학습 체제 (k→0):

신뢰구간 극한 폭 = 분포 지지집합의 폭
μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

충분한 학습 체제 (k ∈ (0,∞)):

하한: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
여기서 μ_L*(μ,k) < μ이고 μ_R*(μ,k) > μ는 유일하게 다음을 만족합니다: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

완전 학습 체제 (k→∞):

신뢰구간 극한 폭→0

3. KL 발산 함수

단일 모수 지수족 S의 분포에 대해 다음을 정의합니다: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

이 함수는 엄격한 준볼록성과 연속성 등의 핵심 성질을 가집니다.

최적 신뢰구간 구성 방법 π₁

농도 부등식을 기반으로 합니다: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

여기서 β(δ) = log(2/δ)이고, 신뢰구간을 다음과 같이 구성합니다:

μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

기술적 혁신점

안정성 개념의 도입: 신뢰구간 폭의 점근 거동을 분석하는 핵심 혁신으로, 극한 폭을 결정론적 상수로 만듭니다
데이터 처리 부등식의 영리한 응용: 안정성 가정과 결합하여 좌측과 우측 가설 제거를 동시에 고려할 수 있습니다
타이트한 증명: 제안된 하한이 타이트함을 증명하고, 하한을 달성하는 방법이 존재함을 보입니다

실험 설정

데이터셋

베르누이 분포: 평균 0.6 및 0.9
가우스 분포: N(0,1) 알려진 분산
파레토 분포: 스케일 모수 x_m=1, 형태 모수 α=3

평가 지표

평균 신뢰구간 폭: 1000개의 독립 데이터셋에서의 평균 신뢰구간 폭
커버리지 확률: 신뢰구간이 참 평균을 포함하는 빈도

비교 방법

Hoeffding 기반 신뢰구간: Hoeffding 부등식 기반
경험적 베르슈타인(EB) 신뢰구간: 경험적 베르슈타인 부등식 기반
베팅 기반 헤지 신뢰구간: 베팅 방법 기반
Shekhar-Ramdas 하한: 기존의 이론적 하한

구현 세부사항

δ = 0.01 (베르누이 실험), δ = 0.05 (파레토 실험)
표본량: N ∈ {2000, 3000}
이산화 모수: m ∈ {1000, 3000, 5000} (베팅 방법)

실험 결과

주요 결과

1. 이론적 하한 비교

가우스 경우, 본 논문의 점근 하한은 2σ√(2/k)이고, Shekhar-Ramdas의 하한은 σ√(2/k)이므로, 개선 인수는 2입니다.

2. 신뢰구간 폭 비교 (베르누이 분포)

N	π₁	Betting(m=1000)	Betting(m=3000)	Betting(m=5000)	Hoeffding	EB
평균=0.6
2000	0.0712	0.0603	0.0596	0.0595	0.0728	0.0898
3000	0.0582	0.0592	0.0585	0.0584	0.0594	0.0712
평균=0.9
2000	0.0436	0.0378	0.0371	0.0369	0.0728	0.0606
3000	0.0356	0.0370	0.0363	0.0361	0.0594	0.0473