2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

평균의 신뢰구간에 대한 점근 최적성 이론

기본 정보

  • 논문 ID: 2501.19126
  • 제목: Asymptotic optimality theory of confidence intervals of the mean
  • 저자: Vikas Deep (NUS, Singapore), Achal Bassamboo (Kellogg, Northwestern University), Sandeep Juneja (Ashoka University, India)
  • 분류: math.ST stat.TH
  • 발표 시간: 2025년 1월 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2501.19126

초록

본 논문은 N개의 독립동일분포 표본으로부터 분포 평균의 신뢰구간(CI)을 구성하는 고전적 문제를 연구합니다. 신뢰구간이 참 평균을 포함할 확률이 최소 1-δ 이상이어야 합니다. 저자들은 표본량 N_δ→∞이고 δ→0일 때 임의의 신뢰구간이 달성할 수 있는 최소 점근 폭을 기반으로 세 가지 서로 다른 학습 체제를 특성화합니다: (1) 비학습 체제: N_δ가 log(1/δ)보다 느리게 증가할 때, 신뢰구간의 극한 폭은 분포 지지집합의 폭과 같습니다; (2) 충분한 학습 체제: N_δ가 log(1/δ)에 비례하여 증가할 때, 스케일링 상수에 의존하는 최소 극한 폭을 정확히 특성화할 수 있습니다; (3) 완전 학습 체제: N_δ가 log(1/δ)보다 빠르게 증가할 때, 신뢰구간의 극한 폭은 0으로 수렴합니다. 저자들은 KL 발산 기반 농도 부등식으로 구성된 신뢰구간이 충분한 학습과 완전 학습 체제 모두에서 점근 최적 성능을 달성함을 증명합니다.

연구 배경 및 동기

문제의 중요성

신뢰구간 구성은 통계학의 기초 문제이며, A/B 테스트, 실험 설계, 데이터 분석 및 시뮬레이션 분야에서 중요한 응용을 가집니다. 다양한 신뢰구간 구성 방법이 존재하지만, 최소 폭을 갖는 최적 신뢰구간에 대한 이론적 특성화가 부족합니다.

기존 방법의 한계

  1. 최적성 이론 부재: 기존 문헌은 다양한 신뢰구간 구성 방법을 제공하지만, 최소 폭을 갖는 최적 신뢰구간을 특성화하는 결과가 없습니다
  2. 느슨한 비점근 하한: 기존의 비점근 하한(예: Shekhar와 Ramdas 2023)은 점근 상황에서 느슷합니다
  3. 강한 가정 조건: 기존 하한은 신뢰구간 폭이 특정 함수로 결정론적으로 제한된다는 강한 가정에 의존합니다

연구 동기

본 논문은 안정성 가정을 도입하여 이론적 공백을 메우고, 점근 프레임워크에서 신뢰구간 폭의 기본 극한을 특성화하며, KL 발산 기반 방법의 최적성을 증명하는 것을 목표로 합니다.

핵심 기여

  1. 세 가지 학습 체제의 특성화: 표본량 N_δ가 정확도 1-δ에 상대적으로 어떻게 스케일되는지에 따라 비학습, 충분한 학습, 완전 학습의 세 가지 서로 다른 체제를 특성화합니다
  2. 예리한 하한: 충분한 학습 체제에서 신뢰구간 극한 폭의 예리한 하한을 도출하고, KL 발산 기반 신뢰구간 구성 방법이 이 하한을 달성함을 증명합니다
  3. 점근 최적성 증명: KL 발산 농도 경계 기반 신뢰구간 구성 방법이 연구된 점근 프레임워크에서 최적임을 증명합니다
  4. 확장된 결과: 결과를 무작위 샘플링 비용, 단측 신뢰구간 및 비모수 분포 등 더 일반적인 설정으로 확장합니다

방법론 상세 설명

작업 정의

분포 ν(평균 μ)로부터의 N개 독립동일분포 표본 X₁,...,X_N이 주어졌을 때, 신뢰구간 μ̂_L^π(N,δ), μ̂_R^π(N,δ)을 구성하여 P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δ를 만족하게 합니다.

핵심 이론 프레임워크

1. 안정성 가정

정의 1 (안정성): 주어진 분포 ν에 대해, 전략 π가 안정적이라고 불리는 것은 N_δ→∞이고 δ→0일 때 다음을 만족할 때입니다:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

여기서 μ_L^π(ν) ≤ μ이고 μ_R^π(ν) ≥ μ는 상수입니다.

2. 세 가지 학습 체제

lim_{δ→0} N_δ/log(1/δ)의 값 k를 기반으로:

비학습 체제 (k→0):

  • 신뢰구간 극한 폭 = 분포 지지집합의 폭
  • μ_L^π(μ) = μ̲, μ_R^π(μ) = μ̄

충분한 학습 체제 (k ∈ (0,∞)):

  • 하한: μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • 여기서 μ_L*(μ,k) < μ이고 μ_R*(μ,k) > μ는 유일하게 다음을 만족합니다: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

완전 학습 체제 (k→∞):

  • 신뢰구간 극한 폭→0

3. KL 발산 함수

단일 모수 지수족 S의 분포에 대해 다음을 정의합니다: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

이 함수는 엄격한 준볼록성과 연속성 등의 핵심 성질을 가집니다.

최적 신뢰구간 구성 방법 π₁

농도 부등식을 기반으로 합니다: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

여기서 β(δ) = log(2/δ)이고, 신뢰구간을 다음과 같이 구성합니다:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

기술적 혁신점

  1. 안정성 개념의 도입: 신뢰구간 폭의 점근 거동을 분석하는 핵심 혁신으로, 극한 폭을 결정론적 상수로 만듭니다
  2. 데이터 처리 부등식의 영리한 응용: 안정성 가정과 결합하여 좌측과 우측 가설 제거를 동시에 고려할 수 있습니다
  3. 타이트한 증명: 제안된 하한이 타이트함을 증명하고, 하한을 달성하는 방법이 존재함을 보입니다

실험 설정

데이터셋

  • 베르누이 분포: 평균 0.6 및 0.9
  • 가우스 분포: N(0,1) 알려진 분산
  • 파레토 분포: 스케일 모수 x_m=1, 형태 모수 α=3

평가 지표

  • 평균 신뢰구간 폭: 1000개의 독립 데이터셋에서의 평균 신뢰구간 폭
  • 커버리지 확률: 신뢰구간이 참 평균을 포함하는 빈도

비교 방법

  1. Hoeffding 기반 신뢰구간: Hoeffding 부등식 기반
  2. 경험적 베르슈타인(EB) 신뢰구간: 경험적 베르슈타인 부등식 기반
  3. 베팅 기반 헤지 신뢰구간: 베팅 방법 기반
  4. Shekhar-Ramdas 하한: 기존의 이론적 하한

구현 세부사항

  • δ = 0.01 (베르누이 실험), δ = 0.05 (파레토 실험)
  • 표본량: N ∈ {2000, 3000}
  • 이산화 모수: m ∈ {1000, 3000, 5000} (베팅 방법)

실험 결과

주요 결과

1. 이론적 하한 비교

가우스 경우, 본 논문의 점근 하한은 2σ√(2/k)이고, Shekhar-Ramdas의 하한은 σ√(2/k)이므로, 개선 인수는 2입니다.

2. 신뢰구간 폭 비교 (베르누이 분포)

Nπ₁Betting(m=1000)Betting(m=3000)Betting(m=5000)HoeffdingEB
평균=0.6
20000.07120.06030.05960.05950.07280.0898
30000.05820.05920.05850.05840.05940.0712
평균=0.9
20000.04360.03780.03710.03690.07280.0606
30000.03560.03700.03630.03610.05940.0473

3. 무거운 꼬리 분포 결과 (파레토)

표본량평균 신뢰구간 폭
5000.492
10000.355
20000.255
30000.199

실험 발견

  1. 점근 우월성: π₁ 방법은 대표본 상황에서 우수한 성능을 보이며, 특히 N=3000일 때 베팅 방법과 비슷한 성능을 보입니다
  2. 계산 효율성: π₁ 방법은 베팅 방법보다 계산이 더 효율적입니다
  3. 이론 검증: 실험 결과는 이론적으로 예측된 개선 인수를 검증합니다

관련 연구

고전 이론

  • 가설 검정과 신뢰구간의 쌍대성: 고전 이론은 가설 검정을 반전시켜 신뢰구간을 구성합니다
  • UMP 검정: 모수 설정에서 일치 최강 검정이 존재하지만, 일반적으로 특정 족(예: 지수족의 불편 검정)으로 제한됩니다

농도 부등식 방법

  • Hoeffding과 베르슈타인 부등식: 유계 지지집합 분포에 적용 가능
  • Chernoff 경계: MGF 상한이 알려져 있을 때 적용 가능
  • 무거운 꼬리 분포 방법: Markov 및 Chebyshev 부등식 사용

최신 진전

  • Waudby-Smith와 Ramdas (2024): 신뢰구간 구성을 베팅 문제로 변환
  • Shekhar와 Ramdas (2023): 분포 의존 복잡도 항의 명시적 하한을 처음 제공하지만 느슷합니다

결론 및 논의

주요 결론

  1. 완전한 이론적 특성화: 신뢰구간 폭의 기본 극한을 처음으로 완전히 특성화하고, 세 가지 서로 다른 학습 체제를 식별합니다
  2. 최적 방법: KL 발산 기반 신뢰구간 구성 방법이 점근 의미에서 최적임을 증명합니다
  3. 광범위한 적용성: 결과는 모수 및 비모수 분포족, 그리고 무작위 비용 설정에 적용됩니다

한계

  1. 점근 성질: 결과는 주로 점근적이며, 유한 표본에 대한 지침이 제한적입니다
  2. 안정성 가정: 온건하지만, 여전히 추가 가정 조건입니다
  3. 분포족 제한: 주요 결과는 지수족 및 유계 지지집합 분포에 집중됩니다

향후 방향

  1. 비점근 결과: 더 정교한 비점근 이론 개발
  2. 다른 통계량: 분산 및 분위수 추정으로 확장
  3. 다차원 일반화: 다차원 모수의 신뢰 영역 고려

심층 평가

장점

  1. 중대한 이론적 기여: 신뢰구간 폭 최적성에 대한 완전한 이론을 처음으로 제공하여 중요한 이론적 공백을 메웁니다
  2. 현저한 기술 혁신: 안정성 개념의 도입과 데이터 처리 부등식의 영리한 응용은 방법론적 가치를 가집니다
  3. 타이트한 결과: 하한을 제공할 뿐만 아니라 하한의 달성 가능성도 증명합니다
  4. 광범위한 응용: 무작위 비용, 단측 신뢰구간 등 실제 관련 설정으로 확장됩니다

부족한 점

  1. 제한된 실험: 수치 실험이 상대적으로 단순하며, 더 복잡한 실제 데이터셋을 포함할 수 있습니다
  2. 계산 복잡도: 비모수 경우, KL_inf의 계산이 상대적으로 복잡할 수 있습니다
  3. 유한 표본 성능: 이론은 점근적이며, 유한 표본에서의 성능 보장이 충분하지 않습니다

영향력

  1. 이론적 영향: 신뢰구간 이론에 새로운 분석 프레임워크를 제공하며, 광범위하게 인용될 것으로 예상됩니다
  2. 실용적 가치: 실제 응용에서 신뢰구간 방법 선택에 이론적 지침을 제공합니다
  3. 방법론적 기여: 안정성 분석 방법은 다른 통계 추론 문제에도 적용될 수 있습니다

적용 시나리오

  1. 대표본 통계 추론: 특히 표본량이 큰 응용에 적합합니다
  2. 온라인 실험: A/B 테스트 등 신뢰할 수 있는 신뢰구간이 필요한 시나리오
  3. 시뮬레이션 연구: 무작위 비용 설정이 시뮬레이션 응용에 특히 적합합니다
  4. 머신러닝: 모델 성능 평가에서의 신뢰구간 구성

참고문헌

논문은 통계학 및 머신러닝 분야의 중요한 문헌을 인용합니다:

  • Hoeffding (1994): 확률 부등식의 고전 저작
  • Waudby-Smith & Ramdas (2024): 베팅 방법의 최신 진전
  • Shekhar & Ramdas (2023): 관련 하한 연구
  • Kaufmann & Koolen (2021): 임의 시점 유효 농도 부등식

이 논문은 신뢰구간 이론 분야에서 중요한 기여를 하였으며, 새로운 분석 프레임워크를 도입하여 신뢰구간 폭의 기본 극한을 완전히 특성화하고 KL 발산 방법의 최적성을 증명합니다. 주로 이론적 연구이지만 실제 응용에 가치 있는 지침을 제공합니다.