2025-11-13T23:52:10.651598

Asymptotic optimality theory of confidence intervals of the mean

Deep, Bassamboo, Juneja
We address the classical problem of constructing confidence intervals (CIs) for the mean of a distribution, given \(N\) i.i.d. samples, such that the CI contains the true mean with probability at least \(1 - δ\), where \(δ\in (0,1)\). We characterize three distinct learning regimes based on the minimum achievable limiting width of any CI as the sample size \(N_δ \to \infty\) and \(δ\to 0\). In the first regime, where \(N_δ\) grows slower than \(\log(1/δ)\), the limiting width of any CI equals the width of the distribution's support, precluding meaningful inference. In the second regime, where \(N_δ\) scales as \(\log(1/δ)\), we precisely characterize the minimum limiting width, which depends on the scaling constant. In the third regime, where \(N_δ\) grows faster than \(\log(1/δ)\), complete learning is achievable, and the limiting width of the CI collapses to zero, converging to the true mean. We demonstrate that CIs derived from concentration inequalities based on Kullback--Leibler (KL) divergences achieve asymptotically optimal performance, attaining the minimum limiting width in both sufficient and complete learning regimes for distributions in two families: single-parameter exponential and bounded support. Additionally, these results extend to one-sided CIs, with the width notion adjusted appropriately. Finally, we generalize our findings to settings with random per-sample costs, motivated by practical applications such as stochastic simulators and cloud service selection. Instead of a fixed sample size, we consider a cost budget \(C_δ\), identifying analogous learning regimes and characterizing the optimal CI construction policy.
academic

平均値の信頼区間の漸近最適性理論

基本情報

  • 論文ID: 2501.19126
  • タイトル: Asymptotic optimality theory of confidence intervals of the mean
  • 著者: Vikas Deep (NUS, Singapore)、Achal Bassamboo (Kellogg, Northwestern University)、Sandeep Juneja (Ashoka University, India)
  • 分類: math.ST stat.TH
  • 発表時期: 2025年1月 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2501.19126

要約

本論文は、N個の独立同分布標本に基づいて分布平均の信頼区間(CI)を構成する古典的問題を研究している。要件は、CIが真の平均値を含む確率が少なくとも1-δであることである。著者は、N_δ→∞かつδ→0のとき任意のCIが達成可能な最小漸近幅に基づいて、3つの異なる学習体制を特徴付けている:(1)非学習体制:N_δがlog(1/δ)より遅く増加する場合、CIの極限幅は分布の支持集合の幅に等しい;(2)十分学習体制:N_δがlog(1/δ)に比例して増加する場合、スケーリング定数に依存する最小極限幅を正確に特徴付けることができる;(3)完全学習体制:N_δがlog(1/δ)より速く増加する場合、CIの極限幅はゼロに収束する。著者は、KL発散に基づく濃度不等式から構成されたCIが、十分学習体制と完全学習体制の両方で漸近最適性能を達成することを証明している。

研究背景と動機

問題の重要性

信頼区間の構成は統計学の基礎的問題であり、A/Bテスト、実験設計、データ分析およびシミュレーションなどの分野で重要な応用がある。様々なCI構成方法が存在するが、最小幅の最適CIに関する理論的特徴付けが不足している。

既存方法の限界

  1. 最適性理論の欠落:既存文献は様々なCI構成方法を提供しているが、最小幅を持つ最適CIを特徴付ける結果がない
  2. 非漸近下界の緩さ:既存の非漸近下界(例:Shekhar and Ramdas 2023)は漸近設定では緩い
  3. 強い仮定条件:既存の下界は、CI幅が特定の関数によって確定的に界定されるという強い仮定に依存している

研究動機

本論文は、安定性仮定を導入することでこの理論的空白を埋め、漸近枠組みの下でCI幅の基本的限界を特徴付け、KL発散に基づく方法の最適性を証明することを目指している。

核心的貢献

  1. 3つの学習体制の特徴付け:標本量N_δと精度1-δの相対的スケーリングに基づいて、非学習、十分学習、完全学習の3つの異なる体制を特徴付ける
  2. 鋭い下界:十分学習体制でCI極限幅の鋭い下界を導出し、KL発散に基づくCI構成方法がこれらの下界を達成することを証明する
  3. 漸近最適性の証明:KL発散濃度界に基づくCI構成方法が、研究対象の漸近枠組みで最適であることを証明する
  4. 拡張結果:ランダムサンプリングコスト、片側CI、非パラメトリック分布などより一般的な設定に結果を拡張する

方法の詳細

タスク定義

分布ν(平均μ)からのN個の独立同分布標本X₁,...,X_Nが与えられたとき、信頼区間μ̂_L^π(N,δ), μ̂_R^π(N,δ)を構成し、P_ν(μ ∈ μ̂_L^π(N,δ), μ̂_R^π(N,δ)) ≥ 1-δを満たす。

核心的理論枠組み

1. 安定性仮定

定義1(安定性):与えられた分布νに対して、戦略πが安定であるとは、N_δ→∞かつδ→0のとき以下を満たすことである:

  • lim_{δ→0} μ̂_L^π(N_δ,δ) →^p μ_L^π(ν)
  • lim_{δ→0} μ̂_R^π(N_δ,δ) →^p μ_R^π(ν)

ここで、μ_L^π(ν) ≤ μおよびμ_R^π(ν) ≥ μは定数である。

2. 3つの学習体制

lim_{δ→0} N_δ/log(1/δ)の値kに基づいて:

非学習体制(k→0):

  • CI極限幅 = 分布の支持集合の幅
  • μ_L^π(μ) = μ̲、μ_R^π(μ) = μ̄

十分学習体制(k ∈ (0,∞)):

  • 下界:μ_R^π(μ) - μ_L^π(μ) ≥ μ_R*(μ,k) - μ_L*(μ,k)
  • ここで、μ_L*(μ,k) < μおよびμ_R*(μ,k) > μは以下を一意に満たす: d(μ, μ_R*(μ,k)) = d(μ, μ_L*(μ,k)) = 1/k

完全学習体制(k→∞):

  • CI極限幅→0

3. KL発散関数

単一パラメータ指数族Sの分布に対して、以下を定義する: d(μ, μ̃) = KL(p_{θ(μ)}, p_{θ(μ̃)}) = b(θ(μ̃)) - b(θ(μ)) - b'(θ(μ))(θ(μ̃) - θ(μ))

この関数は厳密な準凸性と連続性などの重要な性質を持つ。

最適CI構成方法π₁

濃度不等式に基づく: P_ν(nd(μ̂_n, μ) ≥ β(δ)) ≤ δ

ここで、β(δ) = log(2/δ)であり、CIは以下のように構成される:

  • μ_R^{π₁}(n,δ) = max{q > μ̂_n : nd(μ̂_n, q) ≤ β(δ)}
  • μ_L^{π₁}(n,δ) = min{q < μ̂_n : nd(μ̂_n, q) ≤ β(δ)}

技術的革新点

  1. 安定性概念の導入:これはCI幅の漸近挙動を分析するための重要な革新であり、極限幅を確定的定数にする
  2. データ処理不等式の巧妙な応用:安定性仮定と組み合わせることで、左右両側の仮説排除を同時に考慮できる
  3. 緊密性の証明:提案された下界が緊密であることを証明し、すなわち下界を達成する方法が存在することを示す

実験設定

データセット

  • ベルヌーイ分布:平均0.6および0.9
  • ガウス分布:N(0,1)既知分散
  • パレート分布:スケールパラメータx_m=1、形状パラメータα=3

評価指標

  • 平均CI幅:1000個の独立データセット上の平均信頼区間幅
  • カバレッジ確率:信頼区間が真の平均値を含む頻度

比較方法

  1. Hoeffding基盤CI:Hoeffding不等式に基づく
  2. 経験的Bernstein (EB) CI:経験的Bernstein不等式に基づく
  3. ベッティング基盤ヘッジCI:ベッティング方法に基づく
  4. Shekhar-Ramdas下界:既存の理論的下界

実装詳細

  • δ = 0.01(ベルヌーイ実験)、δ = 0.05(パレート実験)
  • 標本量:N ∈ {2000, 3000}
  • 離散化パラメータ:m ∈ {1000, 3000, 5000}(ベッティング方法)

実験結果

主要結果

1. 理論的下界の比較

ガウス分布の場合、本論文の漸近下界は2σ√(2/k)であり、Shekhar-Ramdas下界はσ√(2/k)であり、改善係数は2である。

2. CI幅の比較(ベルヌーイ分布)

Nπ₁Betting(m=1000)Betting(m=3000)Betting(m=5000)HoeffdingEB
平均=0.6
20000.07120.06030.05960.05950.07280.0898
30000.05820.05920.05850.05840.05940.0712
平均=0.9
20000.04360.03780.03710.03690.07280.0606
30000.03560.03700.03630.03610.05940.0473

3. 重尾分布結果(パレート)

標本量平均CI幅
5000.492
10000.355
20000.255
30000.199

実験的発見

  1. 漸近的優位性:π₁方法は大標本の場合に優れた性能を示し、特にN=3000のときベッティング方法と同等の性能を示す
  2. 計算効率:π₁方法はベッティング方法より計算効率が高い
  3. 理論的検証:実験結果は理論予測の改善係数を検証する

関連研究

古典的理論

  • 仮説検定とCIの双対性:古典的理論は仮説検定の反転によってCIを構成する
  • UMP検定:パラメータ設定では一様最強検定が存在するが、通常は特定の族(例:指数族における不偏検定)に限定される

濃度不等式方法

  • Hoeffding不等式とBernstein不等式:有界支持集合分布に適用可能
  • Chernoff界:MGFの上界が既知のとき適用可能
  • 重尾分布方法:Markov不等式とChebyshev不等式を使用

最新の進展

  • Waudby-Smith and Ramdas (2024):CI構成をベッティング問題に変換
  • Shekhar and Ramdas (2023):分布依存複雑度項の明示的下界を初めて提供するが、より緩い

結論と考察

主要な結論

  1. 完全な理論的特徴付け:CI幅の基本的限界を初めて完全に特徴付け、3つの異なる学習体制を識別する
  2. 最適方法:KL発散に基づくCI構成方法が漸近的意味で最適であることを証明する
  3. 広範な適用可能性:結果はパラメトリック分布族と非パラメトリック分布族、およびランダムコスト設定に適用可能である

限界

  1. 漸近的性質:結果は主に漸近的であり、有限標本への指導は限定的である
  2. 安定性仮定:穏やかではあるが、依然として追加的な仮定条件である
  3. 分布族の制限:主要結果は指数族と有界支持集合分布に集中している

今後の方向性

  1. 非漸近結果:より精密な非漸近理論の発展
  2. 他の統計量:分散と分位数推定への拡張
  3. 多次元への一般化:多次元パラメータの信頼領域の考慮

深い評価

長所

  1. 理論的貢献が重大:CI幅の最適性に関する完全な理論を初めて提供し、重要な理論的空白を埋める
  2. 技術的革新が顕著:安定性概念の導入とデータ処理不等式の巧妙な応用は方法論的価値を持つ
  3. 結果が緊密:下界を提供するだけでなく、下界の達成可能性を証明する
  4. 応用が広範:ランダムコスト、片側CIなど実際に関連する設定への拡張

不足

  1. 実験が限定的:数値実験は比較的単純であり、より複雑な実データセットを含めることができる
  2. 計算複雑性:非パラメトリック場合、KL_infの計算はより複雑である可能性がある
  3. 有限標本性能:理論は漸近的であり、有限標本下での性能保証は十分に強くない

影響力

  1. 理論的影響:CI理論に新しい分析枠組みを提供し、広く引用されることが予想される
  2. 実用的価値:実際の応用でCI方法を選択する際に理論的指導を提供する
  3. 方法論的貢献:安定性分析方法は他の統計推論問題に適用可能である

適用シーン

  1. 大標本統計推論:特に標本量が大きい応用に適している
  2. オンライン実験:A/Bテストなど信頼できる信頼区間が必要なシーン
  3. シミュレーション研究:ランダムコスト設定は特にシミュレーション応用に適している
  4. 機械学習:モデル性能評価における信頼区間構成

参考文献

論文は統計学と機械学習分野の重要な文献を引用しており、以下を含む:

  • Hoeffding (1994):確率不等式の古典的研究
  • Waudby-Smith & Ramdas (2024):ベッティング方法の最新進展
  • Shekhar & Ramdas (2023):関連する下界研究
  • Kaufmann & Koolen (2021):任意時間有効な濃度不等式

本論文は信頼区間理論において重要な貢献を行い、新しい分析枠組みを導入することでCI幅の基本的限界を完全に特徴付け、KL発散方法の最適性を証明している。主に理論的研究ではあるが、実際の応用に価値のある指導を提供している。