2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

ブートストラップ法によるほぼ適合度検定

基本情報

  • 論文ID: 2410.20918
  • タイトル: Bootstrap tests for almost goodness-of-fit
  • 著者: Amparo Báıllo (マドリード自治大学)、Javier Cárcamo (バスク国立大学)
  • 分類: stat.ME (統計方法論)、math.ST (数理統計)、stat.AP (応用統計)、stat.TH (統計理論)
  • 発表日: 2025年10月15日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2410.20918

要旨

本論文では、パラメトリックモデルが観測標本の確率分布をよく表現しているかを評価するための「ほぼ適合度」(almost goodness-of-fit, AGoF)検定を導入する。具体的には、分布関数FFとパラメータ族G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\}が与えられたとき、以下の仮説検定問題を考える: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon ここでϵ>0\epsilon > 0は許容誤差、G(θF)G(\theta_F)はパラメータ族におけるFFの代表である。M-推定法によって近似モデルを決定し、検定を実行するための2つの一貫性のあるブートストラップ方案を提供する。

研究背景と動機

問題背景

従来の適合度検定には根本的な問題がある:「モデルはデータの合理的な近似である」という陳述を帰無仮説H0H_0に置くため、モデルの「不適合」に対する統計的証拠しか提供できず、実際の「適合度」に対する証拠は提供できない。

研究動機

  1. 従来のGoF検定の限界:古典的方法はモデルを棄却することのみが可能で、モデルの適用可能性を検証できない
  2. 実践的必要性:実務では、モデルが「十分に良い」かどうかが重要であり、完全に正確であるかどうかではない
  3. 近似モデリングの重要性:現実ではデータを完璧に記述するモデルはほぼ存在せず、一定程度の偏差を許容する必要がある

既存手法の不足

  • Kolmogorov-Smirnov型統計量のパラメータ推定下での極限分布は複雑で非ガウス的
  • ブートストラップ法はsup-ノルム推定時に通常一貫性を持たない
  • パラメータ族の近似検証を扱う統一的枠組みが欠如している

核心的貢献

  1. AGoF検定枠組みの提案:「近似適合」を対立仮説に置くことで、モデルの適用可能性に対する統計的証拠を提供できる
  2. LpL^p距離の使用:従来のsupremumノルムと比較して、LpL^pノルムはより優れた理論的性質と計算上の利点を持つ
  3. 2つのブートストラップ方案の開発:一貫性を証明し、実用的な実装アルゴリズムを提供する
  4. AGoF統計量の導入:非情報的基準に対するモデルの改善率を定量化する
  5. 完全な理論分析の提供:漸近分布、ブートストラップ一貫性などの理論的保証を含む

方法の詳細

タスク定義

未知分布FFからの標本X1,,XnX_1, \ldots, X_nとパラメトリックモデル族G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}が与えられたとき、以下を検定する: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

ここでθF\theta_FはM-推定により決定される:EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0

核心的方法アーキテクチャ

1. パラメータ推定

M-推定器により解く: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

2. 検定統計量

標準化統計量: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

3. 棄却域の構成

棄却域を提案する: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} ここでcn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n}QT(α)Q_T(\alpha)は極限分布のα\alpha分位数である。

技術的革新点

1. LpL^p距離選択の利点

  • Hadamard微分可能性1<p<1 < p < \inftyに対して、LpL^pノルムはHadamard微分可能であり、関数デルタ法の適用が容易
  • ガウス極限:一般的な仮定の下で、漸近分布はガウス的
  • ブートストラップ一貫性:適切な条件下で、標準ブートストラップ推定量は一貫性を持つ
  • 柔軟性pp値を調整することで分布の裾への感度を制御できる

2. 理論的枠組み

完全な漸近理論を確立する:

  • LpL^p空間における経験過程の弱収束
  • 推定パラメータを伴う過程の極限分布
  • ブートストラップ過程の一貫性

理論的結果

主要定理

定理1:過程の弱収束

仮定1-2の下で、XL2/p,1X \in L^{2/p,1}であることと以下は同値: Gn(θF)GθF in LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p ここでGθFG_{\theta_F}は中心化ガウス過程である。

定理2:検定統計量の漸近分布

  • p=1p = 1のとき:T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • 1<p<1 < p < \inftyのとき:T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

推論1:正規性条件

極限分布が正規である必要十分条件:

  • p=1p = 1:接触集合CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\}のLebesgue測度がゼロ
  • 1<p<1 < p < \inftyFG(θF)F \neq G(\theta_F)

ブートストラップ一貫性

定理3推論2は、適切な仮定の下で、ブートストラップ統計量が同じ極限分布に弱収束することを証明する。

実験設定

シミュレーション研究設計

  • 標本サイズn=30,50,100,500n = 30, 50, 100, 500
  • ブートストラップ回数B=2000B = 2000
  • 有意水準α=0.05\alpha = 0.05
  • モンテカルロ反復:1000回

テストシナリオ

  1. Weibull vs 指数モデルp=1p = 1、真の分布はWeibull(2,1)
  2. ガウス混合 vs 正規モデルp=2p = 2、真の分布は2成分ガウス混合
  3. 負二項 vs ポアソンモデルp=1p = 1、離散分布の場合
  4. Kumaraswamy vs Betaモデルp=1p = 1、有界台の場合
  5. Student t vs 正規モデルp=4p = 4、重尾分布の場合
  6. 対数正規 vs Gammaモデルp=1p = 1、歪分布の場合

2つのブートストラップ方法

  • ブートストラップ1:分位数ベースの方法、棄却条件:2FnG(θ^n)pϵ^(α)<ϵ2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • ブートストラップ2:正規近似ベースの方法、棄却条件:FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

実験結果

主要な発見

1. 方法性能の比較

  • 中程度の標本サイズn=500n = 500):2つの方法は同様の性能を示し、検定水準をよく制御する
  • 小標本サイズn100n \leq 100):ブートストラップ2は通常、名義有意水準をより良く制御する
  • 高いAGoF統計量の場合(> 0.9):ブートストラップ1がより良い性能を示す

2. 具体的な結果例

Weibull vs 指数モデルの例:

  • FG(θF)1=0.3002\|F - G(\theta_F)\|_1 = 0.3002
  • AGoF統計量:G(F,G)=0.194G(F,G) = 0.194(定数モデルに対する改善率は19.4%のみ)
  • 検出力関数はn=500n = 500時に2つの方法がほぼ区別不可能であることを示す

3. 実用的推奨

  • AGoF統計量が0-0.9の間:ブートストラップ2を推奨
  • AGoF統計量が0.9を超える:ブートストラップ1を推奨
  • 標本サイズが小さい場合は結果の解釈に注意が必要

実際の応用

応用1:ハイチ血清学調査

データ:ハイチ全国血清調査における4308個のIgG抗体サンプル(Bm33抗原)

分析:1-5成分正規混合モデルのAGoFを検定

  • 2成分モデルが最良:ϵ2(0.05)0.022\epsilon^*_2(0.05) \approx 0.022L1L^1)、G(F,G2)>0.97G^*(F,G_2) > 0.97
  • 単成分正規モデルは不十分:改善率 < 78%
  • 3成分以上のモデルは改善が限定的(< 1%)

応用2:炭素繊維破断応力

データ:異なるゲージ長での引張性能に関する約1200本の炭素繊維

モデル比較:Weibull、3パラメータWeibull、歪正規、二峰性Weibull

主要な発見

  • 二峰性Weibullはほとんどのゲージ長で最良の性能を示す
  • モデル性能はゲージ長とともに著しく低下(二峰性Weibull除く)
  • 線形回帰分析はこの傾向の統計的有意性を確認する

関連研究

従来の適合度検定

  • Kolmogorov-Smirnov検定とその限界
  • Cramér-von Mises検定の分布依存性の問題

等価性検定

  • Wellek (2021)のLehmann対立仮説方法
  • Liu and Lindsay (2009)の多項式モデル許容域
  • Romano (2005)の最適等価性検定

関連する仮説検定

  • Berger and Delampady (1987)の正確な仮説検定
  • Dette and Sen (2013)の関連仮説一貫検定手順
  • Baringhaus and Henze (2024)の近傍検証検定

結論と考察

主要な結論

  1. 方法の有効性:AGoF検定は従来のGoF検定が「不適合」の証拠のみを提供する問題を成功裏に解決する
  2. 理論の完全性:完全な漸近理論とブートストラップ一貫性証明を提供する
  3. 実用性:2つのブートストラップ方案は実装が容易で、広範なパラメトリックモデルに適用可能

限界

  1. 可積性条件XL2/p,1X \in L^{2/p,1}の条件を満たす必要があり、適用範囲を制限する
  2. パラメータ選択:許容誤差ϵ\epsilonの選択には依然として領域専門知識が必要
  3. 計算複雑性:単純なGoF検定と比較して計算コストが高い

今後の方向

  1. 多変量への拡張:多変量分布の場合への方法の拡張
  2. 非パラメトリック代替案:非パラメトリックまたは半パラメトリックモデルの近似検証の検討
  3. 適応的方法ϵ\epsilonを自動選択するデータ駆動型方法の開発

深い評価

利点

  1. 理論的革新:「近似適合」を対立仮説に体系的に置く初めての試み、重要な概念的突破
  2. 方法論の完全性:理論分析から実装アルゴリズムまで非常に完全
  3. 実用的価値:AGoF統計量はモデル品質の直感的な尺度を提供
  4. 技術的優位性LpL^p距離の選択は理論と計算の両面で明らかな利点を持つ

不足

  1. 仮定条件:M-推定枠組みと可積性条件が適用可能性を制限する可能性
  2. パラメータ調整pp値とϵ\epsilonの選択に体系的なガイダンスが欠ける
  3. 計算効率:ブートストラップ過程の計算コストが高い

影響力

  1. 学術的貢献:適合度検定分野に新しい研究方向を提供
  2. 実用的価値:モデル選択と検証に重要な応用前景を持つ
  3. 再現可能性:理論結果が完全で、アルゴリズム記述が明確で、再現が容易

適用シーン

  • パラメトリックモデルの適用可能性を検証する必要がある場合
  • モデル選択と比較
  • 規制と品質管理におけるモデル検証
  • リスク管理における分布モデル評価

参考文献

本論文は豊富な関連文献を引用しており、経験過程理論、M-推定、ブートストラップ法など複数の分野の重要な研究をカバーしており、研究に堅実な理論的基礎を提供する。