We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
論文ID : 2410.20918タイトル : Bootstrap tests for almost goodness-of-fit著者 : Amparo Báıllo (マドリード自治大学)、Javier Cárcamo (バスク国立大学)分類 : stat.ME (統計方法論)、math.ST (数理統計)、stat.AP (応用統計)、stat.TH (統計理論)発表日 : 2025年10月15日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2410.20918 本論文では、パラメトリックモデルが観測標本の確率分布をよく表現しているかを評価するための「ほぼ適合度」(almost goodness-of-fit, AGoF)検定を導入する。具体的には、分布関数F F F とパラメータ族G = { G ( θ ) : θ ∈ Θ } \mathcal{G}=\{G(\theta) : \theta \in \Theta\} G = { G ( θ ) : θ ∈ Θ } が与えられたとき、以下の仮説検定問題を考える:
H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ
ここでϵ > 0 \epsilon > 0 ϵ > 0 は許容誤差、G ( θ F ) G(\theta_F) G ( θ F ) はパラメータ族におけるF F F の代表である。M-推定法によって近似モデルを決定し、検定を実行するための2つの一貫性のあるブートストラップ方案を提供する。
従来の適合度検定には根本的な問題がある:「モデルはデータの合理的な近似である」という陳述を帰無仮説H 0 H_0 H 0 に置くため、モデルの「不適合」に対する統計的証拠しか提供できず、実際の「適合度」に対する証拠は提供できない。
従来のGoF検定の限界 :古典的方法はモデルを棄却することのみが可能で、モデルの適用可能性を検証できない実践的必要性 :実務では、モデルが「十分に良い」かどうかが重要であり、完全に正確であるかどうかではない近似モデリングの重要性 :現実ではデータを完璧に記述するモデルはほぼ存在せず、一定程度の偏差を許容する必要があるKolmogorov-Smirnov型統計量のパラメータ推定下での極限分布は複雑で非ガウス的 ブートストラップ法はsup-ノルム推定時に通常一貫性を持たない パラメータ族の近似検証を扱う統一的枠組みが欠如している AGoF検定枠組みの提案 :「近似適合」を対立仮説に置くことで、モデルの適用可能性に対する統計的証拠を提供できるL p L^p L p 距離の使用 :従来のsupremumノルムと比較して、L p L^p L p ノルムはより優れた理論的性質と計算上の利点を持つ2つのブートストラップ方案の開発 :一貫性を証明し、実用的な実装アルゴリズムを提供するAGoF統計量の導入 :非情報的基準に対するモデルの改善率を定量化する完全な理論分析の提供 :漸近分布、ブートストラップ一貫性などの理論的保証を含む未知分布F F F からの標本X 1 , … , X n X_1, \ldots, X_n X 1 , … , X n とパラメトリックモデル族G = { G ( θ ) : θ ∈ Θ ⊂ R k } \mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\} G = { G ( θ ) : θ ∈ Θ ⊂ R k } が与えられたとき、以下を検定する:
H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ
ここでθ F \theta_F θ F はM-推定により決定される:E F [ ψ θ F ( X ) ] = 0 E_F[\psi_{\theta_F}(X)] = 0 E F [ ψ θ F ( X )] = 0 。
M-推定器により解く:
Ψ n ( θ ) = 1 n ∑ i = 1 n ψ θ ( X i ) = 0 \Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0 Ψ n ( θ ) = n 1 ∑ i = 1 n ψ θ ( X i ) = 0
標準化統計量:
T n ( F , G ( θ F ) , p ) = n ( ∥ F n − G ( θ ^ n ) ∥ p − ∥ F − G ( θ F ) ∥ p ) T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p) T n ( F , G ( θ F ) , p ) = n ( ∥ F n − G ( θ ^ n ) ∥ p − ∥ F − G ( θ F ) ∥ p )
棄却域を提案する:
R n = { ∥ F n − G ( θ ^ n ) ∥ p < ϵ − c n ( α ) } R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} R n = { ∥ F n − G ( θ ^ n ) ∥ p < ϵ − c n ( α )}
ここでc n ( α ) = − Q T ( α ) / n c_n(\alpha) = -Q_T(\alpha)/\sqrt{n} c n ( α ) = − Q T ( α ) / n 、Q T ( α ) Q_T(\alpha) Q T ( α ) は極限分布のα \alpha α 分位数である。
Hadamard微分可能性 :1 < p < ∞ 1 < p < \infty 1 < p < ∞ に対して、L p L^p L p ノルムはHadamard微分可能であり、関数デルタ法の適用が容易ガウス極限 :一般的な仮定の下で、漸近分布はガウス的ブートストラップ一貫性 :適切な条件下で、標準ブートストラップ推定量は一貫性を持つ柔軟性 :p p p 値を調整することで分布の裾への感度を制御できる完全な漸近理論を確立する:
L p L^p L p 空間における経験過程の弱収束推定パラメータを伴う過程の極限分布 ブートストラップ過程の一貫性 仮定1-2の下で、X ∈ L 2 / p , 1 X \in L^{2/p,1} X ∈ L 2/ p , 1 であることと以下は同値:
G n ( θ F ) ⇝ G θ F in L p G_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p G n ( θ F ) ⇝ G θ F in L p
ここでG θ F G_{\theta_F} G θ F は中心化ガウス過程である。
p = 1 p = 1 p = 1 のとき:T ( F , G ( θ F ) , 1 ) = ∫ C θ F ∣ G θ F ∣ + ∫ R ∖ C θ F G θ F sgn ( F − G ( θ F ) ) T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F)) T ( F , G ( θ F ) , 1 ) = ∫ C θ F ∣ G θ F ∣ + ∫ R ∖ C θ F G θ F sgn ( F − G ( θ F )) 1 < p < ∞ 1 < p < \infty 1 < p < ∞ のとき:T ( F , G ( θ F ) , p ) = 1 ∥ F − G ( θ F ) ∥ p p − 1 ∫ G θ F ∣ F − G ( θ F ) ∣ p − 1 sgn ( F − G ( θ F ) ) T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F)) T ( F , G ( θ F ) , p ) = ∥ F − G ( θ F ) ∥ p p − 1 1 ∫ G θ F ∣ F − G ( θ F ) ∣ p − 1 sgn ( F − G ( θ F )) 極限分布が正規である必要十分条件:
p = 1 p = 1 p = 1 :接触集合C θ F = { F = G ( θ F ) } C_{\theta_F} = \{F = G(\theta_F)\} C θ F = { F = G ( θ F )} のLebesgue測度がゼロ1 < p < ∞ 1 < p < \infty 1 < p < ∞ :F ≠ G ( θ F ) F \neq G(\theta_F) F = G ( θ F ) 定理3 と推論2 は、適切な仮定の下で、ブートストラップ統計量が同じ極限分布に弱収束することを証明する。
標本サイズ :n = 30 , 50 , 100 , 500 n = 30, 50, 100, 500 n = 30 , 50 , 100 , 500 ブートストラップ回数 :B = 2000 B = 2000 B = 2000 有意水準 :α = 0.05 \alpha = 0.05 α = 0.05 モンテカルロ反復 :1000回Weibull vs 指数モデル :p = 1 p = 1 p = 1 、真の分布はWeibull(2,1)ガウス混合 vs 正規モデル :p = 2 p = 2 p = 2 、真の分布は2成分ガウス混合負二項 vs ポアソンモデル :p = 1 p = 1 p = 1 、離散分布の場合Kumaraswamy vs Betaモデル :p = 1 p = 1 p = 1 、有界台の場合Student t vs 正規モデル :p = 4 p = 4 p = 4 、重尾分布の場合対数正規 vs Gammaモデル :p = 1 p = 1 p = 1 、歪分布の場合ブートストラップ1 :分位数ベースの方法、棄却条件:2 ∥ F n − G ( θ ^ n ) ∥ p − ϵ ^ ∗ ( α ) < ϵ 2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon 2∥ F n − G ( θ ^ n ) ∥ p − ϵ ^ ∗ ( α ) < ϵ ブートストラップ2 :正規近似ベースの方法、棄却条件:∥ F n − G ( θ ^ n ) ∥ p − σ ^ boot z α < ϵ \|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon ∥ F n − G ( θ ^ n ) ∥ p − σ ^ boot z α < ϵ 中程度の標本サイズ (n = 500 n = 500 n = 500 ):2つの方法は同様の性能を示し、検定水準をよく制御する小標本サイズ (n ≤ 100 n \leq 100 n ≤ 100 ):ブートストラップ2は通常、名義有意水準をより良く制御する高いAGoF統計量の場合 (> 0.9):ブートストラップ1がより良い性能を示すWeibull vs 指数モデルの例:
∥ F − G ( θ F ) ∥ 1 = 0.3002 \|F - G(\theta_F)\|_1 = 0.3002 ∥ F − G ( θ F ) ∥ 1 = 0.3002 AGoF統計量:G ( F , G ) = 0.194 G(F,G) = 0.194 G ( F , G ) = 0.194 (定数モデルに対する改善率は19.4%のみ) 検出力関数はn = 500 n = 500 n = 500 時に2つの方法がほぼ区別不可能であることを示す AGoF統計量が0-0.9の間:ブートストラップ2を推奨 AGoF統計量が0.9を超える:ブートストラップ1を推奨 標本サイズが小さい場合は結果の解釈に注意が必要 データ :ハイチ全国血清調査における4308個のIgG抗体サンプル(Bm33抗原)
分析 :1-5成分正規混合モデルのAGoFを検定
2成分モデルが最良:ϵ 2 ∗ ( 0.05 ) ≈ 0.022 \epsilon^*_2(0.05) \approx 0.022 ϵ 2 ∗ ( 0.05 ) ≈ 0.022 (L 1 L^1 L 1 )、G ∗ ( F , G 2 ) > 0.97 G^*(F,G_2) > 0.97 G ∗ ( F , G 2 ) > 0.97 単成分正規モデルは不十分:改善率 < 78% 3成分以上のモデルは改善が限定的(< 1%) データ :異なるゲージ長での引張性能に関する約1200本の炭素繊維
モデル比較 :Weibull、3パラメータWeibull、歪正規、二峰性Weibull
主要な発見 :
二峰性Weibullはほとんどのゲージ長で最良の性能を示す モデル性能はゲージ長とともに著しく低下(二峰性Weibull除く) 線形回帰分析はこの傾向の統計的有意性を確認する Kolmogorov-Smirnov検定とその限界 Cramér-von Mises検定の分布依存性の問題 Wellek (2021)のLehmann対立仮説方法 Liu and Lindsay (2009)の多項式モデル許容域 Romano (2005)の最適等価性検定 Berger and Delampady (1987)の正確な仮説検定 Dette and Sen (2013)の関連仮説一貫検定手順 Baringhaus and Henze (2024)の近傍検証検定 方法の有効性 :AGoF検定は従来のGoF検定が「不適合」の証拠のみを提供する問題を成功裏に解決する理論の完全性 :完全な漸近理論とブートストラップ一貫性証明を提供する実用性 :2つのブートストラップ方案は実装が容易で、広範なパラメトリックモデルに適用可能可積性条件 :X ∈ L 2 / p , 1 X \in L^{2/p,1} X ∈ L 2/ p , 1 の条件を満たす必要があり、適用範囲を制限するパラメータ選択 :許容誤差ϵ \epsilon ϵ の選択には依然として領域専門知識が必要計算複雑性 :単純なGoF検定と比較して計算コストが高い多変量への拡張 :多変量分布の場合への方法の拡張非パラメトリック代替案 :非パラメトリックまたは半パラメトリックモデルの近似検証の検討適応的方法 :ϵ \epsilon ϵ を自動選択するデータ駆動型方法の開発理論的革新 :「近似適合」を対立仮説に体系的に置く初めての試み、重要な概念的突破方法論の完全性 :理論分析から実装アルゴリズムまで非常に完全実用的価値 :AGoF統計量はモデル品質の直感的な尺度を提供技術的優位性 :L p L^p L p 距離の選択は理論と計算の両面で明らかな利点を持つ仮定条件 :M-推定枠組みと可積性条件が適用可能性を制限する可能性パラメータ調整 :p p p 値とϵ \epsilon ϵ の選択に体系的なガイダンスが欠ける計算効率 :ブートストラップ過程の計算コストが高い学術的貢献 :適合度検定分野に新しい研究方向を提供実用的価値 :モデル選択と検証に重要な応用前景を持つ再現可能性 :理論結果が完全で、アルゴリズム記述が明確で、再現が容易パラメトリックモデルの適用可能性を検証する必要がある場合 モデル選択と比較 規制と品質管理におけるモデル検証 リスク管理における分布モデル評価 本論文は豊富な関連文献を引用しており、経験過程理論、M-推定、ブートストラップ法など複数の分野の重要な研究をカバーしており、研究に堅実な理論的基礎を提供する。