We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
论文ID : 2410.20918标题 : Bootstrap tests for almost goodness-of-fit作者 : Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del Páıs Vasco)分类 : stat.ME (统计方法论), math.ST (数理统计), stat.AP (应用统计), stat.TH (统计理论)发表时间 : October 15, 2025 (arXiv预印本)论文链接 : https://arxiv.org/abs/2410.20918 本文引入了"近似拟合优度"(almost goodness-of-fit, AGoF)检验,用于评估参数模型是否能够很好地表示观测样本的概率分布。具体地,给定分布函数F F F 和参数族G = { G ( θ ) : θ ∈ Θ } \mathcal{G}=\{G(\theta) : \theta \in \Theta\} G = { G ( θ ) : θ ∈ Θ } ,考虑假设检验问题:
H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ
其中ϵ > 0 \epsilon > 0 ϵ > 0 是误差容限,G ( θ F ) G(\theta_F) G ( θ F ) 表示F F F 在参数类中的代表。通过M-估计确定近似模型,并提供了两种一致且易于实现的bootstrap方案来执行检验。
传统的拟合优度检验存在一个根本性问题:它们将"模型是数据的合理近似"这一陈述置于零假设H 0 H_0 H 0 中,因此只能为模型的"不拟合"提供统计证据,而无法为实际的"拟合优度"提供证据。
传统GoF检验的局限性 :经典方法只能拒绝模型,无法验证模型的适用性实际需求 :在实践中,我们更关心模型是否"足够好",而非是否完全精确近似建模的重要性 :现实中很少有模型能完美描述数据,需要容忍一定程度的偏差Kolmogorov-Smirnov类统计量在参数估计情况下的极限分布复杂且非高斯 Bootstrap方法在估计sup-范数时通常不一致 缺乏统一的框架来处理参数族的近似验证 提出AGoF检验框架 :将"近似拟合"置于备择假设中,能够为模型的适用性提供统计证据使用L p L^p L p 距离 :相比传统的supremum范数,L p L^p L p 范数具有更好的理论性质和计算优势开发了两种bootstrap方案 :证明了它们的一致性,并提供了实用的实现算法引入AGoF统计量 :量化模型相对于非信息性基准的改进百分比提供完整的理论分析 :包括渐近分布、bootstrap一致性等理论保证给定来自未知分布F F F 的样本X 1 , … , X n X_1, \ldots, X_n X 1 , … , X n 和参数模型族G = { G ( θ ) : θ ∈ Θ ⊂ R k } \mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\} G = { G ( θ ) : θ ∈ Θ ⊂ R k } ,检验:
H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon H 0 : ∥ F − G ( θ F ) ∥ p ≥ ϵ vs H 1 : ∥ F − G ( θ F ) ∥ p < ϵ
其中θ F \theta_F θ F 通过M-估计确定:E F [ ψ θ F ( X ) ] = 0 E_F[\psi_{\theta_F}(X)] = 0 E F [ ψ θ F ( X )] = 0 。
使用M-估计器求解:
Ψ n ( θ ) = 1 n ∑ i = 1 n ψ θ ( X i ) = 0 \Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0 Ψ n ( θ ) = n 1 ∑ i = 1 n ψ θ ( X i ) = 0
标准化统计量为:
T n ( F , G ( θ F ) , p ) = n ( ∥ F n − G ( θ ^ n ) ∥ p − ∥ F − G ( θ F ) ∥ p ) T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p) T n ( F , G ( θ F ) , p ) = n ( ∥ F n − G ( θ ^ n ) ∥ p − ∥ F − G ( θ F ) ∥ p )
提出拒绝域:
R n = { ∥ F n − G ( θ ^ n ) ∥ p < ϵ − c n ( α ) } R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} R n = { ∥ F n − G ( θ ^ n ) ∥ p < ϵ − c n ( α )}
其中c n ( α ) = − Q T ( α ) / n c_n(\alpha) = -Q_T(\alpha)/\sqrt{n} c n ( α ) = − Q T ( α ) / n ,Q T ( α ) Q_T(\alpha) Q T ( α ) 是极限分布的α \alpha α 分位数。
Hadamard可微性 :对于1 < p < ∞ 1 < p < \infty 1 < p < ∞ ,L p L^p L p 范数是Hadamard可微的,便于应用函数delta方法高斯极限 :在一般假设下,渐近分布是高斯的Bootstrap一致性 :在适当条件下,标准bootstrap估计量是一致的灵活性 :通过调节p p p 值可以控制对分布尾部的敏感度建立了完整的渐近理论,包括:
经验过程在L p L^p L p 空间中的弱收敛 带估计参数的过程的极限分布 Bootstrap过程的一致性 在假设1-2下,X ∈ L 2 / p , 1 X \in L^{2/p,1} X ∈ L 2/ p , 1 当且仅当:
G n ( θ F ) ⇝ G θ F in L p G_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p G n ( θ F ) ⇝ G θ F in L p
其中G θ F G_{\theta_F} G θ F 是中心化高斯过程。
当p = 1 p = 1 p = 1 时:T ( F , G ( θ F ) , 1 ) = ∫ C θ F ∣ G θ F ∣ + ∫ R ∖ C θ F G θ F sgn ( F − G ( θ F ) ) T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F)) T ( F , G ( θ F ) , 1 ) = ∫ C θ F ∣ G θ F ∣ + ∫ R ∖ C θ F G θ F sgn ( F − G ( θ F )) 当1 < p < ∞ 1 < p < \infty 1 < p < ∞ 时:T ( F , G ( θ F ) , p ) = 1 ∥ F − G ( θ F ) ∥ p p − 1 ∫ G θ F ∣ F − G ( θ F ) ∣ p − 1 sgn ( F − G ( θ F ) ) T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F)) T ( F , G ( θ F ) , p ) = ∥ F − G ( θ F ) ∥ p p − 1 1 ∫ G θ F ∣ F − G ( θ F ) ∣ p − 1 sgn ( F − G ( θ F )) 极限分布为正态的充要条件:
p = 1 p = 1 p = 1 :接触集C θ F = { F = G ( θ F ) } C_{\theta_F} = \{F = G(\theta_F)\} C θ F = { F = G ( θ F )} 的Lebesgue测度为零1 < p < ∞ 1 < p < \infty 1 < p < ∞ :F ≠ G ( θ F ) F \neq G(\theta_F) F = G ( θ F ) 定理3 和推论2 证明了在适当假设下,bootstrap统计量弱收敛到相同的极限分布。
样本量 :n = 30 , 50 , 100 , 500 n = 30, 50, 100, 500 n = 30 , 50 , 100 , 500 Bootstrap次数 :B = 2000 B = 2000 B = 2000 显著性水平 :α = 0.05 \alpha = 0.05 α = 0.05 Monte Carlo重复 :1000次Weibull vs 指数模型 :p = 1 p = 1 p = 1 ,真实分布为Weibull(2,1)高斯混合 vs 正态模型 :p = 2 p = 2 p = 2 ,真实分布为两分量高斯混合负二项 vs 泊松模型 :p = 1 p = 1 p = 1 ,离散分布情况Kumaraswamy vs Beta模型 :p = 1 p = 1 p = 1 ,有界支撑情况Student t vs 正态模型 :p = 4 p = 4 p = 4 ,重尾分布情况对数正态 vs Gamma模型 :p = 1 p = 1 p = 1 ,偏态分布情况Bootstrap 1 :基于分位数的方法,拒绝条件:2 ∥ F n − G ( θ ^ n ) ∥ p − ϵ ^ ∗ ( α ) < ϵ 2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon 2∥ F n − G ( θ ^ n ) ∥ p − ϵ ^ ∗ ( α ) < ϵ Bootstrap 2 :基于正态近似的方法,拒绝条件:∥ F n − G ( θ ^ n ) ∥ p − σ ^ boot z α < ϵ \|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon ∥ F n − G ( θ ^ n ) ∥ p − σ ^ boot z α < ϵ 中等样本量 (n = 500 n = 500 n = 500 ):两种方法表现相近,都能很好地控制检验水平小样本量 (n ≤ 100 n \leq 100 n ≤ 100 ):Bootstrap 2通常能更好地控制名义显著性水平高AGoF统计量情况 (> 0.9):Bootstrap 1表现更好以Weibull vs 指数模型为例:
∥ F − G ( θ F ) ∥ 1 = 0.3002 \|F - G(\theta_F)\|_1 = 0.3002 ∥ F − G ( θ F ) ∥ 1 = 0.3002 AGoF统计量:G ( F , G ) = 0.194 G(F,G) = 0.194 G ( F , G ) = 0.194 (仅比常数模型改进19.4%) 功效函数显示两种方法在n = 500 n = 500 n = 500 时几乎无法区分 AGoF统计量在0-0.9之间:推荐Bootstrap 2 AGoF统计量超过0.9:推荐Bootstrap 1 样本量较小时需谨慎解释结果 数据 :海地全国血清调查中4308个IgG抗体样本(Bm33抗原)
分析 :测试1-5分量正态混合模型的AGoF
2分量模型表现最佳:ϵ 2 ∗ ( 0.05 ) ≈ 0.022 \epsilon^*_2(0.05) \approx 0.022 ϵ 2 ∗ ( 0.05 ) ≈ 0.022 (L 1 L^1 L 1 ),G ∗ ( F , G 2 ) > 0.97 G^*(F,G_2) > 0.97 G ∗ ( F , G 2 ) > 0.97 单分量正态模型不足:改进率 < 78% 3分量及以上模型改进有限(< 1%) 数据 :约1200根碳纤维在不同标距长度下的拉伸性能
模型比较 :Weibull、三参数Weibull、偏正态、双峰Weibull
主要发现 :
双峰Weibull在大多数标距长度下表现最佳 模型性能随标距长度显著下降(除双峰Weibull外) 线性回归分析证实了这一趋势的统计显著性 Kolmogorov-Smirnov检验及其局限性 Cramér-von Mises检验的分布依赖问题 Wellek (2021)的Lehmann备择假设方法 Liu and Lindsay (2009)的多项式模型容忍域 Romano (2005)的最优等价性检验 Berger and Delampady (1987)的精确假设检验 Dette and Sen (2013)的相关假设一致检验程序 Baringhaus and Henze (2024)的邻域验证检验 方法有效性 :AGoF检验成功解决了传统GoF检验只能提供"不拟合"证据的问题理论完备性 :提供了完整的渐近理论和bootstrap一致性证明实用性 :两种bootstrap方案易于实现,适用于广泛的参数模型可积性条件 :需要满足X ∈ L 2 / p , 1 X \in L^{2/p,1} X ∈ L 2/ p , 1 的条件,限制了适用范围参数选择 :误差容限ϵ \epsilon ϵ 的选择仍需要领域专业知识计算复杂度 :相比简单的GoF检验,计算成本较高多元扩展 :将方法扩展到多元分布情况非参数替代 :考虑非参数或半参数模型的近似验证自适应方法 :开发自动选择ϵ \epsilon ϵ 的数据驱动方法理论创新 :首次系统性地将"近似拟合"置于备择假设中,具有重要的概念突破方法论完备 :从理论分析到实现算法都非常完整实用价值 :AGoF统计量提供了直观的模型质量度量技术优势 :L p L^p L p 距离的选择在理论和计算上都有明显优势假设条件 :M-估计框架和可积性条件可能限制适用性参数调节 :p p p 值和ϵ \epsilon ϵ 的选择缺乏系统性指导计算效率 :bootstrap过程的计算成本较高学术贡献 :为拟合优度检验领域提供了新的研究方向实用价值 :在模型选择和验证中具有重要应用前景可复现性 :理论结果完整,算法描述清晰,便于复现需要验证参数模型适用性的场合 模型选择和比较 监管和质量控制中的模型验证 风险管理中的分布模型评估 论文引用了丰富的相关文献,涵盖了经验过程理论、M-估计、bootstrap方法等多个领域的重要工作,为研究提供了坚实的理论基础。