2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

Bootstrap tests for almost goodness-of-fit

基本信息

  • 论文ID: 2410.20918
  • 标题: Bootstrap tests for almost goodness-of-fit
  • 作者: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del Páıs Vasco)
  • 分类: stat.ME (统计方法论), math.ST (数理统计), stat.AP (应用统计), stat.TH (统计理论)
  • 发表时间: October 15, 2025 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2410.20918

摘要

本文引入了"近似拟合优度"(almost goodness-of-fit, AGoF)检验,用于评估参数模型是否能够很好地表示观测样本的概率分布。具体地,给定分布函数FF和参数族G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\},考虑假设检验问题: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon 其中ϵ>0\epsilon > 0是误差容限,G(θF)G(\theta_F)表示FF在参数类中的代表。通过M-估计确定近似模型,并提供了两种一致且易于实现的bootstrap方案来执行检验。

研究背景与动机

问题背景

传统的拟合优度检验存在一个根本性问题:它们将"模型是数据的合理近似"这一陈述置于零假设H0H_0中,因此只能为模型的"不拟合"提供统计证据,而无法为实际的"拟合优度"提供证据。

研究动机

  1. 传统GoF检验的局限性:经典方法只能拒绝模型,无法验证模型的适用性
  2. 实际需求:在实践中,我们更关心模型是否"足够好",而非是否完全精确
  3. 近似建模的重要性:现实中很少有模型能完美描述数据,需要容忍一定程度的偏差

现有方法的不足

  • Kolmogorov-Smirnov类统计量在参数估计情况下的极限分布复杂且非高斯
  • Bootstrap方法在估计sup-范数时通常不一致
  • 缺乏统一的框架来处理参数族的近似验证

核心贡献

  1. 提出AGoF检验框架:将"近似拟合"置于备择假设中,能够为模型的适用性提供统计证据
  2. 使用LpL^p距离:相比传统的supremum范数,LpL^p范数具有更好的理论性质和计算优势
  3. 开发了两种bootstrap方案:证明了它们的一致性,并提供了实用的实现算法
  4. 引入AGoF统计量:量化模型相对于非信息性基准的改进百分比
  5. 提供完整的理论分析:包括渐近分布、bootstrap一致性等理论保证

方法详解

任务定义

给定来自未知分布FF的样本X1,,XnX_1, \ldots, X_n和参数模型族G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\},检验: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

其中θF\theta_F通过M-估计确定:EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0

核心方法架构

1. 参数估计

使用M-估计器求解: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

2. 检验统计量

标准化统计量为: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

3. 拒绝域构造

提出拒绝域: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} 其中cn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n}QT(α)Q_T(\alpha)是极限分布的α\alpha分位数。

技术创新点

1. LpL^p距离的选择优势

  • Hadamard可微性:对于1<p<1 < p < \inftyLpL^p范数是Hadamard可微的,便于应用函数delta方法
  • 高斯极限:在一般假设下,渐近分布是高斯的
  • Bootstrap一致性:在适当条件下,标准bootstrap估计量是一致的
  • 灵活性:通过调节pp值可以控制对分布尾部的敏感度

2. 理论框架

建立了完整的渐近理论,包括:

  • 经验过程在LpL^p空间中的弱收敛
  • 带估计参数的过程的极限分布
  • Bootstrap过程的一致性

理论结果

主要定理

定理1:过程弱收敛

在假设1-2下,XL2/p,1X \in L^{2/p,1}当且仅当: Gn(θF)GθF in LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ in } L^p 其中GθFG_{\theta_F}是中心化高斯过程。

定理2:检验统计量的渐近分布

  • p=1p = 1时:T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • 1<p<1 < p < \infty时:T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

推论1:正态性条件

极限分布为正态的充要条件:

  • p=1p = 1:接触集CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\}的Lebesgue测度为零
  • 1<p<1 < p < \inftyFG(θF)F \neq G(\theta_F)

Bootstrap一致性

定理3推论2证明了在适当假设下,bootstrap统计量弱收敛到相同的极限分布。

实验设置

仿真研究设计

  • 样本量n=30,50,100,500n = 30, 50, 100, 500
  • Bootstrap次数B=2000B = 2000
  • 显著性水平α=0.05\alpha = 0.05
  • Monte Carlo重复:1000次

测试场景

  1. Weibull vs 指数模型p=1p = 1,真实分布为Weibull(2,1)
  2. 高斯混合 vs 正态模型p=2p = 2,真实分布为两分量高斯混合
  3. 负二项 vs 泊松模型p=1p = 1,离散分布情况
  4. Kumaraswamy vs Beta模型p=1p = 1,有界支撑情况
  5. Student t vs 正态模型p=4p = 4,重尾分布情况
  6. 对数正态 vs Gamma模型p=1p = 1,偏态分布情况

两种Bootstrap方法

  • Bootstrap 1:基于分位数的方法,拒绝条件:2FnG(θ^n)pϵ^(α)<ϵ2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • Bootstrap 2:基于正态近似的方法,拒绝条件:FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

实验结果

主要发现

1. 方法性能比较

  • 中等样本量n=500n = 500):两种方法表现相近,都能很好地控制检验水平
  • 小样本量n100n \leq 100):Bootstrap 2通常能更好地控制名义显著性水平
  • 高AGoF统计量情况(> 0.9):Bootstrap 1表现更好

2. 具体结果示例

以Weibull vs 指数模型为例:

  • FG(θF)1=0.3002\|F - G(\theta_F)\|_1 = 0.3002
  • AGoF统计量:G(F,G)=0.194G(F,G) = 0.194(仅比常数模型改进19.4%)
  • 功效函数显示两种方法在n=500n = 500时几乎无法区分

3. 实用建议

  • AGoF统计量在0-0.9之间:推荐Bootstrap 2
  • AGoF统计量超过0.9:推荐Bootstrap 1
  • 样本量较小时需谨慎解释结果

实际应用

应用1:海地血清学调查

数据:海地全国血清调查中4308个IgG抗体样本(Bm33抗原)

分析:测试1-5分量正态混合模型的AGoF

  • 2分量模型表现最佳:ϵ2(0.05)0.022\epsilon^*_2(0.05) \approx 0.022L1L^1),G(F,G2)>0.97G^*(F,G_2) > 0.97
  • 单分量正态模型不足:改进率 < 78%
  • 3分量及以上模型改进有限(< 1%)

应用2:碳纤维断裂应力

数据:约1200根碳纤维在不同标距长度下的拉伸性能

模型比较:Weibull、三参数Weibull、偏正态、双峰Weibull

主要发现

  • 双峰Weibull在大多数标距长度下表现最佳
  • 模型性能随标距长度显著下降(除双峰Weibull外)
  • 线性回归分析证实了这一趋势的统计显著性

相关工作

传统拟合优度检验

  • Kolmogorov-Smirnov检验及其局限性
  • Cramér-von Mises检验的分布依赖问题

等价性检验

  • Wellek (2021)的Lehmann备择假设方法
  • Liu and Lindsay (2009)的多项式模型容忍域
  • Romano (2005)的最优等价性检验

相关假设检验

  • Berger and Delampady (1987)的精确假设检验
  • Dette and Sen (2013)的相关假设一致检验程序
  • Baringhaus and Henze (2024)的邻域验证检验

结论与讨论

主要结论

  1. 方法有效性:AGoF检验成功解决了传统GoF检验只能提供"不拟合"证据的问题
  2. 理论完备性:提供了完整的渐近理论和bootstrap一致性证明
  3. 实用性:两种bootstrap方案易于实现,适用于广泛的参数模型

局限性

  1. 可积性条件:需要满足XL2/p,1X \in L^{2/p,1}的条件,限制了适用范围
  2. 参数选择:误差容限ϵ\epsilon的选择仍需要领域专业知识
  3. 计算复杂度:相比简单的GoF检验,计算成本较高

未来方向

  1. 多元扩展:将方法扩展到多元分布情况
  2. 非参数替代:考虑非参数或半参数模型的近似验证
  3. 自适应方法:开发自动选择ϵ\epsilon的数据驱动方法

深度评价

优点

  1. 理论创新:首次系统性地将"近似拟合"置于备择假设中,具有重要的概念突破
  2. 方法论完备:从理论分析到实现算法都非常完整
  3. 实用价值:AGoF统计量提供了直观的模型质量度量
  4. 技术优势LpL^p距离的选择在理论和计算上都有明显优势

不足

  1. 假设条件:M-估计框架和可积性条件可能限制适用性
  2. 参数调节pp值和ϵ\epsilon的选择缺乏系统性指导
  3. 计算效率:bootstrap过程的计算成本较高

影响力

  1. 学术贡献:为拟合优度检验领域提供了新的研究方向
  2. 实用价值:在模型选择和验证中具有重要应用前景
  3. 可复现性:理论结果完整,算法描述清晰,便于复现

适用场景

  • 需要验证参数模型适用性的场合
  • 模型选择和比较
  • 监管和质量控制中的模型验证
  • 风险管理中的分布模型评估

参考文献

论文引用了丰富的相关文献,涵盖了经验过程理论、M-估计、bootstrap方法等多个领域的重要工作,为研究提供了坚实的理论基础。