2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

Baíllo, Cárcamo
We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolθ) : \boldsymbolθ \in Θ\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolθ_F) \|_p \geq ε\quad \text{vs} \quad H_1: \| F - G(\boldsymbolθ_F) \|_p < ε, \] where $ε>0$ is a margin of error and $G(\boldsymbolθ_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.
academic

Pruebas bootstrap para bondad de ajuste aproximada

Información Básica

  • ID del Artículo: 2410.20918
  • Título: Bootstrap tests for almost goodness-of-fit
  • Autores: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del País Vasco)
  • Clasificación: stat.ME (Metodología Estadística), math.ST (Estadística Matemática), stat.AP (Estadística Aplicada), stat.TH (Teoría Estadística)
  • Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2410.20918

Resumen

Este artículo introduce la prueba de "bondad de ajuste aproximada" (almost goodness-of-fit, AGoF) para evaluar si un modelo paramétrico representa adecuadamente la distribución de probabilidad de una muestra observada. Específicamente, dada una función de distribución FF y una familia paramétrica G={G(θ):θΘ}\mathcal{G}=\{G(\theta) : \theta \in \Theta\}, se considera el problema de prueba de hipótesis: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon donde ϵ>0\epsilon > 0 es la tolerancia de error, y G(θF)G(\theta_F) representa el elemento de la clase paramétrica más cercano a FF. El modelo aproximado se determina mediante estimación M, y se proporcionan dos esquemas bootstrap consistentes y fáciles de implementar para realizar la prueba.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Las pruebas tradicionales de bondad de ajuste presentan un problema fundamental: colocan la afirmación "el modelo es una aproximación razonable de los datos" en la hipótesis nula H0H_0, por lo que solo pueden proporcionar evidencia estadística de "falta de ajuste" del modelo, sin poder proporcionar evidencia de "bondad de ajuste" real.

Motivación de la Investigación

  1. Limitaciones de las pruebas GoF tradicionales: Los métodos clásicos solo pueden rechazar el modelo, sin poder verificar su aplicabilidad
  2. Necesidades prácticas: En la práctica, nos interesa más si el modelo es "suficientemente bueno" que si es perfectamente exacto
  3. Importancia del modelado aproximado: En la realidad, pocos modelos pueden describir perfectamente los datos, por lo que es necesario tolerar cierto grado de desviación

Insuficiencias de los Métodos Existentes

  • La distribución límite de estadísticos tipo Kolmogorov-Smirnov bajo estimación de parámetros es compleja y no gaussiana
  • Los métodos bootstrap generalmente no son consistentes al estimar la norma supremo
  • Falta un marco unificado para tratar la verificación aproximada de familias paramétricas

Contribuciones Principales

  1. Propuesta del marco de prueba AGoF: Coloca el "ajuste aproximado" en la hipótesis alternativa, permitiendo proporcionar evidencia estadística de la aplicabilidad del modelo
  2. Uso de distancia LpL^p: En comparación con la norma supremo tradicional, la norma LpL^p posee mejores propiedades teóricas y ventajas computacionales
  3. Desarrollo de dos esquemas bootstrap: Se demuestra su consistencia y se proporcionan algoritmos de implementación práctica
  4. Introducción del estadístico AGoF: Cuantifica el porcentaje de mejora del modelo en relación con una línea base no informativa
  5. Análisis teórico completo: Incluye distribución asintótica, consistencia bootstrap y otras garantías teóricas

Explicación Detallada del Método

Definición de la Tarea

Dada una muestra X1,,XnX_1, \ldots, X_n de una distribución desconocida FF y una familia de modelos paramétricos G={G(θ):θΘRk}\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}, se prueba: H0:FG(θF)pϵvsH1:FG(θF)p<ϵH_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon

donde θF\theta_F se determina mediante estimación M: EF[ψθF(X)]=0E_F[\psi_{\theta_F}(X)] = 0.

Arquitectura del Método Principal

1. Estimación de Parámetros

Se utiliza el estimador M resolviendo: Ψn(θ)=1ni=1nψθ(Xi)=0\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0

2. Estadístico de Prueba

El estadístico normalizado es: Tn(F,G(θF),p)=n(FnG(θ^n)pFG(θF)p)T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)

3. Construcción de la Región de Rechazo

Se propone la región de rechazo: Rn={FnG(θ^n)p<ϵcn(α)}R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\} donde cn(α)=QT(α)/nc_n(\alpha) = -Q_T(\alpha)/\sqrt{n}, siendo QT(α)Q_T(\alpha) el cuantil α\alpha de la distribución límite.

Puntos de Innovación Técnica

1. Ventajas de la Selección de Distancia LpL^p

  • Diferenciabilidad de Hadamard: Para 1<p<1 < p < \infty, la norma LpL^p es diferenciable en el sentido de Hadamard, facilitando la aplicación del método delta funcional
  • Límite Gaussiano: Bajo supuestos generales, la distribución asintótica es gaussiana
  • Consistencia Bootstrap: Bajo condiciones apropiadas, el estimador bootstrap estándar es consistente
  • Flexibilidad: Ajustando el valor de pp se puede controlar la sensibilidad a las colas de la distribución

2. Marco Teórico

Se establece una teoría asintótica completa que incluye:

  • Convergencia débil de procesos empíricos en el espacio LpL^p
  • Distribución límite de procesos con parámetros estimados
  • Consistencia del proceso bootstrap

Resultados Teóricos

Teoremas Principales

Teorema 1: Convergencia Débil del Proceso

Bajo los supuestos 1-2, XL2/p,1X \in L^{2/p,1} si y solo si: Gn(θF)GθF en LpG_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ en } L^p donde GθFG_{\theta_F} es un proceso gaussiano centrado.

Teorema 2: Distribución Asintótica del Estadístico de Prueba

  • Cuando p=1p = 1: T(F,G(θF),1)=CθFGθF+RCθFGθFsgn(FG(θF))T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))
  • Cuando 1<p<1 < p < \infty: T(F,G(θF),p)=1FG(θF)pp1GθFFG(θF)p1sgn(FG(θF))T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))

Corolario 1: Condiciones de Normalidad

La condición necesaria y suficiente para que la distribución límite sea normal es:

  • p=1p = 1: La medida de Lebesgue del conjunto de contacto CθF={F=G(θF)}C_{\theta_F} = \{F = G(\theta_F)\} es cero
  • 1<p<1 < p < \infty: FG(θF)F \neq G(\theta_F)

Consistencia Bootstrap

El Teorema 3 y el Corolario 2 demuestran que bajo supuestos apropiados, el estadístico bootstrap converge débilmente a la misma distribución límite.

Configuración Experimental

Diseño del Estudio de Simulación

  • Tamaños de muestra: n=30,50,100,500n = 30, 50, 100, 500
  • Número de replicaciones bootstrap: B=2000B = 2000
  • Nivel de significancia: α=0.05\alpha = 0.05
  • Replicaciones Monte Carlo: 1000

Escenarios de Prueba

  1. Weibull vs modelo exponencial: p=1p = 1, distribución verdadera Weibull(2,1)
  2. Mezcla gaussiana vs modelo normal: p=2p = 2, distribución verdadera mezcla gaussiana de dos componentes
  3. Binomial negativa vs modelo de Poisson: p=1p = 1, caso de distribución discreta
  4. Kumaraswamy vs modelo Beta: p=1p = 1, caso de soporte acotado
  5. Student t vs modelo normal: p=4p = 4, distribución de colas pesadas
  6. Lognormal vs modelo Gamma: p=1p = 1, distribución asimétrica

Dos Métodos Bootstrap

  • Bootstrap 1: Método basado en cuantiles, condición de rechazo: 2FnG(θ^n)pϵ^(α)<ϵ2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon
  • Bootstrap 2: Método basado en aproximación normal, condición de rechazo: FnG(θ^n)pσ^bootzα<ϵ\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon

Resultados Experimentales

Hallazgos Principales

1. Comparación del Desempeño del Método

  • Tamaño de muestra medio (n=500n = 500): Ambos métodos muestran desempeño similar, controlando bien el nivel de prueba
  • Tamaño de muestra pequeño (n100n \leq 100): Bootstrap 2 generalmente controla mejor el nivel de significancia nominal
  • Estadístico AGoF alto (> 0.9): Bootstrap 1 muestra mejor desempeño

2. Ejemplo de Resultados Específicos

Tomando como ejemplo el modelo Weibull vs exponencial:

  • FG(θF)1=0.3002\|F - G(\theta_F)\|_1 = 0.3002
  • Estadístico AGoF: G(F,G)=0.194G(F,G) = 0.194 (solo mejora 19.4% en comparación con el modelo constante)
  • La función de potencia muestra que ambos métodos son casi indistinguibles cuando n=500n = 500

3. Recomendaciones Prácticas

  • Estadístico AGoF entre 0-0.9: Se recomienda Bootstrap 2
  • Estadístico AGoF superior a 0.9: Se recomienda Bootstrap 1
  • Tamaño de muestra pequeño: Se requiere interpretación cautelosa de los resultados

Aplicaciones Prácticas

Aplicación 1: Encuesta Serológica de Haití

Datos: 4308 muestras de anticuerpos IgG del estudio serológico nacional de Haití (antígeno Bm33)

Análisis: Prueba de AGoF para modelos de mezcla normal de 1-5 componentes

  • Modelo de 2 componentes con mejor desempeño: ϵ2(0.05)0.022\epsilon^*_2(0.05) \approx 0.022 (L1L^1), G(F,G2)>0.97G^*(F,G_2) > 0.97
  • Modelo normal de un componente insuficiente: tasa de mejora < 78%
  • Modelos de 3 o más componentes con mejora limitada (< 1%)

Aplicación 2: Esfuerzo de Fractura de Fibra de Carbono

Datos: Aproximadamente 1200 fibras de carbono bajo pruebas de tracción a diferentes longitudes de calibre

Comparación de modelos: Weibull, Weibull de tres parámetros, normal sesgada, Weibull bimodal

Hallazgos principales:

  • Weibull bimodal muestra el mejor desempeño en la mayoría de las longitudes de calibre
  • El desempeño del modelo disminuye significativamente con la longitud de calibre (excepto Weibull bimodal)
  • El análisis de regresión lineal confirma la significancia estadística de esta tendencia

Trabajo Relacionado

Pruebas Tradicionales de Bondad de Ajuste

  • Prueba de Kolmogorov-Smirnov y sus limitaciones
  • Problemas de dependencia de distribución en la prueba de Cramér-von Mises

Pruebas de Equivalencia

  • Método de hipótesis alternativa de Lehmann de Wellek (2021)
  • Dominio de tolerancia de modelo multinomial de Liu y Lindsay (2009)
  • Prueba de equivalencia óptima de Romano (2005)

Pruebas de Hipótesis Relacionadas

  • Prueba de hipótesis exacta de Berger y Delampady (1987)
  • Procedimiento de prueba consistente de hipótesis relacionada de Dette y Sen (2013)
  • Prueba de verificación de vecindario de Baringhaus y Henze (2024)

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del método: La prueba AGoF resuelve exitosamente el problema de que las pruebas GoF tradicionales solo pueden proporcionar evidencia de "falta de ajuste"
  2. Completitud teórica: Se proporciona una teoría asintótica completa y prueba de consistencia bootstrap
  3. Practicidad: Los dos esquemas bootstrap son fáciles de implementar y aplicables a una amplia gama de modelos paramétricos

Limitaciones

  1. Condiciones de integrabilidad: Se requiere satisfacer la condición XL2/p,1X \in L^{2/p,1}, lo que limita el rango de aplicabilidad
  2. Selección de parámetros: La selección de la tolerancia de error ϵ\epsilon aún requiere conocimiento especializado del dominio
  3. Complejidad computacional: En comparación con pruebas GoF simples, el costo computacional es mayor

Direcciones Futuras

  1. Extensión multivariada: Extender el método al caso de distribuciones multivariadas
  2. Alternativas no paramétricas: Considerar verificación aproximada de modelos no paramétricos o semiparamétricos
  3. Métodos adaptativos: Desarrollar métodos impulsados por datos para seleccionar automáticamente ϵ\epsilon

Evaluación Profunda

Fortalezas

  1. Innovación teórica: Primera sistematización de colocar el "ajuste aproximado" en la hipótesis alternativa, con importante ruptura conceptual
  2. Completitud metodológica: Muy completo desde análisis teórico hasta algoritmos de implementación
  3. Valor práctico: El estadístico AGoF proporciona una medida intuitiva de la calidad del modelo
  4. Ventajas técnicas: La selección de distancia LpL^p tiene ventajas evidentes tanto en teoría como en computación

Insuficiencias

  1. Condiciones de supuestos: El marco de estimación M y las condiciones de integrabilidad pueden limitar la aplicabilidad
  2. Ajuste de parámetros: La selección de valores de pp y ϵ\epsilon carece de orientación sistemática
  3. Eficiencia computacional: El costo computacional del proceso bootstrap es relativamente alto

Impacto

  1. Contribución académica: Proporciona una nueva dirección de investigación para el campo de pruebas de bondad de ajuste
  2. Valor práctico: Tiene importantes perspectivas de aplicación en selección y verificación de modelos
  3. Reproducibilidad: Los resultados teóricos son completos y la descripción del algoritmo es clara, facilitando la reproducción

Escenarios de Aplicabilidad

  • Situaciones que requieren verificación de aplicabilidad de modelos paramétricos
  • Selección y comparación de modelos
  • Verificación de modelos en control regulatorio y de calidad
  • Evaluación de modelos de distribución en gestión de riesgos

Referencias

El artículo cita una abundante literatura relacionada que abarca teoría de procesos empíricos, estimación M, métodos bootstrap y otros campos importantes, proporcionando una base teórica sólida para la investigación.