2025-11-12T17:04:10.344292

Bootstrap tests for almost goodness-of-fit

BaÃllo, CÃ¡rcamo

We introduce the \textit{almost goodness-of-fit} test, a procedure to assess whether a (parametric) model provides a good representation of the probability distribution generating the observed sample. Specifically, given a distribution function $F$ and a parametric family $\mathcal{G}=\{ G(\boldsymbolÎ¸) : \boldsymbolÎ¸ \in Î\}$, we consider the testing problem \[ H_0: \| F - G(\boldsymbolÎ¸_F) \|_p \geq Îµ\quad \text{vs} \quad H_1: \| F - G(\boldsymbolÎ¸_F) \|_p < Îµ, \] where $Îµ>0$ is a margin of error and $G(\boldsymbolÎ¸_F)$ denotes a representative of $F$ within the parametric class. The approximate model is determined via an M-estimator of the parameters. %The objective is the approximate validation of a distribution or an entire parametric family up to a pre-specified threshold value. The methodology also quantifies the percentage improvement of the proposed model relative to a non-informative (constant) benchmark. The test statistic is the $\mathrm{L}^p$-distance between the empirical distribution function and that of the estimated model. We present two consistent, easy-to-implement, and flexible bootstrap schemes to carry out the test. The performance of the proposal is illustrated through simulation studies and analysis and real-data applications.

academic

Pruebas bootstrap para bondad de ajuste aproximada

Información Básica

ID del Artículo: 2410.20918
Título: Bootstrap tests for almost goodness-of-fit
Autores: Amparo Báıllo (Universidad Autónoma de Madrid), Javier Cárcamo (Universidad del País Vasco)
Clasificación: stat.ME (Metodología Estadística), math.ST (Estadística Matemática), stat.AP (Estadística Aplicada), stat.TH (Teoría Estadística)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2410.20918

Resumen

Este artículo introduce la prueba de "bondad de ajuste aproximada" (almost goodness-of-fit, AGoF) para evaluar si un modelo paramétrico representa adecuadamente la distribución de probabilidad de una muestra observada. Específicamente, dada una función de distribución $F$ y una familia paramétrica $\mathcal{G}=\{G(\theta) : \theta \in \Theta\}$ , se considera el problema de prueba de hipótesis: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$ donde $\epsilon > 0$ es la tolerancia de error, y $G(\theta_F)$ representa el elemento de la clase paramétrica más cercano a $F$ . El modelo aproximado se determina mediante estimación M, y se proporcionan dos esquemas bootstrap consistentes y fáciles de implementar para realizar la prueba.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Las pruebas tradicionales de bondad de ajuste presentan un problema fundamental: colocan la afirmación "el modelo es una aproximación razonable de los datos" en la hipótesis nula $H_0$ , por lo que solo pueden proporcionar evidencia estadística de "falta de ajuste" del modelo, sin poder proporcionar evidencia de "bondad de ajuste" real.

Motivación de la Investigación

Limitaciones de las pruebas GoF tradicionales: Los métodos clásicos solo pueden rechazar el modelo, sin poder verificar su aplicabilidad
Necesidades prácticas: En la práctica, nos interesa más si el modelo es "suficientemente bueno" que si es perfectamente exacto
Importancia del modelado aproximado: En la realidad, pocos modelos pueden describir perfectamente los datos, por lo que es necesario tolerar cierto grado de desviación

Insuficiencias de los Métodos Existentes

La distribución límite de estadísticos tipo Kolmogorov-Smirnov bajo estimación de parámetros es compleja y no gaussiana
Los métodos bootstrap generalmente no son consistentes al estimar la norma supremo
Falta un marco unificado para tratar la verificación aproximada de familias paramétricas

Contribuciones Principales

Propuesta del marco de prueba AGoF: Coloca el "ajuste aproximado" en la hipótesis alternativa, permitiendo proporcionar evidencia estadística de la aplicabilidad del modelo
Uso de distancia $L^p$ : En comparación con la norma supremo tradicional, la norma $L^p$ posee mejores propiedades teóricas y ventajas computacionales
Desarrollo de dos esquemas bootstrap: Se demuestra su consistencia y se proporcionan algoritmos de implementación práctica
Introducción del estadístico AGoF: Cuantifica el porcentaje de mejora del modelo en relación con una línea base no informativa
Análisis teórico completo: Incluye distribución asintótica, consistencia bootstrap y otras garantías teóricas

Explicación Detallada del Método

Definición de la Tarea

Dada una muestra $X_1, \ldots, X_n$ de una distribución desconocida $F$ y una familia de modelos paramétricos $\mathcal{G} = \{G(\theta) : \theta \in \Theta \subset \mathbb{R}^k\}$ , se prueba: $H_0: \|F - G(\theta_F)\|_p \geq \epsilon \quad \text{vs} \quad H_1: \|F - G(\theta_F)\|_p < \epsilon$

donde $\theta_F$ se determina mediante estimación M: $E_F[\psi_{\theta_F}(X)] = 0$ .

Arquitectura del Método Principal

1. Estimación de Parámetros

Se utiliza el estimador M resolviendo: $\Psi_n(\theta) = \frac{1}{n}\sum_{i=1}^n \psi_\theta(X_i) = 0$

2. Estadístico de Prueba

El estadístico normalizado es: $T_n(F,G(\theta_F),p) = \sqrt{n}(\|F_n - G(\hat{\theta}_n)\|_p - \|F - G(\theta_F)\|_p)$

3. Construcción de la Región de Rechazo

Se propone la región de rechazo: $R_n = \{\|F_n - G(\hat{\theta}_n)\|_p < \epsilon - c_n(\alpha)\}$ donde $c_n(\alpha) = -Q_T(\alpha)/\sqrt{n}$ , siendo $Q_T(\alpha)$ el cuantil $\alpha$ de la distribución límite.

Puntos de Innovación Técnica

1. Ventajas de la Selección de Distancia $L^p$

Diferenciabilidad de Hadamard: Para $1 < p < \infty$ , la norma $L^p$ es diferenciable en el sentido de Hadamard, facilitando la aplicación del método delta funcional
Límite Gaussiano: Bajo supuestos generales, la distribución asintótica es gaussiana
Consistencia Bootstrap: Bajo condiciones apropiadas, el estimador bootstrap estándar es consistente
Flexibilidad: Ajustando el valor de $p$ se puede controlar la sensibilidad a las colas de la distribución

2. Marco Teórico

Se establece una teoría asintótica completa que incluye:

Convergencia débil de procesos empíricos en el espacio $L^p$
Distribución límite de procesos con parámetros estimados
Consistencia del proceso bootstrap

Resultados Teóricos

Teoremas Principales

Teorema 1: Convergencia Débil del Proceso

Bajo los supuestos 1-2, $X \in L^{2/p,1}$ si y solo si: $G_n(\theta_F) \rightsquigarrow G_{\theta_F} \text{ en } L^p$ donde $G_{\theta_F}$ es un proceso gaussiano centrado.

Teorema 2: Distribución Asintótica del Estadístico de Prueba

Cuando $p = 1$ : $T(F,G(\theta_F),1) = \int_{C_{\theta_F}} |G_{\theta_F}| + \int_{\mathbb{R}\setminus C_{\theta_F}} G_{\theta_F}\text{sgn}(F-G(\theta_F))$
Cuando $1 < p < \infty$ : $T(F,G(\theta_F),p) = \frac{1}{\|F-G(\theta_F)\|_p^{p-1}} \int G_{\theta_F} |F-G(\theta_F)|^{p-1}\text{sgn}(F-G(\theta_F))$

Corolario 1: Condiciones de Normalidad

La condición necesaria y suficiente para que la distribución límite sea normal es:

$p = 1$ : La medida de Lebesgue del conjunto de contacto $C_{\theta_F} = \{F = G(\theta_F)\}$ es cero
$1 < p < \infty$ : $F \neq G(\theta_F)$

Consistencia Bootstrap

El Teorema 3 y el Corolario 2 demuestran que bajo supuestos apropiados, el estadístico bootstrap converge débilmente a la misma distribución límite.

Configuración Experimental

Diseño del Estudio de Simulación

Tamaños de muestra: $n = 30, 50, 100, 500$
Número de replicaciones bootstrap: $B = 2000$
Nivel de significancia: $\alpha = 0.05$
Replicaciones Monte Carlo: 1000

Escenarios de Prueba

Weibull vs modelo exponencial: $p = 1$ , distribución verdadera Weibull(2,1)
Mezcla gaussiana vs modelo normal: $p = 2$ , distribución verdadera mezcla gaussiana de dos componentes
Binomial negativa vs modelo de Poisson: $p = 1$ , caso de distribución discreta
Kumaraswamy vs modelo Beta: $p = 1$ , caso de soporte acotado
Student t vs modelo normal: $p = 4$ , distribución de colas pesadas
Lognormal vs modelo Gamma: $p = 1$ , distribución asimétrica

Dos Métodos Bootstrap

Bootstrap 1: Método basado en cuantiles, condición de rechazo: $2\|F_n - G(\hat{\theta}_n)\|_p - \hat{\epsilon}^*(\alpha) < \epsilon$
Bootstrap 2: Método basado en aproximación normal, condición de rechazo: $\|F_n - G(\hat{\theta}_n)\|_p - \hat{\sigma}_{\text{boot}}z_\alpha < \epsilon$

Resultados Experimentales

Hallazgos Principales

1. Comparación del Desempeño del Método

Tamaño de muestra medio ( $n = 500$ ): Ambos métodos muestran desempeño similar, controlando bien el nivel de prueba
Tamaño de muestra pequeño ( $n \leq 100$ ): Bootstrap 2 generalmente controla mejor el nivel de significancia nominal
Estadístico AGoF alto (> 0.9): Bootstrap 1 muestra mejor desempeño

2. Ejemplo de Resultados Específicos

Tomando como ejemplo el modelo Weibull vs exponencial:

$\|F - G(\theta_F)\|_1 = 0.3002$
Estadístico AGoF: $G(F,G) = 0.194$ (solo mejora 19.4% en comparación con el modelo constante)
La función de potencia muestra que ambos métodos son casi indistinguibles cuando $n = 500$

3. Recomendaciones Prácticas

Estadístico AGoF entre 0-0.9: Se recomienda Bootstrap 2
Estadístico AGoF superior a 0.9: Se recomienda Bootstrap 1
Tamaño de muestra pequeño: Se requiere interpretación cautelosa de los resultados

Aplicaciones Prácticas

Aplicación 1: Encuesta Serológica de Haití

Datos: 4308 muestras de anticuerpos IgG del estudio serológico nacional de Haití (antígeno Bm33)

Análisis: Prueba de AGoF para modelos de mezcla normal de 1-5 componentes

Modelo de 2 componentes con mejor desempeño: $\epsilon^*_2(0.05) \approx 0.022$ ( $L^1$ ), $G^*(F,G_2) > 0.97$
Modelo normal de un componente insuficiente: tasa de mejora < 78%
Modelos de 3 o más componentes con mejora limitada (< 1%)

Aplicación 2: Esfuerzo de Fractura de Fibra de Carbono

Datos: Aproximadamente 1200 fibras de carbono bajo pruebas de tracción a diferentes longitudes de calibre

Comparación de modelos: Weibull, Weibull de tres parámetros, normal sesgada, Weibull bimodal

Hallazgos principales:

Weibull bimodal muestra el mejor desempeño en la mayoría de las longitudes de calibre
El desempeño del modelo disminuye significativamente con la longitud de calibre (excepto Weibull bimodal)
El análisis de regresión lineal confirma la significancia estadística de esta tendencia

Trabajo Relacionado

Pruebas Tradicionales de Bondad de Ajuste

Prueba de Kolmogorov-Smirnov y sus limitaciones
Problemas de dependencia de distribución en la prueba de Cramér-von Mises

Pruebas de Equivalencia

Método de hipótesis alternativa de Lehmann de Wellek (2021)
Dominio de tolerancia de modelo multinomial de Liu y Lindsay (2009)
Prueba de equivalencia óptima de Romano (2005)

Pruebas de Hipótesis Relacionadas

Prueba de hipótesis exacta de Berger y Delampady (1987)
Procedimiento de prueba consistente de hipótesis relacionada de Dette y Sen (2013)
Prueba de verificación de vecindario de Baringhaus y Henze (2024)

Conclusiones y Discusión

Conclusiones Principales

Efectividad del método: La prueba AGoF resuelve exitosamente el problema de que las pruebas GoF tradicionales solo pueden proporcionar evidencia de "falta de ajuste"
Completitud teórica: Se proporciona una teoría asintótica completa y prueba de consistencia bootstrap
Practicidad: Los dos esquemas bootstrap son fáciles de implementar y aplicables a una amplia gama de modelos paramétricos

Limitaciones

Condiciones de integrabilidad: Se requiere satisfacer la condición $X \in L^{2/p,1}$ , lo que limita el rango de aplicabilidad
Selección de parámetros: La selección de la tolerancia de error $\epsilon$ aún requiere conocimiento especializado del dominio
Complejidad computacional: En comparación con pruebas GoF simples, el costo computacional es mayor

Direcciones Futuras

Extensión multivariada: Extender el método al caso de distribuciones multivariadas
Alternativas no paramétricas: Considerar verificación aproximada de modelos no paramétricos o semiparamétricos
Métodos adaptativos: Desarrollar métodos impulsados por datos para seleccionar automáticamente $\epsilon$

Evaluación Profunda

Fortalezas

Innovación teórica: Primera sistematización de colocar el "ajuste aproximado" en la hipótesis alternativa, con importante ruptura conceptual
Completitud metodológica: Muy completo desde análisis teórico hasta algoritmos de implementación
Valor práctico: El estadístico AGoF proporciona una medida intuitiva de la calidad del modelo
Ventajas técnicas: La selección de distancia $L^p$ tiene ventajas evidentes tanto en teoría como en computación

Insuficiencias

Condiciones de supuestos: El marco de estimación M y las condiciones de integrabilidad pueden limitar la aplicabilidad
Ajuste de parámetros: La selección de valores de $p$ y $\epsilon$ carece de orientación sistemática
Eficiencia computacional: El costo computacional del proceso bootstrap es relativamente alto

Impacto

Contribución académica: Proporciona una nueva dirección de investigación para el campo de pruebas de bondad de ajuste
Valor práctico: Tiene importantes perspectivas de aplicación en selección y verificación de modelos
Reproducibilidad: Los resultados teóricos son completos y la descripción del algoritmo es clara, facilitando la reproducción

Escenarios de Aplicabilidad

Situaciones que requieren verificación de aplicabilidad de modelos paramétricos
Selección y comparación de modelos
Verificación de modelos en control regulatorio y de calidad
Evaluación de modelos de distribución en gestión de riesgos

Referencias

El artículo cita una abundante literatura relacionada que abarca teoría de procesos empíricos, estimación M, métodos bootstrap y otros campos importantes, proporcionando una base teórica sólida para la investigación.