Quantifying Uncertainty: All We Need is the Bootstrap?
Zrimšek, Štrumbelj
A critical literature review and comprehensive simulation study is used to show that (a) non-parametric bootstrap is a viable alternative to commonly taught and used methods in basic estimation tasks (mean, variance, quartiles, correlation) and (b), contrary to recommendations in most related work, double bootstrap performs better than BCa. Quantifying uncertainty through standard errors, confidence intervals, hypothesis tests, and related measures is a fundamental aspect of statistical practice. However, these techniques involve a variety of methods, mathematical formulas, and underlying concepts, which can be complex. Could the non-parametric bootstrap, known for its simplicity and general applicability, serve as a universal alternative? This paper addresses this question through a review of the existing literature and a simulation analysis of one- and two-sided confidence intervals across varying sample sizes, confidence levels, data-generating processes, and statistical functionals. Results show that the double bootstrap consistently performs best and is a promising alternative to traditional methods used for common statistical tasks. These results suggest that the bootstrap, particularly the double bootstrap, could simplify statistical education and practice without compromising effectiveness.
academic
Cuantificación de la Incertidumbre: ¿Es el Bootstrap Todo lo que Necesitamos?
Este estudio, mediante una revisión crítica de la literatura y un estudio de simulación exhaustivo, demuestra que: (a) el bootstrap no paramétrico es una alternativa viable a los métodos convencionales en tareas de estimación fundamental (media, varianza, cuantiles, correlación); (b) contrariamente a las recomendaciones de la mayoría de investigaciones relacionadas, el doble bootstrap (double bootstrap) supera al método BCa. A través de revisión bibliográfica y análisis de simulación, el estudio explora si el bootstrap no paramétrico puede servir como método universal para la cuantificación de la incertidumbre, demostrando que el doble bootstrap presenta el mejor desempeño y puede simplificar la educación estadística y la práctica sin pérdida de validez.
La pregunta central que este estudio aborda es: ¿Puede el bootstrap no paramétrico servir como solución "integral" para la cuantificación de la incertidumbre?
Desafíos Educativos Reales: Los profesionales en ciencias sociales, medicina y ciencias de la vida típicamente reciben solo 1-2 cursos de estadística aplicada, pero necesitan realizar numerosos análisis estadísticos
Complejidad Metodológica: Los métodos tradicionales de cuantificación de incertidumbre implican múltiples fórmulas matemáticas complejas y conceptos que conducen fácilmente a aplicación mecánica y errores
Crisis Científica: El uso inadecuado de métodos estadísticos es un factor importante en la crisis de reproducibilidad científica
Revisión Empírica Más Exhaustiva del Bootstrap: Revisión sistemática de investigaciones empíricas relacionadas de 1981-2023
Experimento de Simulación a Gran Escala: Abarca 1,386 combinaciones de parámetros, incluyendo diferentes tamaños de muestra, niveles de confianza, procesos de generación de datos y funciones estadísticas
Nuevos Criterios de Evaluación: Propone criterios de evaluación de calidad de intervalos de confianza basados en divergencia KL
Hallazgos Disruptivos: Demuestra que el doble bootstrap supera al método BCa ampliamente recomendado
Significancia Educativa: Proporciona apoyo empírico para la reforma de la educación estadística
El objetivo de la investigación es evaluar el desempeño del bootstrap no paramétrico en la construcción de intervalos de confianza, incluyendo específicamente:
Entrada: Datos de muestra de diferentes distribuciones
Salida: Intervalos de confianza para diversas funciones estadísticas
Restricciones: Métodos no paramétricos, sin supuestos de distribución
Innovación en Criterios de Evaluación: Propone criterios de evaluación basados en divergencia KL, superando la evaluación engañosa de cobertura bilateral tradicional
Integralidad: Primera comparación sistemática de diversos métodos de bootstrap bajo combinaciones de parámetros tan amplias
Orientación Práctica: Se enfoca en casos de muestras pequeñas comunes en aplicaciones prácticas
DB muestra igualmente el mejor desempeño en intervalos de confianza bilaterales, especialmente cuando n≥64, satisfaciendo casi todos los criterios estrictos.
El artículo cita 54 referencias importantes que abarcan fundamentos teóricos del bootstrap, investigación empírica y casos de aplicación, proporcionando una base bibliográfica sólida para la investigación. Las referencias clave incluyen artículos originales de bootstrap de Efron, el texto clásico de Davison & Hinkley, y estudios comparativos empíricos recientes.
Evaluación General: Este es un estudio de metodología estadística de alta calidad que, mediante experimentos de simulación a gran escala, desafía el conocimiento convencional de la comunidad estadística y proporciona apoyo sólido para la aplicación del bootstrap en educación estadística y práctica. El diseño de investigación es riguroso y las conclusiones tienen significancia teórica y práctica importante, aunque aún hay espacio para mejora en explicación teórica y extensión metodológica.