Quantifying Uncertainty: All We Need is the Bootstrap?
Zrimšek, Štrumbelj
A critical literature review and comprehensive simulation study is used to show that (a) non-parametric bootstrap is a viable alternative to commonly taught and used methods in basic estimation tasks (mean, variance, quartiles, correlation) and (b), contrary to recommendations in most related work, double bootstrap performs better than BCa. Quantifying uncertainty through standard errors, confidence intervals, hypothesis tests, and related measures is a fundamental aspect of statistical practice. However, these techniques involve a variety of methods, mathematical formulas, and underlying concepts, which can be complex. Could the non-parametric bootstrap, known for its simplicity and general applicability, serve as a universal alternative? This paper addresses this question through a review of the existing literature and a simulation analysis of one- and two-sided confidence intervals across varying sample sizes, confidence levels, data-generating processes, and statistical functionals. Results show that the double bootstrap consistently performs best and is a promising alternative to traditional methods used for common statistical tasks. These results suggest that the bootstrap, particularly the double bootstrap, could simplify statistical education and practice without compromising effectiveness.
academic
Quantifier l'Incertitude : Le Bootstrap est-il Tout ce Dont Nous Avons Besoin ?
Cette étude, basée sur une revue critique de la littérature et une étude de simulation exhaustive, démontre que : (a) le bootstrap non-paramétrique est une alternative viable aux méthodes conventionnelles pour les tâches d'estimation fondamentales (moyenne, variance, quantiles, corrélation) ; (b) contrairement aux recommandations de la plupart des études connexes, le double bootstrap surpasse la méthode BCa. L'étude explore, par le biais d'une revue de littérature et d'analyses de simulation, si le bootstrap non-paramétrique peut servir de méthode universelle pour la quantification de l'incertitude. Les résultats montrent que le double bootstrap offre les meilleures performances et pourrait simplifier l'enseignement statistique et la pratique sans perte d'efficacité.
La question centrale que cette étude vise à résoudre est : Le bootstrap non-paramétrique peut-il servir de solution « tout-en-un » pour la quantification de l'incertitude ?
Défis éducatifs réels : Les praticiens dans les sciences sociales, la médecine et les sciences de la vie reçoivent généralement seulement 1-2 cours de statistique appliquée, mais doivent néanmoins effectuer de nombreuses analyses statistiques
Complexité méthodologique : Les méthodes traditionnelles de quantification de l'incertitude impliquent diverses formules mathématiques complexes et concepts difficiles à maîtriser, conduisant à une application mécanique et à des erreurs
Crise scientifique : L'utilisation inappropriée des méthodes statistiques est un facteur important de la crise de reproductibilité scientifique
Complexité conceptuelle : Les méthodes traditionnelles nécessitent de maîtriser des concepts avancés tels que les statistiques de test et les distributions d'échantillonnage
Revue empirique la plus complète du bootstrap : Examen systématique des études empiriques pertinentes de 1981 à 2023
Expérience de simulation à grande échelle : Couvrant 1 386 combinaisons de paramètres, incluant différentes tailles d'échantillon, niveaux de confiance, processus de génération de données et fonctions statistiques
Nouveaux critères d'évaluation : Proposition d'un critère d'évaluation de la qualité des intervalles de confiance basé sur la divergence KL
Découvertes révolutionnaires : Preuve que le double bootstrap surpasse la méthode BCa largement recommandée
Signification pédagogique : Fourniture d'un soutien empirique pour la réforme de l'enseignement statistique
L'objectif de la recherche est d'évaluer les performances du bootstrap non-paramétrique dans la construction d'intervalles de confiance, incluant spécifiquement :
Entrée : Données d'échantillon provenant de différentes distributions
Sortie : Intervalles de confiance pour diverses fonctions statistiques
Contraintes : Méthodes non-paramétriques, sans hypothèses de distribution
Innovation dans les critères d'évaluation : Proposition d'un critère basé sur la divergence KL, surmontant la nature trompeuse de l'évaluation traditionnelle du taux de couverture bilatéral
Exhaustivité : Première comparaison systématique de diverses méthodes de bootstrap sur un ensemble aussi large de combinaisons de paramètres
Orientation pratique : Attention particulière aux petits échantillons courants dans les applications réelles
DB offre également les meilleures performances dans les intervalles de confiance bilatéraux, en particulier pour n≥64 où il satisfait presque tous les critères stricts.
L'article cite 54 références importantes couvrant les fondements théoriques du bootstrap, les études empiriques et les cas d'application, fournissant une base bibliographique solide pour la recherche. Les références clés incluent l'article original du bootstrap d'Efron, le manuel classique de Davison & Hinkley, ainsi que les études de comparaison empiriques récentes.
Évaluation Générale : Ceci est une étude méthodologique statistique de haute qualité qui remet en question la sagesse conventionnelle de la communauté statistique par le biais d'expériences de simulation à grande échelle, fournissant un soutien empirique robuste pour l'application du bootstrap dans l'enseignement statistique et la pratique. La conception de la recherche est rigoureuse et les conclusions ont une signification théorique et pratique importante, bien qu'il y ait encore de la place pour l'amélioration dans l'explication théorique et l'extension méthodologique.