Quantifying Uncertainty: All We Need is the Bootstrap?
Zrimšek, Štrumbelj
A critical literature review and comprehensive simulation study is used to show that (a) non-parametric bootstrap is a viable alternative to commonly taught and used methods in basic estimation tasks (mean, variance, quartiles, correlation) and (b), contrary to recommendations in most related work, double bootstrap performs better than BCa. Quantifying uncertainty through standard errors, confidence intervals, hypothesis tests, and related measures is a fundamental aspect of statistical practice. However, these techniques involve a variety of methods, mathematical formulas, and underlying concepts, which can be complex. Could the non-parametric bootstrap, known for its simplicity and general applicability, serve as a universal alternative? This paper addresses this question through a review of the existing literature and a simulation analysis of one- and two-sided confidence intervals across varying sample sizes, confidence levels, data-generating processes, and statistical functionals. Results show that the double bootstrap consistently performs best and is a promising alternative to traditional methods used for common statistical tasks. These results suggest that the bootstrap, particularly the double bootstrap, could simplify statistical education and practice without compromising effectiveness.
academic
Количественная оценка неопределённости: достаточно ли только бутстрепа?
Данное исследование посредством критического обзора литературы и комплексного имитационного исследования показывает, что: (a) непараметрический бутстреп является жизнеспособной альтернативой общепринятым методам для основных задач оценивания (среднее, дисперсия, квантили, корреляция); (b) вопреки рекомендациям большинства соответствующих исследований, двойной бутстреп превосходит метод BCa. Исследование посредством анализа литературы и имитационного моделирования изучает, может ли непараметрический бутстреп служить универсальным методом количественной оценки неопределённости. Результаты показывают, что двойной бутстреп демонстрирует наилучшие результаты и может упростить статистическое образование и практику без потери эффективности.
Центральный вопрос, который решает данное исследование: может ли непараметрический бутстреп служить «универсальным» решением для количественной оценки неопределённости?
Образовательные реалии: практикующие специалисты в социальных науках, медицине и биологических науках обычно проходят только 1-2 курса прикладной статистики, но должны проводить обширный статистический анализ
Сложность методов: традиционные методы количественной оценки неопределённости включают множество сложных математических формул и концепций, что приводит к механическому применению и ошибкам
Кризис науки: ненадлежащее использование статистических методов является важным фактором кризиса воспроизводимости научных результатов
Наиболее полный эмпирический обзор методов бутстрепа: систематический обзор соответствующих эмпирических исследований за период 1981-2023 гг.
Крупномасштабное имитационное исследование: охватывает 1386 комбинаций параметров, включая различные размеры выборок, уровни доверия, процессы генерирования данных и статистические функции
Новые критерии оценки: предложены критерии оценки качества доверительных интервалов на основе дивергенции Кульбака-Лейблера (KL)
Революционные открытия: доказано, что двойной бутстреп превосходит широко рекомендуемый метод BCa
Образовательное значение: предоставлены эмпирические доказательства для реформы статистического образования
Инновация в критериях оценки: предложены критерии оценки на основе дивергенции KL, преодолевающие вводящую в заблуждение оценку традиционного двустороннего покрытия
Комплексность: впервые систематическое сравнение различных методов бутстрепа при столь широком спектре комбинаций параметров
Практическая ориентация: внимание к малым выборкам, часто встречающимся в практических приложениях
Статья цитирует 54 важные работы, охватывающие теоретические основы бутстрепа, эмпирические исследования и практические приложения, обеспечивая прочную основу литературы для исследования. Ключевые работы включают оригинальные статьи Эфрона по бутстрепу, классический учебник Дэвисона и Хинкли, а также недавние эмпирические сравнительные исследования.
Общая оценка: это высококачественное исследование в области статистических методов, которое посредством крупномасштабного имитационного моделирования ставит под сомнение традиционное понимание в статистическом сообществе и предоставляет мощную поддержку для применения методов бутстрепа в статистическом образовании и практике. Дизайн исследования строг, выводы имеют важное теоретическое и практическое значение, однако в теоретическом объяснении и расширении методов остаётся место для улучшения.