The study of associations and their causal explanations is a central research activity whose methodology varies tremendously across fields. Even within specialized subfields, comparisons across textbooks and journals reveals that the basics are subject to considerable variation and controversy. This variation is often obscured by the singular viewpoints presented within textbooks and journal guidelines, which may be deceptively written as if the norms they adopt are unchallenged. Furthermore, human limitations and the vastness within fields imply that no one can have expertise across all subfields and that interpretations will be severely constrained by the limitations of studies of human populations.
The present chapter outlines an approach to statistical methods that attempts to recognize these problems from the start, rather than assume they are absent as in the claims of 'statistical significance' and 'confidence' ordinarily attached to statistical tests and interval estimates. It does so by grounding models and statistics in data description, and treating inferences from them as speculations based on assumptions that cannot be fully validated or checked using the analysis data.
- ID статьи: 2508.10168
- Название: Statistical methods: Basic concepts, interpretations, and cautions
- Автор: Sander Greenland (почётный профессор эпидемиологии и статистики UCLA)
- Классификация: stat.ME math.ST stat.TH
- Дата публикации: 25 августа 2025 г.
- Тип статьи: Глава третьего издания «Справочника по эпидемиологии»
- Ссылка на статью: https://arxiv.org/abs/2508.10168
В данной статье рассматриваются проблемы применения статистических методов при исследовании ассоциаций и причинно-следственных интерпретаций. Автор указывает на существование огромных различий в методологии между различными областями, а также значительные разногласия даже внутри специализированных подобластей. Традиционные статистические методы предполагают идеальные условия (например, чисто случайную выборку, полностью рандомизированные эксперименты), которые часто не выполняются в реальных популяционных исследованиях. Автор предлагает новую интерпретационную базу статистических методов, рассматривая статистический вывод как предположение, основанное на непроверяемых гипотезах, а не как определённый вывод, что позволяет избежать неправильного использования концепций «статистической значимости» и «доверия».
- Серьёзные методологические расхождения: значительные различия и разногласия в отношении фундаментальных статистических концепций между различными областями, учебниками и журналами
- Идеализация условий предположений: традиционные статистические методы предполагают идеальные условия случайной выборки или случайного распределения, которые редко выполняются в реальных исследованиях
- Распространённые неправильные интерпретации: опросы показывают, что большинство пользователей не могут правильно определить или интерпретировать p-значения, проверки значимости и доверительные интервалы
- Проблема избыточной уверенности: статистические результаты часто неправильно интерпретируются как определённые ответы, а не как предположения, основанные на гипотезах
- Предоставить более реалистичную и осторожную интерпретационную базу статистических методов
- Снизить избыточную уверенность и неправильные интерпретации в статистическом выводе
- Переопределить статистические методы как инструменты описания данных, а не как авторитетные арбитры научного вывода
- Подчеркнуть важность проверки предположений и оценки неопределённости
- Переопределение статистического вывода: переинтерпретация p-значения как меры совместимости данных с предположенной моделью, а не как вероятность гипотезы
- Введение концепции интервала совместимости: замена термина «доверительный интервал» на «интервал совместимости» (compatibility interval) для избежания вводящего в заблуждение понятия «доверие»
- Введение S-значения (surprisal): использование двоичного значения удивления (-log₂(p)) как меры информации для более интуитивной интерпретации p-значения
- Подчёркивание зависимости от предположений: систематическое описание чувствительности статистических результатов к вспомогательным предположениям и неопределённости
- Интеграция множественных методологий: пропаганда использования частотного и байесовского подходов как различных перспектив для синтеза доказательств
- Традиционное определение: модель обычно обозначает уравнение, выражающее функциональную связь между измеренными переменными и другими переменными
- Определение в данной работе: модель M представляет собой полный набор предположений о поведении процесса генерирования данных, включая целевую гипотезу H и вспомогательные предположения A
Традиционное определение p-значения:
где T — статистика различия, t — наблюдаемое значение, H — целевая гипотеза, A — вспомогательные предположения.
Переинтерпретация: p-значение выражает степень совместимости данных с моделью, варьируясь от 0 (полная несовместимость) до 1 (полная совместимость).
S-значение выражается в информационных битах и обеспечивает более интуитивную интерпретацию:
- S = 4,6 соответствует удивлению, эквивалентному выпадению пяти орлов подряд при пяти бросаниях монеты
- S = 0 означает отсутствие информации; большие значения S указывают на большую несовместимость
Для уровня значимости α интервал совместимости содержит все значения параметров, удовлетворяющие условию p > α, избегая вводящего в заблуждение понятия «доверие».
- Семантическое преобразование: переход от решающего языка к описательному языку
- Информационно-теоретическая перспектива: введение концепций теории информации для количественной оценки статистических доказательств
- Прозрачность предположений: чёткое различие между целевыми гипотезами и вспомогательными предположениями
- Интеграция множественных методов: рассмотрение различных статистических школ как дополняющих друг друга перспектив
Автор использует гипотетический набор данных о связи между употреблением каннабиса и психическим здоровьем для демонстрации методов:
Структура данных:
- Размер выборки: 600 человек (480 не употребляющих, 120 употребляющих каннабис)
- Переменная результата: диагноз психического заболевания (бинарная)
- Наблюдаемая ассоциация: частота диагноза у употребляющих 8,3%, у не употребляющих 3,3%
Результаты расчётов:
- Разность рисков (RD) = 0,050 (5%)
- Отношение рисков (RR) = 2,5
- Отношение шансов (OR) = 2,6
- Критерий χ² Пирсона = 5,79
- Приблизительное p-значение = 0,016, точное p-значение = 0,041
- Мера совместимости: p-значение как показатель совместимости данных с гипотезой
- Информационное содержание: S-значение для количественной оценки информационного содержания статистических доказательств
- Интервальная оценка: интервал совместимости для оценки диапазона параметров
- Сравнение гипотез: сравнение p-значений функции для различных значений гипотез
- Точное p-значение для H₀: OR = 1 составляет 0,041 (S = 4,6 бит)
- Точное p-значение для H₁: OR = 2 составляет 0,644 (S = 0,6 бит)
- Интервал совместимости 95%: 1,04, 6,36
Традиционная интерпретация: OR = 1 «отклоняется» при уровне α = 0,05, результат «статистически значим»
Интерпретация в новой базе:
- OR = 1 имеет низкую совместимость с данными (p = 0,041)
- OR = 2 имеет высокую совместимость с данными (p = 0,644)
- OR = 6 более совместим с данными, чем OR = 1 (p = 0,070 > 0,041)
| Метод | p-значение | S-значение | Интерпретация |
|---|
| Критерий χ² Пирсона | 0,016 | 5,97 | Приблизительный метод |
| Точный критерий Фишера | 0,041 | 4,61 | Точный метод |
| Приближение Вальда | Большое отклонение | — | Неточно при разреженных данных |
Через пример с каннабисом автор демонстрирует:
- Зависимость от предположений: результаты сильно зависят от вспомогательных предположений (например, случайная выборка, отсутствие помех)
- Факторы смешивания: возраст, история болезни, использование других лекарств и другие факторы могут смешивать истинную ассоциацию
- Ошибка измерения: влияние самоотчётов об использовании и точности диагностики
- Смещение отбора: селективность участия в опросе может повлиять на обобщаемость результатов
- Происхождение p-значения: восходит к началу XVIII века, теоретическую базу заложили Pearson (1900) и Fisher (1934)
- Концепция значимости: концепция «статистической значимости» появилась в 1880-х годах
- История разногласий: ранняя критика Boring (1919), указание на проблемы неправильной интерпретации Pearson (1906)
Автор ссылается на большое количество недавней литературы, поддерживающей статистическую реформу:
- Amrhein et al. (2019): призыв к «выходу на пенсию» статистической значимости
- McShane et al. (2019, 2024): пропаганда выхода за рамки бинарных решений
- Wasserstein et al. (2019): заявление ASA о p-значениях
- Байесовские методы: предоставляют вероятностные утверждения о параметрах, но зависят от априорного распределения
- Причинный вывод: современная база причинного вывода Pearl, Hernán & Robins и других
- Множественные сравнения: поправка Bonferroni и альтернативные методы
- Робастная статистика: методы, требующие больших вычислений, такие как Bootstrap
- Ограничения статистических методов: традиционные методы основаны на строгих предположениях, которые часто нарушаются при практическом применении
- Важность языка: термины, такие как «значимость» и «доверие», вызывают систематические неправильные интерпретации
- Осторожность в выводах: статистические результаты следует рассматривать как предположения, основанные на гипотезах, а не как определённые выводы
- Интеграция методов: различные статистические методы следует использовать как дополняющие друг друга инструменты
- Улучшение отчётности:
- Предоставлять функцию p-значения вместо единственного p-значения
- Использовать интервалы совместимости вместо доверительных интервалов
- Явно перечислять ключевые предположения
- Интерпретационная база:
- Избегать бинарного языка «принять/отклонить»
- Подчеркивать зависимость результатов от предположений
- Учитывать практическую значимость, а не только статистическую значимость
- Выбор методов:
- Использовать точные методы вместо крупнообъёмных приближений
- Проводить анализ чувствительности
- Интегрировать множественные источники доказательств
- Кривая обучения: новая база требует фундаментальной реформы статистического образования
- Вычислительная сложность: некоторые рекомендуемые методы более сложны в вычислении
- Сопротивление журналов: существующие издательские обычаи могут препятствовать принятию
- Коммуникационные вызовы: объяснение нестатистическим специалистам становится более сложным
- Реформа образования: статистическое обучение требует реформы с фундаментальных концепций
- Разработка программного обеспечения: необходимо программное обеспечение, поддерживающее новую интерпретационную базу
- Установление стандартов: обновление стандартов академических журналов и нормативных органов
- Междисциплинарное сотрудничество: содействие сотрудничеству между статистиками и специалистами в предметных областях
- Теоретическая глубина: предоставляет глубокое философское размышление о статистическом выводе
- Практическая применимость: предоставляет конкретные методы и рекомендации по интерпретации
- Достаточность доказательств: ссылается на большое количество литературы в поддержку точек зрения
- Ясность изложения: сложные концепции объясняются ясно, примеры живые
- Введение S-значения: инновационная интерпретация p-значения с информационно-теоретической перспективы
- База совместимости: систематическая терминологическая и концептуальная реформа
- Интеграция множественных методов: объединение перспектив различных статистических школ
- Иерархия предположений: чёткое различие между целевыми гипотезами и вспомогательными предположениями
- Вызовы реализации: реформа существующей статистической практики сталкивается с огромным сопротивлением
- Вычислительное бремя: некоторые рекомендуемые методы увеличивают вычислительную сложность
- Трудности переходного периода: сосуществование новой и старой баз может вызвать путаницу
- Сложность распространения: требует масштабных инвестиций в образование и обучение
- Парадигматический сдвиг: может способствовать крупной реформе фундаментальных концепций статистики
- Междисциплинарное влияние: влияет на все дисциплины, использующие статистические методы
- Образовательные инновации: способствует фундаментальной реформе статистического образования
- Снижение неправильных интерпретаций: помогает снизить неправильное прочтение статистических результатов
- Повышение качества: способствует более осторожному и точному научному выводу
- Принятие политических решений: улучшает качество решений, основанных на статистических доказательствах
- Научные исследования: все области исследований, основанные на статистическом выводе
- Медицинские исследования: клинические испытания и эпидемиологические исследования
- Социальные науки: психология, экономика и другие эмпирические исследования
- Нормативные решения: одобрение лекарств, оценка политики и т. д.
В данной статье цитируется большое количество важной литературы, включая:
Классические работы:
- Pearson, K. (1900). Ранние теоретические основы статистических тестов
- Fisher, R.A. (1934). Основание современной теории статистического вывода
- Neyman, J. (1977). Теория частотной статистики
Современная критика:
- Amrhein, V., et al. (2019). Движение за выход на пенсию статистической значимости
- Wasserstein, R.L., et al. (2019). Заявление ASA о p-значениях
- McShane, B.B., et al. (2019, 2024). Выход за рамки бинарных статистических решений
Методологическое развитие:
- Pearl, J. (2009). Теория причинного вывода
- Hernán, M.A., Robins, J.M. (2025). Современные методы эпидемиологии
- Gelman, A., et al. (2013). Байесовский анализ данных
Резюме: Это статья с важным теоретическим и практическим значением по методологии статистики. Автор, опираясь на глубокие знания статистики и богатый опыт применения, систематически критикует проблемы традиционной базы статистического вывода и предлагает более осторожную и реалистичную альтернативу. Хотя реализация сталкивается с вызовами, его идеи имеют важное значение для повышения качества научных исследований.