Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
- ID статьи: 2510.11273
- Название: Directional replicability: when can the factor of two be omitted
- Авторы: Vera Djordjilović (Венецианский университет), Tamar Sofer (Гарвардская медицинская школа), Jonathan M. Dreyfuss (Гарвардская медицинская школа)
- Классификация: stat.ME (статистические методы)
- Дата публикации: 13 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.11273
Направленная воспроизводимость исследует вопрос о том, существует ли в n независимых исследованиях некоторый эффект в одном и том же направлении по крайней мере в r исследованиях (r ≥ 2). Когда ожидаемое направление эффекта не указано заранее, существующие методы рекомендуют отдельно объединять односторонние p-значения для левого и правого направлений для оценки воспроизводимости, а затем умножать меньшее из двух объединённых p-значений на 2 для коррекции множественного тестирования. Данное исследование показывает, что такая мультипликативная коррекция не всегда необходима, и предоставляет условия, при которых эту коррекцию можно безопасно опустить.
- Решаемая проблема: Статистическое тестирование согласованности направления эффекта в нескольких независимых исследованиях, в частности, когда можно опустить традиционную коррекцию на множитель 2.
- Важность проблемы:
- Низкая воспроизводимость научных открытий широко распространена в медицине, экономике, психологии и других областях
- Необходимы формальные статистические методы для оценки воспроизводимости результатов исследований
- Направленная воспроизводимость является более строгим критерием, чем просто наличие эффекта, требуя согласованности направления эффекта
- Ограничения существующих методов:
- Стандартный метод всегда умножает меньшее объединённое p-значение на 2 для коррекции множественного тестирования
- Такая коррекция может быть чрезмерно консервативной, снижая мощность теста
- Научная мотивация: Посредством теоретического анализа определить, когда можно безопасно опустить коррекцию на множитель 2, тем самым повысив мощность статистического теста.
- Теоретические результаты: Доказано, что при r > (n+1)/2 использование метода Бонферрони для объединения p-значений позволяет безопасно опустить коррекцию на множитель 2
- Построение контрпримеров: Для меньших значений r показано через контрпримеры, что коррекция необходима
- Граничные условия: Чётко определены критические условия, при которых коррекция требуется или не требуется
- Практическое руководство: Предоставлена процедура адаптивного выбора значения r на основе данных
- Расширенное обсуждение: Рассмотрены возможные расширения результатов на другие функции объединения
Пусть θ = (θ₁, ..., θₙ) ∈ ℝⁿ обозначает вектор истинных размеров эффектов в n исследованиях. Определим:
- n₊ = |{i : θᵢ > 0}|: количество положительных эффектов
- n₋ = |{i : θᵢ < 0}|: количество отрицательных эффектов
Нулевая гипотеза направленной воспроизводимости "r из n":
H_{r/n} : n₊ < r ∧ n₋ < r
Соответствующая альтернативная гипотеза:
K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r
- Базовая установка:
- Предполагаются независимые нормальные оценки: Tᵢ ~ N(θᵢ, 1)
- Односторонние p-значения: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
- Частичные объединённые p-значения Бонферрони:
- Положительное направление: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- Отрицательное направление: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
- Традиционный метод:
p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}
Основная теорема (Theorem 1):
При (n+1)/2 < r ≤ n, p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} является корректным p-значением для H_{r/n}.
Ключевые идеи доказательства:
- При 2r > n + 1 имеем T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, что приводит к непересекающимся событиям ошибки первого рода
- Вероятность ошибки первого рода может быть выражена как: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
- Путём анализа частных производных показано, что c(θ) достигает максимума на границе
- Максимум точно равен α, дополнительная коррекция не требуется
- Установлено n = 20 исследований
- Рассмотрены две параметрические конфигурации:
- "Согласованность": θ⁺ = (∞,...,∞,0,...,0) (первые r-1 положительны)
- "Несогласованность": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 положительных и r-1 отрицательных)
- Вероятность ошибки первого рода c(θ)
- Номинальный уровень значимости α = 0.1
Численные результаты, показанные на Рисунке 1:
- Для r ∈ {2,...,7}: вероятность ошибки первого рода при конфигурации "несогласованность" превышает таковую при конфигурации "согласованность" и превышает α
- Для r ∈ {8,9,10}: вероятность ошибки первого рода при обеих конфигурациях ниже α
- При r > 10 выполняется условие r > (n+1)/2, возвращаясь к установке Теоремы 1
Предложение 1: Для случая n = 3, r = 2, хотя условие Теоремы 1 не выполняется, p_{r/n} остаётся корректным p-значением.
Ключевые моменты доказательства:
- Путём анализа частных производных показано, что функция c(θ) не имеет стационарных точек в допустимой области
- Путём предельного анализа показано, что верхняя грань равна α
- Достаточность, но не необходимость условия: Условие r > (n+1)/2 из Теоремы 1 является достаточным, но не необходимым
- Переходная область: Существует переходная область, где коррекция может быть ненужной, но требует конкретного анализа
- Контроль ошибки типа III: Предложенная процедура контролирует ошибку типа III, позволяя апостериорный вывод о направлении эффекта
- Статистические методы воспроизводимости: Обзор Bogomolov and Heller (2023)
- Тестирование частичных объединённых гипотез: Общая процедура Benjamini and Heller (2008)
- Тестирование многомерных нормальных средних: Связанные результаты Sasabuchi (1980) и Berger (1989)
- Методы объединения p-значений: Работы Owen (2009), Wang et al. (2022) и других
- При r > (n+1)/2 можно безопасно опустить коррекцию на множитель 2
- Для меньших значений r коррекция обычно необходима
- Существуют граничные случаи, требующие конкретного анализа
- Результаты в основном применимы к методу Бонферрони для объединения p-значений
- Предполагается независимость исследований и нормальное распределение оценок эффектов
- Расширение на другие функции объединения требует дополнительных исследований
- Расширение на методы Šidák, Simes, Fisher и другие функции объединения
- Применение при множественном тестировании гипотез
- Обобщение на случаи ненормального распределения
- Теоретическая строгость: Предоставлены полные математические доказательства и контрпримеры
- Практическая ценность: Даны чёткие руководящие принципы для статистической практики
- Ясность изложения: Логическая структура прозрачна, математическая нотация точна
- Важность проблемы: Решена актуальная задача в исследованиях воспроизводимости
- Ограниченная область применения: Применимо в основном к методу Бонферрони и нормальным предположениям
- Граничные случаи: Обработка критической области неполна
- Практическое руководство: Недостаточно верификации на реальных данных
- Теоретический вклад: Предоставлены новые теоретические результаты для статистики воспроизводимости
- Практическая ценность: Может повысить мощность статистических тестов
- Расширяемость: Создана основа для развития связанных методов
- Метаанализ и систематические обзоры
- Многоцентровые клинические испытания
- Межлабораторная верификация исследований
- Крупномасштабные исследования генетических ассоциаций
- Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
- Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
- Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
- Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.
Данная статья предоставляет важный теоретический вклад в статистику воспроизводимости, посредством строгого математического анализа определяя, когда можно опустить традиционную консервативную коррекцию, тем самым повышая мощность статистического теста. Несмотря на некоторые ограничения, её теоретическая ценность и практическое значение весьма существенны.