2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

Djordjilović, Sofer, Dreyfuss
Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
academic

Направленная воспроизводимость: когда можно опустить множитель два

Основная информация

  • ID статьи: 2510.11273
  • Название: Directional replicability: when can the factor of two be omitted
  • Авторы: Vera Djordjilović (Венецианский университет), Tamar Sofer (Гарвардская медицинская школа), Jonathan M. Dreyfuss (Гарвардская медицинская школа)
  • Классификация: stat.ME (статистические методы)
  • Дата публикации: 13 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.11273

Аннотация

Направленная воспроизводимость исследует вопрос о том, существует ли в n независимых исследованиях некоторый эффект в одном и том же направлении по крайней мере в r исследованиях (r ≥ 2). Когда ожидаемое направление эффекта не указано заранее, существующие методы рекомендуют отдельно объединять односторонние p-значения для левого и правого направлений для оценки воспроизводимости, а затем умножать меньшее из двух объединённых p-значений на 2 для коррекции множественного тестирования. Данное исследование показывает, что такая мультипликативная коррекция не всегда необходима, и предоставляет условия, при которых эту коррекцию можно безопасно опустить.

Научный контекст и мотивация

  1. Решаемая проблема: Статистическое тестирование согласованности направления эффекта в нескольких независимых исследованиях, в частности, когда можно опустить традиционную коррекцию на множитель 2.
  2. Важность проблемы:
    • Низкая воспроизводимость научных открытий широко распространена в медицине, экономике, психологии и других областях
    • Необходимы формальные статистические методы для оценки воспроизводимости результатов исследований
    • Направленная воспроизводимость является более строгим критерием, чем просто наличие эффекта, требуя согласованности направления эффекта
  3. Ограничения существующих методов:
    • Стандартный метод всегда умножает меньшее объединённое p-значение на 2 для коррекции множественного тестирования
    • Такая коррекция может быть чрезмерно консервативной, снижая мощность теста
  4. Научная мотивация: Посредством теоретического анализа определить, когда можно безопасно опустить коррекцию на множитель 2, тем самым повысив мощность статистического теста.

Основные вклады

  1. Теоретические результаты: Доказано, что при r > (n+1)/2 использование метода Бонферрони для объединения p-значений позволяет безопасно опустить коррекцию на множитель 2
  2. Построение контрпримеров: Для меньших значений r показано через контрпримеры, что коррекция необходима
  3. Граничные условия: Чётко определены критические условия, при которых коррекция требуется или не требуется
  4. Практическое руководство: Предоставлена процедура адаптивного выбора значения r на основе данных
  5. Расширенное обсуждение: Рассмотрены возможные расширения результатов на другие функции объединения

Детальное описание методов

Определение задачи

Пусть θ = (θ₁, ..., θₙ) ∈ ℝⁿ обозначает вектор истинных размеров эффектов в n исследованиях. Определим:

  • n₊ = |{i : θᵢ > 0}|: количество положительных эффектов
  • n₋ = |{i : θᵢ < 0}|: количество отрицательных эффектов

Нулевая гипотеза направленной воспроизводимости "r из n": H_{r/n} : n₊ < r ∧ n₋ < r

Соответствующая альтернативная гипотеза: K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

Архитектура модели

  1. Базовая установка:
    • Предполагаются независимые нормальные оценки: Tᵢ ~ N(θᵢ, 1)
    • Односторонние p-значения: pᵢ = 1 - Φ(Tᵢ), qᵢ = Φ(Tᵢ) = 1 - pᵢ
  2. Частичные объединённые p-значения Бонферрони:
    • Положительное направление: p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
    • Отрицательное направление: p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
  3. Традиционный метод: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

Технические инновации

Основная теорема (Theorem 1): При (n+1)/2 < r ≤ n, p_{r/n} = min{p⁻{r/n}, p⁺{r/n}} является корректным p-значением для H_{r/n}.

Ключевые идеи доказательства:

  1. При 2r > n + 1 имеем T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎, что приводит к непересекающимся событиям ошибки первого рода
  2. Вероятность ошибки первого рода может быть выражена как: c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
  3. Путём анализа частных производных показано, что c(θ) достигает максимума на границе
  4. Максимум точно равен α, дополнительная коррекция не требуется

Экспериментальная установка

Численная верификация

  • Установлено n = 20 исследований
  • Рассмотрены две параметрические конфигурации:
    • "Согласованность": θ⁺ = (∞,...,∞,0,...,0) (первые r-1 положительны)
    • "Несогласованность": θ* = (∞,...,∞,-∞,...,-∞,0,...,0) (r-1 положительных и r-1 отрицательных)

Метрики оценки

  • Вероятность ошибки первого рода c(θ)
  • Номинальный уровень значимости α = 0.1

Результаты экспериментов

Основные результаты

Численные результаты, показанные на Рисунке 1:

  • Для r ∈ {2,...,7}: вероятность ошибки первого рода при конфигурации "несогласованность" превышает таковую при конфигурации "согласованность" и превышает α
  • Для r ∈ {8,9,10}: вероятность ошибки первого рода при обеих конфигурациях ниже α
  • При r > 10 выполняется условие r > (n+1)/2, возвращаясь к установке Теоремы 1

Анализ частных случаев

Предложение 1: Для случая n = 3, r = 2, хотя условие Теоремы 1 не выполняется, p_{r/n} остаётся корректным p-значением.

Ключевые моменты доказательства:

  • Путём анализа частных производных показано, что функция c(θ) не имеет стационарных точек в допустимой области
  • Путём предельного анализа показано, что верхняя грань равна α

Экспериментальные находки

  1. Достаточность, но не необходимость условия: Условие r > (n+1)/2 из Теоремы 1 является достаточным, но не необходимым
  2. Переходная область: Существует переходная область, где коррекция может быть ненужной, но требует конкретного анализа
  3. Контроль ошибки типа III: Предложенная процедура контролирует ошибку типа III, позволяя апостериорный вывод о направлении эффекта

Связанные работы

  1. Статистические методы воспроизводимости: Обзор Bogomolov and Heller (2023)
  2. Тестирование частичных объединённых гипотез: Общая процедура Benjamini and Heller (2008)
  3. Тестирование многомерных нормальных средних: Связанные результаты Sasabuchi (1980) и Berger (1989)
  4. Методы объединения p-значений: Работы Owen (2009), Wang et al. (2022) и других

Заключение и обсуждение

Основные выводы

  1. При r > (n+1)/2 можно безопасно опустить коррекцию на множитель 2
  2. Для меньших значений r коррекция обычно необходима
  3. Существуют граничные случаи, требующие конкретного анализа

Ограничения

  1. Результаты в основном применимы к методу Бонферрони для объединения p-значений
  2. Предполагается независимость исследований и нормальное распределение оценок эффектов
  3. Расширение на другие функции объединения требует дополнительных исследований

Направления будущих исследований

  1. Расширение на методы Šidák, Simes, Fisher и другие функции объединения
  2. Применение при множественном тестировании гипотез
  3. Обобщение на случаи ненормального распределения

Глубокая оценка

Преимущества

  1. Теоретическая строгость: Предоставлены полные математические доказательства и контрпримеры
  2. Практическая ценность: Даны чёткие руководящие принципы для статистической практики
  3. Ясность изложения: Логическая структура прозрачна, математическая нотация точна
  4. Важность проблемы: Решена актуальная задача в исследованиях воспроизводимости

Недостатки

  1. Ограниченная область применения: Применимо в основном к методу Бонферрони и нормальным предположениям
  2. Граничные случаи: Обработка критической области неполна
  3. Практическое руководство: Недостаточно верификации на реальных данных

Влияние

  1. Теоретический вклад: Предоставлены новые теоретические результаты для статистики воспроизводимости
  2. Практическая ценность: Может повысить мощность статистических тестов
  3. Расширяемость: Создана основа для развития связанных методов

Области применения

  • Метаанализ и систематические обзоры
  • Многоцентровые клинические испытания
  • Межлабораторная верификация исследований
  • Крупномасштабные исследования генетических ассоциаций

Список литературы

  1. Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
  2. Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
  3. Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
  4. Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

Данная статья предоставляет важный теоретический вклад в статистику воспроизводимости, посредством строгого математического анализа определяя, когда можно опустить традиционную консервативную коррекцию, тем самым повышая мощность статистического теста. Несмотря на некоторые ограничения, её теоретическая ценность и практическое значение весьма существенны.