2025-11-23T05:46:16.390387

Directional replicability: when can the factor of two be omitted

DjordjiloviÄ, Sofer, Dreyfuss

Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.

academic

Directional replicability: when can the factor of two be omitted

基本信息

论文ID: 2510.11273
标题: Directional replicability: when can the factor of two be omitted
作者: Vera Djordjilović (威尼斯大学), Tamar Sofer (哈佛医学院), Jonathan M. Dreyfuss (哈佛医学院)
分类: stat.ME (统计方法学)
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.11273

摘要

方向性可重复性研究的是在n个独立研究中，某种效应是否在至少r个研究中以相同方向存在的问题（r ≥ 2）。当效应的预期方向未事先指定时，现有技术建议分别结合左右两个方向的单侧p值来评估可重复性，然后将两个结合p值中较小者乘以2来校正多重检验。本研究表明这种乘法校正并非总是必要的，并给出了可以安全省略该校正的条件。

研究背景与动机

要解决的问题: 在多项独立研究中评估效应方向一致性的统计检验问题，特别是何时可以省略传统的因子2校正。
问题重要性:
- 医学、经济学、心理学等领域普遍存在科学发现可重复性低的问题
- 需要正式的统计方法来评估研究结果的可重复性
- 方向性可重复性比仅观察到效应存在更严格，要求效应方向的一致性
现有方法局限性:
- 标准方法总是对较小的组合p值乘以2进行多重检验校正
- 这种校正可能过于保守，降低了检验的功效
研究动机: 通过理论分析确定何时可以安全省略因子2校正，从而提高统计检验的功效。

核心贡献

理论结果: 证明了当r > (n+1)/2时，使用Bonferroni方法组合p值可以安全省略因子2校正
反例构造: 对于较小的r值，通过反例说明校正因子是必要的
边界条件: 明确了需要和不需要校正的临界条件
实用指导: 提供了数据自适应选择r值的程序
扩展讨论: 探讨了结果向其他组合函数的可能扩展

方法详解

任务定义

设θ = (θ₁, ..., θₙ) ∈ ℝⁿ表示n个研究中的真实效应大小向量。定义：

n₊ = |{i : θᵢ > 0}|：正效应数量
n₋ = |{i : θᵢ < 0}|：负效应数量

r out of n方向性可重复性零假设： H_{r/n} : n₊ < r ∧ n₋ < r

对应的备择假设： K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r

模型架构

基本设置:
- 假设有独立的正态估计器：Tᵢ ~ N(θᵢ, 1)
- 单侧p值：pᵢ = 1 - Φ(Tᵢ)，qᵢ = Φ(Tᵢ) = 1 - pᵢ
Bonferroni部分联合p值:
- 正方向：p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- 负方向：p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
传统方法: p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}

技术创新点

主要定理（Theorem 1）：当(n+1)/2 < r ≤ n时，p_{r/n} = min{p⁻{r/n}, p⁺{r/n}}是H_{r/n}的有效p值。

关键证明思路：

当2r > n + 1时，T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎，导致I型错误的两个事件不相交
I型错误概率可表示为：c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
通过分析偏导数证明c(θ)在边界上达到最大值
最大值恰好等于α，无需额外校正

实验设置

数值验证

设置n = 20个研究
考虑两种参数配置：
- "一致性"：θ⁺ = (∞,...,∞,0,...,0)（前r-1个为正无穷）
- "不一致性"：θ* = (∞,...,∞,-∞,...,-∞,0,...,0)（r-1个正无穷和r-1个负无穷）

评价指标

I型错误概率c(θ)
名义显著性水平α = 0.1

实验结果

主要结果

图1显示的数值结果：

对于r ∈ {2,...,7}：不一致配置下的I型错误超过一致配置，且超过α
对于r ∈ {8,9,10}：两种配置下的I型错误都低于α
当r > 10时，满足r > (n+1)/2条件，回到定理1的设置

特殊案例分析

命题1：对于n = 3, r = 2的情况，尽管不满足定理1的条件，p_{r/n}仍然是有效p值。

证明要点：

通过分析偏导数证明函数c(θ)在可行域内无驻点
通过极限分析证明上确界等于α

实验发现

充分非必要条件：定理1给出的条件r > (n+1)/2是充分但非必要的
临界区域：存在一个过渡区域，其中校正可能不必要但需要具体分析
Type III错误控制：提出的程序能够控制Type III错误，允许事后推断效应方向

结论与讨论

主要结论

当r > (n+1)/2时，可以安全省略因子2校正
对于较小的r值，校正通常是必要的
存在边界情况需要具体分析

局限性

结果主要针对Bonferroni组合方法
假设研究间独立且效应估计为正态分布
对其他组合函数的扩展有待研究

未来方向

扩展到Šidák、Simes、Fisher等其他组合函数
多重假设检验情况下的应用
非正态分布情况下的推广

深度评价

优点

理论严谨：提供了完整的数学证明和反例
实用价值：为统计实践提供了明确的指导原则
写作清晰：逻辑结构清楚，数学表述准确
问题重要：解决了可重复性研究中的实际需求

不足

适用范围有限：主要适用于Bonferroni方法和正态假设
边界情况：对于临界区域的处理不够完整
实际应用指导：缺乏更多实际数据的验证

影响力

理论贡献：为可重复性统计学提供了新的理论结果
实用价值：可以提高统计检验的功效
可扩展性：为相关方法的发展奠定了基础

适用场景

元分析和系统性综述
多中心临床试验
跨实验室研究验证
大规模遗传学关联研究

参考文献

Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.

本论文为可重复性统计学提供了重要的理论贡献，通过严格的数学分析确定了何时可以省略传统的保守校正，从而提高统计检验的功效。尽管存在一些局限性，但其理论价值和实用意义都很显著。