Directional replicability addresses the question of whether an effect studied across $n$ independent studies is present with the same direction in at least $r$ of them, for $r \geq 2$. When the expected direction of the effect is not specified in advance, the state of the art recommends assessing replicability separately by combining one-sided $p$-values for both directions (left and right), and then doubling the smaller of the two resulting combined $p$-values to account for multiple testing. In this work, we show that this multiplicative correction is not always necessary, and give conditions under which it can be safely omitted.
- 论文ID: 2510.11273
- 标题: Directional replicability: when can the factor of two be omitted
- 作者: Vera Djordjilović (威尼斯大学), Tamar Sofer (哈佛医学院), Jonathan M. Dreyfuss (哈佛医学院)
- 分类: stat.ME (统计方法学)
- 发表时间: 2025年10月13日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.11273
方向性可重复性研究的是在n个独立研究中,某种效应是否在至少r个研究中以相同方向存在的问题(r ≥ 2)。当效应的预期方向未事先指定时,现有技术建议分别结合左右两个方向的单侧p值来评估可重复性,然后将两个结合p值中较小者乘以2来校正多重检验。本研究表明这种乘法校正并非总是必要的,并给出了可以安全省略该校正的条件。
- 要解决的问题: 在多项独立研究中评估效应方向一致性的统计检验问题,特别是何时可以省略传统的因子2校正。
- 问题重要性:
- 医学、经济学、心理学等领域普遍存在科学发现可重复性低的问题
- 需要正式的统计方法来评估研究结果的可重复性
- 方向性可重复性比仅观察到效应存在更严格,要求效应方向的一致性
- 现有方法局限性:
- 标准方法总是对较小的组合p值乘以2进行多重检验校正
- 这种校正可能过于保守,降低了检验的功效
- 研究动机: 通过理论分析确定何时可以安全省略因子2校正,从而提高统计检验的功效。
- 理论结果: 证明了当r > (n+1)/2时,使用Bonferroni方法组合p值可以安全省略因子2校正
- 反例构造: 对于较小的r值,通过反例说明校正因子是必要的
- 边界条件: 明确了需要和不需要校正的临界条件
- 实用指导: 提供了数据自适应选择r值的程序
- 扩展讨论: 探讨了结果向其他组合函数的可能扩展
设θ = (θ₁, ..., θₙ) ∈ ℝⁿ表示n个研究中的真实效应大小向量。定义:
- n₊ = |{i : θᵢ > 0}|:正效应数量
- n₋ = |{i : θᵢ < 0}|:负效应数量
r out of n方向性可重复性零假设:
H_{r/n} : n₊ < r ∧ n₋ < r
对应的备择假设:
K_{r/n} : n₊ ≥ r ∨ n₋ ≥ r
- 基本设置:
- 假设有独立的正态估计器:Tᵢ ~ N(θᵢ, 1)
- 单侧p值:pᵢ = 1 - Φ(Tᵢ),qᵢ = Φ(Tᵢ) = 1 - pᵢ
- Bonferroni部分联合p值:
- 正方向:p⁺_{r/n} = (n - r + 1)p₍ᵣ₎
- 负方向:p⁻_{r/n} = (n - r + 1)p₍ₙ₋ᵣ₊₁₎
- 传统方法:
p_{r/n} = 2min{p⁻{r/n}, p⁺{r/n}}
主要定理(Theorem 1):
当(n+1)/2 < r ≤ n时,p_{r/n} = min{p⁻{r/n}, p⁺{r/n}}是H_{r/n}的有效p值。
关键证明思路:
- 当2r > n + 1时,T₍ᵣ₎ ≥ T₍ₙ₋ᵣ₊₁₎,导致I型错误的两个事件不相交
- I型错误概率可表示为:c(θ) = Pr_θ(X ≥ r) + Pr_θ(Y ≥ r)
- 通过分析偏导数证明c(θ)在边界上达到最大值
- 最大值恰好等于α,无需额外校正
- 设置n = 20个研究
- 考虑两种参数配置:
- "一致性":θ⁺ = (∞,...,∞,0,...,0)(前r-1个为正无穷)
- "不一致性":θ* = (∞,...,∞,-∞,...,-∞,0,...,0)(r-1个正无穷和r-1个负无穷)
图1显示的数值结果:
- 对于r ∈ {2,...,7}:不一致配置下的I型错误超过一致配置,且超过α
- 对于r ∈ {8,9,10}:两种配置下的I型错误都低于α
- 当r > 10时,满足r > (n+1)/2条件,回到定理1的设置
命题1:对于n = 3, r = 2的情况,尽管不满足定理1的条件,p_{r/n}仍然是有效p值。
证明要点:
- 通过分析偏导数证明函数c(θ)在可行域内无驻点
- 通过极限分析证明上确界等于α
- 充分非必要条件:定理1给出的条件r > (n+1)/2是充分但非必要的
- 临界区域:存在一个过渡区域,其中校正可能不必要但需要具体分析
- Type III错误控制:提出的程序能够控制Type III错误,允许事后推断效应方向
- 可重复性统计方法:Bogomolov and Heller (2023)的综述
- 部分联合假设检验:Benjamini and Heller (2008)的一般程序
- 多元正态均值检验:Sasabuchi (1980)和Berger (1989)的相关结果
- p值组合方法:Owen (2009), Wang et al. (2022)等的工作
- 当r > (n+1)/2时,可以安全省略因子2校正
- 对于较小的r值,校正通常是必要的
- 存在边界情况需要具体分析
- 结果主要针对Bonferroni组合方法
- 假设研究间独立且效应估计为正态分布
- 对其他组合函数的扩展有待研究
- 扩展到Šidák、Simes、Fisher等其他组合函数
- 多重假设检验情况下的应用
- 非正态分布情况下的推广
- 理论严谨:提供了完整的数学证明和反例
- 实用价值:为统计实践提供了明确的指导原则
- 写作清晰:逻辑结构清楚,数学表述准确
- 问题重要:解决了可重复性研究中的实际需求
- 适用范围有限:主要适用于Bonferroni方法和正态假设
- 边界情况:对于临界区域的处理不够完整
- 实际应用指导:缺乏更多实际数据的验证
- 理论贡献:为可重复性统计学提供了新的理论结果
- 实用价值:可以提高统计检验的功效
- 可扩展性:为相关方法的发展奠定了基础
- 元分析和系统性综述
- 多中心临床试验
- 跨实验室研究验证
- 大规模遗传学关联研究
- Benjamini, Y. and Heller, R. (2008). Screening for partial conjunction hypotheses. Biometrics.
- Bogomolov, M. and Heller, R. (2023). Replicability across multiple studies. Statistical Science.
- Owen, A. B. (2009). Karl Pearson's meta-analysis revisited. Annals of Statistics.
- Sasabuchi, S. (1980). A test of a multivariate normal mean with composite hypotheses. Biometrika.
本论文为可重复性统计学提供了重要的理论贡献,通过严格的数学分析确定了何时可以省略传统的保守校正,从而提高统计检验的功效。尽管存在一些局限性,但其理论价值和实用意义都很显著。