2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

Inference on effect size after multiple hypothesis testing

基本信息

论文ID: 2503.22369
标题: Inference on effect size after multiple hypothesis testing
作者: Andreas Dzemski (University of Gothenburg), Ryo Okui (University of Tokyo), Wenjie Wang (Nanyang Technological University)
分类: econ.EM math.ST stat.TH
发表时间: 2025年10月14日
论文链接: https://arxiv.org/abs/2503.22369

摘要

在估计多个处理效应的研究中，显著的处理效应往往在解释和总结实证发现时被强调。在这种选择性报告下，传统的处理效应估计可能存在偏误，其对应的置信区间可能无法充分覆盖真实的效应大小。本文提出了新的估计量和置信区间，为多重假设检验后显著效应的效应大小提供有效推断。方法基于选择性条件推断原理，适用于广泛的检验方法，包括step-up检验和基于bootstrap的step-down检验。该方法具有可扩展性，可以研究超过370个估计效应的应用。作者为渐近正态的处理效应估计量证明了程序的有效性，并提供了两个实证例子来演示显著效应的偏误修正和置信区间调整。

研究背景与动机

问题的重要性

在经济学、医学、心理学等领域的实证研究中，研究者经常需要估计多个处理效应。这些效应可能来自于不同的结果变量、干预类型或人群子组。通过多重假设检验程序，研究者将这些效应分类为统计显著或不显著，然后重点关注显著效应的实际重要性。

现有方法的局限性

当研究者将注意力限制在显著效应上时，这些效应的估计幅度会受到选择偏误的影响，这使得传统的统计推断方法失效。具体表现为：

选择偏误：显著效应往往被正向选择（"赢家诅咒"），其幅度被高估
置信区间覆盖不足：传统置信区间无法提供有效的统计覆盖
缺乏偏误修正：现有方法缺乏针对选择后效应大小的无偏估计

研究动机

论文认为避免选择性总结和解释并不能解决问题，只是将综合结果的负担转移给读者，读者仍然面临选择性推断问题。因此，需要开发专门的统计方法来处理多重假设检验后的推断问题。

核心贡献

提出了基于条件选择性推断的新方法：为多重假设检验后显著效应的效应大小提供有效的点估计和置信区间
开发了高效的计算算法：提出了O(m³logm)时间复杂度的算法，使方法能够扩展到数百个效应的应用
建立了渐近理论：证明了程序在渐近正态处理效应估计量下的一致渐近有效性
提供了广泛的适用性：方法适用于多种多重检验程序，包括step-down和step-up检验
展示了实际应用价值：通过两个实证应用验证了方法的有效性和实用性

方法详解

任务定义

给定m个处理效应参数θ = (θ₁, ..., θₘ)'及其估计量θ̂，通过多重假设检验确定显著效应集合Ŝ后，对显著效应的真实效应大小进行无偏推断。

核心方法框架

1. 基本设置

假设θ̂ ~ N(θ, V)，其中V为已知协方差矩阵
t统计量：X = diag⁻¹/²(v)θ̂，其中v是V的对角元素
显著效应通过step-down或step-up程序确定：效应h显著当|Xₕ| ≥ x̄ₕ

2. 条件推断方法

对于显著效应s ∈ S，将X分解为：

X = Ω•,sXs + Z⁽ˢ⁾

其中Z⁽ˢ⁾ = X - Ω•,sXs与Xs独立。

关键创新在于条件分布函数：

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. 估计量和置信区间

条件中位数无偏估计量：θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾，其中θ̃ₛ⁽ᵖ⁾满足Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p
条件置信区间：θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

技术创新点

1. 高效算法设计

传统方法需要直接计算复杂的选择事件X(S)，本文通过以下创新避免了这一计算：

算法2：计算条件支撑

(A) 通过计算线性函数xz,h(xs)的所有交点找到区间I
(B) 对每个区间I：
    i. 找到排序置换σ*I
    ii. 计算区间边界ℓ(I)和u(I)
(C) 返回∪I I ∩ [ℓ(I), u(I)]

2. 多重检验程序的统一处理

方法支持多种检验程序：

Step-down程序：Bonferroni, Holm, Romano-Wolf等
Step-up程序：Benjamini-Hochberg, Benjamini-Yekutieli等

3. 选择事件的灵活定义

提供两种主要的选择事件：

Ŝ = S：完全条件于观察到的显著性模式
Ŝ ⊇ S：仅条件于特定效应被发现显著

实验设置

蒙特卡罗模拟

数据设置

效应数量：m = 5
真实参数：θ = (0.05, 0.03, 0.01, 0, 0)'
样本大小：n ∈ {100, 300, 500, 700, 900}
相关性：ρ = 0.5
检验程序：Holm step-down，FWER = 10%

两种设计

正态设计：Yᵢ ~ 多元正态分布
卡方设计：Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ，其中Uᵢ ~ 多元正态

实证应用

应用1：慈善捐赠研究

数据来源：Karlan and List (2007)的匹配捐赠实验
效应数量：4个结果变量的处理效应
检验程序：Bonferroni, Holm, Romano-Wolf (RW2005)

应用2：共同基金表现

数据来源：CRSP共同基金数据库，2000年1月-2024年4月
效应数量：371个基金的alpha估计
模型：Fama-French五因子模型
检验程序：Holm (FWER控制)和Benjamini-Yekutieli (FDR控制)

实验结果

蒙特卡罗模拟结果

覆盖率表现

条件置信区间：在所有设计和样本大小下都接近名义90%覆盖率
传统置信区间：严重覆盖不足，特别是在选择频率较低时
Bonferroni区间：在大样本时达到名义覆盖率但过于保守

区间长度比较

条件区间比传统区间更宽，但比Bonferroni区间显著更短，显示了效率收益。

偏误修正效果

条件中位数无偏估计量将传统估计量的条件偏误（如正态设计中n=100时的0.084）减少到-0.015。

实证应用结果

慈善捐赠应用

主要发现：

响应率和包含匹配的捐赠金额在所有三种程序下都显著
偏误修正的方向和幅度取决于相关结构
对于"包含匹配的捐赠金额"，在Holm和Bonferroni检验下出现向上修正，这与高度相关的"不包含匹配的捐赠金额"不显著有关

共同基金应用

关键结果：

在371个基金中识别出5个显著正alpha的基金
条件中位数无偏估计略小于无条件估计
条件置信区间比无条件区间窄12-36%
5个基金中有4个的联合条件置信区间下界超过0.135，表明经济上有意义的超额表现

理论结果

主要定理

定理1（中位数无偏性）

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

定理2（置信集有效性）

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

定理5-6（渐近性质）

在假设1下，建立了估计量的渐近中位数无偏性和置信区间的渐近有效性。

收敛性结果

定理4给出了条件置信区间收敛到无条件置信区间的充分条件，当效应"高度显著"时两种方法趋于一致。

结论与讨论

主要结论

方法有效性：提出的条件推断方法在有限样本中表现良好，即使在非高斯设置下也能捕捉选择偏误
计算可行性：算法的多项式时间复杂度使得方法能够处理数百个效应
实际价值：两个实证应用显示偏误修正的方向和幅度难以预期，突出了正式统计方法的相关性

局限性

预先指定假设：方法假设测试的全部假设集合已知，无法处理隐藏不显著结果的情况
计算复杂性：虽然是多项式时间，但对于非常大的m仍可能面临计算挑战
模型假设：需要渐近正态性和一致可估计的协方差矩阵

未来方向

替代条件推断程序：探索data carving和randomized response等方法
功效性质研究：调查程序的功效特性
非参数扩展：放松正态性假设

深度评价

优点

理论贡献：为多重假设检验后推断提供了严格的理论框架
方法创新：高效算法使方法具有实际可操作性
广泛适用性：支持多种多重检验程序和选择事件
实证验证：通过模拟和实际应用充分验证方法有效性
写作清晰：论文结构清晰，技术细节详尽

不足

计算复杂性：虽然是多项式时间，但O(m³logm)对于超大规模问题仍可能是瓶颈
假设限制：正态性假设和已知协方差结构在实际应用中可能不满足
选择事件定义：不同选择事件的选择标准需要更多指导

影响力

学术价值：为选择性推断文献提供了重要贡献，特别是在多重检验背景下
实用价值：方法直接适用于经济学、医学等领域的实证研究
可复现性：算法描述详细，理论结果完整，具有良好的可复现性

适用场景

该方法特别适合以下场景：

多重处理效应研究：需要同时估计多个干预效应的随机对照试验
子组分析：需要在多个人群子组中评估处理效应
多重结果变量：单一干预对多个结果变量的影响评估
金融应用：投资组合表现评估、风险因子分析等

参考文献

论文引用了选择性推断领域的关键文献，包括Lee et al. (2016)的多面体方法、Fithian et al. (2017)的条件选择性推断原理，以及Romano and Wolf (2005)的多重检验程序等。这些引用体现了论文在该领域的深度和广度。