2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen
The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.
academic

Most claimed statistical findings in cross-sectional return predictability are likely true

基本信息

  • 论文ID: 2206.15365
  • 标题: Most claimed statistical findings in cross-sectional return predictability are likely true
  • 作者: Andrew Y. Chen (Federal Reserve Board)
  • 分类: q-fin.GN (Quantitative Finance - General Finance)
  • 发表时间: 2025年10月 (首次发布于SSRN: 2021年8月27日)
  • 论文链接: https://arxiv.org/abs/2206.15365

摘要

虚假发现率(FDR)衡量统计检验中假阳性的比例。本文为横截面可预测性研究开发了简单直观的FDR界限。最简单的界限仅需几行数学计算,基于九项先前研究中八项的汇总统计量,发现FDR ≤ 25%。更精细的界限发现FDR ≤ 9%。FDR较小的原因是随机选择会计比率产生统计显著可预测性的频率远高于无可预测性情况下的预期频率。这些界限还调解了文献中不同FDR估计之间的分歧。

研究背景与动机

问题背景

研究者已经发现了数百个横截面股票收益预测因子,这种丰富性引发了对多重检验问题的担忧。直观地说,如果研究者进行许多检验,即使在无可预测性的零假设下,某些检验也可能纯粹由于偶然而在统计上显著。

核心问题

  1. 多重检验问题: 大量因子发现可能导致假阳性结果
  2. FDR估计分歧: 现有文献中FDR估计差异巨大,从接近0%到超过45%
  3. 发表偏误: 统计显著的结果更容易发表,影响真实FDR估计
  4. 方法论争议: 不同研究团队使用不同方法得出截然不同的结论

研究重要性

准确估计FDR对于理解金融异象文献的可信度至关重要,直接影响投资策略制定和学术研究方向。

核心贡献

  1. 简单直观的FDR界限: 提出"Easy Bound"方法,仅需几行数学计算即可估计FDR上界
  2. 视觉化界限方法: 开发"Visual Bound",通过直方图分解提供更紧的FDR界限
  3. 文献调解: 统一解释了现有文献中差异巨大的FDR估计,发现分歧主要源于解释差异而非数据差异
  4. 实证发现: 证明随机选择会计比率产生显著可预测性的概率远高于理论预期,为小FDR提供经验支撑

方法详解

任务定义

定义横截面信号i的预测能力通过rˉi\bar{r}_i衡量,通常通过基于i构建多空组合并计算样本均值收益得到。零假设为E(rˉi)=0E(\bar{r}_i) = 0

核心框架

1. 基本设定

  • tirˉi/SEit_i \equiv \bar{r}_i / SE_i 为t统计量
  • 在零假设下:tinulliNormal(0,1)t_i | null_i \sim Normal(0,1)
  • 发现定义:ti>2|t_i| > 2 (对应5%显著性水平)
  • FDR定义:FDRt>2Pr(nulliti>2)FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)

2. Easy Bound方法

应用贝叶斯法则得到: FDRt>2=Pr(ti>2nulli)Pr(nulli)Pr(ti>2)5%Pr(ti>2)FDR_{|t|>2} = \frac{Pr(|t_i| > 2|null_i) Pr(null_i)}{Pr(|t_i| > 2)} \leq \frac{5\%}{Pr(|t_i| > 2)}

这个界限直观易懂:如果零假设下的尾部概率(分子)无法解释实际观察到的尾部概率(分母),那么FDR必须很小。

3. Visual Bound方法

通过数据估计Pr(nulli)Pr(null_i)来收紧界限: Pr(ti<0.5)(0.38)Pr(nulli)Pr(|t_i| < 0.5) \geq (0.38)Pr(null_i)

结合得到更紧的界限: FDRt>2[5%Pr(ti>2)][Pr(ti<0.5)0.38]FDR_{|t|>2} \leq \left[\frac{5\%}{Pr(|t_i| > 2)}\right]\left[\frac{Pr(|t_i| < 0.5)}{0.38}\right]

技术创新点

1. 处理发表偏误

  • 使用数据挖掘研究作为最坏情况场景
  • 通过保守外推法估计未发表结果的分布
  • 避免直接依赖发表文献的统计量

2. 直方图分解方法

将t统计量直方图分解为零分量和备择分量: Pr(tib)=Pr(tibnulli)Pr(nulli)+Pr(tibalti)Pr(alti)Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)

通过约束零分量不能超过数据分量来估计FDR上界。

3. 算法1:视觉界限估计

  1. 绘制数据挖掘信号的ti|t_i|直方图
  2. 绘制仍能拟合数据内部的最大零分布直方图
  3. 在2.0处画垂直线,右侧零面积与数据面积的比值估计FDR界限

实验设置

数据集

  1. 数据挖掘研究:
    • Yan and Zheng (2017): 18,000个会计比率
    • Chordia, Goyal, and Saretto (2020): 约200个会计变量
    • Chen, Lopez-Lira, and Zimmermann (2025): 29,000个信号
  2. 元研究数据:
    • Green, Hand, Zhang (2013)
    • Chen, Zimmermann (2020): 77个已发表预测因子
    • Harvey, Liu, Zhu (2016)
    • McLean, Pontiff (2016)
    • Jensen, Kelly, Pedersen (2021)
    • Jacobs, Muller (2020)

评价指标

  • FDR界限: 虚假发现率的上界估计
  • 显著性比例: ti>2|t_i| > 2的信号比例
  • 小t统计量比例: ti<0.5|t_i| < 0.5的信号比例

实现细节

  • 使用等权重和价值权重组合
  • 考虑不同因子模型调整(CAPM, FF3, FF3+动量)
  • 采用Fama-French聚类bootstrap计算标准误

实验结果

主要结果

1. Easy Bound结果

基于九项研究中的八项,FDR ≤ 25%:

  • 数据挖掘研究中至少20%的会计比率产生ti>2|t_i| > 2
  • 应用公式得到:FDRt>25%/0.20=25%FDR_{|t|>2} \leq 5\%/0.20 = 25\%

2. Visual Bound结果

使用CLZ数据的更精确估计:

  • 29,000个信号中9,700个满足ti>2|t_i| > 2,6,300个满足ti<0.5|t_i| < 0.5
  • 得到:FDRt>28.5%FDR_{|t|>2} \leq 8.5\%,即至少91.5%的发现为真

3. 不同规格的结果

权重方式因子调整FDR上界显著比例
等权重原始收益8.6%32.7%
等权重FF37.3%34.9%
价值权重CAPM19.0%17.9%
价值权重FF3+动量41.7%10.5%

消融实验

  1. 权重方式影响: 价值权重显著降低显著性比例,提高FDR界限
  2. 因子调整影响: FF3+动量调整对价值权重组合影响最大
  3. 数据集稳健性: 三个独立研究团队的数据挖掘结果一致

文献调解分析

  1. Harvey, Liu, Zhu (2016): 重新解释发现FDR仅为12%,而非原文声称的"大多数发现为假"
  2. Harvey and Liu (2020): 0.1%的"真实"策略实际对应选择最极端的价值权重FF3+动量规格
  3. Chordia, Goyal, Saretto (2020): 45%的FDR估计源于校准中忽略小t统计量信息

相关工作

FDR方法论文献

  • Benjamini and Hochberg (1995): 经典FDR控制方法
  • Storey (2002): 直接FDR估计方法
  • Sorić (1989): 最早的FDR概念

金融异象文献

  • Green, Hand, Zhang (2013): 横截面收益预测综述
  • McLean and Pontiff (2016): 样本外衰减研究
  • Chen and Zimmermann (2022): 开源横截面资产定价

多重检验在金融中的应用

  • Harvey, Liu, Zhu (2016): 金融经济学中的多重检验问题
  • Chen (2024): t统计量门槛是否需要提高的讨论

结论与讨论

主要结论

  1. 小FDR: 横截面可预测性文献中至少75%的声称发现为真(FDR ≤ 25%)
  2. 更精确估计: 考虑小t统计量信息后,至少91%的发现为真(FDR ≤ 9%)
  3. 文献调解: 不同FDR估计主要源于解释差异,而非数据或方法差异
  4. 经验支撑: 随机会计比率的高显著性率为小FDR提供直接证据

局限性

  1. 统计vs经济意义: "真实发现"仅指统计显著且非零α,未考虑交易成本、信息成本等经济因素
  2. 样本外表现: 统计真实性不等同于经济可行性
  3. 结构变化: 未充分考虑市场结构变化对可预测性的影响
  4. 数据挖掘假设: 假设研究过程不会产生比随机数据挖掘更高的假发现率

未来方向

  1. 经济显著性: 结合交易成本和市场摩擦评估经济价值
  2. 动态FDR: 考虑时变的可预测性和市场条件
  3. 因果推断: 从预测关系向因果关系扩展
  4. 机器学习方法: 在高维设定下的FDR控制

深度评价

优点

  1. 方法简洁: Easy Bound方法极其简单,仅需汇总统计量即可计算
  2. 直观性强: Visual Bound提供直观的直方图分解解释
  3. 实证稳健: 基于多个独立研究团队的一致结果
  4. 文献贡献: 成功调解了长期存在的FDR估计分歧
  5. 理论扎实: 基于概率论基本原理,数学推导严谨

不足

  1. 保守性: 界限方法可能过于保守,真实FDR可能更小
  2. 独立性假设: 虽然声称不需要独立性,但相关性仍影响估计精度
  3. 数据依赖: 结果依赖于特定数据挖掘研究的质量和代表性
  4. 时间稳定性: 未充分讨论FDR随时间的变化
  5. 经济解释: 缺乏对统计显著性与经济意义关系的深入讨论

影响力

  1. 学术价值: 为金融异象文献提供重要的统计可信度评估
  2. 实践意义: 为投资者和监管者提供因子有效性的参考
  3. 方法论贡献: 简单有效的FDR界限方法可推广到其他领域
  4. 政策影响: 影响对金融市场效率和异象持续性的理解

适用场景

  1. 学术研究: 评估新发现因子的统计可信度
  2. 投资实践: 筛选具有统计支撑的投资策略
  3. 监管政策: 评估市场异象的系统性风险
  4. 风险管理: 理解因子暴露的统计基础

参考文献

本文引用了22篇重要文献,涵盖了FDR方法论、金融异象发现、多重检验控制等核心领域的经典和前沿研究,为研究提供了坚实的理论基础和实证支撑。


总体评价: 这是一篇在金融计量经济学领域具有重要贡献的论文,通过简洁优雅的方法解决了长期存在的争议问题,为理解金融异象文献的统计可信度提供了新的视角和工具。