2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen

The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.

academic

Most claimed statistical findings in cross-sectional return predictability are likely true

基本信息

论文ID: 2206.15365
标题: Most claimed statistical findings in cross-sectional return predictability are likely true
作者: Andrew Y. Chen (Federal Reserve Board)
分类: q-fin.GN (Quantitative Finance - General Finance)
发表时间: 2025年10月 (首次发布于SSRN: 2021年8月27日)
论文链接: https://arxiv.org/abs/2206.15365

摘要

虚假发现率(FDR)衡量统计检验中假阳性的比例。本文为横截面可预测性研究开发了简单直观的FDR界限。最简单的界限仅需几行数学计算，基于九项先前研究中八项的汇总统计量，发现FDR ≤ 25%。更精细的界限发现FDR ≤ 9%。FDR较小的原因是随机选择会计比率产生统计显著可预测性的频率远高于无可预测性情况下的预期频率。这些界限还调解了文献中不同FDR估计之间的分歧。

研究背景与动机

问题背景

研究者已经发现了数百个横截面股票收益预测因子，这种丰富性引发了对多重检验问题的担忧。直观地说，如果研究者进行许多检验，即使在无可预测性的零假设下，某些检验也可能纯粹由于偶然而在统计上显著。

核心问题

多重检验问题: 大量因子发现可能导致假阳性结果
FDR估计分歧: 现有文献中FDR估计差异巨大，从接近0%到超过45%
发表偏误: 统计显著的结果更容易发表，影响真实FDR估计
方法论争议: 不同研究团队使用不同方法得出截然不同的结论

研究重要性

准确估计FDR对于理解金融异象文献的可信度至关重要，直接影响投资策略制定和学术研究方向。

核心贡献

简单直观的FDR界限: 提出"Easy Bound"方法，仅需几行数学计算即可估计FDR上界
视觉化界限方法: 开发"Visual Bound"，通过直方图分解提供更紧的FDR界限
文献调解: 统一解释了现有文献中差异巨大的FDR估计，发现分歧主要源于解释差异而非数据差异
实证发现: 证明随机选择会计比率产生显著可预测性的概率远高于理论预期，为小FDR提供经验支撑

方法详解

任务定义

定义横截面信号i的预测能力通过 $\bar{r}_i$ 衡量，通常通过基于i构建多空组合并计算样本均值收益得到。零假设为 $E(\bar{r}_i) = 0$ 。

核心框架

1. 基本设定

$t_i \equiv \bar{r}_i / SE_i$ 为t统计量
在零假设下： $t_i | null_i \sim Normal(0,1)$
发现定义： $|t_i| > 2$ (对应5%显著性水平)
FDR定义： $FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)$

使用数据挖掘研究作为最坏情况场景
通过保守外推法估计未发表结果的分布
避免直接依赖发表文献的统计量

2. 直方图分解方法

将t统计量直方图分解为零分量和备择分量： $Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)$

通过约束零分量不能超过数据分量来估计FDR上界。

3. 算法1：视觉界限估计

绘制数据挖掘信号的 $|t_i|$ 直方图
绘制仍能拟合数据内部的最大零分布直方图
在2.0处画垂直线，右侧零面积与数据面积的比值估计FDR界限

实验设置

数据集

数据挖掘研究:
- Yan and Zheng (2017): 18,000个会计比率
- Chordia, Goyal, and Saretto (2020): 约200个会计变量
- Chen, Lopez-Lira, and Zimmermann (2025): 29,000个信号
元研究数据:
- Green, Hand, Zhang (2013)
- Chen, Zimmermann (2020): 77个已发表预测因子
- Harvey, Liu, Zhu (2016)
- McLean, Pontiff (2016)
- Jensen, Kelly, Pedersen (2021)
- Jacobs, Muller (2020)