2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen
The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.
academic

Большинство заявленных статистических результатов в предсказуемости доходов в поперечном сечении, вероятно, верны

Основная информация

  • ID статьи: 2206.15365
  • Название: Most claimed statistical findings in cross-sectional return predictability are likely true
  • Автор: Andrew Y. Chen (Совет Федеральной резервной системы)
  • Классификация: q-fin.GN (Количественные финансы - Общие финансы)
  • Время публикации: октябрь 2025 г. (первоначально опубликовано на SSRN: 27 августа 2021 г.)
  • Ссылка на статью: https://arxiv.org/abs/2206.15365

Аннотация

Коэффициент ложных открытий (FDR) измеряет долю ложноположительных результатов в статистических тестах. В данной работе разработаны простые и интуитивные границы FDR для исследований предсказуемости в поперечном сечении. Простейшая граница требует всего несколько строк математических вычислений и основана на сводной статистике из восьми из девяти предыдущих исследований, обнаруживая FDR ≤ 25%. Более точная граница выявляет FDR ≤ 9%. Причина низкого FDR заключается в том, что частота, с которой случайно выбранные бухгалтерские коэффициенты дают статистически значимую предсказуемость, значительно превышает ожидаемую частоту при отсутствии предсказуемости. Эти границы также разрешают разногласия между различными оценками FDR в литературе.

Исследовательский контекст и мотивация

Предпосылки проблемы

Исследователи выявили сотни факторов предсказания доходов акций в поперечном сечении, что вызывает озабоченность проблемой множественного тестирования. Интуитивно, если исследователи проводят множество тестов, некоторые из них могут быть статистически значимыми чисто случайно даже при нулевой гипотезе об отсутствии предсказуемости.

Основные проблемы

  1. Проблема множественного тестирования: Большое количество открытых факторов может привести к ложноположительным результатам
  2. Разногласия в оценках FDR: Существующая литература содержит огромные расхождения в оценках FDR, от близких к 0% до более 45%
  3. Систематическая ошибка публикации: Статистически значимые результаты публикуются с большей вероятностью, что влияет на истинную оценку FDR
  4. Методологические противоречия: Различные исследовательские группы используют разные методы и приходят к диаметрально противоположным выводам

Значимость исследования

Точная оценка FDR критически важна для понимания надежности литературы о финансовых аномалиях, что напрямую влияет на разработку инвестиционных стратегий и направление академических исследований.

Основные вклады

  1. Простые интуитивные границы FDR: Предложен метод "Easy Bound", требующий всего несколько строк математических вычислений для оценки верхней границы FDR
  2. Метод визуальных границ: Разработан "Visual Bound", обеспечивающий более точные границы FDR через разложение гистограмм
  3. Разрешение литературных противоречий: Унифицировано объяснены огромные расхождения в оценках FDR в существующей литературе, показано, что разногласия вызваны различиями в интерпретации, а не в данных
  4. Эмпирические результаты: Доказано, что вероятность получения значимой предсказуемости при случайном выборе бухгалтерских коэффициентов намного выше теоретически ожидаемой, что обеспечивает эмпирическую поддержку низкого FDR

Подробное описание методологии

Определение задачи

Предсказательная способность сигнала в поперечном сечении i определяется через rˉi\bar{r}_i, обычно получаемую путем построения портфеля "длинный-короткий" на основе i и расчета выборочного среднего дохода. Нулевая гипотеза: E(rˉi)=0E(\bar{r}_i) = 0.

Основная структура

1. Базовая постановка

  • tirˉi/SEit_i \equiv \bar{r}_i / SE_i — t-статистика
  • При нулевой гипотезе: tinulliNormal(0,1)t_i | null_i \sim Normal(0,1)
  • Определение открытия: ti>2|t_i| > 2 (соответствует уровню значимости 5%)
  • Определение FDR: FDRt>2Pr(nulliti>2)FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)

2. Метод Easy Bound

Применение правила Байеса дает: FDRt>2=Pr(ti>2nulli)Pr(nulli)Pr(ti>2)5%Pr(ti>2)FDR_{|t|>2} = \frac{Pr(|t_i| > 2|null_i) Pr(null_i)}{Pr(|t_i| > 2)} \leq \frac{5\%}{Pr(|t_i| > 2)}

Эта граница интуитивна и легко понимаема: если вероятность хвоста при нулевой гипотезе (числитель) не может объяснить наблюдаемую вероятность хвоста (знаменатель), то FDR должен быть низким.

3. Метод Visual Bound

Уточнение границы путем оценки Pr(nulli)Pr(null_i) из данных: Pr(ti<0.5)(0.38)Pr(nulli)Pr(|t_i| < 0.5) \geq (0.38)Pr(null_i)

Комбинируя, получаем более точную границу: FDRt>2[5%Pr(ti>2)][Pr(ti<0.5)0.38]FDR_{|t|>2} \leq \left[\frac{5\%}{Pr(|t_i| > 2)}\right]\left[\frac{Pr(|t_i| < 0.5)}{0.38}\right]

Технические инновации

1. Обработка систематической ошибки публикации

  • Использование исследований по добыче данных как наихудшего сценария
  • Оценка распределения неопубликованных результатов через консервативную экстраполяцию
  • Избежание прямой зависимости от статистики опубликованной литературы

2. Метод разложения гистограмм

Разложение гистограммы t-статистик на нулевую и альтернативную компоненты: Pr(tib)=Pr(tibnulli)Pr(nulli)+Pr(tibalti)Pr(alti)Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)

Оценка верхней границы FDR путем ограничения нулевой компоненты так, чтобы она не превышала компоненту данных.

3. Алгоритм 1: Оценка визуальной границы

  1. Построение гистограммы ti|t_i| для сигналов из исследований по добыче данных
  2. Построение максимального нулевого распределения гистограммы, которое все еще может соответствовать данным
  3. Проведение вертикальной линии при значении 2.0; отношение нулевой площади к площади данных справа от линии оценивает границу FDR

Экспериментальная установка

Наборы данных

  1. Исследования по добыче данных:
    • Yan and Zheng (2017): 18 000 бухгалтерских коэффициентов
    • Chordia, Goyal, and Saretto (2020): примерно 200 бухгалтерских переменных
    • Chen, Lopez-Lira, and Zimmermann (2025): 29 000 сигналов
  2. Данные метаисследований:
    • Green, Hand, Zhang (2013)
    • Chen, Zimmermann (2020): 77 опубликованных предсказывающих факторов
    • Harvey, Liu, Zhu (2016)
    • McLean, Pontiff (2016)
    • Jensen, Kelly, Pedersen (2021)
    • Jacobs, Muller (2020)

Метрики оценки

  • Границы FDR: оценка верхней границы коэффициента ложных открытий
  • Доля значимых результатов: доля сигналов с ti>2|t_i| > 2
  • Доля малых t-статистик: доля сигналов с ti<0.5|t_i| < 0.5

Детали реализации

  • Использование портфелей с равным весом и весом по стоимости
  • Рассмотрение различных корректировок факторных моделей (CAPM, FF3, FF3+momentum)
  • Применение кластеризованного бутстрепа Fama-French для расчета стандартных ошибок

Результаты экспериментов

Основные результаты

1. Результаты Easy Bound

На основе восьми из девяти исследований FDR ≤ 25%:

  • По крайней мере 20% бухгалтерских коэффициентов в исследованиях по добыче данных дают ti>2|t_i| > 2
  • Применение формулы дает: FDRt>25%/0.20=25%FDR_{|t|>2} \leq 5\%/0.20 = 25\%

2. Результаты Visual Bound

Более точная оценка с использованием данных CLZ:

  • Из 29 000 сигналов 9 700 удовлетворяют ti>2|t_i| > 2, 6 300 удовлетворяют ti<0.5|t_i| < 0.5
  • Получено: FDRt>28.5%FDR_{|t|>2} \leq 8.5\%, то есть по крайней мере 91.5% открытий верны

3. Результаты для различных спецификаций

Схема взвешиванияКорректировка факторовВерхняя граница FDRДоля значимых
Равный весИсходные доходы8.6%32.7%
Равный весFF37.3%34.9%
Вес по стоимостиCAPM19.0%17.9%
Вес по стоимостиFF3+momentum41.7%10.5%

Абляционные эксперименты

  1. Влияние схемы взвешивания: Взвешивание по стоимости значительно снижает долю значимых результатов и повышает границу FDR
  2. Влияние корректировки факторов: Корректировка FF3+momentum оказывает наибольшее влияние на портфели с весом по стоимости
  3. Устойчивость к выбору данных: Результаты добычи данных трех независимых исследовательских групп согласованы

Анализ разрешения литературных противоречий

  1. Harvey, Liu, Zhu (2016): Переинтерпретация показывает FDR всего 12%, а не "большинство открытий ложны", как утверждалось в оригинальной работе
  2. Harvey and Liu (2020): 0.1% "истинных" стратегий фактически соответствует выбору наиболее экстремальной спецификации с весом по стоимости FF3+momentum
  3. Chordia, Goyal, Saretto (2020): Оценка FDR 45% вытекает из игнорирования информации о малых t-статистиках при калибровке

Связанные работы

Литература по методологии FDR

  • Benjamini and Hochberg (1995): Классический метод контроля FDR
  • Storey (2002): Метод прямой оценки FDR
  • Sorić (1989): Ранняя концепция FDR

Литература о финансовых аномалиях

  • Green, Hand, Zhang (2013): Обзор предсказания доходов в поперечном сечении
  • McLean and Pontiff (2016): Исследование затухания вне выборки
  • Chen and Zimmermann (2022): Открытый источник ценообразования активов в поперечном сечении

Применение множественного тестирования в финансах

  • Harvey, Liu, Zhu (2016): Проблема множественного тестирования в финансовой экономике
  • Chen (2024): Обсуждение необходимости повышения порога t-статистики

Выводы и обсуждение

Основные выводы

  1. Низкий FDR: По крайней мере 75% заявленных открытий в литературе о предсказуемости в поперечном сечении верны (FDR ≤ 25%)
  2. Более точная оценка: При учете информации о малых t-статистиках по крайней мере 91% открытий верны (FDR ≤ 9%)
  3. Разрешение литературных противоречий: Различные оценки FDR вызваны различиями в интерпретации, а не в данных или методах
  4. Эмпирическая поддержка: Высокая доля значимых результатов для случайных бухгалтерских коэффициентов обеспечивает прямое свидетельство низкого FDR

Ограничения

  1. Статистическая vs экономическая значимость: "Истинные открытия" означают только статистическую значимость и ненулевую альфу, не учитывая транзакционные издержки, информационные издержки и другие экономические факторы
  2. Внесчетная производительность: Статистическая истинность не эквивалентна экономической осуществимости
  3. Структурные изменения: Недостаточно учтены влияния структурных изменений рынка на предсказуемость
  4. Предположения о добыче данных: Предполагается, что исследовательский процесс не создает более высокий уровень ложных открытий, чем случайная добыча данных

Направления будущих исследований

  1. Экономическая значимость: Оценка экономической ценности с учетом транзакционных издержек и рыночных трений
  2. Динамический FDR: Рассмотрение изменяющейся во времени предсказуемости и рыночных условий
  3. Причинный вывод: Расширение от отношений предсказания к причинным отношениям
  4. Методы машинного обучения: Контроль FDR в высокомерных условиях

Глубокая оценка

Преимущества

  1. Методологическая простота: Метод Easy Bound чрезвычайно прост, требуя только сводную статистику для расчета
  2. Сильная интуитивность: Visual Bound обеспечивает интуитивное объяснение через разложение гистограмм
  3. Эмпирическая устойчивость: Основано на согласованных результатах нескольких независимых исследовательских групп
  4. Вклад в литературу: Успешно разрешены давние разногласия в оценках FDR
  5. Теоретическая строгость: Основано на фундаментальных принципах теории вероятностей с строгими математическими выводами

Недостатки

  1. Консервативность: Методы границ могут быть чрезмерно консервативны, истинный FDR может быть еще ниже
  2. Предположение о независимости: Хотя утверждается, что независимость не требуется, корреляция все еще влияет на точность оценки
  3. Зависимость от данных: Результаты зависят от качества и репрезентативности конкретных исследований по добыче данных
  4. Временная стабильность: Недостаточно обсуждены изменения FDR во времени
  5. Экономическая интерпретация: Отсутствует глубокое обсуждение связи между статистической и экономической значимостью

Влияние

  1. Академическая ценность: Обеспечивает важную оценку статистической надежности литературы о финансовых аномалиях
  2. Практическое значение: Предоставляет инвесторам и регуляторам справочную информацию об эффективности факторов
  3. Методологический вклад: Простые и эффективные методы границ FDR могут быть распространены на другие области
  4. Политическое влияние: Влияет на понимание эффективности финансовых рынков и устойчивости аномалий

Сценарии применения

  1. Академические исследования: Оценка статистической надежности новых открытых факторов
  2. Инвестиционная практика: Отбор инвестиционных стратегий с статистической поддержкой
  3. Нормативная политика: Оценка систематического риска рыночных аномалий
  4. Управление рисками: Понимание статистической основы факторной экспозиции

Библиография

В работе цитируется 22 важные публикации, охватывающие классические и передовые исследования в ключевых областях методологии FDR, открытия финансовых аномалий и контроля множественного тестирования, обеспечивая прочную теоретическую базу и эмпирическую поддержку исследования.


Общая оценка: Это статья, вносящая значительный вклад в область финансовой эконометрики, которая решает давние спорные вопросы посредством простого и элегантного метода, предоставляя новую перспективу и инструменты для понимания статистической надежности литературы о финансовых аномалиях.