2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen
The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.
academic

Die meisten behaupteten statistischen Befunde in der querschnittlichen Renditeprognose sind wahrscheinlich wahr

Grundinformationen

  • Paper-ID: 2206.15365
  • Titel: Most claimed statistical findings in cross-sectional return predictability are likely true
  • Autor: Andrew Y. Chen (Federal Reserve Board)
  • Klassifizierung: q-fin.GN (Quantitative Finanzwissenschaft - Allgemeine Finanzwissenschaft)
  • Veröffentlichungszeit: Oktober 2025 (Erstveröffentlichung auf SSRN: 27. August 2021)
  • Paper-Link: https://arxiv.org/abs/2206.15365

Zusammenfassung

Die False Discovery Rate (FDR) misst den Anteil der Falsch-Positive in statistischen Tests. Dieses Paper entwickelt einfache und intuitive FDR-Schranken für die Forschung zur querschnittlichen Prognosebarkeit. Die einfachste Schranke erfordert nur wenige Zeilen mathematischer Berechnungen und basiert auf zusammengefassten Statistiken aus acht von neun früheren Studien, wobei FDR ≤ 25% festgestellt wird. Verfeinerte Schranken ergeben FDR ≤ 9%. Der Grund für die geringe FDR ist, dass die Häufigkeit, mit der zufällig ausgewählte Bilanzkennzahlen statistische Signifikanz in der Prognosebarkeit erzeugen, weit über der erwarteten Häufigkeit unter der Hypothese fehlender Prognosebarkeit liegt. Diese Schranken vermitteln auch zwischen unterschiedlichen FDR-Schätzungen in der Literatur.

Forschungshintergrund und Motivation

Problemhintergrund

Forscher haben bereits Hunderte von querschnittlichen Aktienkurs-Prognosefaktoren entdeckt. Diese Fülle wirft Bedenken bezüglich des Problems mehrfacher Tests auf. Intuitiv gesagt: Wenn Forscher viele Tests durchführen, können einige Tests statistisch signifikant sein, selbst unter der Nullhypothese fehlender Prognosebarkeit, rein zufällig.

Kernprobleme

  1. Problem mehrfacher Tests: Eine große Anzahl von Faktorfunden kann zu Falsch-Positiven führen
  2. FDR-Schätzungsabweichungen: Bestehende Literaturschätzungen der FDR unterscheiden sich erheblich, von nahe 0% bis über 45%
  3. Publikationsbias: Statistisch signifikante Ergebnisse werden leichter veröffentlicht und beeinflussen die echte FDR-Schätzung
  4. Methodologische Kontroversen: Verschiedene Forschungsteams verwenden unterschiedliche Methoden und kommen zu völlig unterschiedlichen Schlussfolgerungen

Forschungsbedeutung

Eine genaue Schätzung der FDR ist entscheidend für das Verständnis der Glaubwürdigkeit der Finanzanomalien-Literatur und beeinflusst direkt die Formulierung von Anlagestrategien und die akademische Forschungsrichtung.

Kernbeiträge

  1. Einfache und intuitive FDR-Schranken: Vorschlag der "Easy Bound"-Methode, die nur wenige Zeilen mathematischer Berechnungen zur Schätzung der FDR-Obergrenze erfordert
  2. Visuelle Schranken-Methode: Entwicklung von "Visual Bound", das durch Histogramm-Zerlegung engere FDR-Schranken bietet
  3. Literaturvermittlung: Einheitliche Erklärung der in der bestehenden Literatur stark abweichenden FDR-Schätzungen; Feststellung, dass Abweichungen hauptsächlich aus Interpretationsunterschieden statt Datendifferenzen stammen
  4. Empirische Befunde: Nachweis, dass die Wahrscheinlichkeit, dass zufällig ausgewählte Bilanzkennzahlen signifikante Prognosebarkeit erzeugen, weit über dem theoretischen Erwartungswert liegt und empirische Unterstützung für kleine FDR bietet

Methodische Details

Aufgabendefinition

Die Prognosefähigkeit des querschnittlichen Signals i wird durch rˉi\bar{r}_i gemessen, typischerweise durch Konstruktion eines Long-Short-Portfolios basierend auf i und Berechnung der durchschnittlichen Rendite. Die Nullhypothese ist E(rˉi)=0E(\bar{r}_i) = 0.

Kernrahmen

1. Grundlegende Einstellung

  • tirˉi/SEit_i \equiv \bar{r}_i / SE_i ist die t-Statistik
  • Unter der Nullhypothese: tinulliNormal(0,1)t_i | null_i \sim Normal(0,1)
  • Befund definiert als: ti>2|t_i| > 2 (entspricht 5% Signifikanzniveau)
  • FDR definiert als: FDRt>2Pr(nulliti>2)FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)

2. Easy Bound-Methode

Anwendung des Bayes-Theorems ergibt: FDRt>2=Pr(ti>2nulli)Pr(nulli)Pr(ti>2)5%Pr(ti>2)FDR_{|t|>2} = \frac{Pr(|t_i| > 2|null_i) Pr(null_i)}{Pr(|t_i| > 2)} \leq \frac{5\%}{Pr(|t_i| > 2)}

Diese Schranke ist intuitiv und leicht verständlich: Wenn die Tail-Wahrscheinlichkeit unter der Nullhypothese (Zähler) die tatsächlich beobachtete Tail-Wahrscheinlichkeit (Nenner) nicht erklären kann, muss die FDR sehr klein sein.

3. Visual Bound-Methode

Verfeinerung der Schranke durch Datenschätzung von Pr(nulli)Pr(null_i): Pr(ti<0.5)(0.38)Pr(nulli)Pr(|t_i| < 0.5) \geq (0.38)Pr(null_i)

Kombiniert ergibt sich eine engere Schranke: FDRt>2[5%Pr(ti>2)][Pr(ti<0.5)0.38]FDR_{|t|>2} \leq \left[\frac{5\%}{Pr(|t_i| > 2)}\right]\left[\frac{Pr(|t_i| < 0.5)}{0.38}\right]

Technische Innovationen

1. Umgang mit Publikationsbias

  • Verwendung von Data-Mining-Studien als Worst-Case-Szenario
  • Konservative Extrapolation zur Schätzung der Verteilung unveröffentlichter Ergebnisse
  • Vermeidung direkter Abhängigkeit von Statistiken der veröffentlichten Literatur

2. Histogramm-Zerlegungsmethode

Zerlegung des Histogramms der t-Statistiken in Null- und Alternativkomponenten: Pr(tib)=Pr(tibnulli)Pr(nulli)+Pr(tibalti)Pr(alti)Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)

Schätzung der FDR-Obergrenze durch Beschränkung, dass die Nullkomponente die Datenkomponente nicht überschreiten kann.

3. Algorithmus 1: Visuelle Schranken-Schätzung

  1. Zeichnen Sie das Histogramm von ti|t_i| der Data-Mining-Signale
  2. Zeichnen Sie das maximale Null-Verteilungshistogramm, das noch in die Daten passt
  3. Zeichnen Sie eine vertikale Linie bei 2,0; das Verhältnis der Null-Fläche zur Datenfläche rechts davon schätzt die FDR-Schranke

Experimentelle Einrichtung

Datensätze

  1. Data-Mining-Studien:
    • Yan and Zheng (2017): 18.000 Bilanzkennzahlen
    • Chordia, Goyal, and Saretto (2020): etwa 200 Bilanzvariablen
    • Chen, Lopez-Lira, and Zimmermann (2025): 29.000 Signale
  2. Meta-Forschungsdaten:
    • Green, Hand, Zhang (2013)
    • Chen, Zimmermann (2020): 77 veröffentlichte Prognosefaktoren
    • Harvey, Liu, Zhu (2016)
    • McLean, Pontiff (2016)
    • Jensen, Kelly, Pedersen (2021)
    • Jacobs, Muller (2020)

Bewertungsmetriken

  • FDR-Schranken: Obergrenzenschätzung der False Discovery Rate
  • Signifikanzanteil: Anteil der Signale mit ti>2|t_i| > 2
  • Anteil kleiner t-Statistiken: Anteil der Signale mit ti<0.5|t_i| < 0.5

Implementierungsdetails

  • Verwendung von gleich gewichteten und wertgewichteten Portfolios
  • Berücksichtigung verschiedener Faktormodell-Anpassungen (CAPM, FF3, FF3+Momentum)
  • Verwendung von Fama-French-Cluster-Bootstrap zur Berechnung von Standardfehlern

Experimentelle Ergebnisse

Hauptergebnisse

1. Easy Bound-Ergebnisse

Basierend auf acht von neun Studien, FDR ≤ 25%:

  • Mindestens 20% der Bilanzkennzahlen in Data-Mining-Studien erzeugen ti>2|t_i| > 2
  • Anwendung der Formel ergibt: FDRt>25%/0.20=25%FDR_{|t|>2} \leq 5\%/0.20 = 25\%

2. Visual Bound-Ergebnisse

Genauere Schätzung mit CLZ-Daten:

  • Von 29.000 Signalen erfüllen 9.700 ti>2|t_i| > 2 und 6.300 erfüllen ti<0.5|t_i| < 0.5
  • Ergebnis: FDRt>28.5%FDR_{|t|>2} \leq 8.5\%, d.h. mindestens 91,5% der Befunde sind wahr

3. Ergebnisse verschiedener Spezifikationen

GewichtungsmethodeFaktoranpassungFDR-ObergrenzeSignifikanzanteil
Gleich gewichtetRohe Renditen8,6%32,7%
Gleich gewichtetFF37,3%34,9%
WertgewichtetCAPM19,0%17,9%
WertgewichtetFF3+Momentum41,7%10,5%

Ablationsstudien

  1. Auswirkung der Gewichtungsmethode: Wertgewichtung reduziert den Signifikanzanteil erheblich und erhöht die FDR-Schranke
  2. Auswirkung der Faktoranpassung: FF3+Momentum-Anpassung hat die größte Auswirkung auf wertgewichtete Portfolios
  3. Robustheit des Datensatzes: Data-Mining-Ergebnisse von drei unabhängigen Forschungsteams sind konsistent

Literaturvermittlungsanalyse

  1. Harvey, Liu, Zhu (2016): Neuinterpretation zeigt FDR von nur 12%, nicht wie ursprünglich behauptet "die meisten Befunde sind falsch"
  2. Harvey and Liu (2020): 0,1% der "echten" Strategien entsprechen tatsächlich der Auswahl der extremsten wertgewichteten FF3+Momentum-Spezifikation
  3. Chordia, Goyal, Saretto (2020): Die 45% FDR-Schätzung stammt aus der Vernachlässigung von Informationen über kleine t-Statistiken in der Kalibrierung

Verwandte Arbeiten

FDR-Methodologie-Literatur

  • Benjamini and Hochberg (1995): Klassische FDR-Kontrollmethode
  • Storey (2002): Direkte FDR-Schätzmethode
  • Sorić (1989): Frühestes FDR-Konzept

Finanzanomalien-Literatur

  • Green, Hand, Zhang (2013): Übersicht über querschnittliche Renditeprognosen
  • McLean and Pontiff (2016): Außerhalb-der-Stichprobe-Abnahme-Studien
  • Chen and Zimmermann (2022): Open-Source-Querschnitts-Vermögenspreismodelle

Mehrfache Tests in der Finanzwissenschaft

  • Harvey, Liu, Zhu (2016): Problem mehrfacher Tests in der Finanzökonometrie
  • Chen (2024): Diskussion, ob t-Statistik-Schwellenwerte erhöht werden sollten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Kleine FDR: Mindestens 75% der behaupteten Befunde in der querschnittlichen Prognosebarkeits-Literatur sind wahr (FDR ≤ 25%)
  2. Genauere Schätzung: Unter Berücksichtigung von Informationen über kleine t-Statistiken sind mindestens 91% der Befunde wahr (FDR ≤ 9%)
  3. Literaturvermittlung: Unterschiedliche FDR-Schätzungen stammen hauptsächlich aus Interpretationsunterschieden, nicht aus Daten- oder Methodendifferenzen
  4. Empirische Unterstützung: Die hohe Signifikanzrate zufälliger Bilanzkennzahlen bietet direkte Evidenz für kleine FDR

Einschränkungen

  1. Statistik vs. ökonomische Bedeutung: "Echte Befunde" beziehen sich nur auf statistische Signifikanz und nicht-Null-Alpha, berücksichtigen nicht Transaktionskosten, Informationskosten usw.
  2. Außerhalb-der-Stichprobe-Leistung: Statistische Wahrheit ist nicht gleichbedeutend mit ökonomischer Machbarkeit
  3. Strukturelle Veränderungen: Unzureichende Berücksichtigung von Marktstrukturveränderungen auf die Prognosebarkeit
  4. Data-Mining-Annahmen: Annahme, dass der Forschungsprozess nicht zu höheren Falsch-Entdeckungsraten als zufälliges Data-Mining führt

Zukünftige Richtungen

  1. Ökonomische Signifikanz: Bewertung des ökonomischen Wertes unter Berücksichtigung von Transaktionskosten und Marktreibung
  2. Dynamische FDR: Berücksichtigung zeitveränderlicher Prognosebarkeit und Marktbedingungen
  3. Kausale Inferenz: Erweiterung von Prognosbeziehungen zu kausalen Beziehungen
  4. Machine-Learning-Methoden: FDR-Kontrolle in hochdimensionalen Einstellungen

Tiefgreifende Bewertung

Stärken

  1. Methodische Einfachheit: Easy Bound-Methode ist äußerst einfach und erfordert nur zusammengefasste Statistiken
  2. Starke Intuitivität: Visual Bound bietet intuitive Histogramm-Zerlegungserklärung
  3. Empirische Robustheit: Basierend auf konsistenten Ergebnissen mehrerer unabhängiger Forschungsteams
  4. Literaturbeitrag: Erfolgreiche Vermittlung zwischen langfristig bestehenden FDR-Schätzungsabweichungen
  5. Theoretische Solidität: Basierend auf grundlegenden Wahrscheinlichkeitsprinzipien mit rigoroser mathematischer Ableitung

Mängel

  1. Konservativität: Schranken-Methoden können zu konservativ sein; echte FDR könnte kleiner sein
  2. Unabhängigkeitsannahmen: Obwohl behauptet wird, dass Unabhängigkeit nicht erforderlich ist, beeinflusst Korrelation dennoch die Schätzgenauigkeit
  3. Datenabhängigkeit: Ergebnisse hängen von der Qualität und Repräsentativität spezifischer Data-Mining-Studien ab
  4. Zeitliche Stabilität: Unzureichende Diskussion der zeitlichen Veränderung der FDR
  5. Ökonomische Interpretation: Mangelnde tiefgreifende Diskussion der Beziehung zwischen statistischer Signifikanz und ökonomischer Bedeutung

Einfluss

  1. Akademischer Wert: Bietet wichtige statistische Glaubwürdigkeitsbewertung für Finanzanomalien-Literatur
  2. Praktische Bedeutung: Bietet Investoren und Regulatoren Referenzen zur Faktor-Effektivität
  3. Methodologischer Beitrag: Einfache und effektive FDR-Schranken-Methode kann auf andere Bereiche übertragen werden
  4. Politische Auswirkungen: Beeinflusst das Verständnis von Markteffizienzen und Anomalien-Persistenz

Anwendungsszenarien

  1. Akademische Forschung: Bewertung der statistischen Glaubwürdigkeit neu entdeckter Faktoren
  2. Investitionspraxis: Filterung von Anlagestrategien mit statistischer Unterstützung
  3. Regulatorische Politik: Bewertung des systemischen Risikos von Marktanomalien
  4. Risikomanagement: Verständnis der statistischen Grundlagen von Faktor-Expositionen

Literaturverzeichnis

Dieses Paper zitiert 22 wichtige Literaturquellen, die klassische und aktuelle Forschung in den Kernbereichen FDR-Methodologie, Finanzanomalien-Entdeckung und Kontrolle mehrfacher Tests abdecken und eine solide theoretische Grundlage und empirische Unterstützung für die Forschung bieten.


Gesamtbewertung: Dies ist ein Paper mit wichtigen Beiträgen im Bereich der Finanzökonometrie, das durch einfache und elegante Methoden ein langfristig bestehendes Kontroversproblem löst und eine neue Perspektive und Werkzeuge für das Verständnis der statistischen Glaubwürdigkeit der Finanzanomalien-Literatur bietet.