2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen

The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.

academic

La plupart des résultats statistiques revendiqués dans la prévisibilité des rendements en coupe transversale sont probablement vrais

Informations de base

ID de l'article: 2206.15365
Titre: Most claimed statistical findings in cross-sectional return predictability are likely true
Auteur: Andrew Y. Chen (Conseil des gouverneurs de la Réserve fédérale)
Classification: q-fin.GN (Finance quantitative - Finance générale)
Date de publication: Octobre 2025 (première diffusion sur SSRN: 27 août 2021)
Lien de l'article: https://arxiv.org/abs/2206.15365

Résumé

Le taux de fausses découvertes (FDR) mesure la proportion de faux positifs dans les tests statistiques. Cet article développe des bornes FDR simples et intuitives pour les études de prévisibilité en coupe transversale. La borne la plus simple ne nécessite que quelques lignes de calcul mathématique, basée sur les statistiques récapitulatives de huit études antérieures sur neuf, révélant FDR ≤ 25%. Des bornes plus raffinées révèlent FDR ≤ 9%. La raison de la faiblesse du FDR est que la sélection aléatoire de ratios comptables produit une prévisibilité statistiquement significative à une fréquence bien supérieure à celle attendue sous l'hypothèse nulle d'absence de prévisibilité. Ces bornes réconclient également les divergences entre différentes estimations du FDR dans la littérature.

Contexte et motivation de la recherche

Contexte du problème

Les chercheurs ont découvert des centaines de facteurs prédictifs de rendements boursiers en coupe transversale, cette abondance soulevant des préoccupations concernant le problème des tests multiples. Intuitivement, si les chercheurs effectuent de nombreux tests, certains tests pourraient être statistiquement significatifs purement par hasard, même sous l'hypothèse nulle d'absence de prévisibilité.

Questions centrales

Problème des tests multiples: Un grand nombre de découvertes de facteurs peut conduire à des résultats faux positifs
Divergences dans l'estimation du FDR: Les estimations du FDR dans la littérature existante varient énormément, de près de 0% à plus de 45%
Biais de publication: Les résultats statistiquement significatifs sont plus faciles à publier, affectant l'estimation réelle du FDR
Controverse méthodologique: Différentes équipes de recherche utilisant des méthodes différentes parviennent à des conclusions radicalement opposées

Importance de la recherche

L'estimation précise du FDR est cruciale pour comprendre la crédibilité de la littérature sur les anomalies financières, affectant directement la formulation des stratégies d'investissement et l'orientation de la recherche académique.

Contributions principales

Bornes FDR simples et intuitives: Propose la méthode "Easy Bound", permettant d'estimer la borne supérieure du FDR avec seulement quelques lignes de calcul mathématique
Méthode de borne visuelle: Développe "Visual Bound", fournissant des bornes FDR plus serrées grâce à la décomposition d'histogrammes
Réconciliation de la littérature: Unifie l'explication des estimations du FDR très divergentes dans la littérature existante, découvrant que les divergences proviennent principalement de différences d'interprétation plutôt que de différences de données
Résultats empiriques: Démontre que la probabilité que la sélection aléatoire de ratios comptables produise une prévisibilité significative est bien supérieure à celle attendue théoriquement, fournissant un soutien empirique pour un FDR faible

Explication détaillée de la méthodologie

Définition de la tâche

La capacité prédictive du signal i en coupe transversale est définie par $\bar{r}_i$ , généralement obtenue en construisant un portefeuille long-short basé sur i et en calculant le rendement moyen de l'échantillon. L'hypothèse nulle est $E(\bar{r}_i) = 0$ .

Cadre principal

1. Configuration de base

$t_i \equiv \bar{r}_i / SE_i$ est la statistique t
Sous l'hypothèse nulle: $t_i | null_i \sim Normal(0,1)$
Découverte définie comme: $|t_i| > 2$ (correspondant à un niveau de signification de 5%)
FDR défini comme: $FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)$

2. Méthode Easy Bound

En appliquant la règle de Bayes: $FDR_{|t|>2} = \frac{Pr(|t_i| > 2|null_i) Pr(null_i)}{Pr(|t_i| > 2)} \leq \frac{5\%}{Pr(|t_i| > 2)}$

Cette borne est intuitive et facile à comprendre: si la probabilité de queue sous l'hypothèse nulle (numérateur) ne peut pas expliquer la probabilité de queue réellement observée (dénominateur), alors le FDR doit être très faible.

3. Méthode Visual Bound

En estimant $Pr(null_i)$ à partir des données pour resserrer la borne: $Pr(|t_i| < 0.5) \geq (0.38)Pr(null_i)$

En combinant, on obtient une borne plus serrée: $FDR_{|t|>2} \leq \left[\frac{5\%}{Pr(|t_i| > 2)}\right]\left[\frac{Pr(|t_i| < 0.5)}{0.38}\right]$

Points d'innovation technique

1. Traitement du biais de publication

Utilisation d'études de fouille de données comme scénario du pire cas
Estimation de la distribution des résultats non publiés par extrapolation conservatrice
Évite la dépendance directe aux statistiques de la littérature publiée

2. Méthode de décomposition d'histogrammes

Décomposition de l'histogramme des statistiques t en composante nulle et composante alternative: $Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)$

L'estimation de la borne supérieure du FDR se fait en contraignant la composante nulle à ne pas dépasser la composante de données.

3. Algorithme 1: Estimation de la borne visuelle

Tracer l'histogramme de $|t_i|$ pour les signaux de fouille de données
Tracer l'histogramme de distribution nulle maximale pouvant toujours s'adapter à l'intérieur des données
Tracer une ligne verticale à 2.0; le rapport de la zone nulle à la zone de données à droite estime la borne du FDR

Configuration expérimentale

Ensembles de données

Études de fouille de données:
- Yan and Zheng (2017): 18 000 ratios comptables
- Chordia, Goyal, and Saretto (2020): environ 200 variables comptables
- Chen, Lopez-Lira, and Zimmermann (2025): 29 000 signaux
Données de méta-études:
- Green, Hand, Zhang (2013)
- Chen, Zimmermann (2020): 77 facteurs prédictifs publiés
- Harvey, Liu, Zhu (2016)
- McLean, Pontiff (2016)
- Jensen, Kelly, Pedersen (2021)
- Jacobs, Muller (2020)

Métriques d'évaluation

Bornes FDR: Estimation de la borne supérieure du taux de fausses découvertes
Proportion de signification: Proportion de signaux avec $|t_i| > 2$
Proportion de petites statistiques t: Proportion de signaux avec $|t_i| < 0.5$

Détails d'implémentation

Utilisation de portefeuilles pondérés équitablement et pondérés par la valeur
Considération de différents ajustements de modèles factoriels (CAPM, FF3, FF3+momentum)
Utilisation du bootstrap en cluster Fama-French pour calculer les erreurs-types

Résultats expérimentaux

Résultats principaux

1. Résultats de Easy Bound

Basés sur huit études sur neuf, FDR ≤ 25%:

Au moins 20% des ratios comptables dans les études de fouille de données produisent $|t_i| > 2$
En appliquant la formule: $FDR_{|t|>2} \leq 5\%/0.20 = 25\%$

2. Résultats de Visual Bound

Estimation plus précise utilisant les données CLZ:

Sur 29 000 signaux, 9 700 satisfont $|t_i| > 2$ , 6 300 satisfont $|t_i| < 0.5$
Résultat: $FDR_{|t|>2} \leq 8.5\%$ , c'est-à-dire au moins 91.5% des découvertes sont vraies

3. Résultats selon différentes spécifications

Méthode de pondération	Ajustement factoriel	Borne FDR	Proportion significative
Pondération équitable	Rendements bruts	8.6%	32.7%
Pondération équitable	FF3	7.3%	34.9%
Pondération par valeur	CAPM	19.0%	17.9%
Pondération par valeur	FF3+momentum	41.7%	10.5%

Expériences d'ablation

Impact de la méthode de pondération: La pondération par valeur réduit significativement la proportion de signification, augmentant la borne FDR
Impact de l'ajustement factoriel: L'ajustement FF3+momentum a l'impact le plus important sur les portefeuilles pondérés par valeur
Robustesse de l'ensemble de données: Les résultats de fouille de données de trois équipes de recherche indépendantes sont cohérents

Analyse de réconciliation de la littérature

Harvey, Liu, Zhu (2016): Réinterprétation révélant un FDR de seulement 12%, plutôt que la conclusion originale "la plupart des découvertes sont fausses"
Harvey and Liu (2020): Les 0.1% de stratégies "vraies" correspondent en réalité à la sélection de la spécification la plus extrême de pondération par valeur FF3+momentum
Chordia, Goyal, Saretto (2020): L'estimation du FDR de 45% provient de l'omission d'informations sur les petites statistiques t dans l'étalonnage

Travaux connexes

Littérature méthodologique sur le FDR

Benjamini and Hochberg (1995): Méthode classique de contrôle du FDR
Storey (2002): Méthode d'estimation directe du FDR
Sorić (1989): Concept initial du FDR

Littérature sur les anomalies financières

Green, Hand, Zhang (2013): Synthèse de la prévision des rendements en coupe transversale
McLean and Pontiff (2016): Étude de l'atténuation hors échantillon
Chen and Zimmermann (2022): Tarification des actifs en coupe transversale en libre accès

Application des tests multiples en finance

Harvey, Liu, Zhu (2016): Problème des tests multiples en économie financière
Chen (2024): Discussion sur la nécessité d'augmenter les seuils de statistiques t

Conclusions et discussion

Conclusions principales

FDR faible: Au moins 75% des découvertes revendiquées dans la littérature de prévisibilité en coupe transversale sont vraies (FDR ≤ 25%)
Estimation plus précise: En tenant compte des informations sur les petites statistiques t, au moins 91% des découvertes sont vraies (FDR ≤ 9%)
Réconciliation de la littérature: Les différentes estimations du FDR proviennent principalement de différences d'interprétation, plutôt que de différences de données ou de méthodes
Soutien empirique: Le taux de signification élevé des ratios comptables aléatoires fournit une preuve directe d'un FDR faible

Limitations

Signification statistique vs économique: Les "vraies découvertes" ne désignent que la signification statistique et l'alpha non nul, sans considérer les coûts de transaction, les coûts d'information, etc.
Performance hors échantillon: La véracité statistique n'équivaut pas à la viabilité économique
Changements structurels: Considération insuffisante de l'impact des changements structurels du marché sur la prévisibilité
Hypothèse de fouille de données: Suppose que le processus de recherche ne produit pas un taux de fausses découvertes plus élevé que la fouille de données aléatoire

Directions futures

Signification économique: Évaluation de la valeur économique en combinant les coûts de transaction et les frictions du marché
FDR dynamique: Considération de la prévisibilité variable dans le temps et des conditions du marché
Inférence causale: Extension des relations prédictives aux relations causales
Méthodes d'apprentissage automatique: Contrôle du FDR dans les paramètres de haute dimension

Évaluation approfondie

Points forts

Méthode simple: La méthode Easy Bound est extrêmement simple, ne nécessitant que des statistiques récapitulatives pour le calcul
Forte intuitivité: Visual Bound fournit une explication intuitive par décomposition d'histogrammes
Robustesse empirique: Basée sur des résultats cohérents de plusieurs équipes de recherche indépendantes
Contribution à la littérature: Réconcilie avec succès les divergences du FDR de longue date
Théorie solide: Basée sur les principes fondamentaux de la théorie des probabilités, avec des dérivations mathématiques rigoureuses

Insuffisances

Conservatisme: Les méthodes de borne peuvent être trop conservatrices, le FDR réel étant potentiellement plus faible
Hypothèse d'indépendance: Bien que déclarant ne pas nécessiter l'indépendance, la corrélation affecte toujours la précision de l'estimation
Dépendance aux données: Les résultats dépendent de la qualité et de la représentativité des études de fouille de données spécifiques
Stabilité temporelle: Discussion insuffisante de la variation du FDR dans le temps
Interprétation économique: Manque de discussion approfondie sur la relation entre signification statistique et signification économique

Impact

Valeur académique: Fournit une évaluation importante de la crédibilité statistique pour la littérature sur les anomalies financières
Signification pratique: Fournit une référence aux investisseurs et aux régulateurs sur l'efficacité des facteurs
Contribution méthodologique: Les méthodes simples et efficaces de bornes FDR peuvent être étendues à d'autres domaines
Impact politique: Influence la compréhension de l'efficacité des marchés financiers et de la persistance des anomalies

Scénarios d'application

Recherche académique: Évaluation de la crédibilité statistique des nouveaux facteurs découverts
Pratique d'investissement: Sélection de stratégies d'investissement avec soutien statistique
Politique de régulation: Évaluation du risque systémique des anomalies du marché
Gestion des risques: Compréhension de la base statistique de l'exposition aux facteurs

Références bibliographiques

Cet article cite 22 références importantes, couvrant les domaines clés de la méthodologie du FDR, de la découverte d'anomalies financières, du contrôle des tests multiples et d'autres recherches classiques et de pointe, fournissant une base théorique et un soutien empirique solides à la recherche.

Évaluation globale: Cet article constitue une contribution importante au domaine de l'économétrie financière, résolvant par une méthode simple et élégante une question controversée de longue date, et fournissant une nouvelle perspective et des outils pour comprendre la crédibilité statistique de la littérature sur les anomalies financières.