2025-11-15T08:13:11.214644

Most claimed statistical findings in cross-sectional return predictability are likely true

Chen

The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.

academic

क्रॉस-सेक्शनल रिटर्न पूर्वानुमानयोग्यता में अधिकांश दावा किए गए सांख्यिकीय निष्कर्ष संभवतः सत्य हैं

मूल जानकारी

पेपर ID: 2206.15365
शीर्षक: क्रॉस-सेक्शनल रिटर्न पूर्वानुमानयोग्यता में अधिकांश दावा किए गए सांख्यिकीय निष्कर्ष संभवतः सत्य हैं
लेखक: Andrew Y. Chen (फेडरल रिजर्व बोर्ड)
वर्गीकरण: q-fin.GN (मात्रात्मक वित्त - सामान्य वित्त)
प्रकाशन समय: 2025 अक्टूबर (SSRN पर पहली बार प्रकाशित: 27 अगस्त 2021)
पेपर लिंक: https://arxiv.org/abs/2206.15365

सारांश

झूठी खोज दर (FDR) सांख्यिकीय परीक्षणों में झूठी सकारात्मकता के अनुपात को मापती है। यह पेपर क्रॉस-सेक्शनल पूर्वानुमानयोग्यता अनुसंधान के लिए सरल और सहज FDR सीमाएं विकसित करता है। सबसे सरल सीमा केवल कुछ पंक्तियों के गणित की आवश्यकता है, जो नौ पूर्ववर्ती अध्ययनों में से आठ के समेकित सांख्यिकी पर आधारित है, और FDR ≤ 25% पाता है। अधिक परिष्कृत सीमा FDR ≤ 9% पाती है। FDR के छोटे होने का कारण यह है कि यादृच्छिक रूप से चयनित लेखांकन अनुपात सांख्यिकीय रूप से महत्वपूर्ण पूर्वानुमानयोग्यता उत्पन्न करने की आवृत्ति कोई पूर्वानुमानयोग्यता न होने की स्थिति में अपेक्षित आवृत्ति से बहुत अधिक है। ये सीमाएं साहित्य में विभिन्न FDR अनुमानों के बीच के मतभेदों को भी मध्यस्थता करती हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

शोधकर्ताओं ने सैकड़ों क्रॉस-सेक्शनल स्टॉक रिटर्न पूर्वानुमान कारक खोजे हैं, यह समृद्धि बहुविध परीक्षण समस्याओं के बारे में चिंताएं उठाती है। सहज रूप से, यदि शोधकर्ता कई परीक्षण करते हैं, तो कोई पूर्वानुमानयोग्यता न होने के शून्य परिकल्पना के तहत भी, कुछ परीक्षण विशुद्ध रूप से संयोग से सांख्यिकीय रूप से महत्वपूर्ण हो सकते हैं।

मुख्य समस्याएं

बहुविध परीक्षण समस्या: बड़ी संख्या में कारकों की खोज झूठी सकारात्मक परिणामों का कारण बन सकती है
FDR अनुमान में विसंगति: मौजूदा साहित्य में FDR अनुमान में विशाल अंतर है, लगभग 0% से 45% से अधिक तक
प्रकाशन पूर्वाग्रह: सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्रकाशित होने की अधिक संभावना है, जो वास्तविक FDR अनुमान को प्रभावित करता है
पद्धति संबंधी विवाद: विभिन्न अनुसंधान दलों द्वारा विभिन्न विधियों का उपयोग करके बिल्कुल अलग निष्कर्ष निकाले जाते हैं

अनुसंधान का महत्व

FDR का सटीक अनुमान वित्तीय विसंगति साहित्य की विश्वसनीयता को समझने के लिए महत्वपूर्ण है, जो निवेश रणनीति निर्माण और शैक्षणिक अनुसंधान दिशा को सीधे प्रभावित करता है।

मुख्य योगदान

सरल और सहज FDR सीमाएं: "Easy Bound" विधि प्रस्तावित करता है, जो केवल कुछ पंक्तियों के गणित से FDR की ऊपरी सीमा का अनुमान लगा सकता है
दृश्य सीमा विधि: "Visual Bound" विकसित करता है, जो हिस्टोग्राम विघटन के माध्यम से अधिक कसी हुई FDR सीमा प्रदान करता है
साहित्य मध्यस्थता: मौजूदा साहित्य में विशाल अंतर वाले FDR अनुमानों को एकीकृत रूप से समझाता है, पाता है कि विसंगति मुख्य रूप से व्याख्या अंतर से उत्पन्न होती है न कि डेटा अंतर से
अनुभवजन्य निष्कर्ष: साबित करता है कि यादृच्छिक रूप से चयनित लेखांकन अनुपात महत्वपूर्ण पूर्वानुमानयोग्यता उत्पन्न करने की संभावना सैद्धांतिक अपेक्षा से बहुत अधिक है, छोटे FDR के लिए अनुभवजन्य समर्थन प्रदान करता है

विधि विवरण

कार्य परिभाषा

क्रॉस-सेक्शनल सिग्नल i की पूर्वानुमान क्षमता को $\bar{r}_i$ द्वारा परिभाषित किया जाता है, आमतौर पर i के आधार पर लॉन्ग-शॉर्ट पोर्टफोलियो का निर्माण करके और नमूना माध्य रिटर्न की गणना करके प्राप्त किया जाता है। शून्य परिकल्पना $E(\bar{r}_i) = 0$ है।

मुख्य ढांचा

1. मूल सेटअप

$t_i \equiv \bar{r}_i / SE_i$ t-सांख्यिकी है
शून्य परिकल्पना के तहत: $t_i | null_i \sim Normal(0,1)$
खोज परिभाषा: $|t_i| > 2$ (5% महत्व स्तर के अनुरूप)
FDR परिभाषा: $FDR_{|t|>2} \equiv Pr(null_i | |t_i| > 2)$

2. Easy Bound विधि

बेयस नियम लागू करके प्राप्त: $FDR_{|t|>2} = \frac{Pr(|t_i| > 2|null_i) Pr(null_i)}{Pr(|t_i| > 2)} \leq \frac{5\%}{Pr(|t_i| > 2)}$

यह सीमा सहज और समझने में आसान है: यदि शून्य परिकल्पना के तहत पूंछ की संभावना (अंश) वास्तविक रूप से देखी गई पूंछ की संभावना (हर) को समझा नहीं सकती है, तो FDR बहुत छोटा होना चाहिए।

3. Visual Bound विधि

$Pr(null_i)$ का अनुमान लगाकर सीमा को कसने के लिए: $Pr(|t_i| < 0.5) \geq (0.38)Pr(null_i)$

संयोजन करके अधिक कसी हुई सीमा प्राप्त करें: $FDR_{|t|>2} \leq \left[\frac{5\%}{Pr(|t_i| > 2)}\right]\left[\frac{Pr(|t_i| < 0.5)}{0.38}\right]$

तकनीकी नवाचार बिंदु

1. प्रकाशन पूर्वाग्रह को संभालना

डेटा माइनिंग अनुसंधान को सबसे खराब स्थिति परिदृश्य के रूप में उपयोग करता है
रूढ़िवादी एक्सट्रापोलेशन विधि द्वारा अप्रकाशित परिणामों के वितरण का अनुमान लगाता है
प्रकाशित साहित्य की सांख्यिकी पर सीधी निर्भरता से बचता है

2. हिस्टोग्राम विघटन विधि

t-सांख्यिकी हिस्टोग्राम को शून्य घटक और वैकल्पिक घटक में विघटित करता है: $Pr(|t_i| \in b) = Pr(|t_i| \in b | null_i)Pr(null_i) + Pr(|t_i| \in b | alt_i)Pr(alt_i)$

शून्य घटक को डेटा घटक से अधिक नहीं होने के लिए बाध्य करके FDR की ऊपरी सीमा का अनुमान लगाता है।

3. एल्गोरिथ्म 1: दृश्य सीमा अनुमान

डेटा माइनिंग सिग्नल के $|t_i|$ का हिस्टोग्राम बनाएं
डेटा के अंदर फिट होने वाले अधिकतम शून्य वितरण हिस्टोग्राम बनाएं
2.0 पर एक ऊर्ध्वाधर रेखा खींचें, दाईं ओर शून्य क्षेत्र और डेटा क्षेत्र का अनुपात FDR सीमा का अनुमान लगाता है

प्रायोगिक सेटअप

डेटासेट

डेटा माइनिंग अनुसंधान:
- Yan and Zheng (2017): 18,000 लेखांकन अनुपात
- Chordia, Goyal, and Saretto (2020): लगभग 200 लेखांकन चर
- Chen, Lopez-Lira, and Zimmermann (2025): 29,000 सिग्नल
मेटा-अनुसंधान डेटा:
- Green, Hand, Zhang (2013)
- Chen, Zimmermann (2020): 77 प्रकाशित पूर्वानुमान कारक
- Harvey, Liu, Zhu (2016)
- McLean, Pontiff (2016)
- Jensen, Kelly, Pedersen (2021)
- Jacobs, Muller (2020)

मूल्यांकन मेट्रिक्स

FDR सीमा: झूठी खोज दर की ऊपरी सीमा अनुमान
महत्वपूर्ण अनुपात: $|t_i| > 2$ वाले सिग्नल का अनुपात
छोटी t-सांख्यिकी अनुपात: $|t_i| < 0.5$ वाले सिग्नल का अनुपात

कार्यान्वयन विवरण

समान भारित और मूल्य-भारित पोर्टफोलियो का उपयोग करता है
विभिन्न कारक मॉडल समायोजन पर विचार करता है (CAPM, FF3, FF3+गति)
मानक त्रुटियों की गणना के लिए Fama-French क्लस्टर बूटस्ट्रैप का उपयोग करता है

प्रायोगिक परिणाम

मुख्य परिणाम

1. Easy Bound परिणाम

नौ अध्ययनों में से आठ के आधार पर, FDR ≤ 25%:

डेटा माइनिंग अनुसंधान में कम से कम 20% लेखांकन अनुपात $|t_i| > 2$ उत्पन्न करते हैं
सूत्र लागू करके: $FDR_{|t|>2} \leq 5\%/0.20 = 25\%$

2. Visual Bound परिणाम

CLZ डेटा का उपयोग करके अधिक सटीक अनुमान:

29,000 सिग्नल में से 9,700 $|t_i| > 2$ को संतुष्ट करते हैं, 6,300 $|t_i| < 0.5$ को संतुष्ट करते हैं
प्राप्त: $FDR_{|t|>2} \leq 8.5\%$ , अर्थात कम से कम 91.5% खोजें सत्य हैं

3. विभिन्न विनिर्देशों के परिणाम

भार विधि	कारक समायोजन	FDR ऊपरी सीमा	महत्वपूर्ण अनुपात
समान भार	मूल रिटर्न	8.6%	32.7%
समान भार	FF3	7.3%	34.9%
मूल्य भार	CAPM	19.0%	17.9%
मूल्य भार	FF3+गति	41.7%	10.5%

विलोपन प्रयोग

भार विधि प्रभाव: मूल्य भार महत्वपूर्ण अनुपात को काफी कम करता है, FDR सीमा बढ़ाता है
कारक समायोजन प्रभाव: FF3+गति समायोजन मूल्य-भारित पोर्टफोलियो पर सबसे बड़ा प्रभाव डालता है
डेटासेट मजबूती: तीन स्वतंत्र अनुसंधान दलों के डेटा माइनिंग परिणाम सुसंगत हैं

साहित्य मध्यस्थता विश्लेषण

Harvey, Liu, Zhu (2016): खोजों को पुनः व्याख्यायित करता है कि FDR केवल 12% है, न कि मूल पाठ द्वारा दावा किए गए "अधिकांश खोजें झूठी हैं"
Harvey and Liu (2020): 0.1% की "सच्ची" रणनीति वास्तव में सबसे चरम मूल्य-भारित FF3+गति विनिर्देश के चयन के अनुरूप है
Chordia, Goyal, Saretto (2020): 45% की FDR अनुमान कैलिब्रेशन में छोटी t-सांख्यिकी जानकारी को नजरअंदाज करने से उत्पन्न होती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

छोटा FDR: क्रॉस-सेक्शनल पूर्वानुमानयोग्यता साहित्य में कम से कम 75% दावा की गई खोजें सत्य हैं (FDR ≤ 25%)
अधिक सटीक अनुमान: छोटी t-सांख्यिकी जानकारी पर विचार करने के बाद, कम से कम 91% खोजें सत्य हैं (FDR ≤ 9%)
साहित्य मध्यस्थता: विभिन्न FDR अनुमान मुख्य रूप से व्याख्या अंतर से उत्पन्न होते हैं, न कि डेटा या विधि अंतर से
अनुभवजन्य समर्थन: यादृच्छिक लेखांकन अनुपात की उच्च महत्वपूर्ण दर छोटे FDR के लिए प्रत्यक्ष साक्ष्य प्रदान करती है

सीमाएं

सांख्यिकीय बनाम आर्थिक महत्व: "सच्ची खोजें" केवल सांख्यिकीय रूप से महत्वपूर्ण और गैर-शून्य अल्फा को संदर्भित करती हैं, लेनदेन लागत, सूचना लागत आदि आर्थिक कारकों पर विचार नहीं करती हैं
नमूना-बाहर प्रदर्शन: सांख्यिकीय सच्चाई आर्थिक व्यवहार्यता के बराबर नहीं है
संरचनात्मक परिवर्तन: पूर्वानुमानयोग्यता पर बाजार संरचना परिवर्तन के प्रभाव पर पर्याप्त विचार नहीं किया गया है
डेटा माइनिंग धारणा: मानता है कि अनुसंधान प्रक्रिया यादृच्छिक डेटा माइनिंग की तुलना में अधिक झूठी खोज दर उत्पन्न नहीं करेगी

भविष्य की दिशाएं

आर्थिक महत्व: लेनदेन लागत और बाजार घर्षण के साथ आर्थिक मूल्य का मूल्यांकन करना
गतिशील FDR: समय-परिवर्तनशील पूर्वानुमानयोग्यता और बाजार स्थितियों पर विचार करना
कारण अनुमान: पूर्वानुमान संबंध से कारण संबंध तक विस्तार करना
मशीन लर्निंग विधियां: उच्च-आयामी सेटिंग में FDR नियंत्रण

गहन मूल्यांकन

शक्तियां

विधि सरलता: Easy Bound विधि अत्यंत सरल है, केवल समेकित सांख्यिकी की आवश्यकता है
उच्च सहजता: Visual Bound हिस्टोग्राम विघटन की सहज व्याख्या प्रदान करता है
अनुभवजन्य मजबूती: कई स्वतंत्र अनुसंधान दलों के सुसंगत परिणामों पर आधारित है
साहित्य योगदान: दीर्घकालीन FDR अनुमान विसंगति को सफलतापूर्वक मध्यस्थता करता है
सैद्धांतिक दृढ़ता: संभाव्यता सिद्धांत के मूल सिद्धांतों पर आधारित, गणितीय व्युत्पत्ति कठोर है

कमियां

रूढ़िवादिता: सीमा विधि संभवतः बहुत रूढ़िवादी है, वास्तविक FDR छोटा हो सकता है
स्वतंत्रता धारणा: हालांकि स्वतंत्रता की आवश्यकता नहीं होने का दावा करता है, लेकिन सहसंबंध अभी भी अनुमान सटीकता को प्रभावित करता है
डेटा निर्भरता: परिणाम विशिष्ट डेटा माइनिंग अनुसंधान की गुणवत्ता और प्रतिनिधित्व पर निर्भर करते हैं
समय स्थिरता: समय के साथ FDR में परिवर्तन पर पर्याप्त चर्चा नहीं की गई है
आर्थिक व्याख्या: सांख्यिकीय महत्व और आर्थिक महत्व के संबंध पर गहन चर्चा की कमी है

प्रभाव

शैक्षणिक मूल्य: वित्तीय विसंगति साहित्य के लिए महत्वपूर्ण सांख्यिकीय विश्वसनीयता मूल्यांकन प्रदान करता है
व्यावहारिक महत्व: निवेशकों और नियामकों को कारक प्रभावशीलता के संदर्भ प्रदान करता है
पद्धति योगदान: सरल प्रभावी FDR सीमा विधि अन्य क्षेत्रों में सामान्यीकृत की जा सकती है
नीति प्रभाव: वित्तीय बाजार दक्षता और विसंगति स्थिरता की समझ को प्रभावित करता है

लागू परिदृश्य

शैक्षणिक अनुसंधान: नई खोजी गई कारकों की सांख्यिकीय विश्वसनीयता का मूल्यांकन करना
निवेश अभ्यास: सांख्यिकीय समर्थन वाली निवेश रणनीतियों को फ़िल्टर करना
नियामक नीति: बाजार विसंगतियों के व्यवस्थित जोखिम का मूल्यांकन करना
जोखिम प्रबंधन: कारक जोखिम के सांख्यिकीय आधार को समझना

संदर्भ

यह पेपर 22 महत्वपूर्ण संदर्भों का हवाला देता है, जो FDR पद्धति, वित्तीय विसंगति खोज, बहुविध परीक्षण नियंत्रण आदि मुख्य क्षेत्रों के शास्त्रीय और अग्रणी अनुसंधान को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और अनुभवजन्य समर्थन प्रदान करता है।

समग्र मूल्यांकन: यह वित्तीय अर्थमिति क्षेत्र में एक महत्वपूर्ण योगदान वाला पेपर है, जो सरल और सुरुचिपूर्ण विधि के माध्यम से दीर्घकालीन विवादास्पद समस्या को हल करता है, वित्तीय विसंगति साहित्य की सांख्यिकीय विश्वसनीयता को समझने के लिए नया दृष्टिकोण और उपकरण प्रदान करता है।