The false discovery rate (FDR) measures the share of false positives in a set of statistical tests. I develop simple and intuitive bounds on the FDR in cross-sectional predictability publications. The simplest bound requires just a few lines of math and finds $\text{FDR} \le 25\%$ based on summary statistics in eight out of nine previous studies. A more refined bound finds $\text{FDR} \le 9\%$. The FDR is small because randomly selecting accounting ratios produces statistically significant predictability far more often than would occur if there were no predictability. The bounds also reconcile the disparate FDR estimates in the literature.
- पेपर ID: 2206.15365
- शीर्षक: क्रॉस-सेक्शनल रिटर्न पूर्वानुमानयोग्यता में अधिकांश दावा किए गए सांख्यिकीय निष्कर्ष संभवतः सत्य हैं
- लेखक: Andrew Y. Chen (फेडरल रिजर्व बोर्ड)
- वर्गीकरण: q-fin.GN (मात्रात्मक वित्त - सामान्य वित्त)
- प्रकाशन समय: 2025 अक्टूबर (SSRN पर पहली बार प्रकाशित: 27 अगस्त 2021)
- पेपर लिंक: https://arxiv.org/abs/2206.15365
झूठी खोज दर (FDR) सांख्यिकीय परीक्षणों में झूठी सकारात्मकता के अनुपात को मापती है। यह पेपर क्रॉस-सेक्शनल पूर्वानुमानयोग्यता अनुसंधान के लिए सरल और सहज FDR सीमाएं विकसित करता है। सबसे सरल सीमा केवल कुछ पंक्तियों के गणित की आवश्यकता है, जो नौ पूर्ववर्ती अध्ययनों में से आठ के समेकित सांख्यिकी पर आधारित है, और FDR ≤ 25% पाता है। अधिक परिष्कृत सीमा FDR ≤ 9% पाती है। FDR के छोटे होने का कारण यह है कि यादृच्छिक रूप से चयनित लेखांकन अनुपात सांख्यिकीय रूप से महत्वपूर्ण पूर्वानुमानयोग्यता उत्पन्न करने की आवृत्ति कोई पूर्वानुमानयोग्यता न होने की स्थिति में अपेक्षित आवृत्ति से बहुत अधिक है। ये सीमाएं साहित्य में विभिन्न FDR अनुमानों के बीच के मतभेदों को भी मध्यस्थता करती हैं।
शोधकर्ताओं ने सैकड़ों क्रॉस-सेक्शनल स्टॉक रिटर्न पूर्वानुमान कारक खोजे हैं, यह समृद्धि बहुविध परीक्षण समस्याओं के बारे में चिंताएं उठाती है। सहज रूप से, यदि शोधकर्ता कई परीक्षण करते हैं, तो कोई पूर्वानुमानयोग्यता न होने के शून्य परिकल्पना के तहत भी, कुछ परीक्षण विशुद्ध रूप से संयोग से सांख्यिकीय रूप से महत्वपूर्ण हो सकते हैं।
- बहुविध परीक्षण समस्या: बड़ी संख्या में कारकों की खोज झूठी सकारात्मक परिणामों का कारण बन सकती है
- FDR अनुमान में विसंगति: मौजूदा साहित्य में FDR अनुमान में विशाल अंतर है, लगभग 0% से 45% से अधिक तक
- प्रकाशन पूर्वाग्रह: सांख्यिकीय रूप से महत्वपूर्ण परिणाम प्रकाशित होने की अधिक संभावना है, जो वास्तविक FDR अनुमान को प्रभावित करता है
- पद्धति संबंधी विवाद: विभिन्न अनुसंधान दलों द्वारा विभिन्न विधियों का उपयोग करके बिल्कुल अलग निष्कर्ष निकाले जाते हैं
FDR का सटीक अनुमान वित्तीय विसंगति साहित्य की विश्वसनीयता को समझने के लिए महत्वपूर्ण है, जो निवेश रणनीति निर्माण और शैक्षणिक अनुसंधान दिशा को सीधे प्रभावित करता है।
- सरल और सहज FDR सीमाएं: "Easy Bound" विधि प्रस्तावित करता है, जो केवल कुछ पंक्तियों के गणित से FDR की ऊपरी सीमा का अनुमान लगा सकता है
- दृश्य सीमा विधि: "Visual Bound" विकसित करता है, जो हिस्टोग्राम विघटन के माध्यम से अधिक कसी हुई FDR सीमा प्रदान करता है
- साहित्य मध्यस्थता: मौजूदा साहित्य में विशाल अंतर वाले FDR अनुमानों को एकीकृत रूप से समझाता है, पाता है कि विसंगति मुख्य रूप से व्याख्या अंतर से उत्पन्न होती है न कि डेटा अंतर से
- अनुभवजन्य निष्कर्ष: साबित करता है कि यादृच्छिक रूप से चयनित लेखांकन अनुपात महत्वपूर्ण पूर्वानुमानयोग्यता उत्पन्न करने की संभावना सैद्धांतिक अपेक्षा से बहुत अधिक है, छोटे FDR के लिए अनुभवजन्य समर्थन प्रदान करता है
क्रॉस-सेक्शनल सिग्नल i की पूर्वानुमान क्षमता को rˉi द्वारा परिभाषित किया जाता है, आमतौर पर i के आधार पर लॉन्ग-शॉर्ट पोर्टफोलियो का निर्माण करके और नमूना माध्य रिटर्न की गणना करके प्राप्त किया जाता है। शून्य परिकल्पना E(rˉi)=0 है।
- ti≡rˉi/SEi t-सांख्यिकी है
- शून्य परिकल्पना के तहत: ti∣nulli∼Normal(0,1)
- खोज परिभाषा: ∣ti∣>2 (5% महत्व स्तर के अनुरूप)
- FDR परिभाषा: FDR∣t∣>2≡Pr(nulli∣∣ti∣>2)
बेयस नियम लागू करके प्राप्त:
FDR∣t∣>2=Pr(∣ti∣>2)Pr(∣ti∣>2∣nulli)Pr(nulli)≤Pr(∣ti∣>2)5%
यह सीमा सहज और समझने में आसान है: यदि शून्य परिकल्पना के तहत पूंछ की संभावना (अंश) वास्तविक रूप से देखी गई पूंछ की संभावना (हर) को समझा नहीं सकती है, तो FDR बहुत छोटा होना चाहिए।
Pr(nulli) का अनुमान लगाकर सीमा को कसने के लिए:
Pr(∣ti∣<0.5)≥(0.38)Pr(nulli)
संयोजन करके अधिक कसी हुई सीमा प्राप्त करें:
FDR∣t∣>2≤[Pr(∣ti∣>2)5%][0.38Pr(∣ti∣<0.5)]
- डेटा माइनिंग अनुसंधान को सबसे खराब स्थिति परिदृश्य के रूप में उपयोग करता है
- रूढ़िवादी एक्सट्रापोलेशन विधि द्वारा अप्रकाशित परिणामों के वितरण का अनुमान लगाता है
- प्रकाशित साहित्य की सांख्यिकी पर सीधी निर्भरता से बचता है
t-सांख्यिकी हिस्टोग्राम को शून्य घटक और वैकल्पिक घटक में विघटित करता है:
Pr(∣ti∣∈b)=Pr(∣ti∣∈b∣nulli)Pr(nulli)+Pr(∣ti∣∈b∣alti)Pr(alti)
शून्य घटक को डेटा घटक से अधिक नहीं होने के लिए बाध्य करके FDR की ऊपरी सीमा का अनुमान लगाता है।
- डेटा माइनिंग सिग्नल के ∣ti∣ का हिस्टोग्राम बनाएं
- डेटा के अंदर फिट होने वाले अधिकतम शून्य वितरण हिस्टोग्राम बनाएं
- 2.0 पर एक ऊर्ध्वाधर रेखा खींचें, दाईं ओर शून्य क्षेत्र और डेटा क्षेत्र का अनुपात FDR सीमा का अनुमान लगाता है
- डेटा माइनिंग अनुसंधान:
- Yan and Zheng (2017): 18,000 लेखांकन अनुपात
- Chordia, Goyal, and Saretto (2020): लगभग 200 लेखांकन चर
- Chen, Lopez-Lira, and Zimmermann (2025): 29,000 सिग्नल
- मेटा-अनुसंधान डेटा:
- Green, Hand, Zhang (2013)
- Chen, Zimmermann (2020): 77 प्रकाशित पूर्वानुमान कारक
- Harvey, Liu, Zhu (2016)
- McLean, Pontiff (2016)
- Jensen, Kelly, Pedersen (2021)
- Jacobs, Muller (2020)
- FDR सीमा: झूठी खोज दर की ऊपरी सीमा अनुमान
- महत्वपूर्ण अनुपात: ∣ti∣>2 वाले सिग्नल का अनुपात
- छोटी t-सांख्यिकी अनुपात: ∣ti∣<0.5 वाले सिग्नल का अनुपात
- समान भारित और मूल्य-भारित पोर्टफोलियो का उपयोग करता है
- विभिन्न कारक मॉडल समायोजन पर विचार करता है (CAPM, FF3, FF3+गति)
- मानक त्रुटियों की गणना के लिए Fama-French क्लस्टर बूटस्ट्रैप का उपयोग करता है
नौ अध्ययनों में से आठ के आधार पर, FDR ≤ 25%:
- डेटा माइनिंग अनुसंधान में कम से कम 20% लेखांकन अनुपात ∣ti∣>2 उत्पन्न करते हैं
- सूत्र लागू करके: FDR∣t∣>2≤5%/0.20=25%
CLZ डेटा का उपयोग करके अधिक सटीक अनुमान:
- 29,000 सिग्नल में से 9,700 ∣ti∣>2 को संतुष्ट करते हैं, 6,300 ∣ti∣<0.5 को संतुष्ट करते हैं
- प्राप्त: FDR∣t∣>2≤8.5%, अर्थात कम से कम 91.5% खोजें सत्य हैं
| भार विधि | कारक समायोजन | FDR ऊपरी सीमा | महत्वपूर्ण अनुपात |
|---|
| समान भार | मूल रिटर्न | 8.6% | 32.7% |
| समान भार | FF3 | 7.3% | 34.9% |
| मूल्य भार | CAPM | 19.0% | 17.9% |
| मूल्य भार | FF3+गति | 41.7% | 10.5% |
- भार विधि प्रभाव: मूल्य भार महत्वपूर्ण अनुपात को काफी कम करता है, FDR सीमा बढ़ाता है
- कारक समायोजन प्रभाव: FF3+गति समायोजन मूल्य-भारित पोर्टफोलियो पर सबसे बड़ा प्रभाव डालता है
- डेटासेट मजबूती: तीन स्वतंत्र अनुसंधान दलों के डेटा माइनिंग परिणाम सुसंगत हैं
- Harvey, Liu, Zhu (2016): खोजों को पुनः व्याख्यायित करता है कि FDR केवल 12% है, न कि मूल पाठ द्वारा दावा किए गए "अधिकांश खोजें झूठी हैं"
- Harvey and Liu (2020): 0.1% की "सच्ची" रणनीति वास्तव में सबसे चरम मूल्य-भारित FF3+गति विनिर्देश के चयन के अनुरूप है
- Chordia, Goyal, Saretto (2020): 45% की FDR अनुमान कैलिब्रेशन में छोटी t-सांख्यिकी जानकारी को नजरअंदाज करने से उत्पन्न होती है
- Benjamini and Hochberg (1995): शास्त्रीय FDR नियंत्रण विधि
- Storey (2002): प्रत्यक्ष FDR अनुमान विधि
- Sorić (1989): FDR अवधारणा का सबसे पहला उल्लेख
- Green, Hand, Zhang (2013): क्रॉस-सेक्शनल रिटर्न पूर्वानुमान सर्वेक्षण
- McLean and Pontiff (2016): नमूना-बाहर क्षय अनुसंधान
- Chen and Zimmermann (2022): खुला स्रोत क्रॉस-सेक्शनल संपत्ति मूल्य निर्धारण
- Harvey, Liu, Zhu (2016): वित्तीय अर्थशास्त्र में बहुविध परीक्षण समस्या
- Chen (2024): क्या t-सांख्यिकी सीमा बढ़ाने की आवश्यकता है इस पर चर्चा
- छोटा FDR: क्रॉस-सेक्शनल पूर्वानुमानयोग्यता साहित्य में कम से कम 75% दावा की गई खोजें सत्य हैं (FDR ≤ 25%)
- अधिक सटीक अनुमान: छोटी t-सांख्यिकी जानकारी पर विचार करने के बाद, कम से कम 91% खोजें सत्य हैं (FDR ≤ 9%)
- साहित्य मध्यस्थता: विभिन्न FDR अनुमान मुख्य रूप से व्याख्या अंतर से उत्पन्न होते हैं, न कि डेटा या विधि अंतर से
- अनुभवजन्य समर्थन: यादृच्छिक लेखांकन अनुपात की उच्च महत्वपूर्ण दर छोटे FDR के लिए प्रत्यक्ष साक्ष्य प्रदान करती है
- सांख्यिकीय बनाम आर्थिक महत्व: "सच्ची खोजें" केवल सांख्यिकीय रूप से महत्वपूर्ण और गैर-शून्य अल्फा को संदर्भित करती हैं, लेनदेन लागत, सूचना लागत आदि आर्थिक कारकों पर विचार नहीं करती हैं
- नमूना-बाहर प्रदर्शन: सांख्यिकीय सच्चाई आर्थिक व्यवहार्यता के बराबर नहीं है
- संरचनात्मक परिवर्तन: पूर्वानुमानयोग्यता पर बाजार संरचना परिवर्तन के प्रभाव पर पर्याप्त विचार नहीं किया गया है
- डेटा माइनिंग धारणा: मानता है कि अनुसंधान प्रक्रिया यादृच्छिक डेटा माइनिंग की तुलना में अधिक झूठी खोज दर उत्पन्न नहीं करेगी
- आर्थिक महत्व: लेनदेन लागत और बाजार घर्षण के साथ आर्थिक मूल्य का मूल्यांकन करना
- गतिशील FDR: समय-परिवर्तनशील पूर्वानुमानयोग्यता और बाजार स्थितियों पर विचार करना
- कारण अनुमान: पूर्वानुमान संबंध से कारण संबंध तक विस्तार करना
- मशीन लर्निंग विधियां: उच्च-आयामी सेटिंग में FDR नियंत्रण
- विधि सरलता: Easy Bound विधि अत्यंत सरल है, केवल समेकित सांख्यिकी की आवश्यकता है
- उच्च सहजता: Visual Bound हिस्टोग्राम विघटन की सहज व्याख्या प्रदान करता है
- अनुभवजन्य मजबूती: कई स्वतंत्र अनुसंधान दलों के सुसंगत परिणामों पर आधारित है
- साहित्य योगदान: दीर्घकालीन FDR अनुमान विसंगति को सफलतापूर्वक मध्यस्थता करता है
- सैद्धांतिक दृढ़ता: संभाव्यता सिद्धांत के मूल सिद्धांतों पर आधारित, गणितीय व्युत्पत्ति कठोर है
- रूढ़िवादिता: सीमा विधि संभवतः बहुत रूढ़िवादी है, वास्तविक FDR छोटा हो सकता है
- स्वतंत्रता धारणा: हालांकि स्वतंत्रता की आवश्यकता नहीं होने का दावा करता है, लेकिन सहसंबंध अभी भी अनुमान सटीकता को प्रभावित करता है
- डेटा निर्भरता: परिणाम विशिष्ट डेटा माइनिंग अनुसंधान की गुणवत्ता और प्रतिनिधित्व पर निर्भर करते हैं
- समय स्थिरता: समय के साथ FDR में परिवर्तन पर पर्याप्त चर्चा नहीं की गई है
- आर्थिक व्याख्या: सांख्यिकीय महत्व और आर्थिक महत्व के संबंध पर गहन चर्चा की कमी है
- शैक्षणिक मूल्य: वित्तीय विसंगति साहित्य के लिए महत्वपूर्ण सांख्यिकीय विश्वसनीयता मूल्यांकन प्रदान करता है
- व्यावहारिक महत्व: निवेशकों और नियामकों को कारक प्रभावशीलता के संदर्भ प्रदान करता है
- पद्धति योगदान: सरल प्रभावी FDR सीमा विधि अन्य क्षेत्रों में सामान्यीकृत की जा सकती है
- नीति प्रभाव: वित्तीय बाजार दक्षता और विसंगति स्थिरता की समझ को प्रभावित करता है
- शैक्षणिक अनुसंधान: नई खोजी गई कारकों की सांख्यिकीय विश्वसनीयता का मूल्यांकन करना
- निवेश अभ्यास: सांख्यिकीय समर्थन वाली निवेश रणनीतियों को फ़िल्टर करना
- नियामक नीति: बाजार विसंगतियों के व्यवस्थित जोखिम का मूल्यांकन करना
- जोखिम प्रबंधन: कारक जोखिम के सांख्यिकीय आधार को समझना
यह पेपर 22 महत्वपूर्ण संदर्भों का हवाला देता है, जो FDR पद्धति, वित्तीय विसंगति खोज, बहुविध परीक्षण नियंत्रण आदि मुख्य क्षेत्रों के शास्त्रीय और अग्रणी अनुसंधान को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और अनुभवजन्य समर्थन प्रदान करता है।
समग्र मूल्यांकन: यह वित्तीय अर्थमिति क्षेत्र में एक महत्वपूर्ण योगदान वाला पेपर है, जो सरल और सुरुचिपूर्ण विधि के माध्यम से दीर्घकालीन विवादास्पद समस्या को हल करता है, वित्तीय विसंगति साहित्य की सांख्यिकीय विश्वसनीयता को समझने के लिए नया दृष्टिकोण और उपकरण प्रदान करता है।