2025-11-25T22:55:18.828107

Inference on effect size after multiple hypothesis testing

Dzemski, Okui, Wang

Significant treatment effects are often emphasized when interpreting and summarizing empirical findings in studies that estimate multiple, possibly many, treatment effects. Under this kind of selective reporting, conventional treatment effect estimates may be biased and their corresponding confidence intervals may undercover the true effect sizes. We propose new estimators and confidence intervals that provide valid inferences on the effect sizes of the significant effects after multiple hypothesis testing. Our methods are based on the principle of selective conditional inference and complement a wide range of tests, including step-up tests and bootstrap-based step-down tests. Our approach is scalable, allowing us to study an application with over 370 estimated effects. We justify our procedure for asymptotically normal treatment effect estimators. We provide two empirical examples that demonstrate bias correction and confidence interval adjustments for significant effects. The magnitude and direction of the bias correction depend on the correlation structure of the estimated effects and whether the interpretation of the significant effects depends on the (in)significance of other effects.

academic

बहुविध परिकल्पना परीक्षण के बाद प्रभाव आकार पर अनुमान

मूल जानकारी

पेपर ID: 2503.22369
शीर्षक: बहुविध परिकल्पना परीक्षण के बाद प्रभाव आकार पर अनुमान
लेखक: Andreas Dzemski (गोथेनबर्ग विश्वविद्यालय), Ryo Okui (टोक्यो विश्वविद्यालय), Wenjie Wang (नानयांग तकनीकी विश्वविद्यालय)
वर्गीकरण: econ.EM math.ST stat.TH
प्रकाशन समय: 14 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2503.22369

सारांश

बहुविध उपचार प्रभावों के अनुमान वाले अध्ययनों में, सांख्यिकीय रूप से महत्वपूर्ण उपचार प्रभाव अक्सर अनुभवजन्य निष्कर्षों की व्याख्या और सारांश में जोर दिए जाते हैं। इस चयनात्मक रिपोर्टिंग के तहत, पारंपरिक उपचार प्रभाव अनुमान पूर्वाग्रहपूर्ण हो सकते हैं, और उनके संबंधित विश्वास अंतराल वास्तविक प्रभाव आकार को पर्याप्त रूप से कवर नहीं कर सकते हैं। यह पेपर नए अनुमानक और विश्वास अंतराल प्रस्तावित करता है जो बहुविध परिकल्पना परीक्षण के बाद महत्वपूर्ण प्रभावों के प्रभाव आकार के लिए प्रभावी अनुमान प्रदान करते हैं। विधि चयनात्मक सशर्त अनुमान सिद्धांत पर आधारित है, जो step-up परीक्षणों और bootstrap-आधारित step-down परीक्षणों सहित परीक्षण विधियों की एक विस्तृत श्रृंखला पर लागू होती है। यह विधि स्केलेबल है और 370 से अधिक अनुमानित प्रभावों वाले अनुप्रयोगों का अध्ययन कर सकती है। लेखक渐近सामान्य उपचार प्रभाव अनुमानकों के लिए प्रक्रिया की वैधता साबित करते हैं और महत्वपूर्ण प्रभावों के पूर्वाग्रह सुधार और विश्वास अंतराल समायोजन को प्रदर्शित करने के लिए दो अनुभवजन्य उदाहरण प्रदान करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की महत्ता

अर्थशास्त्र, चिकित्सा, मनोविज्ञान और अन्य क्षेत्रों के अनुभवजन्य अनुसंधान में, शोधकर्ताओं को अक्सर कई उपचार प्रभावों का अनुमान लगाने की आवश्यकता होती है। ये प्रभाव विभिन्न परिणाम चर, हस्तक्षेप प्रकार या जनसंख्या उप-समूहों से आ सकते हैं। बहुविध परिकल्पना परीक्षण प्रक्रिया के माध्यम से, शोधकर्ता इन प्रभावों को सांख्यिकीय रूप से महत्वपूर्ण या गैर-महत्वपूर्ण के रूप में वर्गीकृत करते हैं, फिर महत्वपूर्ण प्रभावों की व्यावहारिक महत्ता पर ध्यान केंद्रित करते हैं।

मौजूदा विधियों की सीमाएं

जब शोधकर्ता अपना ध्यान महत्वपूर्ण प्रभावों तक सीमित करते हैं, तो इन प्रभावों के अनुमान परिमाण चयन पूर्वाग्रह से प्रभावित होते हैं, जो पारंपरिक सांख्यिकीय अनुमान विधियों को अमान्य करता है। विशेष रूप से:

चयन पूर्वाग्रह: महत्वपूर्ण प्रभाव अक्सर सकारात्मक रूप से चयनित होते हैं ("विजेता का श्राप"), उनका परिमाण अधिक अनुमानित होता है
अपर्याप्त विश्वास अंतराल कवरेज: पारंपरिक विश्वास अंतराल प्रभावी सांख्यिकीय कवरेज प्रदान नहीं कर सकते
पूर्वाग्रह सुधार की कमी: मौजूदा विधियों में चयन के बाद प्रभाव आकार के लिए निष्पक्ष अनुमान की कमी है

अनुसंधान प्रेरणा

पेपर मानता है कि चयनात्मक सारांश और व्याख्या से बचना समस्या को हल नहीं करता है, बल्कि केवल समग्र परिणामों के बोझ को पाठकों को स्थानांतरित करता है, जो अभी भी चयनात्मक अनुमान समस्या का सामना करते हैं। इसलिए, बहुविध परिकल्पना परीक्षण के बाद अनुमान समस्याओं को संभालने के लिए विशेष सांख्यिकीय विधियों को विकसित करने की आवश्यकता है।

मुख्य योगदान

चयनात्मक सशर्त अनुमान पर आधारित नई विधि प्रस्तावित की: बहुविध परिकल्पना परीक्षण के बाद महत्वपूर्ण प्रभावों के प्रभाव आकार के लिए प्रभावी बिंदु अनुमान और विश्वास अंतराल प्रदान करता है
कुशल कम्प्यूटेशनल एल्गोरिदम विकसित किए: O(m³logm) समय जटिलता वाला एल्गोरिदम प्रस्तावित किया, जो विधि को सैकड़ों प्रभावों के अनुप्रयोगों तक विस्तारित करने में सक्षम बनाता है
स्पर्शोन्मुख सिद्धांत स्थापित किया: स्पर्शोन्मुख सामान्य उपचार प्रभाव अनुमानकों के तहत प्रक्रिया की सुसंगत स्पर्शोन्मुख दक्षता साबित की
व्यापक प्रयोज्यता प्रदान की: विधि कई बहुविध परीक्षण प्रक्रियाओं पर लागू होती है, जिसमें step-down और step-up परीक्षण शामिल हैं
व्यावहारिक अनुप्रयोग मूल्य प्रदर्शित किया: दो अनुभवजन्य अनुप्रयोगों के माध्यम से विधि की प्रभावशीलता और व्यावहारिकता सत्यापित की

विधि विवरण

कार्य परिभाषा

m उपचार प्रभाव पैरामीटर θ = (θ₁, ..., θₘ)' और उनके अनुमानक θ̂ दिए गए हैं, बहुविध परिकल्पना परीक्षण के माध्यम से महत्वपूर्ण प्रभाव सेट Ŝ निर्धारित करने के बाद, महत्वपूर्ण प्रभावों के वास्तविक प्रभाव आकार पर निष्पक्ष अनुमान प्रदान करना।

मुख्य विधि ढांचा

1. मूल सेटअप

मान लीजिए θ̂ ~ N(θ, V), जहाँ V ज्ञात सहप्रसरण मैट्रिक्स है
t सांख्यिकी: X = diag⁻¹/²(v)θ̂, जहाँ v V के विकर्ण तत्व हैं
महत्वपूर्ण प्रभाव step-down या step-up प्रक्रिया द्वारा निर्धारित: प्रभाव h महत्वपूर्ण है जब |Xₕ| ≥ x̄ₕ

2. सशर्त अनुमान विधि

महत्वपूर्ण प्रभाव s ∈ S के लिए, X को विघटित करें:

X = Ω•,sXs + Z⁽ˢ⁾

जहाँ Z⁽ˢ⁾ = X - Ω•,sXs Xs से स्वतंत्र है।

मुख्य नवाचार सशर्त वितरण फलन में है:

Fs(xs | z, θs, S) = ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} 1{ξ + V⁻¹/²s,sθs ≤ xs} dΦ(ξ) / ∫{ξ∈ℝ:ξ+V⁻¹/²s,sθs∈Xs(z,S)} dΦ(ξ)

3. अनुमानक और विश्वास अंतराल

सशर्त माध्यिका निष्पक्ष अनुमानक: θ̃ᵘᵇₛ = θ̃ₛ⁽⁰·⁵⁾, जहाँ θ̃ₛ⁽ᵖ⁾ Fs(Xs | Z⁽ˢ⁾, θ̃ₛ⁽ᵖ⁾, S) = p को संतुष्ट करता है
सशर्त विश्वास अंतराल: θ̃ₛ⁽¹⁻α/²⁾, θ̃ₛ⁽α/²⁾

तकनीकी नवाचार बिंदु

1. कुशल एल्गोरिदम डिजाइन

पारंपरिक विधियों को जटिल चयन घटना X(S) की सीधी गणना की आवश्यकता होती है, यह पेपर निम्नलिखित नवाचार के माध्यम से इससे बचता है:

एल्गोरिदम 2: सशर्त समर्थन की गणना

(A) रैखिक फलन xz,h(xs) के सभी प्रतिच्छेदन बिंदुओं को खोजकर अंतराल I खोजें
(B) प्रत्येक अंतराल I के लिए:
    i. क्रमबद्ध क्रमचय σ*I खोजें
    ii. अंतराल सीमाएं ℓ(I) और u(I) की गणना करें
(C) ∪I I ∩ [ℓ(I), u(I)] लौटाएं

2. बहुविध परीक्षण प्रक्रियाओं का एकीकृत उपचार

विधि कई परीक्षण प्रक्रियाओं का समर्थन करती है:

Step-down प्रक्रिया: Bonferroni, Holm, Romano-Wolf आदि
Step-up प्रक्रिया: Benjamini-Hochberg, Benjamini-Yekutieli आदि

3. चयन घटना की लचकदार परिभाषा

दो मुख्य चयन घटनाएं प्रदान करता है:

Ŝ = S: अवलोकित महत्व पैटर्न पर पूर्ण सशर्त
Ŝ ⊇ S: केवल विशिष्ट प्रभाव के महत्वपूर्ण पाए जाने पर सशर्त

प्रायोगिक सेटअप

मोंटे कार्लो सिमुलेशन

डेटा सेटअप

प्रभावों की संख्या: m = 5
वास्तविक पैरामीटर: θ = (0.05, 0.03, 0.01, 0, 0)'
नमूना आकार: n ∈ {100, 300, 500, 700, 900}
सहसंबंध: ρ = 0.5
परीक्षण प्रक्रिया: Holm step-down, FWER = 10%

दो डिजाइन

सामान्य डिजाइन: Yᵢ ~ बहुविध सामान्य वितरण
ची-वर्ग डिजाइन: Yᵢₖ = (U²ᵢₖ-1)/√2 + θₖ, जहाँ Uᵢ ~ बहुविध सामान्य

अनुभवजन्य अनुप्रयोग

अनुप्रयोग 1: दान अनुसंधान

डेटा स्रोत: Karlan and List (2007) का मिलान दान प्रयोग
प्रभावों की संख्या: 4 परिणाम चर के उपचार प्रभाव
परीक्षण प्रक्रिया: Bonferroni, Holm, Romano-Wolf (RW2005)

अनुप्रयोग 2: म्यूचुअल फंड प्रदर्शन

डेटा स्रोत: CRSP म्यूचुअल फंड डेटाबेस, जनवरी 2000 - अप्रैल 2024
प्रभावों की संख्या: 371 फंड के अल्फा अनुमान
मॉडल: Fama-French पाँच-कारक मॉडल
परीक्षण प्रक्रिया: Holm (FWER नियंत्रण) और Benjamini-Yekutieli (FDR नियंत्रण)

प्रायोगिक परिणाम

मोंटे कार्लो सिमुलेशन परिणाम

कवरेज दर प्रदर्शन

सशर्त विश्वास अंतराल: सभी डिजाइन और नमूना आकारों में नाममात्र 90% कवरेज दर के करीब
पारंपरिक विश्वास अंतराल: गंभीर कवरेज अपर्याप्तता, विशेष रूप से कम चयन आवृत्ति पर
Bonferroni अंतराल: बड़े नमूने पर नाममात्र कवरेज दर तक पहुंचता है लेकिन अत्यधिक रूढ़िवादी

अंतराल लंबाई तुलना

सशर्त अंतराल पारंपरिक अंतराल से अधिक चौड़े हैं, लेकिन Bonferroni अंतराल से काफी छोटे हैं, दक्षता लाभ दिखाते हैं।

पूर्वाग्रह सुधार प्रभाव

सशर्त माध्यिका निष्पक्ष अनुमानक पारंपरिक अनुमानक के सशर्त पूर्वाग्रह (जैसे सामान्य डिजाइन में n=100 पर 0.084) को -0.015 तक कम करता है।

अनुभवजन्य अनुप्रयोग परिणाम

दान अनुप्रयोग

मुख्य निष्कर्ष:

प्रतिक्रिया दर और मिलान के साथ दान की राशि तीनों प्रक्रियाओं के तहत महत्वपूर्ण हैं
पूर्वाग्रह सुधार की दिशा और परिमाण सहसंबंध संरचना पर निर्भर करता है
"मिलान के साथ दान की राशि" के लिए, Holm और Bonferroni परीक्षणों के तहत ऊपर की ओर सुधार होता है, जो अत्यधिक सहसंबद्ध "मिलान के बिना दान की राशि" के गैर-महत्वपूर्ण होने से संबंधित है

म्यूचुअल फंड अनुप्रयोग

मुख्य परिणाम:

371 फंडों में से 5 फंड सकारात्मक अल्फा के साथ महत्वपूर्ण पाए गए
सशर्त माध्यिका निष्पक्ष अनुमान बिना शर्त अनुमान से थोड़ा छोटा है
सशर्त विश्वास अंतराल बिना शर्त अंतराल से 12-36% छोटे हैं
5 फंडों में से 4 के संयुक्त सशर्त विश्वास अंतराल की निचली सीमा 0.135 से अधिक है, जो आर्थिक रूप से सार्थक अतिरिक्त प्रदर्शन दर्शाता है

सैद्धांतिक परिणाम

मुख्य प्रमेय

प्रमेय 1 (माध्यिका निष्पक्षता)

P(θ̃ᵘᵇₛ ≥ θₓ | Ŝ = S) = P(θ̃ᵘᵇₛ ≤ θₛ | Ŝ = S) = 0.5

प्रमेय 2 (विश्वास सेट वैधता)

P(θₛ ∈ CCIα(θₛ | S) | Ŝ = S) = 1 - α

प्रमेय 5-6 (स्पर्शोन्मुख गुण)

धारणा 1 के तहत, अनुमानक की स्पर्शोन्मुख माध्यिका निष्पक्षता और विश्वास अंतराल की स्पर्शोन्मुख वैधता स्थापित की।

अभिसरण परिणाम

प्रमेय 4 सशर्त विश्वास अंतराल के बिना शर्त विश्वास अंतराल में अभिसरण के लिए पर्याप्त शर्तें देता है, जब प्रभाव "अत्यधिक महत्वपूर्ण" हों तो दोनों विधियां एक समान हो जाती हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: प्रस्तावित सशर्त अनुमान विधि सीमित नमूने में अच्छा प्रदर्शन करती है, यहां तक कि गैर-गाऊसी सेटिंग में भी चयन पूर्वाग्रह को पकड़ सकती है
कम्प्यूटेशनल व्यावहारिकता: एल्गोरिदम की बहुपद समय जटिलता विधि को सैकड़ों प्रभावों को संभालने में सक्षम बनाती है
व्यावहारिक मूल्य: दो अनुभवजन्य अनुप्रयोग दिखाते हैं कि पूर्वाग्रह सुधार की दिशा और परिमाण की भविष्यवाणी करना कठिन है, जो औपचारिक सांख्यिकीय विधि की प्रासंगिकता को उजागर करता है

सीमाएं

पूर्व-निर्दिष्ट परिकल्पना धारणा: विधि मानती है कि परीक्षण की जाने वाली परिकल्पनाओं का पूरा सेट ज्ञात है, गैर-महत्वपूर्ण परिणामों को छिपाने की स्थिति को संभाल नहीं सकती
कम्प्यूटेशनल जटिलता: हालांकि बहुपद समय है, लेकिन बहुत बड़े m के लिए अभी भी कम्प्यूटेशनल चुनौतियों का सामना कर सकता है
मॉडल धारणाएं: स्पर्शोन्मुख सामान्यता और सुसंगत अनुमानित सहप्रसरण मैट्रिक्स की आवश्यकता है

भविष्य की दिशाएं

वैकल्पिक सशर्त अनुमान प्रक्रियाएं: data carving और randomized response जैसी विधियों की खोज करें
शक्ति गुण अनुसंधान: प्रक्रिया की शक्ति विशेषताओं की जांच करें
गैर-पैरामीट्रिक विस्तार: सामान्यता धारणा को शिथिल करें

गहन मूल्यांकन

शक्तियां

सैद्धांतिक योगदान: बहुविध परिकल्पना परीक्षण के बाद अनुमान के लिए कठोर सैद्धांतिक ढांचा प्रदान करता है
विधि नवाचार: कुशल एल्गोरिदम विधि को व्यावहारिक रूप से संचालनीय बनाता है
व्यापक प्रयोज्यता: कई बहुविध परीक्षण प्रक्रियाओं और चयन घटनाओं का समर्थन करता है
अनुभवजन्य सत्यापन: सिमुलेशन और वास्तविक अनुप्रयोगों के माध्यम से विधि प्रभावशीलता को पूरी तरह सत्यापित करता है
स्पष्ट लेखन: पेपर संरचना स्पष्ट है, तकनीकी विवरण विस्तृत हैं

कमियां

कम्प्यूटेशनल जटिलता: हालांकि बहुपद समय है, लेकिन O(m³logm) अत्यधिक बड़े पैमाने की समस्याओं के लिए अभी भी बाधा हो सकता है
धारणा सीमाएं: सामान्यता धारणा और ज्ञात सहप्रसरण संरचना व्यावहारिक अनुप्रयोगों में संतुष्ट नहीं हो सकती
चयन घटना परिभाषा: विभिन्न चयन घटनाओं के चयन के लिए अधिक मार्गदर्शन की आवश्यकता है

प्रभाव

शैक्षणिक मूल्य: चयनात्मक अनुमान साहित्य में महत्वपूर्ण योगदान, विशेष रूप से बहुविध परीक्षण संदर्भ में
व्यावहारिक मूल्य: विधि अर्थशास्त्र, चिकित्सा आदि क्षेत्रों के अनुभवजन्य अनुसंधान पर सीधे लागू होती है
पुनरुत्पादनीयता: एल्गोरिदम विवरण विस्तृत हैं, सैद्धांतिक परिणाम पूर्ण हैं, अच्छी पुनरुत्पादनीयता है

प्रयोज्य परिदृश्य

यह विधि विशेष रूप से निम्नलिखित परिदृश्यों के लिए उपयुक्त है:

बहुविध उपचार प्रभाव अनुसंधान: कई हस्तक्षेप प्रभावों का एक साथ अनुमान लगाने की आवश्यकता वाले यादृच्छिक नियंत्रित परीक्षण
उप-समूह विश्लेषण: कई जनसंख्या उप-समूहों में उपचार प्रभाव का मूल्यांकन करने की आवश्यकता
बहुविध परिणाम चर: एकल हस्तक्षेप के कई परिणाम चर पर प्रभाव का मूल्यांकन
वित्तीय अनुप्रयोग: निवेश पोर्टफोलियो प्रदर्शन मूल्यांकन, जोखिम कारक विश्लेषण आदि

संदर्भ

पेपर चयनात्मक अनुमान क्षेत्र के मुख्य साहित्य को उद्धृत करता है, जिसमें Lee et al. (2016) की बहुफलकीय विधि, Fithian et al. (2017) के चयनात्मक सशर्त अनुमान सिद्धांत, और Romano and Wolf (2005) की बहुविध परीक्षण प्रक्रियाएं शामिल हैं। ये उद्धरण इस क्षेत्र में पेपर की गहराई और व्यापकता को प्रदर्शित करते हैं।