2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, SchrÃ¶der, Frauen et al.

Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naÃ¯ve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.

academic

कई डेटासेट से औसत उपचार प्रभाव के लिए आत्मविश्वास अंतराल का निर्माण

मूल जानकारी

पेपर ID: 2412.11511
शीर्षक: कई डेटासेट से औसत उपचार प्रभाव के लिए आत्मविश्वास अंतराल का निर्माण
लेखक: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
वर्गीकरण: cs.LG, stat.ML
प्रकाशन सम्मेलन: ICLR 2025
पेपर लिंक: https://arxiv.org/abs/2412.11511

सारांश

यह पेपर कई अवलोकनात्मक डेटासेट से औसत उपचार प्रभाव (ATE) के लिए आत्मविश्वास अंतराल बनाने की एक नई विधि प्रस्तावित करता है। यह विधि अवलोकनात्मक डेटासेट के लिए कम मान्यताएं बनाती है और चिकित्सा अभ्यास में व्यापक प्रयोज्यता रखती है। मूल विचार भविष्यवाणी-संचालित अनुमान (prediction-powered inference) का उपयोग करके आत्मविश्वास अंतराल को "सिकोड़ना" है, जो भोली विधि की तुलना में अधिक सटीक अनिश्चितता परिमाणीकरण प्रदान करता है। पेपर विधि की निष्पक्षता और आत्मविश्वास अंतराल की वैधता को साबित करता है, और संख्यात्मक प्रयोगों के माध्यम से सैद्धांतिक परिणामों को सत्यापित करता है। इसके अलावा, विधि को प्रायोगिक और अवलोकनात्मक डेटासेट के संयोजन को संभालने के लिए विस्तारित किया गया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

चिकित्सा क्षेत्र में, रोगी रिकॉर्ड से ATE के आत्मविश्वास अंतराल का निर्माण दवा की प्रभावशीलता और सुरक्षा का मूल्यांकन करने के लिए महत्वपूर्ण है। हालांकि, रोगी रिकॉर्ड आमतौर पर विभिन्न अस्पतालों से आते हैं, कई अवलोकनात्मक डेटासेट को प्रभावी ढंग से कैसे जोड़ा जाए यह एक महत्वपूर्ण चुनौती बन जाती है।

समस्या की महत्ता

चिकित्सा निर्णय की आवश्यकता: विश्वसनीय आत्मविश्वास अंतराल चिकित्सा निर्णय लेने के लिए महत्वपूर्ण हैं, जो साक्ष्य-आधारित उपचार विकल्प सुनिश्चित करते हैं
डेटा विकेंद्रीकरण: इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड आमतौर पर विभिन्न चिकित्सा संस्थानों, देशों में वितरित होते हैं, जिन्हें एकीकृत उपयोग की आवश्यकता होती है
COVID-19 मामला: महामारी के दौरान बहु-केंद्रीय डेटा से दवा के प्रभाव का तेजी से मूल्यांकन करने की आवश्यकता थी, जैसे nirmatrelvir/ritonavir अनुसंधान

मौजूदा विधियों की सीमाएं

बिंदु अनुमान की सीमा: अधिकांश बहु-डेटासेट विधियां मुख्य रूप से बिंदु अनुमान पर केंद्रित हैं, अनिश्चितता परिमाणीकरण की कमी है
भोली विधि की समस्याएं:
- डेटासेट को सीधे जोड़ने से भ्रम पूर्वाग्रह के कारण पक्षपाती अनुमान हो सकता है
- केवल छोटे डेटासेट का उपयोग बड़े डेटासेट की जानकारी को अनदेखा करता है, आत्मविश्वास अंतराल बहुत रूढ़िवादी होते हैं
मान्यता सीमाएं: मौजूदा विधियां डेटासेट के बीच संबंधों के लिए मजबूत मान्यताएं बनाती हैं

मुख्य योगदान

नवीन पद्धति: भविष्यवाणी-संचालित अनुमान पर आधारित बहु-डेटासेट ATE आत्मविश्वास अंतराल निर्माण विधि प्रस्तावित करना
सैद्धांतिक गारंटी: विधि की सुसंगत अनुमान और आत्मविश्वास अंतराल वैधता को साबित करना
व्यापक प्रयोज्यता: RCT + अवलोकनात्मक डेटासेट संयोजन परिदृश्य तक विस्तार
प्रायोगिक सत्यापन: सिंथेटिक और चिकित्सा डेटा के माध्यम से विधि की प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

छोटे निष्पक्ष अवलोकनात्मक डेटासेट D₁ (कोई भ्रम धारणा को संतुष्ट करता है) और बड़े अवलोकनात्मक डेटासेट D₂ (अप्रेक्षित भ्रम की अनुमति देता है) को देखते हुए, लक्ष्य लक्ष्य जनसंख्या के ATE τ = EY¹(1) - Y¹(0) का अनुमान लगाना और एक वैध आत्मविश्वास अंतराल बनाना है।

मूल मान्यताएं

D₁ मान्यताएं:

सुसंगतता: A¹ = a ⇒ Y¹ = Y¹(a)
अतिव्यापन: 0 < π¹(x) < 1
कोई भ्रम नहीं: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

D₂ मान्यताएं (अधिक शिथिल):

सुसंगतता और अतिव्यापन, लेकिन अप्रेक्षित भ्रम की अनुमति देता है

मॉडल आर्किटेक्चर

चार-चरणीय विधि ढांचा

चरण A: फिट का माप (Measure of Fit) D₂ पर नमूना विभाजन का उपयोग करके सशर्त औसत उपचार प्रभाव (CATE) का अनुमान लगाएं:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

चरण B: प्रभाव फ़ंक्शन अनुमान D₁ पर AIPW अनुमानक के गैर-केंद्रीकृत प्रभाव फ़ंक्शन स्कोर की गणना करें:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

चरण C: सुधारक (Rectifier) दोनों डेटासेट के बीच ATE अंतर को परिमाणित करने के लिए सुधारक को परिभाषित करें:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

चरण D: आत्मविश्वास अंतराल निर्माण भविष्यवाणी-संचालित ATE अनुमान:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

आत्मविश्वास अंतराल:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

तकनीकी नवाचार

भविष्यवाणी-संचालित अनुमान अनुकूलन: कारणात्मक अनुमान में ATE अनुमान के लिए PPI ढांचे का पहली बार अनुप्रयोग
सुधारक डिजाइन: डेटासेट के बीच वितरण अंतर और संभावित भ्रम को संभालने के लिए सुधारक का चतुराई से डिजाइन
सैद्धांतिक गारंटी:渐近वैधता प्रमाण प्रदान करता है, आत्मविश्वास अंतराल की सांख्यिकीय वैधता सुनिश्चित करता है
लचीलापन: किसी भी CATE अनुमानक का समर्थन करता है, विशिष्ट विधि तक सीमित नहीं

सैद्धांतिक विश्लेषण

प्रमेय 4.2 (आत्मविश्वास अंतराल वैधता): उपयुक्त शर्तों के तहत,

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

मुख्य लेम्मा 4.1: सुधारक की渐近सामान्यता

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

प्रायोगिक सेटअप

डेटासेट

सिंथेटिक डेटा:

गॉसियन प्रक्रिया-आधारित डेटा जनरेशन तंत्र
तीन भ्रम परिदृश्य: हल्का, मध्यम, गंभीर भ्रम
सहसंयोजक आयाम और नमूना आकार को नियंत्रित करने योग्य

चिकित्सा डेटा:

MIMIC-III: ICU रोगियों पर यांत्रिक वेंटिलेशन का लाल रक्त कोशिका गणना पर प्रभाव
ब्राजील COVID-19: COVID-19 रोगियों में सहरुग्णता का मृत्यु दर पर प्रभाव

मूल्यांकन मेट्रिक्स

आत्मविश्वास अंतराल चौड़ाई: अनिश्चितता परिमाणीकरण सटीकता को मापता है
कवरेज दर: आत्मविश्वास अंतराल सांख्यिकीय वैधता को सत्यापित करता है
RMSE: बिंदु अनुमान सटीकता का मूल्यांकन करता है

तुलनात्मक विधियां

τ̂ᴬᴵᴾᵂ(D₁ only): केवल छोटे डेटासेट का उपयोग करने वाली भोली आधारभूत विधि
τ̂ᴬᴵᴾᵂ(D₂ only): केवल बड़े डेटासेट का उपयोग (पक्षपाती अनुमान)
A-TMLE: van der Laan आदि की विधि (RCT + अवलोकनात्मक डेटा)

कार्यान्वयन विवरण

CATE अनुमान के लिए DR-learner
हस्तक्षेप फ़ंक्शन अनुमान के लिए रैखिक/लॉजिस्टिक प्रतिगमन
अतिफिटिंग से बचने के लिए क्रॉस-फिटिंग
5 यादृच्छिक बीजों पर औसत परिणाम

प्रायोगिक परिणाम

मुख्य परिणाम

सिंथेटिक डेटा प्रदर्शन:

वैधता: आत्मविश्वास अंतराल हमेशा सच्चे ATE को कवर करता है
सटीकता में सुधार: भोली विधि की तुलना में, CI चौड़ाई में औसतन 49.99%-55.37% की कमी
स्थिरता: विभिन्न भ्रम शक्तियों के तहत उत्कृष्ट प्रदर्शन बनाए रखता है

चिकित्सा डेटा सत्यापन:

MIMIC-III: CI चौड़ाई में लगभग 3.5 गुना कमी
COVID-19 डेटा: विभिन्न विभाजन रणनीतियों के तहत उत्कृष्ट प्रदर्शन
न्यूनतम RMSE और सबसे संकीर्ण वैध आत्मविश्वास अंतराल

संवेदनशीलता विश्लेषण

डेटासेट आकार प्रभाव:

N≫n होने पर लाभ अधिक स्पष्ट होता है
D₁ बढ़ने के साथ, सुधार का आयाम धीरे-धीरे कम हो जाता है (अपेक्षित)

उच्च-आयामी सेटिंग:

5-आयामी, 50-आयामी, 500-आयामी सहसंयोजक स्थान में लाभ बनाए रखता है
उच्च-आयामी सेटिंग में विधि की मजबूती साबित करता है

विभिन्न मॉडल आर्किटेक्चर:

तंत्रिका नेटवर्क, XGBoost आदि कई आधार मॉडल का समर्थन करता है
विधि की सार्वभौमिकता प्रदर्शित करता है

RCT + अवलोकनात्मक डेटा विस्तार

IPW आधारित विधि:

ज्ञात प्रवृत्ति स्कोर का उपयोग करके अनुमान को सरल बनाता है
A-TMLE की तुलना में अधिक स्थिर, मैट्रिक्स व्युत्क्रम की संख्यात्मक समस्याओं से बचता है

प्रदर्शन तुलना:

सच्चे ATE को लगातार कवर करता है
आधारभूत विधियों की तुलना में CI चौड़ाई में महत्वपूर्ण कमी
मजबूत भ्रम परिदृश्य में भी वैधता बनाए रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

PPI ढांचे को बहु-डेटासेट कारणात्मक अनुमान तक सफलतापूर्वक विस्तारित किया
सैद्धांतिक गारंटी के साथ वैध आत्मविश्वास अंतराल प्रदान करता है
भोली विधि की तुलना में सटीकता में महत्वपूर्ण सुधार
चिकित्सा डेटा पर व्यावहारिकता को सत्यापित करता है

सीमाएं

मान्यता निर्भरता: D₁ की कोई भ्रम नहीं मान्यता व्यावहारिक रूप से उल्लंघन हो सकती है
वितरण मान्यता: सीमांत सहसंयोजक वितरण समान होने की मान्यता
नमूना विभाजन: प्रभावी विभाजन के लिए पर्याप्त बड़े D₂ की आवश्यकता

भविष्य की दिशाएं

CATE तक विस्तार: विधि को विषम उपचार प्रभाव तक विस्तारित करना
जीवन विश्लेषण: कारणात्मक जीवन विश्लेषण पर लागू करना
बड़े भाषा मॉडल एकीकरण: पाठ प्रतिनिधित्व के लिए पूर्व-प्रशिक्षित मॉडल को जोड़ना
संवेदनशीलता विश्लेषण: मान्यता उल्लंघन के लिए मजबूत विधियां विकसित करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता: पूर्ण渐近सैद्धांतिक विश्लेषण और वैधता प्रमाण प्रदान करता है
व्यावहारिक मूल्य: चिकित्सा अभ्यास में वास्तविक आवश्यकता को हल करता है
विधि सार्वभौमिकता: कई CATE अनुमानकों का समर्थन करता है, उच्च लचीलापन
पर्याप्त प्रयोग: सिंथेटिक और वास्तविक डेटा को कवर करता है, कई संवेदनशीलता विश्लेषण

कमियां

मान्यता सीमाएं: कोई भ्रम नहीं मान्यता व्यावहारिक अनुप्रयोग में मजबूत है
कम्प्यूटेशनल जटिलता: क्रॉस-फिटिंग और नमूना विभाजन कम्प्यूटेशनल लागत बढ़ाते हैं
सीमित विस्तार: मुख्य रूप से द्विआधारी उपचार के लिए, निरंतर उपचार विस्तार अस्पष्ट है

प्रभाव

शैक्षणिक योगदान: कारणात्मक अनुमान के लिए PPI का पहली बार अनुप्रयोग, नई अनुसंधान दिशा खोलता है
व्यावहारिक मूल्य: चिकित्सा निर्णय के लिए अधिक विश्वसनीय सांख्यिकीय उपकरण प्रदान करता है
पुनरुत्पादनीयता: खुला स्रोत कोड प्रदान करता है, सत्यापन और अनुप्रयोग को सुविधाजनक बनाता है

प्रयोज्य परिदृश्य

बहु-केंद्रीय चिकित्सा अनुसंधान: विभिन्न अस्पतालों के रोगी डेटा को एकीकृत करना
दवा सुरक्षा मूल्यांकन: RCT और वास्तविक दुनिया डेटा को जोड़ना
स्वास्थ्य नीति निर्माण: बहु-स्रोत डेटा पर आधारित साक्ष्य-आधारित निर्णय
नियामक अनुमोदन: दवा अनुमोदन के लिए सांख्यिकीय साक्ष्य प्रदान करना

संदर्भ

Angelopoulos et al. (2023). Prediction-powered inference. Science.
van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
Yang & Ding (2020). Combining multiple observational data sources. JASA.

समग्र मूल्यांकन: यह कारणात्मक अनुमान का एक उच्च-गुणवत्ता वाला पेपर है, जो भविष्यवाणी-संचालित अनुमान ढांचे को बहु-डेटासेट ATE अनुमान समस्या पर सफलतापूर्वक लागू करता है। पेपर की सैद्धांतिक नींव मजबूत है, प्रायोगिक डिजाइन तर्कसंगत है, और चिकित्सा अनुप्रयोग में महत्वपूर्ण व्यावहारिक मूल्य है। हालांकि कुछ मान्यता सीमाएं हैं, लेकिन समग्र योगदान महत्वपूर्ण है, कारणात्मक अनुमान क्षेत्र के लिए नई पद्धतिगत उपकरण प्रदान करता है।