Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
बाहरी डोमेन में परिणामों की भविष्यवाणी करना चुनौतीपूर्ण है, क्योंकि छिपे हुए भ्रम कारक भविष्यसूचक चर और परिणाम चर दोनों को प्रभावित कर सकते हैं। मौजूदा विधियां आमतौर पर कठोर मान्यताओं, डोमेन के बीच वितरण बदलाव की स्पष्ट समझ, या सामान्यीकरण क्षमता बढ़ाने के लिए पूर्वाग्रह पेश करने वाली नियमितकरण योजनाओं पर निर्भर करती हैं। हालांकि छिपे हुए भ्रम के तहत बिंदु भविष्यवाणी विधियां इन कमियों को कम करने का प्रयास करती हैं, लेकिन आमतौर पर सिद्धांतबद्ध अनिश्चितता परिमाणीकरण प्रदान करने में विफल रहती हैं। यह पेपर एक बेयसियन ढांचा प्रस्तुत करता है जो बाहरी डोमेन में अच्छी तरह से अंशांकित भविष्यसूचक वितरण उत्पन्न कर सकता है, प्रभावी मॉडल अनुमान का समर्थन करता है, और अवलोकन डेटासेट की संख्या बढ़ने के साथ सुधार होने वाली पश्चवर्ती संकुचन दर प्राप्त करता है। सिमुलेशन प्रयोग और चिकित्सा अनुप्रयोग विधि के महत्वपूर्ण अनुभवजन्य कवरेज को उजागर करते हैं, जो निम्न-आयामी से मध्यम-आयामी सेटिंग्स में लगभग अपरिवर्तित रहता है।
इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या है: छिपे हुए भ्रम कारकों की उपस्थिति में, वितरण बदलाव वाले बाहरी डोमेन में विश्वसनीय संभाव्य भविष्यवाणी कैसे करें और अंशांकित अनिश्चितता परिमाणीकरण कैसे प्रदान करें।
वितरण बदलाव की व्यापकता: मशीन लर्निंग अनुप्रयोगों में प्रशिक्षण डोमेन और परीक्षण डोमेन वितरण की असंगति अक्सर देखी जाती है, जो मानक iid धारणा को चुनौती देती है
छिपे हुए भ्रम का प्रभाव: अनुपलब्ध भ्रम चर भविष्यसूचक चर X और परिणाम चर Y दोनों को प्रभावित करते हैं, जिससे पारंपरिक विधियां विफल हो जाती हैं
अनिश्चितता परिमाणीकरण की आवश्यकता: मौजूदा विधियां मुख्य रूप से बिंदु भविष्यवाणी पर ध्यान केंद्रित करती हैं, सिद्धांतबद्ध अनिश्चितता परिमाणीकरण तंत्र की कमी है
वितरण-मजबूत अनुकूलन: मिनिमैक्स अनुकूलन का उपयोग करता है, लेकिन मजबूती बढ़ाने के लिए पूर्वाग्रह पेश करने की आवश्यकता है
कारणात्मक अपरिवर्तनीयता विधियां: जैसे एंकर प्रतिगमन, कठोर अपरिवर्तनीयता मान्यताओं पर निर्भर करते हैं, छिपे हुए भ्रम की उपस्थिति में आसानी से उल्लंघन होता है
अनुरूप भविष्यवाणी: भविष्यवाणी अंतराल प्रदान कर सकते हैं, लेकिन वितरण बदलाव की सीमित हैंडलिंग है
मौजूदा कारणात्मक विधियां: मुख्य रूप से बिंदु अनुमान प्रदान करती हैं, अनिश्चितता परिमाणीकरण की कमी है
लेखक पिछले Generative Invariance (GI) कार्य के आधार पर, एक एकीकृत बेयसियन ढांचा बनाने का लक्ष्य रखते हैं जो कारणात्मक खोज और अंशांकित भविष्यवाणी दोनों दीर्घकालीन चुनौतीपूर्ण समस्याओं को हल करे।
पहला बेयसियन ढांचा: छिपे हुए भ्रम के तहत संभाव्य भविष्यवाणी के लिए एक संपूर्ण बेयसियन ढांचा प्रस्तावित करता है, जो कारणात्मक खोज और भविष्यवाणी दोनों को एक साथ कर सकता है
सैद्धांतिक गारंटियां: पश्चवर्ती संगति, संकुचन दर और Bernstein-von Mises प्रमेय स्थापित करता है, विधि के स्पर्शोन्मुख गुणों को सिद्ध करता है
परिकल्पना परीक्षण क्षमता: रैखिक संरचनात्मक समीकरण मॉडल में यह परीक्षण करने के लिए पहली गणनीय परिकल्पना परीक्षण विधि प्रदान करता है कि क्या कोई चर लक्ष्य प्रतिक्रिया का माता-पिता है
अंशांकित भविष्यवाणी: वितरण बदलाव डोमेन में अच्छी तरह से अंशांकित भविष्यवाणी प्राप्त करता है, कवरेज सैद्धांतिक स्तर के करीब है
पहचान योग्यता स्पेक्ट्रम: पहली बार स्पष्ट रूप से कमजोर पहचान योग्यता को स्पर्शोन्मुख घटना के रूप में अनुभवजन्य अभिव्यक्ति को स्पष्ट करता है
वातावरण माध्य μ_e को निश्चित मापदंड के बजाय सामान्य पूर्व वितरण से नमूना किए गए यादृच्छिक मात्रा के रूप में मानता है, लाभकारी संकुचन प्रभाव प्राप्त करता है।
पश्चवर्ती वितरण के आधार पर निर्णय नियम प्रस्तावित करता है: जब min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm हो, तो j को Y का कारणात्मक माता-पिता माना जाता है।
ग्राफ 2 के माध्यम से कमजोर पहचान योग्यता घटना को प्रदर्शित करता है: जब μ→0 होता है, पश्चवर्ती पूर्व माध्य की ओर संकुचित होता है, आवृत्तिवादी विधि की मैट्रिक्स अपरिवर्तनीयता समस्या से बचाता है।
Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.