2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua

Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.

academic

छिपे हुए भ्रम के तहत भविष्यसूचक पश्चवर्ती

बुनियादी जानकारी

पेपर ID: 2507.05170
शीर्षक: छिपे हुए भ्रम के तहत भविष्यसूचक पश्चवर्ती
लेखक: Carlos García Meixide, David Ríos Insua
वर्गीकरण: stat.ME
प्रकाशन समय: arXiv:2507.05170v2 stat.ME 11 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2507.05170v2

सारांश

बाहरी डोमेन में परिणामों की भविष्यवाणी करना चुनौतीपूर्ण है, क्योंकि छिपे हुए भ्रम कारक भविष्यसूचक चर और परिणाम चर दोनों को प्रभावित कर सकते हैं। मौजूदा विधियां आमतौर पर कठोर मान्यताओं, डोमेन के बीच वितरण बदलाव की स्पष्ट समझ, या सामान्यीकरण क्षमता बढ़ाने के लिए पूर्वाग्रह पेश करने वाली नियमितकरण योजनाओं पर निर्भर करती हैं। हालांकि छिपे हुए भ्रम के तहत बिंदु भविष्यवाणी विधियां इन कमियों को कम करने का प्रयास करती हैं, लेकिन आमतौर पर सिद्धांतबद्ध अनिश्चितता परिमाणीकरण प्रदान करने में विफल रहती हैं। यह पेपर एक बेयसियन ढांचा प्रस्तुत करता है जो बाहरी डोमेन में अच्छी तरह से अंशांकित भविष्यसूचक वितरण उत्पन्न कर सकता है, प्रभावी मॉडल अनुमान का समर्थन करता है, और अवलोकन डेटासेट की संख्या बढ़ने के साथ सुधार होने वाली पश्चवर्ती संकुचन दर प्राप्त करता है। सिमुलेशन प्रयोग और चिकित्सा अनुप्रयोग विधि के महत्वपूर्ण अनुभवजन्य कवरेज को उजागर करते हैं, जो निम्न-आयामी से मध्यम-आयामी सेटिंग्स में लगभग अपरिवर्तित रहता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या है: छिपे हुए भ्रम कारकों की उपस्थिति में, वितरण बदलाव वाले बाहरी डोमेन में विश्वसनीय संभाव्य भविष्यवाणी कैसे करें और अंशांकित अनिश्चितता परिमाणीकरण कैसे प्रदान करें।

समस्या की महत्ता

वितरण बदलाव की व्यापकता: मशीन लर्निंग अनुप्रयोगों में प्रशिक्षण डोमेन और परीक्षण डोमेन वितरण की असंगति अक्सर देखी जाती है, जो मानक iid धारणा को चुनौती देती है
छिपे हुए भ्रम का प्रभाव: अनुपलब्ध भ्रम चर भविष्यसूचक चर X और परिणाम चर Y दोनों को प्रभावित करते हैं, जिससे पारंपरिक विधियां विफल हो जाती हैं
अनिश्चितता परिमाणीकरण की आवश्यकता: मौजूदा विधियां मुख्य रूप से बिंदु भविष्यवाणी पर ध्यान केंद्रित करती हैं, सिद्धांतबद्ध अनिश्चितता परिमाणीकरण तंत्र की कमी है

मौजूदा विधियों की सीमाएं

वितरण-मजबूत अनुकूलन: मिनिमैक्स अनुकूलन का उपयोग करता है, लेकिन मजबूती बढ़ाने के लिए पूर्वाग्रह पेश करने की आवश्यकता है
कारणात्मक अपरिवर्तनीयता विधियां: जैसे एंकर प्रतिगमन, कठोर अपरिवर्तनीयता मान्यताओं पर निर्भर करते हैं, छिपे हुए भ्रम की उपस्थिति में आसानी से उल्लंघन होता है
अनुरूप भविष्यवाणी: भविष्यवाणी अंतराल प्रदान कर सकते हैं, लेकिन वितरण बदलाव की सीमित हैंडलिंग है
मौजूदा कारणात्मक विधियां: मुख्य रूप से बिंदु अनुमान प्रदान करती हैं, अनिश्चितता परिमाणीकरण की कमी है

अनुसंधान प्रेरणा

लेखक पिछले Generative Invariance (GI) कार्य के आधार पर, एक एकीकृत बेयसियन ढांचा बनाने का लक्ष्य रखते हैं जो कारणात्मक खोज और अंशांकित भविष्यवाणी दोनों दीर्घकालीन चुनौतीपूर्ण समस्याओं को हल करे।

मूल योगदान

पहला बेयसियन ढांचा: छिपे हुए भ्रम के तहत संभाव्य भविष्यवाणी के लिए एक संपूर्ण बेयसियन ढांचा प्रस्तावित करता है, जो कारणात्मक खोज और भविष्यवाणी दोनों को एक साथ कर सकता है
सैद्धांतिक गारंटियां: पश्चवर्ती संगति, संकुचन दर और Bernstein-von Mises प्रमेय स्थापित करता है, विधि के स्पर्शोन्मुख गुणों को सिद्ध करता है
परिकल्पना परीक्षण क्षमता: रैखिक संरचनात्मक समीकरण मॉडल में यह परीक्षण करने के लिए पहली गणनीय परिकल्पना परीक्षण विधि प्रदान करता है कि क्या कोई चर लक्ष्य प्रतिक्रिया का माता-पिता है
अंशांकित भविष्यवाणी: वितरण बदलाव डोमेन में अच्छी तरह से अंशांकित भविष्यवाणी प्राप्त करता है, कवरेज सैद्धांतिक स्तर के करीब है
पहचान योग्यता स्पेक्ट्रम: पहली बार स्पष्ट रूप से कमजोर पहचान योग्यता को स्पर्शोन्मुख घटना के रूप में अनुभवजन्य अभिव्यक्ति को स्पष्ट करता है

विधि विस्तार

कार्य परिभाषा

E प्रशिक्षण वातावरणों से विषम डेटा स्रोत और एक लक्ष्य परीक्षण वातावरण दिया गया, कार्य है:

इनपुट: प्रशिक्षण वातावरण में (X,Y) जोड़े, परीक्षण वातावरण में X
आउटपुट: परीक्षण वातावरण में Y का अंशांकित भविष्यसूचक वितरण और कारणात्मक मापदंडों के विश्वास अंतराल
बाधा: छिपे हुए भ्रम कारक X और Y को प्रभावित करते हैं

मॉडल आर्किटेक्चर

संरचनात्मक समीकरण मॉडल

आधार मॉडल है:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

जहां Z वातावरण संकेतक है, ε_Y संभवतः X_z से संबंधित है (छिपा हुआ भ्रम)।

पदानुक्रमित बेयसियन मॉडल

प्रत्येक वातावरण e के लिए संभावना स्थापित करता है:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

मुख्य मापदंड:

w = (β, K): β = (α, γ) प्रतिगमन गुणांक शामिल करता है, K छिपे हुए भ्रम प्रभाव को अवशोषित करता है
ϑ_e = (μ_e, Σ_e, σ_Y^2): वातावरण-विशिष्ट उपद्रव मापदंड

पूर्व विनिर्देश

Ridge-प्रकार गाऊसी पूर्व का उपयोग करता है:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

तकनीकी नवाचार बिंदु

1. भ्रम सुधार तंत्र

K^⊤(X_ei - μ_e) पद के माध्यम से छिपे हुए भ्रम के प्रभाव को स्पष्ट रूप से मॉडल करता है, जहां:

K छिपे हुए भ्रम कारकों और अवलोकन चर के सहप्रसरण संरचना को पकड़ता है
यह पद प्रत्येक वातावरण में अपेक्षा में 0 है, अवरोधन अनुमान को प्रभावित नहीं करता है

2. वातावरण विषमता मॉडलिंग

वातावरण माध्य μ_e को निश्चित मापदंड के बजाय सामान्य पूर्व वितरण से नमूना किए गए यादृच्छिक मात्रा के रूप में मानता है, लाभकारी संकुचन प्रभाव प्राप्त करता है।

3. पहचान योग्यता हैंडलिंग

जब पहचान योग्यता शर्तें निकट-उल्लंघन होती हैं, बेयसियन विधि नियंत्रित संकुचन के माध्यम से आवृत्तिवादी विधि की संख्यात्मक अस्थिरता से बचाता है।

4. कारणात्मक खोज मानदंड

पश्चवर्ती वितरण के आधार पर निर्णय नियम प्रस्तावित करता है: जब min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm हो, तो j को Y का कारणात्मक माता-पिता माना जाता है।

प्रयोग सेटअप

डेटासेट

सिमुलेशन प्रयोग

एकल-स्रोत उदाहरण: एक-आयामी सेटिंग, n₁=500, छिपा हुआ भ्रम कारक H~N(0,0.5²)
बहु-स्रोत उदाहरण: बहु-आयामी सेटिंग, E=p+1 वातावरण, व्यवस्थित रूप से परिवर्तनशील वातावरण माध्य

वास्तविक डेटा

BMI विश्लेषण: स्पेन के बहु-प्रांत डेटा

भविष्यसूचक चर: जीवनशैली कारक (शराब की खपत, धूम्रपान की आदत, नींद की गुणवत्ता आदि)
परिणाम चर: BMI
छिपा हुआ भ्रम: लिंग, कोलेस्ट्रॉल और रक्त शर्करा स्तर
वातावरण संकेतक: प्रांत

मूल्यांकन मेट्रिक्स

अनुभवजन्य कवरेज दर: भविष्यवाणी अंतराल सत्य मान को शामिल करने का अनुपात
कारणात्मक खोज सटीकता: कारणात्मक चर को सही ढंग से पहचानने की क्षमता
भविष्यवाणी अंशांकन: भविष्यसूचक वितरण और सत्य वितरण का मिलान

तुलना विधियां

OLS: साधारण न्यूनतम वर्ग
IV: उपकरण चर विधि
मानक बेयसियन रैखिक प्रतिगमन

कार्यान्वयन विवरण

MCMC नमूनाकरण: RStan का उपयोग करके, 4 श्रृंखलाएं × 1000 पुनरावृत्तियां
हाइपरमापदंड: a_τ = b_τ = 1/2 (मानक half-Cauchy पूर्व)
समानांतर कंप्यूटिंग: 8-कोर, प्रति कोर 3 सिमुलेशन

प्रयोग परिणाम

मुख्य परिणाम

सिमुलेशन प्रयोग प्रदर्शन

बहु-आयामी सेटिंग में औसत अनुभवजन्य कवरेज दर तुलना (OLS बनाम यह विधि):

n, p	2-आयामी	5-आयामी	10-आयामी
200	.88/.96	.85/.95	.87/.90
500	.91/.95	.88/.93	.83/.94
1000	.89/.95	.88/.95	.85/.94
2000	.90/.95	.83/.94	.80/.95

मुख्य निष्कर्ष:

यह विधि सभी परिस्थितियों में OLS से बेहतर है
आयाम बढ़ने के साथ, कवरेज दर अपेक्षाकृत स्थिर रहती है
OLS प्रदर्शन आयाम बढ़ने के साथ स्पष्ट रूप से बिगड़ता है

एकल-स्रोत उदाहरण परिणाम

मापदंड अनुमान: β और K का पश्चवर्ती वितरण सत्य मान 1 और -0.25 पर सही ढंग से केंद्रित है
भविष्यवाणी प्रदर्शन: अनुभवजन्य कवरेज दर 0.96, सैद्धांतिक स्तर 0.95 के करीब
तुलना प्रभाव: OLS और IV भविष्यवाणी पूरी तरह लक्ष्य से विचलित हैं

चिकित्सा अनुप्रयोग परिणाम

अनुभवजन्य कवरेज दर: 0.95 (आदर्श स्तर)
कारणात्मक खोज: केवल शारीरिक गतिविधि को एकमात्र कारणात्मक चर के रूप में पहचाना गया
तुलना विश्लेषण: OLS कई संबंधित लेकिन गैर-कारणात्मक चर को गलत तरीके से पहचानता है (जैसे पूर्व धूम्रपान करने वाले)

छिपे हुए भ्रम के तहत बेयसियन भविष्यवाणी ढांचा सफलतापूर्वक निर्मित किया गया है
अंशांकित संभाव्य भविष्यवाणी और प्रभावी कारणात्मक खोज प्राप्त की गई है
संपूर्ण सैद्धांतिक आधार और अनुभवजन्य सत्यापन प्रदान किया गया है
निम्न से मध्यम-आयामी सेटिंग्स में स्थिर प्रदर्शन बनाए रखा गया है

सीमाएं

गाऊसी धारणा: वर्तमान ढांचा सहचर को गाऊसी वितरण मानता है
रैखिक मॉडल: रैखिक संरचनात्मक समीकरण मॉडल तक सीमित है
कम्प्यूटेशनल जटिलता: MCMC नमूनाकरण उच्च-आयामी सेटिंग्स में धीमा हो सकता है
वातावरण संख्या: पहचान योग्यता सुनिश्चित करने के लिए पर्याप्त संख्या में प्रशिक्षण वातावरण की आवश्यकता है

भविष्य की दिशाएं

गैर-पैरामीट्रिक विस्तार: martingale पश्चवर्ती ढांचा एकीकृत करता है, संभावना-पूर्व विनिर्देश आवश्यकता को समाप्त करता है
प्रतिकूल शिक्षा: प्रतिकूल मशीन लर्निंग परिदृश्य में अनुप्रयोग
मान्यताओं को शिथिल करना: भ्रम वितरण को वातावरण के बीच भिन्न होने की अनुमति देता है
PAC गारंटियां: सीमांत PAC गारंटी सैद्धांतिक स्थापना करता है

गहन मूल्यांकन

शक्तियां

सैद्धांतिक पूर्णता: पश्चवर्ती संगति से Bernstein-von Mises प्रमेय तक संपूर्ण सैद्धांतिक विश्लेषण प्रदान करता है
विधि नवाचार: पहली बार छिपे हुए भ्रम के तहत कारणात्मक खोज परिकल्पना परीक्षण प्राप्त करता है
व्यावहारिक मूल्य: दो दीर्घकालीन चुनौतीपूर्ण समस्याओं का एकीकृत समाधान
प्रयोग पर्याप्तता: सिमुलेशन से वास्तविक अनुप्रयोग तक व्यापक सत्यापन
लेखन स्पष्टता: गणितीय व्युत्पत्ति कठोर, अवधारणा व्याख्या स्पष्ट है

कमियां

धारणा सीमा: गाऊसी धारणा और रैखिक मॉडल लागू क्षेत्र को सीमित करते हैं
कम्प्यूटेशनल दक्षता: MCMC विधि बड़े पैमाने पर डेटा पर धीमी हो सकती है
पूर्व संवेदनशीलता: हालांकि पूर्व के प्रति असंवेदनशील होने का दावा किया जाता है, कमजोर पहचान योग्यता के तहत अभी भी प्रभाव है
वातावरण आवश्यकता: कई प्रशिक्षण वातावरण की आवश्यकता है, व्यावहारिक अनुप्रयोग में सीमित हो सकता है

प्रभाव

शैक्षणिक योगदान: कारणात्मक अनुमान और भविष्यवाणी अंशांकन के लिए नया सैद्धांतिक ढांचा प्रदान करता है
व्यावहारिक मूल्य: चिकित्सा, अर्थशास्त्र आदि में छिपे हुए भ्रम वाले क्षेत्रों में व्यापक अनुप्रयोग संभावना है
पद्धति महत्व: पहचान योग्यता समस्याओं को संभालने में बेयसियन विधि के लाभ प्रदर्शित करता है

लागू परिदृश्य

चिकित्सा अनुसंधान: अनुपलब्ध भ्रम कारकों वाले महामारी विज्ञान अनुसंधान
अर्थशास्त्र: नीति मूल्यांकन में कारणात्मक अनुमान
मशीन लर्निंग: डोमेन अनुकूलन और वितरण बदलाव समस्याएं
सामाजिक विज्ञान: अवलोकन अनुसंधान में कारणात्मक विश्लेषण

संदर्भ

Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.