Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
يُعتبر التنبؤ بالنتائج في المجالات الخارجية أمراً صعباً، لأن عوامل الالتباس المخفية قد تؤثر بشكل متزامن على متغيرات التنبؤ والمتغيرات الناتجة. تعتمد الطرق الموجودة عادة على افتراضات صارمة، أو معرفة صريحة بتحولات التوزيع عبر المجالات، أو مخططات تنظيم منحازة لتعزيز القدرة على التعميم. على الرغم من أن طرق التنبؤ النقطي تحت الالتباس المخفي تحاول تخفيف هذه النقائص، إلا أنها عادة ما تفشل في توفير تقدير كمي للعدم التأكد بطريقة منهجية. تقدم هذه الورقة إطار عمل بايزي يمكنه إنتاج توزيعات تنبؤية معايرة جيداً في المجالات الخارجية، ويدعم الاستدلال الفعال للنموذج، وينجز معدلات انكماش لاحقة محسّنة مع زيادة عدد مجموعات البيانات المرصودة. تسلط التجارب المحاكاة والتطبيقات الطبية الضوء على معدل التغطية التجريبي الملحوظ للطريقة، والذي يبقى ثابتاً تقريباً عند الانتقال من الإعدادات منخفضة الأبعاد إلى المتوسطة.
المشكلة الأساسية التي تسعى هذه الدراسة إلى حلها هي: كيفية إجراء تنبؤات احتمالية موثوقة وتوفير تقدير كمي معايّر للعدم التأكد في المجالات الخارجية ذات التحول التوزيعي في وجود عوامل التباس مخفية.
انتشار التحول التوزيعي: يُواجه تطبيقات التعلم الآلي بشكل متكرر عدم اتساق التوزيع بين مجال التدريب ومجال الاختبار، مما يطعن في الافتراضات القياسية المستقلة والموزعة بشكل متطابق (iid)
تأثير الالتباس المخفي: تؤثر المتغيرات غير المرصودة بشكل متزامن على متغيرات التنبؤ X والمتغيرات الناتجة Y، مما يؤدي إلى فشل الطرق التقليدية
الحاجة إلى تقدير كمي للعدم التأكد: تركز الطرق الموجودة بشكل أساسي على التنبؤ النقطي، وتفتقر إلى آليات منهجية لتقدير العدم التأكد
قدرة اختبار الفرضيات: يوفر أول طريقة اختبار فرضيات قابلة للحساب لاختبار ما إذا كان المتغير عقدة أب للاستجابة المستهدفة في نماذج المعادلات الهيكلية الخطية
التنبؤ المعايّر: ينجز تنبؤات معايرة جيدة في مجالات التحول التوزيعي، مع معدل تغطية قريب من المستوى النظري
طيف القابلية للتحديد: يوضح للمرة الأولى بشكل صريح كيفية ظهور القابلية الضعيفة للتحديد كظاهرة مقاربة
يوضح الشكل 2 ظاهرة القابلية الضعيفة للتحديد: عندما يقترب μ من 0، ينكمش التوزيع اللاحق نحو متوسط السابق، مما يتجنب مشكلة عدم قابلية المصفوفة للعكس في طرق التكرار.
Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.