2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

التنبؤات اللاحقة تحت الالتباس المخفي

المعلومات الأساسية

  • معرّف الورقة: 2507.05170
  • العنوان: التنبؤات اللاحقة تحت الالتباس المخفي
  • المؤلفون: Carlos García Meixide, David Ríos Insua
  • التصنيف: stat.ME
  • وقت النشر: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • رابط الورقة: https://arxiv.org/abs/2507.05170v2

الملخص

يُعتبر التنبؤ بالنتائج في المجالات الخارجية أمراً صعباً، لأن عوامل الالتباس المخفية قد تؤثر بشكل متزامن على متغيرات التنبؤ والمتغيرات الناتجة. تعتمد الطرق الموجودة عادة على افتراضات صارمة، أو معرفة صريحة بتحولات التوزيع عبر المجالات، أو مخططات تنظيم منحازة لتعزيز القدرة على التعميم. على الرغم من أن طرق التنبؤ النقطي تحت الالتباس المخفي تحاول تخفيف هذه النقائص، إلا أنها عادة ما تفشل في توفير تقدير كمي للعدم التأكد بطريقة منهجية. تقدم هذه الورقة إطار عمل بايزي يمكنه إنتاج توزيعات تنبؤية معايرة جيداً في المجالات الخارجية، ويدعم الاستدلال الفعال للنموذج، وينجز معدلات انكماش لاحقة محسّنة مع زيادة عدد مجموعات البيانات المرصودة. تسلط التجارب المحاكاة والتطبيقات الطبية الضوء على معدل التغطية التجريبي الملحوظ للطريقة، والذي يبقى ثابتاً تقريباً عند الانتقال من الإعدادات منخفضة الأبعاد إلى المتوسطة.

السياق البحثي والدافع

تعريف المشكلة

المشكلة الأساسية التي تسعى هذه الدراسة إلى حلها هي: كيفية إجراء تنبؤات احتمالية موثوقة وتوفير تقدير كمي معايّر للعدم التأكد في المجالات الخارجية ذات التحول التوزيعي في وجود عوامل التباس مخفية.

أهمية المشكلة

  1. انتشار التحول التوزيعي: يُواجه تطبيقات التعلم الآلي بشكل متكرر عدم اتساق التوزيع بين مجال التدريب ومجال الاختبار، مما يطعن في الافتراضات القياسية المستقلة والموزعة بشكل متطابق (iid)
  2. تأثير الالتباس المخفي: تؤثر المتغيرات غير المرصودة بشكل متزامن على متغيرات التنبؤ X والمتغيرات الناتجة Y، مما يؤدي إلى فشل الطرق التقليدية
  3. الحاجة إلى تقدير كمي للعدم التأكد: تركز الطرق الموجودة بشكل أساسي على التنبؤ النقطي، وتفتقر إلى آليات منهجية لتقدير العدم التأكد

قيود الطرق الموجودة

  1. التحسين الموزون للتوزيع: تستخدم التحسين minimax، لكنها تتطلب إدخال انحياز لتعزيز الثبات
  2. طرق عدم التغيير السببي: مثل anchor regression، تعتمد على افتراضات عدم تغيير صارمة، وتنتهك بسهولة عند وجود التباس مخفي
  3. التنبؤ المطابق: على الرغم من أنه يمكنه توفير فترات تنبؤية، إلا أن معالجته للتحول التوزيعي محدودة
  4. الطرق السببية الموجودة: توفر بشكل أساسي تقديرات نقطية، وتفتقر إلى تقدير كمي للعدم التأكد

الدافع البحثي

يستند المؤلفون إلى عمل Generative Invariance (GI) السابق، بهدف بناء إطار عمل بايزي موحد يعالج مشكلتين طويلتي الأجل: اكتشاف السببية والتنبؤ المعايّر.

المساهمات الأساسية

  1. أول إطار عمل بايزي: يقترح إطار عمل بايزي كامل للتنبؤ الاحتمالي تحت الالتباس المخفي، يمكنه إجراء اكتشاف سببي والتنبؤ بشكل متزامن
  2. ضمانات نظرية: يؤسس الاتساق اللاحق ومعدلات الانكماش ونظرية Bernstein-von Mises، مما يثبت الخصائص المقاربة للطريقة
  3. قدرة اختبار الفرضيات: يوفر أول طريقة اختبار فرضيات قابلة للحساب لاختبار ما إذا كان المتغير عقدة أب للاستجابة المستهدفة في نماذج المعادلات الهيكلية الخطية
  4. التنبؤ المعايّر: ينجز تنبؤات معايرة جيدة في مجالات التحول التوزيعي، مع معدل تغطية قريب من المستوى النظري
  5. طيف القابلية للتحديد: يوضح للمرة الأولى بشكل صريح كيفية ظهور القابلية الضعيفة للتحديد كظاهرة مقاربة

شرح الطريقة

تعريف المهمة

بالنظر إلى مصادر البيانات غير المتجانسة من E بيئة تدريب وبيئة اختبار مستهدفة، المهمة هي:

  • الإدخال: أزواج (X,Y) من بيئات التدريب، X من بيئة الاختبار
  • الإخراج: توزيع تنبؤي معايّر لـ Y في بيئة الاختبار وفترات ثقة للمعاملات السببية
  • القيد: وجود عوامل التباس مخفية تؤثر على X و Y

معمارية النموذج

نموذج المعادلات الهيكلية

النموذج الأساسي هو:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

حيث Z هو مؤشر البيئة، و ε_Y قد يكون مرتبطاً بـ X_z (التباس مخفي).

النموذج البايزي الهرمي

لكل بيئة e يتم بناء احتمالية:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

المعاملات الرئيسية:

  • w = (β, K): β = (α, γ) يتضمن معاملات الانحدار، K يمتص تأثيرات الالتباس المخفي
  • ϑ_e = (μ_e, Σ_e, σ_Y^2): معاملات البيئة المحددة المزعجة

تحديد السابق

يستخدم سابق غاوسي من نوع ridge:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

نقاط الابتكار التقني

1. آلية تصحيح الالتباس

من خلال نمذجة تأثيرات الالتباس المخفي بشكل صريح عبر الحد K^⊤(X_ei - μ_e)، حيث:

  • يلتقط K هيكل التباين المشترك بين عوامل الالتباس المخفية والمتغيرات المرصودة
  • هذا الحد يتوقع أن يكون 0 في كل بيئة، ولا يؤثر على تقدير الجزء الثابت

2. نمذجة عدم التجانس البيئي

يتم اعتبار وسائل البيئة μ_e كمتغيرات عشوائية مأخوذة من توزيع سابق مشترك، وليس كمعاملات ثابتة، مما يحقق تأثيرات انكماش مفيدة.

3. معالجة القابلية للتحديد

عندما تقترب شروط القابلية للتحديد من الانتهاك، تتجنب الطريقة البايزية عدم الاستقرار العددي لطرق التكرار من خلال الانكماش المنضبط.

4. معايير اكتشاف السببية

تقترح قاعدة قرار بناءً على التوزيع اللاحق: عندما يكون min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm، يُعتبر j عقدة أب سببية لـ Y.

إعداد التجربة

مجموعات البيانات

التجارب المحاكاة

  1. مثال مصدر واحد: إعداد أحادي البعد، n₁=500، عامل التباس مخفي H~N(0,0.5²)
  2. مثال متعدد المصادر: إعداد متعدد الأبعاد، E=p+1 بيئة، تغيير منهجي لوسائل البيئة

البيانات الحقيقية

تحليل مؤشر كتلة الجسم: بيانات من محافظ إسبانية متعددة

  • متغيرات التنبؤ: عوامل نمط الحياة (استهلاك الكحول، عادات التدخين، جودة النوم، إلخ)
  • متغير النتيجة: مؤشر كتلة الجسم
  • الالتباس المخفي: الجنس ومستويات الكوليسترول والجلوكوز
  • مؤشر البيئة: المحافظة

مؤشرات التقييم

  1. معدل التغطية التجريبي: نسبة فترات التنبؤ التي تحتوي على القيمة الحقيقية
  2. دقة اكتشاف السببية: القدرة على تحديد المتغيرات السببية بشكل صحيح
  3. معايرة التنبؤ: درجة التطابق بين التوزيع التنبؤي والتوزيع الحقيقي

طرق المقارنة

  1. OLS: الطريقة الكلاسيكية للمربعات الصغرى العادية
  2. IV: طريقة المتغيرات الآلية
  3. الانحدار الخطي البايزي القياسي

تفاصيل التنفيذ

  • عينة MCMC: استخدام RStan، 4 سلاسل × 1000 تكرار
  • المعاملات الفائقة: a_τ = b_τ = 1/2 (سابق Cauchy نصفي قياسي)
  • الحوسبة المتوازية: 8 أنوية، 3 محاكاة لكل نواة

نتائج التجربة

النتائج الرئيسية

أداء التجارب المحاكاة

متوسط معدل التغطية التجريبي في الإعداد متعدد الأبعاد (OLS مقابل الطريقة المقترحة):

n, p2D5D10D
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

النتائج الرئيسية:

  • تتفوق الطريقة المقترحة على OLS في جميع الحالات
  • يبقى معدل التغطية مستقراً نسبياً مع زيادة البعد
  • تتدهور أداء OLS بشكل واضح مع زيادة البعد

نتائج المثال أحادي المصدر

  • تقدير المعاملات: التوزيع اللاحق لـ β و K متمركز بشكل صحيح عند القيم الحقيقية 1 و -0.25
  • الأداء التنبؤي: معدل التغطية التجريبي 0.96، قريب من المستوى النظري 0.95
  • تأثير المقارنة: تنبؤات OLS و IV منحرفة تماماً عن الهدف

نتائج التطبيق الطبي

  • معدل التغطية التجريبي: 0.95 (المستوى المثالي)
  • اكتشاف السببية: تحديد النشاط البدني فقط كمتغير سببي وحيد
  • التحليل المقارن: OLS يحدد بشكل خاطئ متغيرات مرتبطة لكن غير سببية (مثل المدخنون السابقون)

التحقق النظري

يوضح الشكل 2 ظاهرة القابلية الضعيفة للتحديد: عندما يقترب μ من 0، ينكمش التوزيع اللاحق نحو متوسط السابق، مما يتجنب مشكلة عدم قابلية المصفوفة للعكس في طرق التكرار.

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. التحسين الموزون للتوزيع: طريقة minimax من Sinha et al. (2020)
  2. عدم التغيير السببي: طريقة التنبؤ غير المتغير من Peters et al. (2016)
  3. انحدار الربط: طريقة البيانات غير المتجانسة السببية من Rothenhäusler et al. (2021)
  4. التنبؤ المطابق: فترات التنبؤ القوية من Tibshirani et al. (2019)

مزايا هذه الورقة

  1. إطار عمل موحد: يعالج اكتشاف السببية والتنبؤ المعايّر بشكل متزامن
  2. ضمانات نظرية: توفير نظرية مقاربة كاملة
  3. الفائدة العملية: لا تتطلب ضبط المعاملات الفائقة أو معرفة محددة بالتحول التوزيعي
  4. الثبات: الحفاظ على الفعالية تحت الالتباس المخفي

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. بناء إطار عمل بايزي ناجح للتنبؤ تحت الالتباس المخفي
  2. تحقيق التنبؤ الاحتمالي المعايّر واكتشاف السببية الفعال
  3. توفير أساس نظري كامل والتحقق التجريبي
  4. الحفاظ على استقرار الأداء في الإعدادات منخفضة إلى المتوسطة الأبعاد

القيود

  1. الافتراض الغاوسي: يفترض الإطار الحالي أن المتغيرات المشروطة تتبع توزيعاً غاوسياً
  2. النموذج الخطي: مقتصر على نماذج المعادلات الهيكلية الخطية
  3. التعقيد الحسابي: قد تكون عينة MCMC بطيئة في الإعدادات عالية الأبعاد
  4. عدد البيئات: يتطلب عدداً كافياً من بيئات التدريب لضمان القابلية للتحديد

الاتجاهات المستقبلية

  1. التوسع غير البارامتري: دمج إطار عمل martingale اللاحق، مما يلغي متطلبات تحديد الاحتمالية والسابق
  2. التعلم الخصومي: التطبيق على سيناريوهات التعلم الآلي الخصومي
  3. تخفيف الافتراضات: السماح بتغيير توزيع الالتباس عبر البيئات
  4. ضمانات PAC: إنشاء ضمانات PAC الهامشية النظرية

التقييم المتعمق

المزايا

  1. اكتمال النظرية: توفير تحليل نظري شامل من الاتساق اللاحق إلى نظرية Bernstein-von Mises
  2. ابتكار الطريقة: أول تحقيق لاختبار فرضيات اكتشاف السببية تحت الالتباس المخفي
  3. القيمة العملية: حل موحد لمشكلتين طويلتي الأجل
  4. كفاية التجارب: التحقق الشامل من المحاكاة إلى التطبيقات الحقيقية
  5. وضوح الكتابة: الاشتقاق الرياضي الدقيق وشرح المفاهيم الواضح

أوجه القصور

  1. قيود الافتراضات: الافتراض الغاوسي والنموذج الخطي يحدان من نطاق التطبيق
  2. الكفاءة الحسابية: قد تكون طريقة MCMC بطيئة على البيانات الكبيرة
  3. حساسية السابق: على الرغم من الادعاء بعدم الحساسية للسابق، إلا أن هناك تأثيراً تحت القابلية الضعيفة للتحديد
  4. متطلبات البيئة: تتطلب بيئات تدريب متعددة، قد تكون محدودة في التطبيقات العملية

التأثير

  1. المساهمة الأكاديمية: توفير إطار نظري جديد للاستدلال السببي والتنبؤ المعايّر
  2. القيمة العملية: آفاق تطبيق واسعة في المجالات الطبية والاقتصادية وغيرها حيث توجد عوامل التباس مخفية
  3. الأهمية المنهجية: توضيح مزايا الطرق البايزية في معالجة مشاكل القابلية للتحديد

السيناريوهات المناسبة

  1. البحث الطبي: الدراسات الوبائية مع عوامل التباس غير المرصودة
  2. الاقتصاد: الاستدلال السببي في تقييم السياسات
  3. التعلم الآلي: مشاكل التكيف مع المجالات والتحول التوزيعي
  4. العلوم الاجتماعية: التحليل السببي في الدراسات الرصدية

المراجع

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.