2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, SchrÃ¶der, Frauen et al.

Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naÃ¯ve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.

academic

بناء فترات الثقة لمتوسط تأثيرات العلاج من مجموعات بيانات متعددة

المعلومات الأساسية

معرّف الورقة: 2412.11511
العنوان: بناء فترات الثقة لمتوسط تأثيرات العلاج من مجموعات بيانات متعددة
المؤلفون: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (جامعة لودفيج ماكسيميليان بميونخ، MCML)
التصنيف: cs.LG, stat.ML
المؤتمر: ICLR 2025
رابط الورقة: https://arxiv.org/abs/2412.11511

الملخص

تقترح هذه الورقة طريقة جديدة لبناء فترات ثقة لمتوسط تأثيرات العلاج (ATE) من مجموعات بيانات ملاحظة متعددة. تفترض الطريقة افتراضات أقل على مجموعات البيانات الملاحظة، مما يوفر قابلية تطبيق واسعة في الممارسة الطبية. الفكرة الأساسية هي استخدام الاستدلال المدعوم بالتنبؤ (prediction-powered inference) لـ "تقليص" فترات الثقة، مما يوفر تحديد كمي أكثر دقة للعدم اليقين مقارنة بالطرق الساذجة. تثبت الورقة عدم التحيز للطريقة والصحة الإحصائية لفترات الثقة، وتتحقق من النتائج النظرية من خلال التجارب الرقمية. بالإضافة إلى ذلك، تمتد الطريقة للتعامل مع مزيج من مجموعات البيانات التجريبية والملاحظة.

الخلفية البحثية والدافع

المشكلة الأساسية

في المجال الطبي، يعتبر بناء فترات ثقة لمتوسط تأثيرات العلاج من سجلات المرضى أمراً حاسماً لتقييم فعالية الأدوية وسلامتها. ومع ذلك، تأتي سجلات المرضى عادة من مستشفيات مختلفة، مما يجعل كيفية دمج مجموعات بيانات ملاحظة متعددة بفعالية تحدياً رئيسياً.

أهمية المشكلة

احتياجات القرار الطبي: فترات الثقة الموثوقة حاسمة لاتخاذ القرارات الطبية، مما يضمن الاختيار العلاجي القائم على الأدلة
تشتت البيانات: تنتشر السجلات الصحية الإلكترونية عادة عبر مؤسسات طبية ودول مختلفة، مما يتطلب تكاملاً فعالاً
حالة COVID-19: أثناء الجائحة، كان هناك حاجة لتقييم سريع لتأثيرات الأدوية من بيانات متعددة المراكز، مثل دراسات nirmatrelvir/ritonavir

قيود الطرق الموجودة

قيود التقدير النقطي: تركز معظم طرق مجموعات البيانات المتعددة على التقدير النقطي، وتفتقر إلى تحديد كمي للعدم اليقين
مشاكل الطريقة الساذجة:
- يؤدي ربط مجموعات البيانات مباشرة إلى تقديرات متحيزة بسبب التحيز الخلط
- استخدام مجموعة بيانات صغيرة فقط يتجاهل معلومات مجموعة البيانات الكبيرة، مما يجعل فترات الثقة محافظة جداً
قيود الافتراضات: تفترض الطرق الموجودة علاقات قوية بين مجموعات البيانات

المساهمات الأساسية

منهجية جديدة: اقتراح طريقة لبناء فترات ثقة ATE متعددة مجموعات بيانات بناءً على الاستدلال المدعوم بالتنبؤ
ضمانات نظرية: إثبات الاتساق في التقدير والصحة الإحصائية لفترات الثقة
قابلية تطبيق واسعة: التوسع إلى سيناريوهات مزج التجارب العشوائية المضبوطة (RCT) مع مجموعات البيانات الملاحظة
التحقق التجريبي: التحقق من فعالية الطريقة من خلال البيانات الاصطناعية والبيانات الطبية

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات ملاحظة صغيرة غير متحيزة D₁ (تفي بافتراض عدم الخلط) ومجموعة بيانات ملاحظة كبيرة D₂ (تسمح بالخلط غير الملاحظ)، الهدف هو تقدير متوسط تأثير العلاج τ = EY¹(1) - Y¹(0) في السكان المستهدفين وبناء فترة ثقة صحيحة.

الافتراضات الأساسية

افتراضات D₁:

الاتساق: A¹ = a ⇒ Y¹ = Y¹(a)
التداخل: 0 < π¹(x) < 1
عدم الخلط: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

افتراضات D₂ (أكثر مرونة):

الاتساق والتداخل، لكن تسمح بالخلط غير الملاحظ

معمارية النموذج

إطار الطريقة ذات الأربع خطوات

الخطوة أ: مقياس الملاءمة (Measure of Fit) استخدام تقسيم العينة لتقدير متوسط تأثير العلاج الشرطي (CATE) على D₂:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

الخطوة ب: تقدير دالة التأثير حساب درجة دالة التأثير غير المركزية لمقدر AIPW على D₁:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

الخطوة ج: المصحح (Rectifier) تعريف المصحح لتحديد الفرق في متوسط تأثير العلاج بين مجموعات البيانات:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

الخطوة د: بناء فترة الثقة تقدير متوسط تأثير العلاج المدعوم بالتنبؤ:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

فترة الثقة:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

نقاط الابتكار التقني

تكييف الاستدلال المدعوم بالتنبؤ: أول تطبيق لإطار PPI على تقدير متوسط تأثير العلاج في الاستدلال السببي
تصميم المصحح: تصميم ذكي للمصحح للتعامل مع الاختلافات في التوزيع بين مجموعات البيانات والخلط المحتمل
ضمانات نظرية: توفير إثبات الصحة الإحصائية المقاربة، مما يضمن الصحة الإحصائية لفترات الثقة
المرونة: دعم أي مقدر CATE، دون تقييد بطريقة محددة

التحليل النظري

النظرية 4.2 (صحة فترة الثقة): تحت الشروط المناسبة،

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

اللمة الرئيسية 4.1: الحالة الطبيعية المقاربة للمصحح

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

إعداد التجارب

مجموعات البيانات

البيانات الاصطناعية:

آلية توليد البيانات المستندة إلى عمليات غاوس
ثلاث سيناريوهات خلط: خفيف، متوسط، شديد
التحكم في أبعاد المتغيرات المساعدة وحجم العينة

البيانات الطبية:

MIMIC-III: تأثير التهوية الميكانيكية على عدد خلايا الدم الحمراء لدى مرضى العناية المركزة
بيانات COVID-19 البرازيلية: تأثير الأمراض المصاحبة على معدل الوفيات لدى مرضى COVID-19

مقاييس التقييم

عرض فترة الثقة: قياس دقة تحديد كمي للعدم اليقين
معدل التغطية: التحقق من الصحة الإحصائية لفترات الثقة
جذر متوسط مربع الخطأ (RMSE): تقييم دقة التقدير النقطي

طرق المقارنة

τ̂ᴬᴵᴾᵂ(D₁ only): خط أساس ساذج يستخدم مجموعة البيانات الصغيرة فقط
τ̂ᴬᴵᴾᵂ(D₂ only): استخدام مجموعة البيانات الكبيرة فقط (تقدير متحيز)
A-TMLE: طريقة van der Laan وآخرين (RCT + بيانات ملاحظة)

تفاصيل التنفيذ

DR-learner لتقدير CATE
الانحدار الخطي/اللوجستي لتقدير دوال التأثير
التقسيم المتقاطع لتجنب الإفراط في التدريب
متوسط النتائج على 5 بذور عشوائية

نتائج التجارب

النتائج الرئيسية

أداء البيانات الاصطناعية:

الصحة الإحصائية: فترات الثقة تغطي دائماً متوسط تأثير العلاج الحقيقي
تحسن الدقة: مقارنة بالطريقة الساذجة، انخفاض عرض فترة الثقة بمتوسط 49.99%-55.37%
الاستقرار: الحفاظ على أداء ممتازة عند شدات خلط مختلفة

التحقق من البيانات الطبية:

MIMIC-III: انخفاض عرض فترة الثقة بحوالي 3.5 مرات
بيانات COVID-19: أداء ممتازة عند استراتيجيات تقسيم مختلفة
الحد الأدنى من RMSE وأضيق فترة ثقة صحيحة

تحليل الحساسية

تأثير حجم مجموعة البيانات:

الميزة أكثر وضوحاً عندما N≫n
مع زيادة D₁، يتناقص حجم التحسن تدريجياً (كما هو متوقع)

الإعدادات عالية الأبعاد:

الحفاظ على الميزة في فضاء متغيرات مساعدة بـ 5 و 50 و 500 بعد
إثبات قوة الطريقة في الإعدادات عالية الأبعاد

معماريات نماذج مختلفة:

دعم الشبكات العصبية و XGBoost وطرق أساسية أخرى
إظهار عمومية الطريقة

توسيع RCT + البيانات الملاحظة

طريقة IPW الأساسية:

الاستفادة من درجات الميل المعروفة لتبسيط التقدير
أكثر استقراراً من A-TMLE، تجنب مشاكل الانقلاب المصفوفي الرقمية

مقارنة الأداء:

تغطية متسقة لمتوسط تأثير العلاج الحقيقي
عرض فترة ثقة أقل بشكل ملحوظ من طرق الخط الأساس
الحفاظ على الصحة الإحصائية حتى في سيناريوهات الخلط القوي

الأعمال ذات الصلة

بناء فترات ثقة متوسط تأثير العلاج

تستند الطرق التقليدية إلى الحالة الطبيعية المقاربة أو الافتراضات ذات العينة المحدودة
تركز الأعمال الموجودة بشكل أساسي على سيناريوهات مجموعة بيانات واحدة

تقدير متوسط تأثير العلاج متعدد مجموعات البيانات

RCT + بيانات ملاحظة: Kallus et al., Hatt et al., Demirel et al.
بيانات ملاحظة متعددة: Yang & Ding, Guo et al.
القيود: معظمها يركز على التقدير النقطي فقط، ويفتقر إلى تحديد كمي للعدم اليقين

الاستدلال المدعوم بالتنبؤ

إطار PPI الذي اقترحه Angelopoulos وآخرون
التطبيقات الرئيسية على الكميات الإحصائية التقليدية (المتوسط، الوسيط، إلخ)
هذه الورقة أول تطبيق على الاستدلال السببي

الخلاصة والمناقشة

الاستنتاجات الرئيسية

توسيع ناجح لإطار PPI إلى الاستدلال السببي متعدد مجموعات البيانات
توفير فترات ثقة صحيحة إحصائياً مع ضمانات نظرية
تحسن ملحوظ في الدقة مقارنة بالطرق الساذجة
التحقق من الجدوى العملية على البيانات الطبية

القيود

الاعتماد على الافتراضات: قد ينتهك افتراض عدم الخلط لـ D₁ في الممارسة العملية
افتراضات التوزيع: افتراض أن التوزيع الهامشي للمتغيرات المساعدة متطابق
تقسيم العينة: يتطلب D₂ كبيرة بما يكفي للتقسيم الفعال

الاتجاهات المستقبلية

التوسع إلى CATE: توسيع الطريقة إلى تأثيرات العلاج غير المتجانسة
تحليل البقاء: التطبيق على تحليل البقاء السببي
تكامل نماذج اللغة الكبيرة: دمج النماذج المدربة مسبقاً لتمثيل النصوص
تحليل الحساسية: تطوير طرق قوية لانتهاكات الافتراضات

التقييم المتعمق

المزايا

الصرامة النظرية: توفير تحليل نظري مقارب شامل وإثبات الصحة الإحصائية
القيمة العملية: حل احتياجات حقيقية في الممارسة الطبية
عمومية الطريقة: دعم مقدرات CATE متعددة، مرونة عالية
التجارب الشاملة: تغطي البيانات الاصطناعية والحقيقية، تحليلات حساسية متعددة

أوجه القصور

قيود الافتراضات: افتراض عدم الخلط قوي جداً في التطبيقات العملية
التعقيد الحسابي: يزيد التقسيم المتقاطع وتقسيم العينة من التكلفة الحسابية
قابلية التوسع المحدودة: موجهة بشكل أساسي للعلاج الثنائي، التوسع للعلاج المستمر غير واضح

التأثير

المساهمة الأكاديمية: أول تطبيق لـ PPI على الاستدلال السببي، فتح اتجاهات بحثية جديدة
القيمة العملية: توفير أدوات إحصائية أكثر موثوقية لاتخاذ القرارات الطبية
قابلية التكرار: توفير كود مفتوح المصدر، يسهل التحقق والتطبيق

السيناريوهات المناسبة

الأبحاث الطبية متعددة المراكز: دمج بيانات المرضى من مستشفيات مختلفة
تقييم سلامة الأدوية: دمج التجارب العشوائية المضبوطة والبيانات من العالم الحقيقي
وضع سياسات الصحة: اتخاذ قرارات قائمة على الأدلة بناءً على بيانات متعددة المصادر
الموافقة التنظيمية: توفير أدلة إحصائية لموافقة الأدوية

المراجع

Angelopoulos et al. (2023). الاستدلال المدعوم بالتنبؤ. Science.
van der Laan et al. (2024). Adaptive-TMLE لمتوسط تأثير العلاج. arXiv.
Kallus et al. (2018). إزالة الخلط المخفي من خلال التأسيس التجريبي. NeurIPS.
Yang & Ding (2020). دمج مصادر بيانات ملاحظة متعددة. JASA.

التقييم الشامل: هذه ورقة عالية الجودة في الاستدلال السببي، تنجح في تطبيق إطار الاستدلال المدعوم بالتنبؤ على مشكلة تقدير متوسط تأثير العلاج متعدد مجموعات البيانات. تتمتع الورقة بأساس نظري متين وتصميم تجريبي معقول وقيمة عملية مهمة في التطبيقات الطبية. على الرغم من وجود بعض قيود الافتراضات، فإن المساهمة الإجمالية كبيرة، وتوفر الورقة أدوات منهجية جديدة لمجال الاستدلال السببي.