Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
Wang, Schröder, Frauen et al.
Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naïve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.
academic
بناء فترات الثقة لمتوسط تأثيرات العلاج من مجموعات بيانات متعددة
تقترح هذه الورقة طريقة جديدة لبناء فترات ثقة لمتوسط تأثيرات العلاج (ATE) من مجموعات بيانات ملاحظة متعددة. تفترض الطريقة افتراضات أقل على مجموعات البيانات الملاحظة، مما يوفر قابلية تطبيق واسعة في الممارسة الطبية. الفكرة الأساسية هي استخدام الاستدلال المدعوم بالتنبؤ (prediction-powered inference) لـ "تقليص" فترات الثقة، مما يوفر تحديد كمي أكثر دقة للعدم اليقين مقارنة بالطرق الساذجة. تثبت الورقة عدم التحيز للطريقة والصحة الإحصائية لفترات الثقة، وتتحقق من النتائج النظرية من خلال التجارب الرقمية. بالإضافة إلى ذلك، تمتد الطريقة للتعامل مع مزيج من مجموعات البيانات التجريبية والملاحظة.
في المجال الطبي، يعتبر بناء فترات ثقة لمتوسط تأثيرات العلاج من سجلات المرضى أمراً حاسماً لتقييم فعالية الأدوية وسلامتها. ومع ذلك، تأتي سجلات المرضى عادة من مستشفيات مختلفة، مما يجعل كيفية دمج مجموعات بيانات ملاحظة متعددة بفعالية تحدياً رئيسياً.
بالنظر إلى مجموعة بيانات ملاحظة صغيرة غير متحيزة D₁ (تفي بافتراض عدم الخلط) ومجموعة بيانات ملاحظة كبيرة D₂ (تسمح بالخلط غير الملاحظ)، الهدف هو تقدير متوسط تأثير العلاج τ = EY¹(1) - Y¹(0) في السكان المستهدفين وبناء فترة ثقة صحيحة.
Angelopoulos et al. (2023). الاستدلال المدعوم بالتنبؤ. Science.
van der Laan et al. (2024). Adaptive-TMLE لمتوسط تأثير العلاج. arXiv.
Kallus et al. (2018). إزالة الخلط المخفي من خلال التأسيس التجريبي. NeurIPS.
Yang & Ding (2020). دمج مصادر بيانات ملاحظة متعددة. JASA.
التقييم الشامل: هذه ورقة عالية الجودة في الاستدلال السببي، تنجح في تطبيق إطار الاستدلال المدعوم بالتنبؤ على مشكلة تقدير متوسط تأثير العلاج متعدد مجموعات البيانات. تتمتع الورقة بأساس نظري متين وتصميم تجريبي معقول وقيمة عملية مهمة في التطبيقات الطبية. على الرغم من وجود بعض قيود الافتراضات، فإن المساهمة الإجمالية كبيرة، وتوفر الورقة أدوات منهجية جديدة لمجال الاستدلال السببي.