2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, SchrÃ¶der, Frauen et al.

Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naÃ¯ve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.

academic

একাধিক ডেটাসেট থেকে গড় চিকিৎসা প্রভাবের জন্য আস্থা ব্যবধান নির্মাণ

মৌলিক তথ্য

পেপার আইডি: 2412.11511
শিরোনাম: একাধিক ডেটাসেট থেকে গড় চিকিৎসা প্রভাবের জন্য আস্থা ব্যবধান নির্মাণ
লেখক: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU Munich, MCML)
শ্রেণীবিভাগ: cs.LG, stat.ML
প্রকাশনা সম্মেলন: ICLR 2025
পেপার লিঙ্ক: https://arxiv.org/abs/2412.11511

সারসংক্ষেপ

এই পেপারটি একাধিক পর্যবেক্ষণমূলক ডেটাসেট থেকে গড় চিকিৎসা প্রভাব (ATE) আস্থা ব্যবধান নির্মাণের একটি নতুন পদ্ধতি প্রস্তাব করে। এই পদ্ধতিটি পর্যবেক্ষণমূলক ডেটাসেটের জন্য কম অনুমান করে এবং চিকিৎসা অনুশীলনে ব্যাপক প্রয়োগযোগ্যতা রয়েছে। মূল ধারণাটি হল পূর্বাভাস-চালিত অনুমান (prediction-powered inference) ব্যবহার করে আস্থা ব্যবধান "সংকুচিত" করা, যা নিরীহ পদ্ধতির তুলনায় আরও নির্ভুল অনিশ্চয়তা পরিমাপ প্রদান করে। পেপারটি পদ্ধতির নিরপেক্ষতা এবং আস্থা ব্যবধানের কার্যকারিতা প্রমাণ করে এবং সংখ্যাগত পরীক্ষার মাধ্যমে তাত্ত্বিক ফলাফল যাচাই করে। অতিরিক্তভাবে, পদ্ধতিটি পরীক্ষামূলক এবং পর্যবেক্ষণমূলক ডেটাসেটের সমন্বয় পরিচালনা করার জন্য প্রসারিত হয়েছে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

চিকিৎসা ক্ষেত্রে, রোগীর রেকর্ড থেকে ATE এর আস্থা ব্যবধান নির্মাণ ওষুধের কার্যকারিতা এবং নিরাপত্তা মূল্যায়নের জন্য অত্যন্ত গুরুত্বপূর্ণ। তবে, রোগীর রেকর্ডগুলি সাধারণত বিভিন্ন হাসপাতাল থেকে আসে, তাই একাধিক পর্যবেক্ষণমূলক ডেটাসেট কার্যকরভাবে একত্রিত করা একটি মূল চ্যালেঞ্জ হয়ে ওঠে।

সমস্যার গুরুত্ব

চিকিৎসা সিদ্ধান্ত গ্রহণের প্রয়োজন: নির্ভরযোগ্য আস্থা ব্যবধান চিকিৎসা সিদ্ধান্ত গ্রহণের জন্য অত্যন্ত গুরুত্বপূর্ণ, যা প্রমাণ-ভিত্তিক চিকিৎসা নির্বাচন নিশ্চিত করে
ডেটা বিক্ষিপ্ততা: ইলেকট্রনিক স্বাস্থ্য রেকর্ডগুলি সাধারণত বিভিন্ন চিকিৎসা প্রতিষ্ঠান এবং দেশে বিতরণ করা হয়, যা সমন্বিত ব্যবহার প্রয়োজন
COVID-19 কেস: মহামারীর সময় বহু-কেন্দ্রীয় ডেটা থেকে দ্রুত ওষুধের প্রভাব মূল্যায়ন করা প্রয়োজন ছিল, যেমন nirmatrelvir/ritonavir এর গবেষণা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিন্দু অনুমানের সীমাবদ্ধতা: বিদ্যমান বহু-ডেটাসেট পদ্ধতিগুলি প্রধানত বিন্দু অনুমানের উপর দৃষ্টি নিবদ্ধ করে, অনিশ্চয়তা পরিমাপের অভাব রয়েছে
নিরীহ পদ্ধতির সমস্যা:
- ডেটাসেটগুলি সরাসরি সংযুক্ত করা বিভ্রান্তিকর পক্ষপাত থেকে পক্ষপাতী অনুমান সৃষ্টি করে
- শুধুমাত্র ছোট ডেটাসেট ব্যবহার করা বড় ডেটাসেটের তথ্য উপেক্ষা করে, আস্থা ব্যবধান অত্যন্ত রক্ষণশীল হয়
অনুমান সীমাবদ্ধতা: বিদ্যমান পদ্ধতিগুলি ডেটাসেটগুলির মধ্যে সম্পর্কের জন্য শক্তিশালী অনুমান করে

মূল অবদান

উদ্ভাবনী পদ্ধতিবিদ্যা: পূর্বাভাস-চালিত অনুমানের উপর ভিত্তি করে বহু-ডেটাসেট ATE আস্থা ব্যবধান নির্মাণ পদ্ধতি প্রস্তাব করা
তাত্ত্বিক গ্যারান্টি: পদ্ধতির সামঞ্জস্যপূর্ণ অনুমান এবং আস্থা ব্যবধানের কার্যকারিতা প্রমাণ করা
ব্যাপক প্রয়োগযোগ্যতা: RCT + পর্যবেক্ষণমূলক ডেটাসেট সমন্বয় পরিস্থিতিতে সম্প্রসারণ
পরীক্ষামূলক যাচাইকরণ: সিন্থেটিক ডেটা এবং চিকিৎসা ডেটার মাধ্যমে পদ্ধতির কার্যকারিতা যাচাই করা

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

একটি ছোট নিরপেক্ষ পর্যবেক্ষণমূলক ডেটাসেট D₁ (নো-কনফাউন্ডিং অনুমান সন্তুষ্ট) এবং একটি বড় পর্যবেক্ষণমূলক ডেটাসেট D₂ (অপর্যবেক্ষিত বিভ্রান্তি অনুমতি দেয়) দেওয়া, লক্ষ্য হল লক্ষ্য জনসংখ্যার ATE τ = EY¹(1) - Y¹(0) অনুমান করা এবং কার্যকর আস্থা ব্যবধান নির্মাণ করা।

মূল অনুমান

D₁ অনুমান:

সামঞ্জস্যতা: A¹ = a ⇒ Y¹ = Y¹(a)
ওভারল্যাপ: 0 < π¹(x) < 1
নো-কনফাউন্ডিং: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

D₂ অনুমান (আরও শিথিল):

সামঞ্জস্যতা এবং ওভারল্যাপ, কিন্তু অপর্যবেক্ষিত বিভ্রান্তি অনুমতি দেয়

মডেল আর্কিটেকচার

চার-ধাপ পদ্ধতির কাঠামো

ধাপ A: ফিট পরিমাপ (Measure of Fit) নমুনা বিভাজন ব্যবহার করে D₂ এ শর্তসাপেক্ষ গড় চিকিৎসা প্রভাব (CATE) অনুমান করা:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

ধাপ B: প্রভাব ফাংশন অনুমান D₁ এ AIPW অনুমানকারীর অ-কেন্দ্রীভূত প্রভাব ফাংশন স্কোর গণনা করা:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

ধাপ C: সংশোধক (Rectifier) দুটি ডেটাসেটের মধ্যে ATE পার্থক্য পরিমাপ করার জন্য সংশোধক সংজ্ঞায়িত করা:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

ধাপ D: আস্থা ব্যবধান নির্মাণ পূর্বাভাস-চালিত ATE অনুমান:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

আস্থা ব্যবধান:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

পূর্বাভাস-চালিত অনুমান অভিযোজন: কার্যকর অনুমানে PPI কাঠামো প্রয়োগের প্রথম উদ্যোগ
সংশোধক ডিজাইন: ডেটাসেটগুলির মধ্যে বিতরণ পার্থক্য এবং সম্ভাব্য বিভ্রান্তি পরিচালনা করার জন্য চতুরভাবে সংশোধক ডিজাইন করা
তাত্ত্বিক গ্যারান্টি:渐近 কার্যকারিতা প্রমাণ এবং আস্থা ব্যবধানের পরিসংখ্যানগত কার্যকারিতা নিশ্চিত করা
নমনীয়তা: যেকোনো CATE অনুমানকারী সমর্থন করে, নির্দিষ্ট পদ্ধতির সাথে সীমাবদ্ধ নয়

তাত্ত্বিক বিশ্লেষণ

উপপাদ্য 4.2 (আস্থা ব্যবধান কার্যকারিতা): উপযুক্ত শর্তে,

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

মূল লেম্মা 4.1: সংশোধকের渐近 সাধারণত্ব

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

পরীক্ষামূলক সেটআপ

ডেটাসেট

সিন্থেটিক ডেটা:

গাউসিয়ান প্রক্রিয়ার উপর ভিত্তি করে ডেটা উৎপাদন প্রক্রিয়া
তিনটি বিভ্রান্তি পরিস্থিতি: হালকা, মধ্যম, গুরুতর বিভ্রান্তি
নিয়ন্ত্রণযোগ্য সহ-পরিবর্তনশীল মাত্রা এবং নমুনা আকার

চিকিৎসা ডেটা:

MIMIC-III: ICU রোগীদের যান্ত্রিক বায়ুচলাচল লাল রক্তকণিকা গণনার উপর প্রভাব
ব্রাজিল COVID-19: সহ-রোগিতা COVID-19 রোগীদের মৃত্যুর হার উপর প্রভাব

মূল্যায়ন মেট্রিক্স

আস্থা ব্যবধান প্রস্থ: অনিশ্চয়তা পরিমাপের নির্ভুলতা পরিমাপ করা
কভারেজ হার: আস্থা ব্যবধানের পরিসংখ্যানগত কার্যকারিতা যাচাই করা
RMSE: বিন্দু অনুমানের নির্ভুলতা মূল্যায়ন করা

তুলনা পদ্ধতি

τ̂ᴬᴵᴾᵂ(D₁ শুধুমাত্র): শুধুমাত্র ছোট ডেটাসেট ব্যবহার করে নিরীহ ভিত্তিরেখা
τ̂ᴬᴵᴾᵂ(D₂ শুধুমাত্র): শুধুমাত্র বড় ডেটাসেট ব্যবহার করে (পক্ষপাতী অনুমান)
A-TMLE: van der Laan এবং অন্যদের পদ্ধতি (RCT + পর্যবেক্ষণমূলক ডেটা)

বাস্তবায়ন বিবরণ

CATE অনুমানের জন্য DR-learner
হস্তক্ষেপ ফাংশন অনুমানের জন্য রৈখিক/লজিস্টিক রিগ্রেশন
অতিফিটিং এড়ানোর জন্য ক্রস-ফিটিং
5টি র্যান্ডম সিড গড় ফলাফল

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

সিন্থেটিক ডেটা পারফরম্যান্স:

কার্যকারিতা: আস্থা ব্যবধান সর্বদা প্রকৃত ATE কভার করে
নির্ভুলতা উন্নতি: নিরীহ পদ্ধতির তুলনায়, CI প্রস্থ গড়ে 49.99%-55.37% হ্রাস পায়
স্থিতিশীলতা: বিভিন্ন বিভ্রান্তি শক্তিতে উচ্চতর পারফরম্যান্স বজায় রাখে

চিকিৎসা ডেটা যাচাইকরণ:

MIMIC-III: CI প্রস্থ প্রায় 3.5 গুণ হ্রাস
COVID-19 ডেটা: বিভিন্ন বিভাজন কৌশলে উচ্চতর পারফরম্যান্স
ন্যূনতম RMSE এবং সবচেয়ে সংকীর্ণ কার্যকর আস্থা ব্যবধান

সংবেদনশীলতা বিশ্লেষণ

ডেটাসেট আকারের প্রভাব:

N≫n হলে সুবিধা আরও স্পষ্ট
D₁ বৃদ্ধির সাথে সাথে উন্নতির মাত্রা ধীরে ধীরে হ্রাস পায় (প্রত্যাশা অনুযায়ী)

উচ্চ-মাত্রিক সেটিং:

5-মাত্রিক, 50-মাত্রিক, 500-মাত্রিক সহ-পরিবর্তনশীল স্থানে সুবিধা বজায় রাখে
উচ্চ-মাত্রিক সেটিংয়ে পদ্ধতির দৃঢ়তা প্রমাণ করে

বিভিন্ন মডেল আর্কিটেকচার:

নিউরাল নেটওয়ার্ক, XGBoost এবং অন্যান্য বিভিন্ন ভিত্তি মডেল সমর্থন করে
পদ্ধতির সার্বজনীনতা প্রদর্শন করে

RCT + পর্যবেক্ষণমূলক ডেটা সম্প্রসারণ

IPW ভিত্তিক পদ্ধতি:

পরিচিত প্রবণতা স্কোর ব্যবহার করে অনুমান সরলীকরণ
A-TMLE এর তুলনায় আরও স্থিতিশীল, ম্যাট্রিক্স বিপরীতের সংখ্যাগত সমস্যা এড়ায়

কর্মক্ষমতা তুলনা:

প্রকৃত ATE কভার করার সামঞ্জস্যপূর্ণ
CI প্রস্থ বেসলাইন পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ছোট
শক্তিশালী বিভ্রান্তি পরিস্থিতিতেও কার্যকারিতা বজায় রাখে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

PPI কাঠামো সফলভাবে বহু-ডেটাসেট কার্যকর অনুমানে প্রসারিত করা
তাত্ত্বিক গ্যারান্টি সহ কার্যকর আস্থা ব্যবধান প্রদান করা
নিরীহ পদ্ধতির তুলনায় উল্লেখযোগ্যভাবে নির্ভুলতা উন্নত করা
চিকিৎসা ডেটায় ব্যবহারিক প্রয়োগযোগ্যতা যাচাই করা

সীমাবদ্ধতা

অনুমান নির্ভরতা: D₁ এর নো-কনফাউন্ডিং অনুমান বাস্তব অনুশীলনে লঙ্ঘিত হতে পারে
বিতরণ অনুমান: প্রান্তিক সহ-পরিবর্তনশীল বিতরণ একই অনুমান করে
নমুনা বিভাজন: কার্যকর বিভাজনের জন্য যথেষ্ট বড় D₂ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

CATE এ সম্প্রসারণ: বিষমজাত চিকিৎসা প্রভাবে পদ্ধতি সম্প্রসারণ
জীবন বিশ্লেষণ: কার্যকর জীবন বিশ্লেষণে প্রয়োগ
বড় ভাষা মডেল একীকরণ: পাঠ্য প্রতিনিধিত্বের জন্য প্রশিক্ষিত মডেল একীভূত করা
সংবেদনশীলতা বিশ্লেষণ: অনুমান লঙ্ঘনের জন্য শক্তিশালী পদ্ধতি বিকাশ

গভীর মূল্যায়ন

সুবিধা

তাত্ত্বিক কঠোরতা: সম্পূর্ণ渐近 তাত্ত্বিক বিশ্লেষণ এবং কার্যকারিতা প্রমাণ প্রদান করা
ব্যবহারিক মূল্য: চিকিৎসা অনুশীলনে প্রকৃত চাহিদা সমাধান করা
পদ্ধতি সার্বজনীনতা: একাধিক CATE অনুমানকারী সমর্থন করে, শক্তিশালী নমনীয়তা
পর্যাপ্ত পরীক্ষা: সিন্থেটিক এবং প্রকৃত ডেটা, একাধিক সংবেদনশীলতা বিশ্লেষণ অন্তর্ভুক্ত

অপূর্ণতা

অনুমান সীমাবদ্ধতা: নো-কনফাউন্ডিং অনুমান বাস্তব প্রয়োগে শক্তিশালী
গণনামূলক জটিলতা: ক্রস-ফিটিং এবং নমুনা বিভাজন গণনামূলক খরচ বৃদ্ধি করে
সীমিত সম্প্রসারণযোগ্যতা: প্রধানত দ্বিমুখী চিকিৎসার জন্য, ক্রমাগত চিকিৎসা সম্প্রসারণ অস্পষ্ট

প্রভাব

একাডেমিক অবদান: কার্যকর অনুমানে PPI প্রথম প্রয়োগ, নতুন গবেষণা দিক খোলা
ব্যবহারিক মূল্য: চিকিৎসা সিদ্ধান্তের জন্য আরও নির্ভরযোগ্য পরিসংখ্যানগত সরঞ্জাম প্রদান করা
পুনরুৎপাদনযোগ্যতা: ওপেন সোর্স কোড প্রদান করে, যাচাইকরণ এবং প্রয়োগ সহজতর করা

প্রয়োগযোগ্য পরিস্থিতি

বহু-কেন্দ্রীয় চিকিৎসা গবেষণা: বিভিন্ন হাসপাতালের রোগী ডেটা একীভূত করা
ওষুধ নিরাপত্তা মূল্যায়ন: RCT এবং বাস্তব-বিশ্ব ডেটা একত্রিত করা
স্বাস্থ্য নীতি প্রণয়ন: বহু-উৎস ডেটার উপর ভিত্তি করে প্রমাণ-ভিত্তিক সিদ্ধান্ত
নিয়ন্ত্রক অনুমোদন: ওষুধ অনুমোদনের জন্য পরিসংখ্যানগত প্রমাণ প্রদান করা

সংদর্ভ

Angelopoulos et al. (2023). পূর্বাভাস-চালিত অনুমান। বিজ্ঞান।
van der Laan et al. (2024). গড় চিকিৎসা প্রভাবের জন্য অভিযোজনশীল-TMLE। arXiv।
Kallus et al. (2018). পরীক্ষামূলক ভিত্তি দ্বারা লুকানো বিভ্রান্তি অপসারণ। NeurIPS।
Yang & Ding (2020). একাধিক পর্যবেক্ষণমূলক ডেটা উৎস একত্রিত করা। JASA।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের কার্যকর অনুমান পেপার যা পূর্বাভাস-চালিত অনুমান কাঠামো সফলভাবে বহু-ডেটাসেট ATE অনুমান সমস্যায় প্রয়োগ করে। পেপারটির তাত্ত্বিক ভিত্তি দৃঢ়, পরীক্ষামূলক ডিজাইন যুক্তিসঙ্গত এবং চিকিৎসা প্রয়োগে গুরুত্বপূর্ণ ব্যবহারিক মূল্য রয়েছে। যদিও কিছু অনুমান সীমাবদ্ধতা রয়েছে, সামগ্রিক অবদান উল্লেখযোগ্য এবং কার্যকর অনুমান ক্ষেত্রে নতুন পদ্ধতিগত সরঞ্জাম প্রদান করে।