2025-11-22T18:49:15.334146

Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets

Wang, Schröder, Frauen et al.
Constructing confidence intervals (CIs) for the average treatment effect (ATE) from patient records is crucial to assess the effectiveness and safety of drugs. However, patient records typically come from different hospitals, thus raising the question of how multiple observational datasets can be effectively combined for this purpose. In our paper, we propose a new method that estimates the ATE from multiple observational datasets and provides valid CIs. Our method makes little assumptions about the observational datasets and is thus widely applicable in medical practice. The key idea of our method is that we leverage prediction-powered inferences and thereby essentially `shrink' the CIs so that we offer more precise uncertainty quantification as compared to naïve approaches. We further prove the unbiasedness of our method and the validity of our CIs. We confirm our theoretical results through various numerical experiments. Finally, we provide an extension of our method for constructing CIs from combinations of experimental and observational datasets.
academic

Konstruktion von Konfidenzintervallen für durchschnittliche Behandlungseffekte aus mehreren Datensätzen

Grundinformationen

  • Paper-ID: 2412.11511
  • Titel: Constructing Confidence Intervals for Average Treatment Effects from Multiple Datasets
  • Autoren: Yuxin Wang, Maresa Schröder, Dennis Frauen, Jonas Schweisthal, Konstantin Hess & Stefan Feuerriegel (LMU München, MCML)
  • Klassifizierung: cs.LG, stat.ML
  • Veröffentlichungskonferenz: ICLR 2025
  • Paper-Link: https://arxiv.org/abs/2412.11511

Zusammenfassung

Dieses Paper präsentiert eine neue Methode zur Konstruktion von Konfidenzintervallen für durchschnittliche Behandlungseffekte (ATE) aus mehreren Beobachtungsdatensätzen. Die Methode stellt weniger Anforderungen an Beobachtungsdatensätze und hat breite Anwendbarkeit in der medizinischen Praxis. Die Kernidee besteht darin, vorhersagekraftgestützte Inferenz (prediction-powered inference) zu nutzen, um Konfidenzintervalle zu „schrumpfen" und damit präzisere Unsicherheitsquantifizierung im Vergleich zu naiven Methoden zu bieten. Das Paper beweist die Unverfälschtheit der Methode und die Gültigkeit der Konfidenzintervalle und validiert die theoretischen Ergebnisse durch numerische Experimente. Darüber hinaus wird die Methode erweitert, um Kombinationen aus experimentellen und Beobachtungsdatensätzen zu verarbeiten.

Forschungshintergrund und Motivation

Kernproblem

Im medizinischen Bereich ist die Konstruktion von Konfidenzintervallen für ATE aus Patientenakten entscheidend für die Bewertung der Wirksamkeit und Sicherheit von Medikamenten. Patientenakten stammen jedoch typischerweise aus verschiedenen Krankenhäusern, und die effektive Kombination mehrerer Beobachtungsdatensätze stellt eine Schlüsselherausforderung dar.

Bedeutung des Problems

  1. Anforderungen der medizinischen Entscheidungsfindung: Zuverlässige Konfidenzintervalle sind für medizinische Entscheidungen entscheidend und gewährleisten evidenzbasierte Behandlungswahlmöglichkeiten
  2. Datenzersplitterung: Elektronische Gesundheitsakten sind typischerweise über verschiedene medizinische Einrichtungen und Länder verteilt und erfordern integrierte Nutzung
  3. COVID-19-Fallstudie: Während der Pandemie war eine schnelle Bewertung der Arzneimittelwirksamkeit aus Mehrzentrendaten erforderlich, wie bei der Untersuchung von Nirmatrelvir/Ritonavir

Einschränkungen bestehender Methoden

  1. Einschränkungen der Punktschätzung: Die meisten bestehenden Mehrfachdatensatz-Methoden konzentrieren sich auf Punktschätzung und ermangeln der Unsicherheitsquantifizierung
  2. Probleme naiver Methoden:
    • Das direkte Verbinden von Datensätzen führt zu verzerrten Schätzungen aufgrund von Verwirrungsbias
    • Die ausschließliche Verwendung kleiner Datensätze ignoriert Informationen aus großen Datensätzen, was zu übermäßig konservativen Konfidenzintervallen führt
  3. Annahmebeschränkungen: Bestehende Methoden treffen starke Annahmen über Beziehungen zwischen Datensätzen

Kernbeiträge

  1. Neuartige Methodologie: Vorschlag einer auf vorhersagekraftgestützter Inferenz basierenden Methode zur Konstruktion von Mehrfachdatensatz-ATE-Konfidenzintervallen
  2. Theoretische Garantien: Beweis der konsistenten Schätzung und Gültigkeit der Konfidenzintervalle
  3. Breite Anwendbarkeit: Erweiterung auf Szenarien mit Kombinationen aus RCT und Beobachtungsdatensätzen
  4. Experimentelle Validierung: Validierung der Methodeneffektivität durch synthetische und medizinische Daten

Methodische Details

Aufgabendefinition

Gegeben ein kleiner unverzerrter Beobachtungsdatensatz D₁ (erfüllt die Annahme der Unkonfundiertheit) und ein großer Beobachtungsdatensatz D₂ (erlaubt unbeobachtete Verwirrung), besteht das Ziel darin, den ATE τ = EY¹(1) - Y¹(0) der Zielpopulation zu schätzen und gültige Konfidenzintervalle zu konstruieren.

Kernannahmen

D₁-Annahmen:

  • Konsistenz: A¹ = a ⇒ Y¹ = Y¹(a)
  • Überlappung: 0 < π¹(x) < 1
  • Unkonfundiertheit: Y¹(0), Y¹(1) ⊥⊥ A¹ | X¹

D₂-Annahmen (lockerer):

  • Konsistenz und Überlappung, aber Erlaubnis unbeobachteter Verwirrung

Modellarchitektur

Vierschrittiger Methodenrahmen

Schritt A: Anpassungsmessung (Measure of Fit) Schätzung des bedingten durchschnittlichen Behandlungseffekts (CATE) auf D₂ mit Stichprobenteilung:

τ̂₂(x) = E[Y²(1) - Y²(0) | X² = x]
τ̂₂ = (1/N)∑ᵢτ̂₂(xᵢ)

Schritt B: Einflussfunction-Schätzung Berechnung der nicht-zentrierten Einflussfunction-Bewertung des AIPW-Schätzers auf D₁:

Ỹη̂(xᵢ) = (aᵢ¹/π̂¹(xᵢ) - (1-aᵢ¹)/(1-π̂¹(xᵢ)))yᵢ¹ - (aᵢ¹-π̂¹(xᵢ))/(π̂¹(xᵢ)(1-π̂¹(xᵢ)))[(1-π̂¹(xᵢ))μ̂₁(xᵢ) + π̂¹(xᵢ)μ̂₀(xᵢ)]

Schritt C: Korrektor (Rectifier) Definition eines Korrektors zur Quantifizierung der ATE-Differenz zwischen zwei Datensätzen:

Δ̂τ = (1/n)∑ᵢ[Ỹη̂(xᵢ) - τ̂₂(xᵢ)]

Schritt D: Konfidenzintervall-Konstruktion Vorhersagekraftgestützte ATE-Schätzung:

τ̂ᴾᴾ = Δ̂τ + τ̂₂

Konfidenzintervall:

Cᴾᴾα = (τ̂ᴾᴾ ± z₁₋α/₂√(σ̂²Δ/n + σ̂²τ₂/N))

Technische Innovationen

  1. Anpassung vorhersagekraftgestützter Inferenz: Erstmalige Anwendung des PPI-Rahmens auf ATE-Schätzung in der kausalen Inferenz
  2. Korrektor-Design: Geschicktes Design des Korrektors zur Behandlung von Verteilungsunterschieden zwischen Datensätzen und potenzieller Verwirrung
  3. Theoretische Garantien: Bereitstellung asymptotischer Gültigkeitsbeweise zur Sicherung der statistischen Gültigkeit von Konfidenzintervallen
  4. Flexibilität: Unterstützung beliebiger CATE-Schätzer ohne Beschränkung auf spezifische Methoden

Theoretische Analyse

Theorem 4.2 (Gültigkeit des Konfidenzintervalls): Unter angemessenen Bedingungen gilt:

lim sup P(τ ∈ Cᴾᴾα) ≥ 1-α

Schlüssel-Lemma 4.1: Asymptotische Normalität des Korrektors

√n(Δ̂τ - τ + E[τ₂]) → N(0, σ²Δ)

Experimentelles Setup

Datensätze

Synthetische Daten:

  • Datengenerierungsmechanismus basierend auf Gaußschen Prozessen
  • Drei Verwirrungs-Szenarien: leicht, mittel, schwer
  • Kontrollierbare Kovariaten-Dimensionalität und Stichprobengröße

Medizinische Daten:

  1. MIMIC-III: Auswirkung der mechanischen Beatmung auf die Erythrozytenzahl bei ICU-Patienten
  2. Brasilianische COVID-19-Daten: Auswirkung von Komorbiditäten auf die Sterblichkeitsrate von COVID-19-Patienten

Bewertungsmetriken

  • Konfidenzintervall-Breite: Messung der Genauigkeit der Unsicherheitsquantifizierung
  • Abdeckungsrate: Validierung der statistischen Gültigkeit des Konfidenzintervalls
  • RMSE: Bewertung der Genauigkeit der Punktschätzung

Vergleichsmethoden

  1. τ̂ᴬᴵᴾᵂ(D₁ only): Naiver Ausgangswert unter ausschließlicher Verwendung des kleinen Datensatzes
  2. τ̂ᴬᴵᴾᵂ(D₂ only): Ausschließliche Verwendung des großen Datensatzes (verzerrte Schätzung)
  3. A-TMLE: Methode von van der Laan et al. (RCT + Beobachtungsdaten)

Implementierungsdetails

  • DR-Learner für CATE-Schätzung
  • Lineare/logistische Regression zur Schätzung von Störfunktionen
  • Kreuzvalidierung zur Vermeidung von Überanpassung
  • Durchschnittliche Ergebnisse über 5 zufällige Seeds

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei synthetischen Daten:

  1. Gültigkeit: Konfidenzintervalle decken konsistent den wahren ATE ab
  2. Präzisionssteigerung: Durchschnittliche Reduktion der KI-Breite um 49,99%-55,37% im Vergleich zu naiven Methoden
  3. Stabilität: Aufrechterhaltung überlegener Leistung unter verschiedenen Verwirrungs-Intensitäten

Validierung mit medizinischen Daten:

  • MIMIC-III: KI-Breite um etwa 3,5-fach reduziert
  • COVID-19-Daten: Überlegene Leistung unter verschiedenen Aufteilungsstrategien
  • Minimales RMSE und engste gültige Konfidenzintervalle

Sensitivitätsanalyse

Auswirkung der Datensatzgröße:

  • Vorteil ist ausgeprägter wenn N≫n
  • Verbesserungsumfang nimmt mit zunehmendem D₁ graduell ab (wie erwartet)

Hochdimensionale Einstellungen:

  • Aufrechterhaltung von Vorteilen in 5-, 50- und 500-dimensionalen Kovariatenräumen
  • Nachweis der Robustheit der Methode in hochdimensionalen Einstellungen

Verschiedene Modellarchitekturen:

  • Unterstützung neuronaler Netze, XGBoost und anderer Basismodelle
  • Demonstration der Allgemeingültigkeit der Methode

RCT + Beobachtungsdaten-Erweiterung

IPW-basierte Methode:

  • Nutzung bekannter Propensity Scores zur Vereinfachung der Schätzung
  • Stabiler als A-TMLE, vermeidung numerischer Probleme bei Matrixinversion

Leistungsvergleich:

  • Konsistente Abdeckung des wahren ATE
  • Signifikant engere KI-Breite als Basismethoden
  • Aufrechterhaltung der Gültigkeit auch unter starker Verwirrung

Verwandte Arbeiten

Konstruktion von ATE-Konfidenzintervallen

  • Traditionelle Methoden basieren auf asymptotischer Normalität oder endlichen Stichprobenannahmen
  • Bestehende Arbeiten konzentrieren sich hauptsächlich auf Einzeldatensatz-Szenarien

Mehrfachdatensatz-ATE-Schätzung

  1. RCT + Beobachtungsdaten: Kallus et al., Hatt et al., Demirel et al.
  2. Mehrere Beobachtungsdaten: Yang & Ding, Guo et al.
  3. Einschränkungen: Die meisten konzentrieren sich auf Punktschätzung und ermangeln der Unsicherheitsquantifizierung

Vorhersagekraftgestützte Inferenz

  • Von Angelopoulos et al. vorgeschlagener PPI-Rahmen
  • Hauptsächliche Anwendung auf traditionelle statistische Größen (Mittelwert, Median usw.)
  • Erstmalige Anwendung auf kausale Inferenz in diesem Paper

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung des PPI-Rahmens auf Mehrfachdatensatz-Kausalinferenz
  2. Bereitstellung theoretisch garantierter gültiger Konfidenzintervalle
  3. Signifikante Präzisionssteigerung im Vergleich zu naiven Methoden
  4. Validierung der praktischen Anwendbarkeit auf medizinischen Daten

Einschränkungen

  1. Annahmeabhängigkeit: Die Unkonfundiertheit-Annahme von D₁ kann in der Praxis verletzt werden
  2. Verteilungsannahmen: Annahme identischer marginaler Kovariaten-Verteilungen
  3. Stichprobenteilung: Erfordert ausreichend großes D₂ für effektive Teilung

Zukünftige Richtungen

  1. Erweiterung auf CATE: Erweiterung der Methode auf heterogene Behandlungseffekte
  2. Überlebensanalyse: Anwendung auf kausale Überlebensanalyse
  3. Integration großer Sprachmodelle: Kombination mit vortrainierten Modellen für Textdarstellung
  4. Sensitivitätsanalyse: Entwicklung robuster Methoden gegen Annahmeverletzungen

Tiefgehende Bewertung

Stärken

  1. Theoretische Strenge: Vollständige asymptotische theoretische Analyse und Gültigkeitsbeweise
  2. Praktischer Wert: Lösung echter Anforderungen in der medizinischen Praxis
  3. Methodische Universalität: Unterstützung mehrerer CATE-Schätzer mit hoher Flexibilität
  4. Umfangreiche Experimente: Abdeckung synthetischer und echter Daten mit mehreren Sensitivitätsanalysen

Mängel

  1. Annahmebeschränkungen: Unkonfundiertheit-Annahme ist in praktischen Anwendungen relativ stark
  2. Rechenkomplexität: Kreuzvalidierung und Stichprobenteilung erhöhen Rechenkosten
  3. Begrenzte Erweiterbarkeit: Hauptsächlich auf binäre Behandlungen ausgerichtet, Erweiterung auf kontinuierliche Behandlungen unklar

Auswirkungen

  1. Akademischer Beitrag: Erstmalige Anwendung von PPI auf kausale Inferenz, eröffnet neue Forschungsrichtungen
  2. Praktischer Wert: Bereitstellung zuverlässigerer statistischer Werkzeuge für medizinische Entscheidungsfindung
  3. Reproduzierbarkeit: Bereitstellung von Open-Source-Code zur Erleichterung von Validierung und Anwendung

Anwendungsszenarien

  1. Multizentrische medizinische Forschung: Integration von Patientendaten aus verschiedenen Krankenhäusern
  2. Arzneimittelsicherheitsbewertung: Kombination von RCT und Real-World-Daten
  3. Gesundheitspolitische Gestaltung: Evidenzbasierte Entscheidungsfindung basierend auf Mehrquellendaten
  4. Behördliche Genehmigung: Bereitstellung statistischer Evidenz für Arzneimittelzulassung

Literaturverzeichnis

  1. Angelopoulos et al. (2023). Prediction-powered inference. Science.
  2. van der Laan et al. (2024). Adaptive-TMLE for average treatment effect. arXiv.
  3. Kallus et al. (2018). Removing hidden confounding by experimental grounding. NeurIPS.
  4. Yang & Ding (2020). Combining multiple observational data sources. JASA.

Gesamtbewertung: Dies ist ein hochqualitatives Paper zur kausalen Inferenz, das den vorhersagekraftgestützten Inferenz-Rahmen erfolgreich auf das Mehrfachdatensatz-ATE-Schätzungsproblem anwendet. Das Paper hat eine solide theoretische Grundlage, angemessenes experimentelles Design und bedeutenden praktischen Wert in medizinischen Anwendungen. Obwohl es einige Annahmebeschränkungen gibt, sind die Gesamtbeiträge erheblich und bieten neue methodologische Werkzeuge für das Feld der kausalen Inferenz.