2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

Prädiktive Posteriori unter verborgener Konfundierung

Grundinformationen

  • Paper-ID: 2507.05170
  • Titel: Predictive posteriors under hidden confounding
  • Autoren: Carlos García Meixide, David Ríos Insua
  • Klassifikation: stat.ME
  • Veröffentlichungsdatum: arXiv:2507.05170v2 stat.ME 11 Okt 2025
  • Paper-Link: https://arxiv.org/abs/2507.05170v2

Zusammenfassung

Die Vorhersage von Ergebnissen in externen Domänen ist eine Herausforderung, da verborgene Konfundierungsfaktoren sowohl Prädiktorvariablen als auch Ergebnisvariablen beeinflussen können. Bestehende Methoden stützen sich typischerweise auf strenge Annahmen, erfordern explizites Wissen über Verteilungsverschiebungen zwischen Domänen oder führen Regularisierungsschemata ein, die Verzerrungen verursachen, um die Verallgemeinerungsfähigkeit zu verbessern. Obwohl Punktvorhersagemethoden unter verborgener Konfundierung versuchen, diese Mängel zu beheben, können sie typischerweise keine prinzipiellen Unsicherheitsquantifizierungen bereitstellen. Dieser Artikel führt einen Bayes'schen Rahmen ein, der gut kalibrierte Vorhersageverteilungen in externen Domänen erzeugt, effiziente Modellschlussfolgerungen unterstützt und Posterior-Schrumpfungsraten erreicht, die sich mit zunehmender Anzahl von Beobachtungsdatensätzen verbessern. Simulationsstudien und medizinische Anwendungen heben die bemerkenswerte empirische Abdeckungsrate der Methode hervor, die über Übergänge von niedrig- zu mitteldimensionalen Einstellungen hinweg nahezu unverändert bleibt.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können zuverlässige probabilistische Vorhersagen in externen Domänen mit Verteilungsverschiebung durchgeführt und kalibrierte Unsicherheitsquantifizierungen bereitgestellt werden, wenn verborgene Konfundierungsfaktoren vorhanden sind?

Bedeutung des Problems

  1. Allgegenwärtigkeit von Verteilungsverschiebungen: Maschinelle Lerneanwendungen stoßen häufig auf Inkonsistenzen zwischen Trainings- und Testdomänenverteilungen, was die standardmäßige iid-Annahme in Frage stellt
  2. Auswirkungen verborgener Konfundierung: Nicht beobachtete Konfundierungsvariablen beeinflussen sowohl Prädiktorvariablen X als auch Ergebnisvariablen Y, was zum Versagen traditioneller Methoden führt
  3. Bedarf an Unsicherheitsquantifizierung: Bestehende Methoden konzentrieren sich hauptsächlich auf Punktvorhersagen und ermangeln eines prinzipiellen Unsicherheitsquantifizierungsmechanismus

Einschränkungen bestehender Methoden

  1. Verteilungsrobuste Optimierung: Verwendet Minimax-Optimierung, erfordert aber die Einführung von Verzerrungen zur Verbesserung der Robustheit
  2. Kausale Invarianzmethoden: Wie Anker-Regression, basieren auf strikten Invarianzannahmen, die bei Vorhandensein verborgener Konfundierung leicht verletzt werden
  3. Konforme Vorhersage: Kann zwar Vorhersageintervalle bereitstellen, hat aber begrenzte Handhabung von Verteilungsverschiebungen
  4. Bestehende kausale Methoden: Liefern hauptsächlich Punktschätzungen, ermangeln Unsicherheitsquantifizierung

Forschungsmotivation

Die Autoren bauen auf früheren Arbeiten zur Generativen Invarianz (GI) auf und zielen darauf ab, einen einheitlichen Bayes'schen Rahmen zu konstruieren, der zwei langfristige Herausforderungen gleichzeitig angeht: kausale Entdeckung und kalibrierte Vorhersage.

Kernbeiträge

  1. Erster Bayes'scher Rahmen: Präsentiert einen vollständigen Bayes'schen Rahmen für probabilistische Vorhersagen unter verborgener Konfundierung, der gleichzeitig kausale Entdeckung und Vorhersage ermöglicht
  2. Theoretische Garantien: Etabliert Posterior-Konsistenz, Schrumpfungsraten und das Bernstein-von-Mises-Theorem und beweist die asymptotischen Eigenschaften der Methode
  3. Hypothesentestfähigkeit: Bietet die erste berechenbare Hypothesentest-Methode zur Überprüfung, ob Variablen Elternknoten der Zielreaktion in linearen Strukturgleichungsmodellen sind
  4. Kalibrierte Vorhersagen: Erreicht gut kalibrierte Vorhersagen in Verteilungsverschiebungsdomänen mit Abdeckungsraten nahe dem theoretischen Niveau
  5. Identifizierbarkeitsspektrum: Klärt erstmals explizit schwache Identifizierbarkeit als empirische Manifestation eines asymptotischen Phänomens

Methodische Details

Aufgabendefinition

Gegeben heterogene Datenquellen aus E Trainingsumgebungen und einer Ziel-Testumgebung ist die Aufgabe:

  • Eingabe: (X,Y)-Paare aus Trainingsumgebungen, X aus der Testumgebung
  • Ausgabe: Kalibrierte Vorhersageverteilung von Y in der Testumgebung und Glaubwürdigkeitsintervalle für kausale Parameter
  • Einschränkung: Verborgene Konfundierungsfaktoren beeinflussen X und Y

Modellarchitektur

Strukturgleichungsmodell

Das Grundmodell ist:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

wobei Z ein Umgebungsindikator ist und ε_Y möglicherweise mit X_z korreliert ist (verborgene Konfundierung).

Hierarchisches Bayes'sches Modell

Für jede Umgebung e wird eine Likelihood etabliert:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

Schlüsselparameter:

  • w = (β, K): β = (α, γ) enthält Regressionskoeffizienten, K absorbiert Effekte verborgener Konfundierung
  • ϑ_e = (μ_e, Σ_e, σ_Y^2): Umgebungsspezifische Nuisance-Parameter

Prior-Spezifikation

Verwendet Ridge-artige Gaußsche Prioren:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

Technische Innovationen

1. Konfundierungskorrekturmechanismus

Modelliert explizit die Auswirkungen verborgener Konfundierung durch den Term K^⊤(X_ei - μ_e), wobei:

  • K die Kovarianzstruktur zwischen verborgenen Konfundierungsfaktoren und beobachteten Variablen erfasst
  • Dieser Term hat in jeder Umgebung einen Erwartungswert von 0 und beeinflusst nicht die Intercept-Schätzung

2. Modellierung von Umgebungsheterogenität

Behandelt Umgebungsmittel μ_e als Zufallsgrößen, die aus einer gemeinsamen Prior-Verteilung gezogen werden, anstatt sie als feste Parameter zu behandeln, und realisiert vorteilhafte Schrumpfungseffekte.

3. Behandlung von Identifizierbarkeit

Wenn Identifizierbarkeitsbedingungen nahe daran sind, verletzt zu werden, vermeidet die Bayes'sche Methode durch kontrollierte Schrumpfung numerische Instabilität frequentistischer Methoden.

4. Kriterium für kausale Entdeckung

Schlägt Entscheidungsregeln basierend auf der Posterior-Verteilung vor: Wenn min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm, wird j als kausaler Elternknoten von Y betrachtet.

Experimentelles Setup

Datensätze

Simulationsstudien

  1. Einzelquellen-Beispiel: Eindimensionale Einstellung, n₁=500, verborgener Konfundierungsfaktor H~N(0,0.5²)
  2. Mehrquellen-Beispiel: Mehrdimensionale Einstellung, E=p+1 Umgebungen, systematische Variation von Umgebungsmitteln

Echte Daten

BMI-Analyse: Daten aus mehreren spanischen Provinzen

  • Prädiktorvariablen: Lebensstilfaktoren (Alkoholkonsum, Rauchgewohnheiten, Schlafqualität usw.)
  • Ergebnisvariable: BMI
  • Verborgene Konfundierung: Geschlecht, Cholesterin- und Blutzuckerspiegel
  • Umgebungsindikator: Provinz

Bewertungsmetriken

  1. Empirische Abdeckungsrate: Anteil der Vorhersageintervalle, die den wahren Wert enthalten
  2. Genauigkeit der kausalen Entdeckung: Fähigkeit, kausale Variablen korrekt zu identifizieren
  3. Vorhersagekalibrierung: Übereinstimmung zwischen Vorhersageverteilung und echter Verteilung

Vergleichsmethoden

  1. OLS: Gewöhnliche Kleinste-Quadrate-Methode
  2. IV: Instrumentalvariablen-Methode
  3. Standard-Bayes'sche lineare Regression

Implementierungsdetails

  • MCMC-Sampling: Implementierung mit RStan, 4 Ketten × 1000 Iterationen
  • Hyperparameter: a_τ = b_τ = 1/2 (Standard-Half-Cauchy-Prior)
  • Parallele Berechnung: 8 Kerne, 3 Simulationen pro Kern

Experimentelle Ergebnisse

Hauptergebnisse

Leistung der Simulationsstudien

Durchschnittliche empirische Abdeckungsrate im mehrdimensionalen Setup (OLS vs. diese Methode):

n, p2D5D10D
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

Schlüsselfunde:

  • Diese Methode übertrifft OLS in allen Szenarien
  • Mit zunehmender Dimensionalität bleibt die Abdeckungsrate relativ stabil
  • OLS-Leistung verschlechtert sich mit zunehmender Dimensionalität deutlich

Ergebnisse des Einzelquellen-Beispiels

  • Parameterschätzung: Posterior-Verteilungen von β und K sind korrekt bei den wahren Werten 1 und -0,25 zentriert
  • Vorhersageleistung: Empirische Abdeckungsrate 0,96, nahe dem theoretischen Niveau 0,95
  • Vergleichseffekt: OLS- und IV-Vorhersagen weichen völlig vom Ziel ab

Ergebnisse der medizinischen Anwendung

  • Empirische Abdeckungsrate: 0,95 (ideales Niveau)
  • Kausale Entdeckung: Identifiziert nur körperliche Aktivität als einzige kausale Variable
  • Vergleichsanalyse: OLS identifiziert fälschlicherweise mehrere korrelierte, aber nicht-kausale Variablen (wie ehemalige Raucher)

Theoretische Verifikation

Abbildung 2 zeigt das Phänomen schwacher Identifizierbarkeit: Wenn μ→0, schrumpft der Posterior zum Prior-Mittelwert und vermeidet das Matrixinvertibilitätsproblem frequentistischer Methoden.

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Verteilungsrobuste Optimierung: Minimax-Methode von Sinha et al. (2020)
  2. Kausale Invarianz: Invariante Vorhersagemethode von Peters et al. (2016)
  3. Anker-Regression: Heterogene Datenkausalmethode von Rothenhäusler et al. (2021)
  4. Konforme Vorhersage: Robuste Vorhersageintervalle von Tibshirani et al. (2019)

Vorteile dieses Papiers

  1. Einheitlicher Rahmen: Behandelt gleichzeitig kausale Entdeckung und Vorhersagekalibrierung
  2. Theoretische Garantien: Bietet vollständige asymptotische Theorie
  3. Praktikalität: Erfordert keine Hyperparameter-Anpassung oder spezifisches Wissen über Verteilungsverschiebungen
  4. Robustheit: Bleibt unter verborgener Konfundierung wirksam

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreich einen Bayes'schen Vorhersagerahmen unter verborgener Konfundierung konstruiert
  2. Erreicht kalibrierte probabilistische Vorhersagen und effektive kausale Entdeckung
  3. Bietet vollständige theoretische Grundlagen und empirische Validierung
  4. Behält stabile Leistung in niedrig- bis mitteldimensionalen Einstellungen

Einschränkungen

  1. Gaußsche Annahme: Der aktuelle Rahmen setzt Gaußsche Verteilung der Kovariaten voraus
  2. Lineares Modell: Beschränkt auf lineare Strukturgleichungsmodelle
  3. Rechenkomplexität: MCMC-Sampling kann in hochdimensionalen Einstellungen langsam sein
  4. Anzahl der Umgebungen: Erfordert ausreichende Anzahl von Trainingsumgebungen zur Gewährleistung der Identifizierbarkeit

Zukünftige Richtungen

  1. Nichtparametrische Erweiterung: Integration von Martingale-Posterior-Rahmen zur Beseitigung der Likelihood-Prior-Spezifikationsanforderung
  2. Adversariales Lernen: Anwendung auf adversariale maschinelle Lernszenarien
  3. Lockerung von Annahmen: Erlauben von Konfundierungsverteilungsänderungen über Umgebungen hinweg
  4. PAC-Garantien: Etablierung von marginalen PAC-Garantie-Theorien

Tiefgreifende Bewertung

Stärken

  1. Theoretische Vollständigkeit: Bietet vollständige theoretische Analyse von Posterior-Konsistenz bis zum Bernstein-von-Mises-Theorem
  2. Methodische Innovation: Erste Implementierung von Hypothesentests für kausale Entdeckung unter verborgener Konfundierung
  3. Praktischer Wert: Einheitliche Lösungsansätze für zwei langfristige Herausforderungsprobleme
  4. Experimentelle Gründlichkeit: Umfassende Validierung von Simulationen bis zu echten Anwendungen
  5. Schreibklarheit: Strenge mathematische Ableitungen, klare Konzepterklärungen

Mängel

  1. Annahmebeschränkungen: Gaußsche Annahme und lineares Modell begrenzen den Anwendungsbereich
  2. Recheneffizienz: MCMC-Methode kann bei großen Datenmengen langsam sein
  3. Prior-Sensitivität: Obwohl Unempfindlichkeit gegenüber Prior behauptet wird, besteht unter schwacher Identifizierbarkeit noch Einfluss
  4. Umgebungsanforderungen: Erfordert mehrere Trainingsumgebungen, kann in praktischen Anwendungen eingeschränkt sein

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen theoretischen Rahmen für kausale Inferenz und Vorhersagekalibrierung
  2. Praktischer Wert: Breite Anwendungsperspektiven in Medizin, Wirtschaft und anderen Bereichen mit verborgener Konfundierung
  3. Methodologische Bedeutung: Zeigt Vorteile der Bayes'schen Methode bei der Behandlung von Identifizierbarkeitsproblemen

Anwendungsszenarien

  1. Medizinische Forschung: Epidemiologische Studien mit nicht beobachteten Konfundierungsfaktoren
  2. Wirtschaftswissenschaften: Kausale Inferenz bei Politikbewertung
  3. Maschinelles Lernen: Domänenanpassung und Verteilungsverschiebungsprobleme
  4. Sozialwissenschaften: Kausale Analyse in Beobachtungsstudien

Literaturverzeichnis

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.