2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua

Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.

academic

Prädiktive Posteriori unter verborgener Konfundierung

Grundinformationen

Paper-ID: 2507.05170
Titel: Predictive posteriors under hidden confounding
Autoren: Carlos García Meixide, David Ríos Insua
Klassifikation: stat.ME
Veröffentlichungsdatum: arXiv:2507.05170v2 stat.ME 11 Okt 2025
Paper-Link: https://arxiv.org/abs/2507.05170v2

Zusammenfassung

Die Vorhersage von Ergebnissen in externen Domänen ist eine Herausforderung, da verborgene Konfundierungsfaktoren sowohl Prädiktorvariablen als auch Ergebnisvariablen beeinflussen können. Bestehende Methoden stützen sich typischerweise auf strenge Annahmen, erfordern explizites Wissen über Verteilungsverschiebungen zwischen Domänen oder führen Regularisierungsschemata ein, die Verzerrungen verursachen, um die Verallgemeinerungsfähigkeit zu verbessern. Obwohl Punktvorhersagemethoden unter verborgener Konfundierung versuchen, diese Mängel zu beheben, können sie typischerweise keine prinzipiellen Unsicherheitsquantifizierungen bereitstellen. Dieser Artikel führt einen Bayes'schen Rahmen ein, der gut kalibrierte Vorhersageverteilungen in externen Domänen erzeugt, effiziente Modellschlussfolgerungen unterstützt und Posterior-Schrumpfungsraten erreicht, die sich mit zunehmender Anzahl von Beobachtungsdatensätzen verbessern. Simulationsstudien und medizinische Anwendungen heben die bemerkenswerte empirische Abdeckungsrate der Methode hervor, die über Übergänge von niedrig- zu mitteldimensionalen Einstellungen hinweg nahezu unverändert bleibt.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können zuverlässige probabilistische Vorhersagen in externen Domänen mit Verteilungsverschiebung durchgeführt und kalibrierte Unsicherheitsquantifizierungen bereitgestellt werden, wenn verborgene Konfundierungsfaktoren vorhanden sind?

Bedeutung des Problems

Allgegenwärtigkeit von Verteilungsverschiebungen: Maschinelle Lerneanwendungen stoßen häufig auf Inkonsistenzen zwischen Trainings- und Testdomänenverteilungen, was die standardmäßige iid-Annahme in Frage stellt
Auswirkungen verborgener Konfundierung: Nicht beobachtete Konfundierungsvariablen beeinflussen sowohl Prädiktorvariablen X als auch Ergebnisvariablen Y, was zum Versagen traditioneller Methoden führt
Bedarf an Unsicherheitsquantifizierung: Bestehende Methoden konzentrieren sich hauptsächlich auf Punktvorhersagen und ermangeln eines prinzipiellen Unsicherheitsquantifizierungsmechanismus

Einschränkungen bestehender Methoden

Verteilungsrobuste Optimierung: Verwendet Minimax-Optimierung, erfordert aber die Einführung von Verzerrungen zur Verbesserung der Robustheit
Kausale Invarianzmethoden: Wie Anker-Regression, basieren auf strikten Invarianzannahmen, die bei Vorhandensein verborgener Konfundierung leicht verletzt werden
Konforme Vorhersage: Kann zwar Vorhersageintervalle bereitstellen, hat aber begrenzte Handhabung von Verteilungsverschiebungen
Bestehende kausale Methoden: Liefern hauptsächlich Punktschätzungen, ermangeln Unsicherheitsquantifizierung

Forschungsmotivation

Die Autoren bauen auf früheren Arbeiten zur Generativen Invarianz (GI) auf und zielen darauf ab, einen einheitlichen Bayes'schen Rahmen zu konstruieren, der zwei langfristige Herausforderungen gleichzeitig angeht: kausale Entdeckung und kalibrierte Vorhersage.

Kernbeiträge

Erster Bayes'scher Rahmen: Präsentiert einen vollständigen Bayes'schen Rahmen für probabilistische Vorhersagen unter verborgener Konfundierung, der gleichzeitig kausale Entdeckung und Vorhersage ermöglicht
Theoretische Garantien: Etabliert Posterior-Konsistenz, Schrumpfungsraten und das Bernstein-von-Mises-Theorem und beweist die asymptotischen Eigenschaften der Methode
Hypothesentestfähigkeit: Bietet die erste berechenbare Hypothesentest-Methode zur Überprüfung, ob Variablen Elternknoten der Zielreaktion in linearen Strukturgleichungsmodellen sind
Kalibrierte Vorhersagen: Erreicht gut kalibrierte Vorhersagen in Verteilungsverschiebungsdomänen mit Abdeckungsraten nahe dem theoretischen Niveau
Identifizierbarkeitsspektrum: Klärt erstmals explizit schwache Identifizierbarkeit als empirische Manifestation eines asymptotischen Phänomens

Methodische Details

Aufgabendefinition

Gegeben heterogene Datenquellen aus E Trainingsumgebungen und einer Ziel-Testumgebung ist die Aufgabe:

Eingabe: (X,Y)-Paare aus Trainingsumgebungen, X aus der Testumgebung
Ausgabe: Kalibrierte Vorhersageverteilung von Y in der Testumgebung und Glaubwürdigkeitsintervalle für kausale Parameter
Einschränkung: Verborgene Konfundierungsfaktoren beeinflussen X und Y

Modellarchitektur

Strukturgleichungsmodell

Das Grundmodell ist:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

wobei Z ein Umgebungsindikator ist und ε_Y möglicherweise mit X_z korreliert ist (verborgene Konfundierung).

Hierarchisches Bayes'sches Modell

Für jede Umgebung e wird eine Likelihood etabliert:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

Schlüsselparameter:

w = (β, K): β = (α, γ) enthält Regressionskoeffizienten, K absorbiert Effekte verborgener Konfundierung
ϑ_e = (μ_e, Σ_e, σ_Y^2): Umgebungsspezifische Nuisance-Parameter

Prior-Spezifikation

Verwendet Ridge-artige Gaußsche Prioren:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

Technische Innovationen

1. Konfundierungskorrekturmechanismus

Modelliert explizit die Auswirkungen verborgener Konfundierung durch den Term K^⊤(X_ei - μ_e), wobei:

K die Kovarianzstruktur zwischen verborgenen Konfundierungsfaktoren und beobachteten Variablen erfasst
Dieser Term hat in jeder Umgebung einen Erwartungswert von 0 und beeinflusst nicht die Intercept-Schätzung

Einzelquellen-Beispiel: Eindimensionale Einstellung, n₁=500, verborgener Konfundierungsfaktor H~N(0,0.5²)
Mehrquellen-Beispiel: Mehrdimensionale Einstellung, E=p+1 Umgebungen, systematische Variation von Umgebungsmitteln

Echte Daten

BMI-Analyse: Daten aus mehreren spanischen Provinzen

Prädiktorvariablen: Lebensstilfaktoren (Alkoholkonsum, Rauchgewohnheiten, Schlafqualität usw.)
Ergebnisvariable: BMI
Verborgene Konfundierung: Geschlecht, Cholesterin- und Blutzuckerspiegel
Umgebungsindikator: Provinz

Bewertungsmetriken

Empirische Abdeckungsrate: Anteil der Vorhersageintervalle, die den wahren Wert enthalten
Genauigkeit der kausalen Entdeckung: Fähigkeit, kausale Variablen korrekt zu identifizieren
Vorhersagekalibrierung: Übereinstimmung zwischen Vorhersageverteilung und echter Verteilung

Vergleichsmethoden

OLS: Gewöhnliche Kleinste-Quadrate-Methode
IV: Instrumentalvariablen-Methode
Standard-Bayes'sche lineare Regression

Implementierungsdetails

MCMC-Sampling: Implementierung mit RStan, 4 Ketten × 1000 Iterationen
Hyperparameter: a_τ = b_τ = 1/2 (Standard-Half-Cauchy-Prior)
Parallele Berechnung: 8 Kerne, 3 Simulationen pro Kern

n, p	2D	5D	10D
200	.88/.96	.85/.95	.87/.90
500	.91/.95	.88/.93	.83/.94
1000	.89/.95	.88/.95	.85/.94
2000	.90/.95	.83/.94	.80/.95

Schlüsselfunde:

Diese Methode übertrifft OLS in allen Szenarien
Mit zunehmender Dimensionalität bleibt die Abdeckungsrate relativ stabil
OLS-Leistung verschlechtert sich mit zunehmender Dimensionalität deutlich

Ergebnisse des Einzelquellen-Beispiels

Parameterschätzung: Posterior-Verteilungen von β und K sind korrekt bei den wahren Werten 1 und -0,25 zentriert
Vorhersageleistung: Empirische Abdeckungsrate 0,96, nahe dem theoretischen Niveau 0,95
Vergleichseffekt: OLS- und IV-Vorhersagen weichen völlig vom Ziel ab

Ergebnisse der medizinischen Anwendung

Empirische Abdeckungsrate: 0,95 (ideales Niveau)
Kausale Entdeckung: Identifiziert nur körperliche Aktivität als einzige kausale Variable
Vergleichsanalyse: OLS identifiziert fälschlicherweise mehrere korrelierte, aber nicht-kausale Variablen (wie ehemalige Raucher)

Erfolgreich einen Bayes'schen Vorhersagerahmen unter verborgener Konfundierung konstruiert
Erreicht kalibrierte probabilistische Vorhersagen und effektive kausale Entdeckung
Bietet vollständige theoretische Grundlagen und empirische Validierung
Behält stabile Leistung in niedrig- bis mitteldimensionalen Einstellungen

Einschränkungen

Gaußsche Annahme: Der aktuelle Rahmen setzt Gaußsche Verteilung der Kovariaten voraus
Lineares Modell: Beschränkt auf lineare Strukturgleichungsmodelle
Rechenkomplexität: MCMC-Sampling kann in hochdimensionalen Einstellungen langsam sein
Anzahl der Umgebungen: Erfordert ausreichende Anzahl von Trainingsumgebungen zur Gewährleistung der Identifizierbarkeit

Zukünftige Richtungen

Nichtparametrische Erweiterung: Integration von Martingale-Posterior-Rahmen zur Beseitigung der Likelihood-Prior-Spezifikationsanforderung
Adversariales Lernen: Anwendung auf adversariale maschinelle Lernszenarien
Lockerung von Annahmen: Erlauben von Konfundierungsverteilungsänderungen über Umgebungen hinweg
PAC-Garantien: Etablierung von marginalen PAC-Garantie-Theorien

Tiefgreifende Bewertung

Stärken

Theoretische Vollständigkeit: Bietet vollständige theoretische Analyse von Posterior-Konsistenz bis zum Bernstein-von-Mises-Theorem
Methodische Innovation: Erste Implementierung von Hypothesentests für kausale Entdeckung unter verborgener Konfundierung
Praktischer Wert: Einheitliche Lösungsansätze für zwei langfristige Herausforderungsprobleme
Experimentelle Gründlichkeit: Umfassende Validierung von Simulationen bis zu echten Anwendungen
Schreibklarheit: Strenge mathematische Ableitungen, klare Konzepterklärungen

Mängel

Annahmebeschränkungen: Gaußsche Annahme und lineares Modell begrenzen den Anwendungsbereich
Recheneffizienz: MCMC-Methode kann bei großen Datenmengen langsam sein
Prior-Sensitivität: Obwohl Unempfindlichkeit gegenüber Prior behauptet wird, besteht unter schwacher Identifizierbarkeit noch Einfluss
Umgebungsanforderungen: Erfordert mehrere Trainingsumgebungen, kann in praktischen Anwendungen eingeschränkt sein

Auswirkungen

Akademischer Beitrag: Bietet neuen theoretischen Rahmen für kausale Inferenz und Vorhersagekalibrierung
Praktischer Wert: Breite Anwendungsperspektiven in Medizin, Wirtschaft und anderen Bereichen mit verborgener Konfundierung
Methodologische Bedeutung: Zeigt Vorteile der Bayes'schen Methode bei der Behandlung von Identifizierbarkeitsproblemen

Anwendungsszenarien

Medizinische Forschung: Epidemiologische Studien mit nicht beobachteten Konfundierungsfaktoren
Wirtschaftswissenschaften: Kausale Inferenz bei Politikbewertung
Maschinelles Lernen: Domänenanpassung und Verteilungsverschiebungsprobleme
Sozialwissenschaften: Kausale Analyse in Beobachtungsstudien

Literaturverzeichnis

Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.