2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

隠れた交絡下の予測事後分布

基本情報

  • 論文ID: 2507.05170
  • タイトル: Predictive posteriors under hidden confounding
  • 著者: Carlos García Meixide, David Ríos Insua
  • 分類: stat.ME
  • 発表日時: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • 論文リンク: https://arxiv.org/abs/2507.05170v2

要約

外部領域における結果の予測は、隠れた交絡因子が予測変数と結果変数の両方に同時に影響を与える可能性があるため、困難である。既存の方法は通常、厳密な仮定に依存するか、領域間の分布シフトを明示的に理解するか、または一般化能力を強化するための偏りのある正則化スキームを導入している。隠れた交絡下の点予測方法は、これらの不足を緩和しようとしているが、通常、原則的な不確実性の定量化を提供することができない。本論文は、外部領域において良好に較正された予測分布を生成し、効果的なモデル推論をサポートし、観測データセット数の増加に伴って改善される事後収縮率を実現するベイズ枠組みを導入する。シミュレーション実験と医学応用は、低次元から中程度の次元設定への移行において、ほぼ不変である本方法の顕著な経験的カバレッジを強調している。

研究背景と動機

問題定義

本研究が解決する中核的な問題は、隠れた交絡因子が存在する場合に、分布シフトのある外部領域において、信頼できる確率予測を実施し、較正された不確実性の定量化を提供する方法である。

問題の重要性

  1. 分布シフトの普遍性:機械学習の応用において、訓練領域とテスト領域の分布が一致しない場合が頻繁に発生し、標準的なi.i.d.仮定に挑戦している
  2. 隠れた交絡の影響:観測されない交絡変数が予測変数Xと結果変数Yの両方に影響を与え、従来の方法が失効する
  3. 不確実性定量化の必要性:既存の方法は主に点予測に焦点を当てており、原則的な不確実性定量化メカニズムが不足している

既存方法の限界

  1. 分布ロバスト最適化:ミニマックス最適化を採用するが、ロバスト性を強化するために偏りを導入する必要がある
  2. 因果不変性方法:アンカー回帰などは厳密な不変性仮定に依存し、隠れた交絡が存在する場合に容易に違反される
  3. 共形予測:予測区間を提供できるが、分布シフトの処理に限界がある
  4. 既存の因果方法:主に点推定を提供し、不確実性定量化が不足している

研究動機

著者は先行する生成的不変性(GI)の研究に基づき、因果発見と較正予測という2つの長期的な課題を同時に解決する統一されたベイズ枠組みを構築することを目指している。

中核的貢献

  1. 初のベイズ枠組み:隠れた交絡下での確率予測のための完全なベイズ枠組みを提案し、因果発見と予測を同時に実施できる
  2. 理論的保証:事後一貫性、収縮率、およびBernstein-von Mises定理を確立し、方法の漸近特性を証明する
  3. 仮説検定能力:線形構造方程式モデルにおいて、変数が目標応答の親ノードであるかどうかを検定する初の計算可能な仮説検定方法を提供する
  4. 較正予測:分布シフト領域における良好に較正された予測を実現し、カバレッジが理論水準に近い
  5. 可識別性スペクトラム:弱可識別性を漸近現象として初めて明確に説明する

方法の詳細

タスク定義

E個の訓練環境からの異質なデータソースと1つの目標テスト環境が与えられた場合、タスクは以下の通りである:

  • 入力:訓練環境における(X,Y)ペア、テスト環境におけるX
  • 出力:テスト環境におけるYの較正予測分布と因果パラメータの信頼区間
  • 制約:XとYに影響を与える隠れた交絡因子が存在する

モデルアーキテクチャ

構造方程式モデル

基本モデルは以下の通りである:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

ここでZは環境指示子、ε_YはX_zと相関する可能性がある(隠れた交絡)。

階層ベイズモデル

各環境eに対して尤度を構築する:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

主要パラメータ:

  • w = (β, K):β = (α, γ)は回帰係数を含み、Kは隠れた交絡効果を吸収する
  • ϑ_e = (μ_e, Σ_e, σ_Y^2):環境固有の厄介なパラメータ

事前分布の規定

リッジ型ガウス事前分布を採用する:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

技術的革新点

1. 交絡補正メカニズム

K^⊤(X_ei - μ_e)項を通じて隠れた交絡の影響を明示的にモデル化する。ここで:

  • Kは隠れた交絡因子と観測変数の共分散構造を捉える
  • この項は各環境において期待値が0であり、切片推定に影響しない

2. 環境異質性のモデリング

環境平均μ_eを固定パラメータではなく、共通事前分布から抽出される確率変数として扱い、有益な収縮効果を実現する。

3. 可識別性の処理

可識別性条件がほぼ違反される場合、ベイズ方法は制御された収縮を通じて頻度主義的方法の数値不安定性を回避する。

4. 因果発見基準

事後分布に基づいて決定規則を提案する:min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αmの場合、jはYの因果親ノードであると判定する。

実験設定

データセット

シミュレーション実験

  1. 単一ソース例:1次元設定、n₁=500、隠れた交絡因子H~N(0,0.5²)
  2. 複数ソース例:多次元設定、E=p+1個の環境、体系的に変化する環境平均

実データ

BMI分析:スペインの複数州データ

  • 予測変数:生活様式因子(アルコール消費、喫煙習慣、睡眠の質など)
  • 結果変数:BMI
  • 隠れた交絡:性別、コレステロール、血糖値
  • 環境指示:州

評価指標

  1. 経験的カバレッジ:予測区間が真の値を含む割合
  2. 因果発見精度:因果変数を正しく識別する能力
  3. 予測較正:予測分布と真の分布の一致度

比較方法

  1. OLS:通常最小二乗法
  2. IV:操作変数法
  3. 標準ベイズ線形回帰

実装詳細

  • MCMCサンプリング:RStanを使用、4チェーン×1000反復
  • ハイパーパラメータ:a_τ = b_τ = 1/2(標準half-Cauchy事前分布)
  • 並列計算:8コア、コアあたり3回のシミュレーション

実験結果

主要結果

シミュレーション実験の性能

多次元設定における平均経験的カバレッジ比較(OLS対本方法):

n, p2次元5次元10次元
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

主要な発見

  • 本方法はすべての状況においてOLSを上回る
  • 次元の増加に伴い、カバレッジは相対的に安定している
  • OLSの性能は次元の増加に伴い明らかに悪化する

単一ソース例の結果

  • パラメータ推定:βとKの事後分布は真の値1と-0.25に正しく中心化されている
  • 予測性能:経験的カバレッジ0.96、理論水準0.95に近い
  • 対比効果:OLSとIVの予測は完全に目標から外れている

医学応用の結果

  • 経験的カバレッジ:0.95(理想的水準)
  • 因果発見:身体活動のみを唯一の因果変数として識別
  • 対比分析:OLSは相関しているが因果的ではない複数の変数を誤って識別(例:元喫煙者)

理論的検証

図2を通じて弱可識別性現象を示す:μ→0の場合、事後分布は事前分布の平均に収縮し、頻度主義的方法の行列非可逆問題を回避する。

関連研究

主要な研究方向

  1. 分布ロバスト最適化:Sinha et al. (2020)のミニマックス方法
  2. 因果不変性:Peters et al. (2016)の不変予測方法
  3. アンカー回帰:Rothenhäusler et al. (2021)の異質データ因果方法
  4. 共形予測:Tibshirani et al. (2019)のロバスト予測区間

本論文の利点

  1. 統一枠組み:因果発見と予測較正を同時に処理
  2. 理論的保証:完全な漸近理論を提供
  3. 実用性:ハイパーパラメータ調整や特定の分布シフト知識が不要
  4. ロバスト性:隠れた交絡下で有効性を維持

結論と考察

主要な結論

  1. 隠れた交絡下のベイズ予測枠組みの構築に成功した
  2. 較正された確率予測と効果的な因果発見を実現した
  3. 完全な理論的基礎と実証的検証を提供した
  4. 低次元から中程度の次元設定において安定した性能を維持した

限界

  1. ガウス仮定:現在の枠組みは共変量がガウス分布に従うと仮定している
  2. 線形モデル:線形構造方程式モデルに限定されている
  3. 計算複雑性:MCMC サンプリングは高次元設定では遅い可能性がある
  4. 環境数:可識別性を確保するために十分な数の訓練環境が必要である

将来の方向

  1. 非パラメトリック拡張:マルチンゲール事後枠組みを統合し、尤度-事前分布規定の必要性を排除する
  2. 対抗的学習:対抗的機械学習シナリオへの適用
  3. 仮定の緩和:交絡分布が環境間で変化することを許容する
  4. PAC保証:周辺PAC保証理論の確立

深い評価

利点

  1. 理論的完全性:事後一貫性からBernstein-von Mises定理までの完全な理論分析を提供
  2. 方法の革新性:隠れた交絡下の因果発見仮説検定を初めて実現
  3. 実用的価値:2つの長期的課題の統一的解決方案
  4. 実験の充分性:シミュレーションから実際の応用までの包括的検証
  5. 記述の明確性:数学的導出が厳密で、概念説明が明確

不足

  1. 仮定の制限:ガウス仮定と線形モデルは適用範囲を制限している
  2. 計算効率:MCMC方法は大規模データでは遅い可能性がある
  3. 事前分布感度:事前分布に対して不敏感であると主張しているが、弱可識別性下では依然として影響がある
  4. 環境要件:複数の訓練環境が必要であり、実際の応用では制限される可能性がある

影響力

  1. 学術的貢献:因果推論と予測較正に新しい理論的枠組みを提供
  2. 実用的価値:医学、経済学など隠れた交絡が存在する分野での広範な応用の可能性
  3. 方法論的意義:可識別性問題の処理におけるベイズ方法の利点を示す

適用シナリオ

  1. 医学研究:観測されない交絡因子が存在する疫学研究
  2. 経済学:政策評価における因果推論
  3. 機械学習:ドメイン適応と分布シフト問題
  4. 社会科学:観測研究における因果分析

参考文献

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.