2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua
Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.
academic

Predictive posteriors under hidden confounding

基本信息

  • 论文ID: 2507.05170
  • 标题: Predictive posteriors under hidden confounding
  • 作者: Carlos García Meixide, David Ríos Insua
  • 分类: stat.ME
  • 发表时间: arXiv:2507.05170v2 stat.ME 11 Oct 2025
  • 论文链接: https://arxiv.org/abs/2507.05170v2

摘要

在外部域中预测结果具有挑战性,因为隐藏混淆因子可能同时影响预测变量和结果变量。现有方法通常依赖严格假设、显式了解跨域分布偏移或引入偏差的正则化方案来增强泛化能力。虽然隐藏混淆下的点预测方法试图缓解这些不足,但通常无法提供原则性的不确定性量化。本文引入了一个贝叶斯框架,能够在外部域中产生良好校准的预测分布,支持有效的模型推断,并实现随观察数据集数量增加而改善的后验收缩率。仿真实验和医学应用突出了该方法的显著经验覆盖率,在从低维到中等维度设置的转换中几乎保持不变。

研究背景与动机

问题定义

本研究要解决的核心问题是:在存在隐藏混淆因子的情况下,如何在分布偏移的外部域中进行可靠的概率预测并提供校准的不确定性量化。

问题重要性

  1. 分布偏移的普遍性:机器学习应用中经常遇到训练域和测试域分布不一致的情况,这挑战了标准iid假设
  2. 隐藏混淆的影响:未观察到的混淆变量同时影响预测变量X和结果变量Y,导致传统方法失效
  3. 不确定性量化的需求:现有方法主要关注点预测,缺乏原则性的不确定性量化机制

现有方法的局限性

  1. 分布鲁棒优化:采用minimax优化,但需要引入偏差来增强鲁棒性
  2. 因果不变性方法:如anchor regression,依赖严格的不变性假设,在隐藏混淆存在时容易违反
  3. 共形预测:虽然能提供预测区间,但对分布偏移的处理有限
  4. 现有因果方法:主要提供点估计,缺乏不确定性量化

研究动机

作者基于之前的Generative Invariance (GI)工作,旨在构建一个统一的贝叶斯框架,同时解决因果发现和校准预测两个长期挑战性问题。

核心贡献

  1. 首个贝叶斯框架:提出了在隐藏混淆下进行概率预测的完整贝叶斯框架,能够同时进行因果发现和预测
  2. 理论保证:建立了后验一致性、收缩率和Bernstein-von Mises定理,证明了方法的渐近性质
  3. 假设检验能力:提供了首个在线性结构方程模型中检验变量是否为目标响应父节点的可计算假设检验方法
  4. 校准预测:实现了在分布偏移域中的良好校准预测,覆盖率接近理论水平
  5. 可识别性谱:首次明确阐述了弱可识别性作为渐进现象的经验表现

方法详解

任务定义

给定来自E个训练环境的异质数据源和一个目标测试环境,任务是:

  • 输入:训练环境中的(X,Y)对,测试环境中的X
  • 输出:测试环境中Y的校准预测分布和因果参数的可信区间
  • 约束:存在隐藏混淆因子影响X和Y

模型架构

结构方程模型

基础模型为:

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

其中Z是环境指示符,ε_Y可能与X_z相关(隐藏混淆)。

层次贝叶斯模型

对每个环境e建立似然:

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

关键参数:

  • w = (β, K):β = (α, γ)包含回归系数,K吸收隐藏混淆效应
  • ϑ_e = (μ_e, Σ_e, σ_Y^2):环境特定的讨厌参数

先验规范

采用ridge型高斯先验:

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

技术创新点

1. 混淆校正机制

通过K^⊤(X_ei - μ_e)项显式建模隐藏混淆的影响,其中:

  • K捕获隐藏混淆因子与观察变量的协方差结构
  • 该项在每个环境中期望为0,不影响截距估计

2. 环境异质性建模

将环境均值μ_e视为从共同先验分布采样的随机量,而非固定参数,实现有益的收缩效应。

3. 可识别性处理

当可识别性条件接近违反时,贝叶斯方法通过受控收缩避免频率派方法的数值不稳定性。

4. 因果发现准则

基于后验分布提出决策规则:当min{|{i: γ_ji < 0}|, |{i: γ_ji > 0}|} < αm时,认为j是Y的因果父节点。

实验设置

数据集

仿真实验

  1. 单源示例:一维设置,n₁=500,隐藏混淆因子H~N(0,0.5²)
  2. 多源示例:多维设置,E=p+1个环境,系统性变化环境均值

真实数据

BMI分析:西班牙多省份数据

  • 预测变量:生活方式因子(酒精消费、吸烟习惯、睡眠质量等)
  • 结果变量:BMI
  • 隐藏混淆:性别、胆固醇和血糖水平
  • 环境指示:省份

评价指标

  1. 经验覆盖率:预测区间包含真实值的比例
  2. 因果发现准确性:正确识别因果变量的能力
  3. 预测校准:预测分布与真实分布的匹配程度

对比方法

  1. OLS:普通最小二乘法
  2. IV:工具变量方法
  3. 标准贝叶斯线性回归

实现细节

  • MCMC采样:使用RStan实现,4条链×1000次迭代
  • 超参数:a_τ = b_τ = 1/2(标准half-Cauchy先验)
  • 并行计算:8核心,每核心3次仿真

实验结果

主要结果

仿真实验表现

在多维设置下的平均经验覆盖率对比(OLS vs 本方法):

n, p2维5维10维
200.88/.96.85/.95.87/.90
500.91/.95.88/.93.83/.94
1000.89/.95.88/.95.85/.94
2000.90/.95.83/.94.80/.95

关键发现

  • 本方法在所有情况下都优于OLS
  • 随维度增加,覆盖率保持相对稳定
  • OLS表现随维度增加明显恶化

单源示例结果

  • 参数估计:β和K的后验分布正确中心化在真实值1和-0.25
  • 预测性能:经验覆盖率0.96,接近理论水平0.95
  • 对比效果:OLS和IV预测完全偏离目标

医学应用结果

  • 经验覆盖率:0.95(理想水平)
  • 因果发现:仅识别出体力活动为唯一因果变量
  • 对比分析:OLS错误识别多个相关但非因果的变量(如前吸烟者)

理论验证

通过图2展示了弱可识别性现象:当μ→0时,后验向先验均值收缩,避免了频率派方法的矩阵不可逆问题。

相关工作

主要研究方向

  1. 分布鲁棒优化:Sinha et al. (2020)的minimax方法
  2. 因果不变性:Peters et al. (2016)的不变预测方法
  3. 锚回归:Rothenhäusler et al. (2021)的异质数据因果方法
  4. 共形预测:Tibshirani et al. (2019)的鲁棒预测区间

本文优势

  1. 统一框架:同时处理因果发现和预测校准
  2. 理论保证:提供完整的渐近理论
  3. 实用性:无需超参数调整或特定分布偏移知识
  4. 鲁棒性:在隐藏混淆下保持有效性

结论与讨论

主要结论

  1. 成功构建了隐藏混淆下的贝叶斯预测框架
  2. 实现了校准的概率预测和有效的因果发现
  3. 提供了完整的理论基础和实证验证
  4. 在低到中等维度设置中保持稳定性能

局限性

  1. 高斯假设:当前框架假设协变量服从高斯分布
  2. 线性模型:局限于线性结构方程模型
  3. 计算复杂度:MCMC采样在高维设置下可能较慢
  4. 环境数量:需要足够数量的训练环境以确保可识别性

未来方向

  1. 非参数扩展:整合martingale后验框架,消除似然-先验规范需求
  2. 对抗性学习:应用于对抗性机器学习场景
  3. 放松假设:允许混淆分布跨环境变化
  4. PAC保证:建立边际PAC保证理论

深度评价

优点

  1. 理论完整性:提供了从后验一致性到Bernstein-von Mises定理的完整理论分析
  2. 方法创新性:首次实现隐藏混淆下的因果发现假设检验
  3. 实用价值:解决了两个长期挑战性问题的统一解决方案
  4. 实验充分性:从仿真到真实应用的全面验证
  5. 写作清晰:数学推导严谨,概念解释清楚

不足

  1. 假设限制:高斯假设和线性模型限制了适用范围
  2. 计算效率:MCMC方法在大规模数据上可能较慢
  3. 先验敏感性:虽然声称对先验不敏感,但弱可识别性下仍有影响
  4. 环境要求:需要多个训练环境,实际应用中可能受限

影响力

  1. 学术贡献:为因果推断和预测校准提供了新的理论框架
  2. 实际价值:在医学、经济学等存在隐藏混淆的领域有广泛应用前景
  3. 方法论意义:展示了贝叶斯方法在处理可识别性问题上的优势

适用场景

  1. 医学研究:存在未观察混淆因子的流行病学研究
  2. 经济学:政策评估中的因果推断
  3. 机器学习:域适应和分布偏移问题
  4. 社会科学:观察性研究中的因果分析

参考文献

  1. Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
  2. Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
  3. Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
  4. Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.