2025-11-13T15:49:11.287474

Predictive posteriors under hidden confounding

Meixide, Insua

Predicting outcomes in external domains is challenging due to hidden confounders that potentially influence both predictors and outcomes. Well-established methods frequently rely on stringent assumptions, explicit knowledge about the distribution shift across domains, or bias-inducing regularization schemes to enhance generalization. While recent developments in point prediction under hidden confounding attempt to mitigate these shortcomings, they generally do not provide principled uncertainty quantification. We introduce a Bayesian framework that yields well-calibrated predictive distributions across external domains, supports valid model inference, and achieves posterior contraction rates that improve as the number of observed datasets increases. Simulations and a medical application highlight the remarkable empirical coverage of our approach, nearly unchanged when transitioning from low- to moderate-dimensional settings.

academic

Predictive posteriors under hidden confounding

基本信息

论文ID: 2507.05170
标题: Predictive posteriors under hidden confounding
作者: Carlos García Meixide, David Ríos Insua
分类: stat.ME
发表时间: arXiv:2507.05170v2 stat.ME 11 Oct 2025
论文链接: https://arxiv.org/abs/2507.05170v2

分布偏移的普遍性：机器学习应用中经常遇到训练域和测试域分布不一致的情况，这挑战了标准iid假设
隐藏混淆的影响：未观察到的混淆变量同时影响预测变量X和结果变量Y，导致传统方法失效
不确定性量化的需求：现有方法主要关注点预测，缺乏原则性的不确定性量化机制

现有方法的局限性

分布鲁棒优化：采用minimax优化，但需要引入偏差来增强鲁棒性
因果不变性方法：如anchor regression，依赖严格的不变性假设，在隐藏混淆存在时容易违反
共形预测：虽然能提供预测区间，但对分布偏移的处理有限
现有因果方法：主要提供点估计，缺乏不确定性量化

研究动机

作者基于之前的Generative Invariance (GI)工作，旨在构建一个统一的贝叶斯框架，同时解决因果发现和校准预测两个长期挑战性问题。

核心贡献

首个贝叶斯框架：提出了在隐藏混淆下进行概率预测的完整贝叶斯框架，能够同时进行因果发现和预测
理论保证：建立了后验一致性、收缩率和Bernstein-von Mises定理，证明了方法的渐近性质
假设检验能力：提供了首个在线性结构方程模型中检验变量是否为目标响应父节点的可计算假设检验方法
校准预测：实现了在分布偏移域中的良好校准预测，覆盖率接近理论水平
可识别性谱：首次明确阐述了弱可识别性作为渐进现象的经验表现

方法详解

任务定义

给定来自E个训练环境的异质数据源和一个目标测试环境，任务是：

输入：训练环境中的(X,Y)对，测试环境中的X
输出：测试环境中Y的校准预测分布和因果参数的可信区间
约束：存在隐藏混淆因子影响X和Y

模型架构

结构方程模型

基础模型为：

X ← ∑_z 1{Z = z}X_z
Y ← α* + γ*^T X + ε_Y

其中Z是环境指示符，ε_Y可能与X_z相关（隐藏混淆）。

层次贝叶斯模型

对每个环境e建立似然：

X_ei ~ N_p(μ_e, Σ_e)
Y_ei | X_ei, w, ϑ_e ~ N(α + γ^T X_ei + K^⊤(X_ei - μ_e), σ_Y^2)

关键参数：

w = (β, K)：β = (α, γ)包含回归系数，K吸收隐藏混淆效应
ϑ_e = (μ_e, Σ_e, σ_Y^2)：环境特定的讨厌参数

先验规范

采用ridge型高斯先验：

μ_1, ..., μ_E ~ N_p(μ̂, Σ_μ)
α ~ N(0, τ^2 σ_Y^2)
(γ, K) | τ^2, σ_Y^2 ~ N_2p(0, τ^2 σ_Y^2 I_2p)
σ_Y ~ π(σ_Y) ∝ 1/σ_Y
τ^2 ~ Beta-prime(a_τ, b_τ)

技术创新点

1. 混淆校正机制

通过K^⊤(X_ei - μ_e)项显式建模隐藏混淆的影响，其中：

K捕获隐藏混淆因子与观察变量的协方差结构
该项在每个环境中期望为0，不影响截距估计

单源示例：一维设置，n₁=500，隐藏混淆因子H~N(0,0.5²)
多源示例：多维设置，E=p+1个环境，系统性变化环境均值

真实数据

BMI分析：西班牙多省份数据

预测变量：生活方式因子（酒精消费、吸烟习惯、睡眠质量等）
结果变量：BMI
隐藏混淆：性别、胆固醇和血糖水平
环境指示：省份

评价指标

经验覆盖率：预测区间包含真实值的比例
因果发现准确性：正确识别因果变量的能力
预测校准：预测分布与真实分布的匹配程度

对比方法

OLS：普通最小二乘法
IV：工具变量方法
标准贝叶斯线性回归

实现细节

MCMC采样：使用RStan实现，4条链×1000次迭代
超参数：a_τ = b_τ = 1/2（标准half-Cauchy先验）
并行计算：8核心，每核心3次仿真

n, p	2维	5维	10维
200	.88/.96	.85/.95	.87/.90
500	.91/.95	.88/.93	.83/.94
1000	.89/.95	.88/.95	.85/.94
2000	.90/.95	.83/.94	.80/.95

关键发现：

本方法在所有情况下都优于OLS
随维度增加，覆盖率保持相对稳定
OLS表现随维度增加明显恶化

单源示例结果

参数估计：β和K的后验分布正确中心化在真实值1和-0.25
预测性能：经验覆盖率0.96，接近理论水平0.95
对比效果：OLS和IV预测完全偏离目标

医学应用结果

经验覆盖率：0.95（理想水平）
因果发现：仅识别出体力活动为唯一因果变量
对比分析：OLS错误识别多个相关但非因果的变量（如前吸烟者）

成功构建了隐藏混淆下的贝叶斯预测框架
实现了校准的概率预测和有效的因果发现
提供了完整的理论基础和实证验证
在低到中等维度设置中保持稳定性能

局限性

高斯假设：当前框架假设协变量服从高斯分布
线性模型：局限于线性结构方程模型
计算复杂度：MCMC采样在高维设置下可能较慢
环境数量：需要足够数量的训练环境以确保可识别性

未来方向

非参数扩展：整合martingale后验框架，消除似然-先验规范需求
对抗性学习：应用于对抗性机器学习场景
放松假设：允许混淆分布跨环境变化
PAC保证：建立边际PAC保证理论

深度评价

优点

理论完整性：提供了从后验一致性到Bernstein-von Mises定理的完整理论分析
方法创新性：首次实现隐藏混淆下的因果发现假设检验
实用价值：解决了两个长期挑战性问题的统一解决方案
实验充分性：从仿真到真实应用的全面验证
写作清晰：数学推导严谨，概念解释清楚

不足

假设限制：高斯假设和线性模型限制了适用范围
计算效率：MCMC方法在大规模数据上可能较慢
先验敏感性：虽然声称对先验不敏感，但弱可识别性下仍有影响
环境要求：需要多个训练环境，实际应用中可能受限

影响力

学术贡献：为因果推断和预测校准提供了新的理论框架
实际价值：在医学、经济学等存在隐藏混淆的领域有广泛应用前景
方法论意义：展示了贝叶斯方法在处理可识别性问题上的优势

适用场景

医学研究：存在未观察混淆因子的流行病学研究
经济学：政策评估中的因果推断
机器学习：域适应和分布偏移问题
社会科学：观察性研究中的因果分析

参考文献

Rothenhäusler, D., et al. (2021). Anchor regression: Heterogeneous data meet causality. Journal of the Royal Statistical Society Series B, 83(2), 215-246.
Peters, J., Bühlmann, P., & Meinshausen, N. (2016). Causal inference by using invariant prediction: Identification and confidence intervals. Journal of the Royal Statistical Society Series B, 78(5), 947-1012.
Tibshirani, R. J., et al. (2019). Conformal prediction under covariate shift. Advances in Neural Information Processing Systems, 32.
Meixide, C. G., & Insua, D. R. (2025). Unsupervised domain adaptation under hidden confounding. arXiv preprint.