2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

基本信息

  • 论文ID: 2411.16315
  • 标题: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • 作者: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • 分类: cs.LG math.ST stat.ML stat.TH
  • 发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 论文链接: https://arxiv.org/abs/2411.16315

摘要

从非实验数据中估计因果效应是许多科学领域的基本问题。该任务的关键组成部分是选择适当的协变量集合进行混杂调整以避免偏差。现有的协变量选择方法通常假设不存在潜在变量,并依赖于学习变量间的全局网络结构。然而,当我们主要关注估计治疗变量对结果变量的效应时,识别全局结构可能是不必要且低效的。为解决这一局限性,本文提出了一种新颖的局部学习方法,用于在存在潜在变量的非参数因果效应估计中进行协变量选择。该方法利用观察变量间可测试的独立性和依赖性关系来识别目标因果关系的有效调整集,在标准假设下确保了完备性和正确性。

研究背景与动机

问题定义

该研究要解决的核心问题是:在存在潜在变量的情况下,如何高效地选择协变量集合来估计特定治疗变量X对结果变量Y的因果效应。

问题重要性

  1. 广泛应用性: 因果效应估计在流行病学、社会科学、经济学和人工智能等领域至关重要
  2. 实践需求: 在实际应用中,理想化的随机对照试验往往难以实施
  3. 偏差控制: 不正确的协变量选择会导致有偏的因果效应估计

现有方法的局限性

  1. 全局结构学习: 现有方法如IDA、LV-IDA需要学习完整的因果图结构,计算复杂度高
  2. 潜在变量忽视: 许多方法假设不存在潜在混杂变量,在实际应用中不现实
  3. 局部方法不完备: 如CEELS方法虽然效率较高,但可能遗漏有效的调整集

研究动机

本文的出发点是开发一种既保持局部学习效率优势,又确保完备性和正确性的协变量选择方法,特别是在存在潜在变量的复杂场景下。

核心贡献

  1. 提出LSAS算法: 设计了一种完全局部的协变量选择算法,利用可测试的独立性和依赖性关系,允许潜在变量的存在
  2. 理论保证: 证明了所提算法在标准假设下的完备性和正确性,能够识别目标因果关系的有效调整集
  3. 效率提升: 相比全局方法显著降低了计算复杂度,时间复杂度从O(t×2^t)降低到O(|MB(X)|-1)×2^|MB(Y)|-1+n
  4. 实验验证: 在合成数据和真实数据上验证了算法的有效性

方法详解

任务定义

输入: 观察数据集D,包含治疗变量X、结果变量Y和协变量集合O 输出:

  • 场景S1: X对Y的因果效应估计值θ
  • 场景S2: 确定X对Y无因果效应(θ=0)
  • 场景S3: 无法确定是否存在因果效应(θ=∅)

约束条件:

  • Y不是X的因果祖先
  • O为预处理变量集合(X和Y不是O中任何变量的因果祖先)

核心理论基础

AMB定义

定义了Markov毯内的调整集AMB(X,Y):

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z阻断所有从X到Y的非因果路径

关键定理

定理1 (AMB存在性): 存在O的子集作为(X,Y)的调整集当且仅当存在MB(Y){X}的子集作为调整集。

定理2 (规则R1): 对于Z ⊆ MB(Y){X},如果存在S ∈ MB(X){Y}满足:

  • S ⊥̸⊥ Y | Z (条件i)
  • S ⊥⊥ Y | Z∪{X} (条件ii)

则Z是AMB(X,Y),且X对Y有因果效应。

定理3 (规则R2): 如果存在Z ⊆ MB(Y){X}和S ∈ MB(X){Y}满足以下任一条件:

  • X ⊥⊥ Y | Z (条件i)
  • S ⊥̸⊥ X | Z 且 S ⊥⊥ Y | Z (条件ii)

则X对Y无因果效应。

LSAS算法流程

算法1: Local Search Adjustment Sets (LSAS)
输入: 观察数据集D, 治疗变量X, 结果变量Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // 初始化因果效应估计
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S和Z满足规则R1 then
5:     估计X对Y的因果效应θ, Θ ← θ // S1场景
6:   end if
7:   if S和Z满足规则R2 then
8:     return Θ ← 0 // 无因果效应, S2场景
9:   end if
10: end for
输出: 估计的因果效应Θ // 若为∅则为S3场景

技术创新点

  1. 局部Markov毯利用: 仅需要X和Y的Markov毯信息,避免全局图学习
  2. 规则驱动识别: 通过R1和R2规则直接从条件独立性测试中识别因果关系
  3. 潜在变量处理: 在MAG框架下处理潜在混杂变量
  4. 完备性保证: 理论证明了方法的完备性,不会遗漏可识别的调整集

实验设置

数据集

  1. 合成数据:
    • 随机图: Erdős-Rényi模型G(n,d),节点数20-50,平均度3-9
    • 特定结构: 基于图3(a)和图4(a)的DAG结构
    • 基准网络: INSURANCE(27节点)、MILDEW(35节点)、WIN95PTS(76节点)、ANDES(223节点)
  2. 真实数据: Cattaneo2数据集,包含4642个宾夕法尼亚州单胎出生记录

评价指标

  • 相对误差(RE): |(估计值-真实值)/真实值| × 100%
  • 测试次数(nTest): 算法执行的条件独立性测试数量

对比方法

  • LV-IDA: 基于RFCI算法的全局图学习方法
  • EHS: 全局搜索的预处理假设方法
  • CEELS: 局部搜索的预处理假设方法
  • LDP: 放宽预处理假设的局部搜索方法

实现细节

  • 样本量: 1K, 5K, 10K, 15K
  • 线性高斯因果模型,边权重从Uniform0.5,1.5采样
  • 条件独立性测试显著性水平: 0.01
  • 条件集最大大小: 3-7(根据网络复杂度)

实验结果

主要结果

特定结构实验

在图3(b)和图4(b)对应的MAG结构上:

  • 相对误差: LSAS在所有样本量下都显著优于其他方法
  • 测试效率: LSAS的nTest远低于LV-IDA和EHS
  • 完备性优势: CEELS和LDP由于不完备性,在某些结构上无法找到有效调整集

基准网络实验

在MILDEW和WIN95PTS网络上:

  • LSAS在几乎所有评价指标和样本量下都表现最优
  • 即使在违反预处理假设的情况下,LSAS仍优于其他方法
  • EHS由于运行时间过长在大型网络上无法完成

真实数据验证

在Cattaneo2数据集上研究孕期吸烟对婴儿出生体重的影响:

  • LSAS和EHS的效应估计都落在基准区间-250g, -200g
  • LSAS仅需158次条件独立性测试,而CEELS需1284次,LDP需266次
  • 验证了方法在实际应用中的有效性

消融实验

论文通过不同网络密度的实验验证了方法的鲁棒性:

  • 随着图密度增加,所有方法性能都有所下降,但LSAS保持明显优势
  • 在G(40,9)网络中,虽然LDP的nTest更低,但LSAS的RE显著更优

运行时间分析

LSAS在大多数网络和样本量下都显示出最优的运行时间性能,唯一例外是WIN95PTS网络在大样本量(15K)时LDP更快,但LSAS的准确性显著更高。

相关工作

已知因果图方法

  • 经典调整准则: 后门准则、广义后门准则
  • 最优调整集: 寻找具有最小渐近方差的调整集

未知因果图方法

  • 全局学习: IDA系列方法,需要学习完整CPDAG/PAG
  • 局部学习: CovSel、EHS等方法,但多数假设无潜在变量
  • 潜在变量处理: LV-IDA、CE-SAT等方法,但计算复杂度高

本文优势

相比现有工作,本文方法实现了局部学习的效率与全局方法的完备性的统一,特别是在处理潜在变量方面具有明显优势。

结论与讨论

主要结论

  1. 提出了首个在潜在变量存在下既保持局部性又确保完备性的协变量选择算法
  2. 理论上证明了方法的正确性和完备性
  3. 实验验证了方法在效率和准确性方面的显著优势

局限性

  1. 预处理假设: 仍然依赖预处理假设,虽然在某些违反情况下表现良好
  2. 后代识别: 无法在不恢复完整图的情况下局部识别治疗变量的后代
  3. 条件独立性测试: 依赖于准确的条件独立性测试,在有限样本下可能存在误差

未来方向

  1. 放宽假设: 开发不依赖预处理假设的方法
  2. 背景知识融合: 利用领域知识辅助因果识别
  3. 多环境数据: 利用多环境数据提高因果识别能力
  4. 后代识别: 研究局部识别治疗变量后代的方法

深度评价

优点

  1. 理论贡献: 提供了完备的理论框架,证明了局部方法的可行性
  2. 实用价值: 显著降低了计算复杂度,使得大规模应用成为可能
  3. 实验充分: 在多种数据类型上进行了全面验证
  4. 写作清晰: 论文结构清晰,理论阐述严谨

不足

  1. 假设限制: 预处理假设在某些应用场景下可能不满足
  2. 测试依赖: 方法性能很大程度上依赖于条件独立性测试的准确性
  3. 扩展性: 对于超大规模网络的扩展性仍需验证

影响力

  1. 学术价值: 为因果推断领域提供了新的理论和方法框架
  2. 实用意义: 为实际应用中的协变量选择提供了高效解决方案
  3. 可复现性: 代码公开,实验设置详细,具有良好的可复现性

适用场景

该方法特别适合以下场景:

  • 大规模观察数据的因果效应估计
  • 存在潜在混杂变量的复杂系统
  • 对计算效率有要求的实时应用
  • 预处理变量收集相对完整的研究设计

参考文献

论文引用了因果推断领域的重要文献,包括Pearl的经典著作、Spirtes等人的PC算法、以及近期的局部学习方法等,体现了对相关工作的全面了解和深入理解。