2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

基本信息

论文ID: 2411.16315
标题: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
作者: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
分类: cs.LG math.ST stat.ML stat.TH
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
论文链接: https://arxiv.org/abs/2411.16315

摘要

从非实验数据中估计因果效应是许多科学领域的基本问题。该任务的关键组成部分是选择适当的协变量集合进行混杂调整以避免偏差。现有的协变量选择方法通常假设不存在潜在变量，并依赖于学习变量间的全局网络结构。然而，当我们主要关注估计治疗变量对结果变量的效应时，识别全局结构可能是不必要且低效的。为解决这一局限性，本文提出了一种新颖的局部学习方法，用于在存在潜在变量的非参数因果效应估计中进行协变量选择。该方法利用观察变量间可测试的独立性和依赖性关系来识别目标因果关系的有效调整集，在标准假设下确保了完备性和正确性。

广泛应用性: 因果效应估计在流行病学、社会科学、经济学和人工智能等领域至关重要
实践需求: 在实际应用中，理想化的随机对照试验往往难以实施
偏差控制: 不正确的协变量选择会导致有偏的因果效应估计

现有方法的局限性

全局结构学习: 现有方法如IDA、LV-IDA需要学习完整的因果图结构，计算复杂度高
潜在变量忽视: 许多方法假设不存在潜在混杂变量，在实际应用中不现实
局部方法不完备: 如CEELS方法虽然效率较高，但可能遗漏有效的调整集

研究动机

本文的出发点是开发一种既保持局部学习效率优势，又确保完备性和正确性的协变量选择方法，特别是在存在潜在变量的复杂场景下。

核心贡献

提出LSAS算法: 设计了一种完全局部的协变量选择算法，利用可测试的独立性和依赖性关系，允许潜在变量的存在
理论保证: 证明了所提算法在标准假设下的完备性和正确性，能够识别目标因果关系的有效调整集
效率提升: 相比全局方法显著降低了计算复杂度，时间复杂度从O(t×2^t)降低到O(|MB(X)|-1)×2^|MB(Y)|-1+n
实验验证: 在合成数据和真实数据上验证了算法的有效性

方法详解

任务定义

输入: 观察数据集D，包含治疗变量X、结果变量Y和协变量集合O 输出:

场景S1: X对Y的因果效应估计值θ
场景S2: 确定X对Y无因果效应(θ=0)
场景S3: 无法确定是否存在因果效应(θ=∅)

约束条件:

Y不是X的因果祖先
O为预处理变量集合(X和Y不是O中任何变量的因果祖先)

核心理论基础

AMB定义

定义了Markov毯内的调整集AMB(X,Y)：

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z阻断所有从X到Y的非因果路径

关键定理

定理1 (AMB存在性): 存在O的子集作为(X,Y)的调整集当且仅当存在MB(Y){X}的子集作为调整集。

定理2 (规则R1): 对于Z ⊆ MB(Y){X}，如果存在S ∈ MB(X){Y}满足：

S ⊥̸⊥ Y | Z (条件i)
S ⊥⊥ Y | Z∪{X} (条件ii)

则Z是AMB(X,Y)，且X对Y有因果效应。

定理3 (规则R2): 如果存在Z ⊆ MB(Y){X}和S ∈ MB(X){Y}满足以下任一条件：

X ⊥⊥ Y | Z (条件i)
S ⊥̸⊥ X | Z 且 S ⊥⊥ Y | Z (条件ii)

则X对Y无因果效应。

LSAS算法流程

算法1: Local Search Adjustment Sets (LSAS)
输入: 观察数据集D, 治疗变量X, 结果变量Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // 初始化因果效应估计
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S和Z满足规则R1 then
5:     估计X对Y的因果效应θ, Θ ← θ // S1场景
6:   end if
7:   if S和Z满足规则R2 then
8:     return Θ ← 0 // 无因果效应, S2场景
9:   end if
10: end for
输出: 估计的因果效应Θ // 若为∅则为S3场景

技术创新点

局部Markov毯利用: 仅需要X和Y的Markov毯信息，避免全局图学习
规则驱动识别: 通过R1和R2规则直接从条件独立性测试中识别因果关系
潜在变量处理: 在MAG框架下处理潜在混杂变量
完备性保证: 理论证明了方法的完备性，不会遗漏可识别的调整集

实验设置

数据集

合成数据:
- 随机图: Erdős-Rényi模型G(n,d)，节点数20-50，平均度3-9
- 特定结构: 基于图3(a)和图4(a)的DAG结构
- 基准网络: INSURANCE(27节点)、MILDEW(35节点)、WIN95PTS(76节点)、ANDES(223节点)
真实数据: Cattaneo2数据集，包含4642个宾夕法尼亚州单胎出生记录