2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.

Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.

academic

잠재변수가 있는 비모수적 인과효과 추정에서 공변량 선택을 위한 국소 학습

기본 정보

논문 ID: 2411.16315
제목: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
저자: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
분류: cs.LG math.ST stat.ML stat.TH
발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
논문 링크: https://arxiv.org/abs/2411.16315

초록

비실험 데이터로부터 인과효과를 추정하는 것은 많은 과학 분야의 기본 문제이다. 이 작업의 핵심 요소는 편향을 피하기 위해 혼동 조정(confounding adjustment)을 위한 적절한 공변량 집합을 선택하는 것이다. 기존의 공변량 선택 방법들은 일반적으로 잠재변수가 없다고 가정하며, 변수 간의 전역 네트워크 구조 학습에 의존한다. 그러나 처리변수에서 결과변수로의 효과 추정에 주로 관심이 있을 때, 전역 구조를 파악하는 것은 불필요하고 비효율적일 수 있다. 이러한 한계를 해결하기 위해, 본 논문은 잠재변수가 존재하는 비모수적 인과효과 추정에서 공변량 선택을 위한 새로운 국소 학습 방법을 제안한다. 이 방법은 관측변수 간의 검증 가능한 독립성 및 종속성 관계를 활용하여 표준 가정 하에서 완전성과 정확성을 보장하면서 목표 인과관계의 유효한 조정 집합을 식별한다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 잠재변수가 존재하는 상황에서 특정 처리변수 X가 결과변수 Y에 미치는 인과효과를 추정하기 위해 공변량 집합을 효율적으로 선택하는 방법은 무엇인가 하는 것이다.

문제의 중요성

광범위한 적용성: 인과효과 추정은 역학, 사회과학, 경제학 및 인공지능 등 다양한 분야에서 매우 중요하다
실무적 필요성: 실제 응용에서 이상적인 무작위 대조 시험(randomized controlled trial)은 종종 구현하기 어렵다
편향 제어: 부정확한 공변량 선택은 편향된 인과효과 추정으로 이어진다

기존 방법의 한계

전역 구조 학습: IDA, LV-IDA와 같은 기존 방법들은 완전한 인과 그래프 구조를 학습해야 하므로 계산 복잡도가 높다
잠재변수 무시: 많은 방법들이 잠재 혼동변수가 없다고 가정하는데, 이는 실제 응용에서 비현실적이다
국소 방법의 불완전성: CEELS와 같은 방법들은 효율성이 높지만 유효한 조정 집합을 놓칠 수 있다

연구 동기

본 논문의 출발점은 국소 학습의 효율성 장점을 유지하면서 동시에 완전성과 정확성을 보장하는 공변량 선택 방법을 개발하는 것이며, 특히 잠재변수가 존재하는 복잡한 시나리오에서 그러하다.

핵심 기여

LSAS 알고리즘 제안: 검증 가능한 독립성 및 종속성 관계를 활용하며 잠재변수의 존재를 허용하는 완전히 국소적인 공변량 선택 알고리즘을 설계했다
이론적 보장: 표준 가정 하에서 제안된 알고리즘의 완전성과 정확성을 증명하여 목표 인과관계의 유효한 조정 집합을 식별할 수 있음을 보였다
효율성 향상: 전역 방법과 비교하여 계산 복잡도를 크게 감소시켰으며, 시간 복잡도를 O(t×2^t)에서 O(|MB(X)|-1)×2^|MB(Y)|-1+n로 개선했다
실험 검증: 합성 데이터 및 실제 데이터에서 알고리즘의 유효성을 검증했다

방법론 상세 설명

작업 정의

입력: 관측 데이터셋 D, 처리변수 X, 결과변수 Y 및 공변량 집합 O 포함

출력:

시나리오 S1: X가 Y에 미치는 인과효과 추정값 θ
시나리오 S2: X가 Y에 인과효과를 미치지 않음을 결정 (θ=0)
시나리오 S3: 인과효과 존재 여부를 결정할 수 없음 (θ=∅)

제약 조건:

Y는 X의 인과 조상이 아니다
O는 전처리 변수 집합이다 (X와 Y는 O의 어떤 변수의 인과 조상이 아니다)

핵심 이론적 기초

AMB 정의

Markov 담요 내의 조정 집합 AMB(X,Y)를 정의한다:

Z ⊆ MB(Y) \ {X}
Z ∩ Forb(X,Y) = ∅
Z는 X에서 Y로의 모든 비인과 경로를 차단한다

주요 정리

정리 1 (AMB 존재성): O의 부분집합이 (X,Y)의 조정 집합으로 존재할 필요충분조건은 MB(Y){X}의 부분집합이 조정 집합으로 존재하는 것이다.

정리 2 (규칙 R1): Z ⊆ MB(Y){X}에 대해, S ∈ MB(X){Y}가 존재하여 다음을 만족하면:

S ⊥̸⊥ Y | Z (조건 i)
S ⊥⊥ Y | Z∪{X} (조건 ii)

Z는 AMB(X,Y)이고, X는 Y에 인과효과를 미친다.

정리 3 (규칙 R2): Z ⊆ MB(Y){X}와 S ∈ MB(X){Y}가 존재하여 다음 중 하나를 만족하면:

X ⊥⊥ Y | Z (조건 i)
S ⊥̸⊥ X | Z 이고 S ⊥⊥ Y | Z (조건 ii)

X는 Y에 인과효과를 미치지 않는다.

LSAS 알고리즘 절차

알고리즘 1: 국소 탐색 조정 집합 (Local Search Adjustment Sets, LSAS)
입력: 관측 데이터셋 D, 처리변수 X, 결과변수 Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // 인과효과 추정값 초기화
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S와 Z가 규칙 R1을 만족하면
5:     X가 Y에 미치는 인과효과 θ 추정, Θ ← θ // S1 시나리오
6:   end if
7:   if S와 Z가 규칙 R2를 만족하면
8:     return Θ ← 0 // 인과효과 없음, S2 시나리오
9:   end if
10: end for
출력: 추정된 인과효과 Θ // ∅이면 S3 시나리오

기술적 혁신점

국소 Markov 담요 활용: X와 Y의 Markov 담요 정보만 필요하므로 전역 그래프 학습을 피한다
규칙 기반 식별: R1과 R2 규칙을 통해 조건부 독립성 검정에서 직접 인과관계를 식별한다
잠재변수 처리: MAG(Markov Equivalence Class of Ancestral Graphs) 프레임워크 하에서 잠재 혼동변수를 처리한다
완전성 보장: 이론적으로 방법의 완전성을 증명하여 식별 가능한 조정 집합을 놓치지 않는다

실험 설정

데이터셋

합성 데이터:
- 무작위 그래프: Erdős-Rényi 모델 G(n,d), 노드 수 20-50, 평균 차수 3-9
- 특정 구조: 그림 3(a)와 그림 4(a)의 DAG(방향성 비순환 그래프) 구조 기반
- 벤치마크 네트워크: INSURANCE(27개 노드), MILDEW(35개 노드), WIN95PTS(76개 노드), ANDES(223개 노드)
실제 데이터: Cattaneo2 데이터셋, 펜실베이니아주 단태 출생 기록 4,642건 포함