2025-11-12T12:37:10.401101

Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables

Li, Guo, Xie et al.
Estimating causal effects from nonexperimental data is a fundamental problem in many fields of science. A key component of this task is selecting an appropriate set of covariates for confounding adjustment to avoid bias. Most existing methods for covariate selection often assume the absence of latent variables and rely on learning the global network structure among variables. However, identifying the global structure can be unnecessary and inefficient, especially when our primary interest lies in estimating the effect of a treatment variable on an outcome variable. To address this limitation, we propose a novel local learning approach for covariate selection in nonparametric causal effect estimation, which accounts for the presence of latent variables. Our approach leverages testable independence and dependence relationships among observed variables to identify a valid adjustment set for a target causal relationship, ensuring both soundness and completeness under standard assumptions. We validate the effectiveness of our algorithm through extensive experiments on both synthetic and real-world data.
academic

잠재변수가 있는 비모수적 인과효과 추정에서 공변량 선택을 위한 국소 학습

기본 정보

  • 논문 ID: 2411.16315
  • 제목: Local Learning for Covariate Selection in Nonparametric Causal Effect Estimation with Latent Variables
  • 저자: Zheng Li, Xichen Guo, Feng Xie, Zeng Yan, Hao Zhang, Zhi Geng
  • 분류: cs.LG math.ST stat.ML stat.TH
  • 발표 학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • 논문 링크: https://arxiv.org/abs/2411.16315

초록

비실험 데이터로부터 인과효과를 추정하는 것은 많은 과학 분야의 기본 문제이다. 이 작업의 핵심 요소는 편향을 피하기 위해 혼동 조정(confounding adjustment)을 위한 적절한 공변량 집합을 선택하는 것이다. 기존의 공변량 선택 방법들은 일반적으로 잠재변수가 없다고 가정하며, 변수 간의 전역 네트워크 구조 학습에 의존한다. 그러나 처리변수에서 결과변수로의 효과 추정에 주로 관심이 있을 때, 전역 구조를 파악하는 것은 불필요하고 비효율적일 수 있다. 이러한 한계를 해결하기 위해, 본 논문은 잠재변수가 존재하는 비모수적 인과효과 추정에서 공변량 선택을 위한 새로운 국소 학습 방법을 제안한다. 이 방법은 관측변수 간의 검증 가능한 독립성 및 종속성 관계를 활용하여 표준 가정 하에서 완전성과 정확성을 보장하면서 목표 인과관계의 유효한 조정 집합을 식별한다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는: 잠재변수가 존재하는 상황에서 특정 처리변수 X가 결과변수 Y에 미치는 인과효과를 추정하기 위해 공변량 집합을 효율적으로 선택하는 방법은 무엇인가 하는 것이다.

문제의 중요성

  1. 광범위한 적용성: 인과효과 추정은 역학, 사회과학, 경제학 및 인공지능 등 다양한 분야에서 매우 중요하다
  2. 실무적 필요성: 실제 응용에서 이상적인 무작위 대조 시험(randomized controlled trial)은 종종 구현하기 어렵다
  3. 편향 제어: 부정확한 공변량 선택은 편향된 인과효과 추정으로 이어진다

기존 방법의 한계

  1. 전역 구조 학습: IDA, LV-IDA와 같은 기존 방법들은 완전한 인과 그래프 구조를 학습해야 하므로 계산 복잡도가 높다
  2. 잠재변수 무시: 많은 방법들이 잠재 혼동변수가 없다고 가정하는데, 이는 실제 응용에서 비현실적이다
  3. 국소 방법의 불완전성: CEELS와 같은 방법들은 효율성이 높지만 유효한 조정 집합을 놓칠 수 있다

연구 동기

본 논문의 출발점은 국소 학습의 효율성 장점을 유지하면서 동시에 완전성과 정확성을 보장하는 공변량 선택 방법을 개발하는 것이며, 특히 잠재변수가 존재하는 복잡한 시나리오에서 그러하다.

핵심 기여

  1. LSAS 알고리즘 제안: 검증 가능한 독립성 및 종속성 관계를 활용하며 잠재변수의 존재를 허용하는 완전히 국소적인 공변량 선택 알고리즘을 설계했다
  2. 이론적 보장: 표준 가정 하에서 제안된 알고리즘의 완전성과 정확성을 증명하여 목표 인과관계의 유효한 조정 집합을 식별할 수 있음을 보였다
  3. 효율성 향상: 전역 방법과 비교하여 계산 복잡도를 크게 감소시켰으며, 시간 복잡도를 O(t×2^t)에서 O(|MB(X)|-1)×2^|MB(Y)|-1+n로 개선했다
  4. 실험 검증: 합성 데이터 및 실제 데이터에서 알고리즘의 유효성을 검증했다

방법론 상세 설명

작업 정의

입력: 관측 데이터셋 D, 처리변수 X, 결과변수 Y 및 공변량 집합 O 포함

출력:

  • 시나리오 S1: X가 Y에 미치는 인과효과 추정값 θ
  • 시나리오 S2: X가 Y에 인과효과를 미치지 않음을 결정 (θ=0)
  • 시나리오 S3: 인과효과 존재 여부를 결정할 수 없음 (θ=∅)

제약 조건:

  • Y는 X의 인과 조상이 아니다
  • O는 전처리 변수 집합이다 (X와 Y는 O의 어떤 변수의 인과 조상이 아니다)

핵심 이론적 기초

AMB 정의

Markov 담요 내의 조정 집합 AMB(X,Y)를 정의한다:

  • Z ⊆ MB(Y) \ {X}
  • Z ∩ Forb(X,Y) = ∅
  • Z는 X에서 Y로의 모든 비인과 경로를 차단한다

주요 정리

정리 1 (AMB 존재성): O의 부분집합이 (X,Y)의 조정 집합으로 존재할 필요충분조건은 MB(Y){X}의 부분집합이 조정 집합으로 존재하는 것이다.

정리 2 (규칙 R1): Z ⊆ MB(Y){X}에 대해, S ∈ MB(X){Y}가 존재하여 다음을 만족하면:

  • S ⊥̸⊥ Y | Z (조건 i)
  • S ⊥⊥ Y | Z∪{X} (조건 ii)

Z는 AMB(X,Y)이고, X는 Y에 인과효과를 미친다.

정리 3 (규칙 R2): Z ⊆ MB(Y){X}와 S ∈ MB(X){Y}가 존재하여 다음 중 하나를 만족하면:

  • X ⊥⊥ Y | Z (조건 i)
  • S ⊥̸⊥ X | Z 이고 S ⊥⊥ Y | Z (조건 ii)

X는 Y에 인과효과를 미치지 않는다.

LSAS 알고리즘 절차

알고리즘 1: 국소 탐색 조정 집합 (Local Search Adjustment Sets, LSAS)
입력: 관측 데이터셋 D, 처리변수 X, 결과변수 Y
1: MB(X), MB(Y) ← Markov Blanket Discovery(X,Y,D)
2: Θ ← ∅ // 인과효과 추정값 초기화
3: for each S ∈ MB(X)\{Y}, each Z ⊆ MB(Y)\{X} do
4:   if S와 Z가 규칙 R1을 만족하면
5:     X가 Y에 미치는 인과효과 θ 추정, Θ ← θ // S1 시나리오
6:   end if
7:   if S와 Z가 규칙 R2를 만족하면
8:     return Θ ← 0 // 인과효과 없음, S2 시나리오
9:   end if
10: end for
출력: 추정된 인과효과 Θ // ∅이면 S3 시나리오

기술적 혁신점

  1. 국소 Markov 담요 활용: X와 Y의 Markov 담요 정보만 필요하므로 전역 그래프 학습을 피한다
  2. 규칙 기반 식별: R1과 R2 규칙을 통해 조건부 독립성 검정에서 직접 인과관계를 식별한다
  3. 잠재변수 처리: MAG(Markov Equivalence Class of Ancestral Graphs) 프레임워크 하에서 잠재 혼동변수를 처리한다
  4. 완전성 보장: 이론적으로 방법의 완전성을 증명하여 식별 가능한 조정 집합을 놓치지 않는다

실험 설정

데이터셋

  1. 합성 데이터:
    • 무작위 그래프: Erdős-Rényi 모델 G(n,d), 노드 수 20-50, 평균 차수 3-9
    • 특정 구조: 그림 3(a)와 그림 4(a)의 DAG(방향성 비순환 그래프) 구조 기반
    • 벤치마크 네트워크: INSURANCE(27개 노드), MILDEW(35개 노드), WIN95PTS(76개 노드), ANDES(223개 노드)
  2. 실제 데이터: Cattaneo2 데이터셋, 펜실베이니아주 단태 출생 기록 4,642건 포함

평가 지표

  • 상대 오차(RE): |(추정값-참값)/참값| × 100%
  • 검정 횟수(nTest): 알고리즘이 수행한 조건부 독립성 검정의 수

비교 방법

  • LV-IDA: RFCI 알고리즘 기반의 전역 그래프 학습 방법
  • EHS: 전역 탐색의 전처리 가정 방법
  • CEELS: 국소 탐색의 전처리 가정 방법
  • LDP: 전처리 가정을 완화한 국소 탐색 방법

구현 세부사항

  • 표본 크기: 1K, 5K, 10K, 15K
  • 선형 가우시안 인과 모델, 간선 가중치는 Uniform0.5,1.5에서 샘플링
  • 조건부 독립성 검정 유의수준: 0.01
  • 조건 집합 최대 크기: 3-7 (네트워크 복잡도에 따라)

실험 결과

주요 결과

특정 구조 실험

그림 3(b)와 그림 4(b)에 해당하는 MAG 구조에서:

  • 상대 오차: LSAS는 모든 표본 크기에서 다른 방법들보다 현저히 우수하다
  • 검정 효율성: LSAS의 nTest는 LV-IDA와 EHS보다 훨씬 낮다
  • 완전성 우위: CEELS와 LDP는 불완전성으로 인해 특정 구조에서 유효한 조정 집합을 찾을 수 없다

벤치마크 네트워크 실험

MILDEW 및 WIN95PTS 네트워크에서:

  • LSAS는 거의 모든 평가 지표와 표본 크기에서 최고의 성능을 보인다
  • 전처리 가정을 위반하는 경우에도 LSAS는 다른 방법들보다 우수하다
  • EHS는 실행 시간이 너무 길어 대형 네트워크에서 완료할 수 없다

실제 데이터 검증

Cattaneo2 데이터셋에서 임신 중 흡연이 신생아 출생 체중에 미치는 영향을 연구:

  • LSAS와 EHS의 효과 추정값은 모두 기준 구간 -250g, -200g 내에 있다
  • LSAS는 158번의 조건부 독립성 검정만 필요한 반면, CEELS는 1,284번, LDP는 266번 필요하다
  • 실제 응용에서 방법의 유효성을 검증했다

소거 실험

논문은 다양한 네트워크 밀도의 실험을 통해 방법의 견고성을 검증했다:

  • 그래프 밀도가 증가함에 따라 모든 방법의 성능이 저하되지만, LSAS는 명확한 우위를 유지한다
  • G(40,9) 네트워크에서 LDP의 nTest가 더 낮지만, LSAS의 RE는 현저히 더 우수하다

실행 시간 분석

LSAS는 대부분의 네트워크 및 표본 크기에서 최적의 실행 시간 성능을 보이며, 유일한 예외는 WIN95PTS 네트워크의 대표본(15K)에서 LDP가 더 빠르지만, LSAS의 정확도는 현저히 높다.

관련 연구

알려진 인과 그래프 방법

  • 고전적 조정 기준: 후문 기준(backdoor criterion), 일반화된 후문 기준
  • 최적 조정 집합: 최소 점근 분산을 갖는 조정 집합 탐색

미지의 인과 그래프 방법

  • 전역 학습: IDA 계열 방법, 완전한 CPDAG/PAG 학습 필요
  • 국소 학습: CovSel, EHS 등 방법, 하지만 대부분 잠재변수 부재 가정
  • 잠재변수 처리: LV-IDA, CE-SAT 등 방법, 하지만 계산 복잡도 높음

본 논문의 우위

기존 연구와 비교하여, 본 논문의 방법은 국소 학습의 효율성과 전역 방법의 완전성을 통합하며, 특히 잠재변수 처리 측면에서 명확한 우위를 갖는다.

결론 및 논의

주요 결론

  1. 잠재변수 존재 하에서 국소성을 유지하면서 완전성을 보장하는 첫 번째 공변량 선택 알고리즘을 제안했다
  2. 이론적으로 방법의 정확성과 완전성을 증명했다
  3. 실험을 통해 효율성과 정확성 측면에서의 현저한 우위를 검증했다

한계

  1. 전처리 가정: 여전히 전처리 가정에 의존하지만, 일부 위반 경우에도 좋은 성능을 보인다
  2. 후손 식별: 완전한 그래프 복구 없이 처리변수의 후손을 국소적으로 식별할 수 없다
  3. 조건부 독립성 검정: 정확한 조건부 독립성 검정에 의존하므로 유한 표본에서 오류가 발생할 수 있다

향후 방향

  1. 가정 완화: 전처리 가정에 의존하지 않는 방법 개발
  2. 배경 지식 통합: 영역 지식을 활용하여 인과 식별 보조
  3. 다중 환경 데이터: 다중 환경 데이터를 활용하여 인과 식별 능력 향상
  4. 후손 식별: 처리변수 후손의 국소 식별 방법 연구

심층 평가

장점

  1. 이론적 기여: 완전한 이론적 프레임워크를 제공하고 국소 방법의 가능성을 증명했다
  2. 실용적 가치: 계산 복잡도를 현저히 감소시켜 대규모 응용을 가능하게 한다
  3. 충분한 실험: 다양한 데이터 유형에서 포괄적인 검증을 수행했다
  4. 명확한 작성: 논문 구조가 명확하고 이론 설명이 엄밀하다

부족한 점

  1. 가정 제한: 전처리 가정이 일부 응용 시나리오에서 만족되지 않을 수 있다
  2. 검정 의존성: 방법의 성능은 조건부 독립성 검정의 정확성에 크게 의존한다
  3. 확장성: 초대형 네트워크에 대한 확장성은 여전히 검증이 필요하다

영향력

  1. 학술적 가치: 인과 추론 분야에 새로운 이론 및 방법 프레임워크를 제공한다
  2. 실용적 의의: 실제 응용에서의 공변량 선택을 위한 효율적인 해결책을 제공한다
  3. 재현성: 코드 공개, 실험 설정 상세 기술로 우수한 재현성을 갖는다

적용 시나리오

이 방법은 특히 다음 시나리오에 적합하다:

  • 대규모 관측 데이터의 인과효과 추정
  • 잠재 혼동변수가 존재하는 복잡한 시스템
  • 계산 효율성이 요구되는 실시간 응용
  • 전처리 변수 수집이 상대적으로 완전한 연구 설계

참고문헌

논문은 인과 추론 분야의 중요 문헌을 인용하고 있으며, Pearl의 고전 저작, Spirtes 등의 PC 알고리즘, 그리고 최근의 국소 학습 방법 등을 포함하여 관련 연구에 대한 포괄적인 이해와 깊이 있는 인식을 보여준다.