2025-11-19T04:40:13.454898

On the permutation invariance principle for causal estimands

Tong, Li

In many causal inference problems, multiple action variables share the same causal role, such as mediators, factors, network units, or genotypes, yet lack a natural ordering. To avoid ambiguity in interpretation, causal estimands should remain unchanged under relabeling, an implicit principle we refer to as permutation invariance. We formally characterize this principle, analyze its algebraic and combinatorial structure for verification, and present a class of weighted estimands that are permutation-invariant while capturing interactions of all orders. We further provide guidance on selecting weights that yield residual-free estimands, whose inclusion-exclusion sums capture the maximal effect, and extend our results to ratio effect measures.

academic

인과 추정량에 대한 순열 불변성 원리에 관한 연구

기본 정보

논문 ID: 2510.11863
제목: On the permutation invariance principle for causal estimands
저자: Jiaqi Tong, Fan Li (Yale University School of Public Health)
분류: stat.ME (통계학 - 방법론)
발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.11863

초록

많은 인과 추론 문제에서 여러 행동 변수가 동일한 인과 효과를 가지지만(예: 매개 변수, 인수, 네트워크 단위 또는 유전형), 자연적 순서가 없습니다. 해석상의 모호성을 피하기 위해, 인과 추정량은 재레이블링 하에서 불변이어야 하며, 이러한 암묵적 원리를 순열 불변성이라고 합니다. 본 논문은 이 원리를 공식적으로 특성화하고, 그 대수적 및 조합적 구조의 검증 방법을 분석하며, 순열 불변이면서도 모든 차수의 상호작용을 포착할 수 있는 가중 추정량 클래스를 제안합니다. 나아가 잔차 자유 추정량의 포함-배제 합이 최대 효과를 포착하도록 하는 가중치 선택에 대한 지침을 제공하고, 결과를 위험비 및 오즈비와 같은 비율 효과 측정으로 확장합니다.

연구 배경 및 동기

문제 제기

현대 인과 추론에서는 여러 변수가 동일한 인과 해석 유형을 가지는 복잡한 상황이 자주 발생합니다:

다중 매개 변수의 인과 매개 분석: 순서가 없는 여러 매개 변수
인수 실험: 여러 인수 변수
네트워크 간섭 하의 인과 추론: 여러 네트워크 단위
멘델식 무작위화: 여러 유전형(도구 변수)

핵심 문제

이러한 변수들이 내재적 순서를 갖지 않을 때, 핵심 고려사항은 인과 추정량이 순열 불변이어야 한다는 것입니다. 즉, 추정량의 정의가 변수 재레이블링으로 인해 변경되어서는 안 됩니다. 그러나 기존 문헌에서는:

순열 불변성 원리가 비공식적으로만 언급됨(예: Xia and Chan (2022)의 "대칭 추정량")
공식적 정의 및 체계적 연구 부재
부주의한 실무는 레이블에 의존하는 추정량을 생성하여 해석상의 모호성 초래

연구 동기

인과 추론에서 다중 변수 레이블 의존성 문제를 해결하고, 순열 불변성의 이론적 기초를 확립하며, 실무에 명확한 지침 원리를 제공합니다.

핵심 기여

이론적 기여: 순열 불변성 원리를 처음으로 엄격하게 특성화하여 문헌의 이론적 공백 해소
검증 방법: 주어진 추정량 집합이 순열 불변성을 만족하는지 검증하는 간단하고 직접적인 절차 제안
완전한 추정량 클래스: 다양한 인과 추론 분야에 적용 가능한 해석 가능하고 순열 불변이며 완전한 가중 추정량 클래스 개발
잔차 자유성: 포함-배제 합이 최대 효과를 포착하는 특정 가중치 선택으로 생성되는 유일한 잔차 자유 추정량 식별
비율 측정 확장: 위험비 및 오즈비 등 비율 효과 측정으로 결과 확장

멱집합 표현: 멱집합 2^X를 사용하여 모든 2^K개 상태 인덱싱
동치 관계: 동치 관계 ～를 정의하여 A ～ B ⟺ |A|=|B|
동치류: A = {B ∈ 2^X : |B| = |A|}, 기수 q로 유일하게 인덱싱 가능 q
몫집합: Q := {q : 0 ≤ q ≤ K}

H' = HPₒ 계산
i = 1부터 d까지, σ(i) = j를 설정하여 rᵢ = r'ⱼ
순열 σ에 해당하는 Pᵣ 출력

완전한 추정량 클래스

가중 추정량 정의

정의 3: K개 행동 변수의 해석 가능한 완전 추정량 클래스는:

ΔY = Σ(T⊆Yᶜ) w(T,Y)[Σ(Z⊆Y) (-1)^|Z| f(Z∪T)]

여기서 w는 정규화된 가중치 함수입니다.

두 가지 가중치 유형

순열 가능 가중치: 가중치가 행동 변수와 함께 순열됨
불변 가중치: 가중치가 행동 변수 순열 하에서 불변

정리 2:

순열 가능 가중치의 경우: 부분류 {ΔY : Y ∈ q}는 순열 불변
불변 가중치의 경우: 순열 불변성을 보장하려면 추가 조건 필요
완전 클래스 {ΔY : ∅ ≠ Y ∈ 2^X}는 순열 불변이면서 완전

잔차 자유 추정량

잔차 자유성 정의

정의 4: 추정량 클래스 Δ는 잔차 자유이다 ⟺ 그 포함-배제 합이 최대 효과와 같음:

Σ(∅≠Y⊆X) (-1)^(|Y|+1) ΔY = f(∅) - f(X)

인과 매개 분석: K=2 및 K=3의 다중 매개 변수 경우
인수 실험: 2^K 인수 설계
네트워크 간섭: 다중 단위 네트워크 분석
멘델식 무작위화: 다중 유전형 분석

검증 방법

대수적 검증: 행렬 연산을 통한 순열 불변성 검증
조합적 검증: 다중집합 계수 방법 사용
사례 분석: K=2,3 경우의 상세 계산

실험 결과

순열 불변성 검증

예 1 vs 예 2:

Lange 등(2014)의 추정량: 순열 불변성 미충족
Xia와 Chan(2022)의 퇴출 간접 효과: 순열 불변성 충족

가중치 선택 효과

잔차 자유성:

점질량 가중치 w(T,Y) = 1(T = ∅)는 유일한 잔차 자유 추정량 생성
다른 가중치 선택은 0이 아닌 잔차 효과 생성

비율 측정 확장

추론 1-2는 다음을 보여줍니다:

위험비: ΔY = Π(Z⊆Y) f(Z)^((-1)^|Z|)
오즈비: 해당하는 승법적 구조

결론 및 논의

주요 결론

순열 불변성은 인과 추론의 기본 원리
간단한 다중집합 계수를 통해 검증 가능
유일한 잔차 자유 추정량 클래스 존재
방법은 여러 인과 추론 분야에 적용 가능

제한 사항

현재는 이진 상태 행동 변수만 고려
이론적 프레임워크를 다중 상태 경우로 확장 필요
실제 응용에서의 계산 복잡성이 충분히 논의되지 않음

향후 방향

다중 분류 인수 실험으로 확장
순서가 있는 처리의 다중 매개 분석 처리
계산 효율이 높은 알고리즘 개발

심층 평가

장점

이론적 엄밀성: 순열 불변성을 처음으로 엄격하게 수학적으로 특성화
방법론의 일반성: 여러 인과 추론 분야에 적용 가능한 통합 프레임워크
실용적 가치: 명확한 검증 알고리즘 및 구성 방법 제공
완전성: 정의에서 검증, 구성까지의 완전한 이론 체계

부족한 점

응용 범위 제한: 이진 상태 변수로만 제한
실증적 검증 부족: 주로 이론적 증명에 의존하며 대규모 실제 데이터 검증 부재
계산 복잡성: 큰 K 값에 대한 계산 효율 문제가 충분히 논의되지 않음

영향력

이론적 기여: 인과 추론에 중요한 이론적 기초 제공
실무 지침: 레이블 의존성을 피하기 위한 구체적 방법 제공
학제 간 응용: 여러 하위 분야의 방법론 통일

적용 시나리오

다중 매개 변수의 인과 분석
순서 없는 인수의 실험 설계
네트워크 데이터의 인과 추론
다중 도구 변수의 멘델식 무작위화

참고 문헌

Xia, F. and Chan, K. C. G. (2022). Decomposition, identification and multiply robust estimation of natural mediation effects with multiple mediators. Biometrika.
Zhao, A. and Ding, P. (2022). Regression-based causal inference with factorial experiments. Biometrika.
Dasgupta, T., Pillai, N. S., and Rubin, D. B. (2015). Causal inference from 2^k factorial designs by using potential outcomes. JRSS-B.
Hudgens, M. G. and Halloran, M. E. (2008). Toward causal inference with interference. JASA.