2025-11-19T04:40:13.454898

On the permutation invariance principle for causal estimands

Tong, Li
In many causal inference problems, multiple action variables share the same causal role, such as mediators, factors, network units, or genotypes, yet lack a natural ordering. To avoid ambiguity in interpretation, causal estimands should remain unchanged under relabeling, an implicit principle we refer to as permutation invariance. We formally characterize this principle, analyze its algebraic and combinatorial structure for verification, and present a class of weighted estimands that are permutation-invariant while capturing interactions of all orders. We further provide guidance on selecting weights that yield residual-free estimands, whose inclusion-exclusion sums capture the maximal effect, and extend our results to ratio effect measures.
academic

On the permutation invariance principle for causal estimands

基本信息

  • 论文ID: 2510.11863
  • 标题: On the permutation invariance principle for causal estimands
  • 作者: Jiaqi Tong, Fan Li (Yale University School of Public Health)
  • 分类: stat.ME (Statistics - Methodology)
  • 发表时间: October 15, 2025 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.11863

摘要

在许多因果推断问题中,多个行动变量具有相同的因果作用(如中介变量、因子、网络单元或基因型),但缺乏自然排序。为避免解释上的歧义,因果估计量应在重新标记下保持不变,这一隐含原则被称为置换不变性。本文正式刻画了这一原则,分析了其代数和组合结构的验证方法,并提出了一类加权估计量,它们既是置换不变的,又能捕获所有阶的交互作用。进一步提供了选择权重的指导,使得残差自由估计量的包含-排斥和能够捕获最大效应,并将结果扩展到比率效应测量。

研究背景与动机

问题提出

现代因果推断中经常遇到多个变量具有相同因果解释类型的复杂情况,包括:

  1. 多中介变量的因果中介分析:多个无序中介变量
  2. 因子实验:多个因子变量
  3. 网络干扰下的因果推断:多个网络单元
  4. 孟德尔随机化:多个基因型(工具变量)

核心问题

当这些变量没有内在排序时,一个关键考虑是因果估计量应该是置换不变的,即估计量的定义不应因变量重新标记而改变。然而,现有文献中:

  • 置换不变性原则仅被非正式地提及(如Xia and Chan (2022)中的"对称估计量")
  • 缺乏正式定义和系统性研究
  • 不谨慎的实践可能产生依赖于标签的估计量,导致解释上的歧义

研究动机

解决因果推断中多变量标记依赖性问题,建立置换不变性的理论基础,为实践提供明确的指导原则。

核心贡献

  1. 理论贡献:首次对置换不变性原则进行严格刻画,填补了文献中的理论空白
  2. 验证方法:提出了简单直接的程序来验证给定估计量集合是否满足置换不变性
  3. 完整估计量类:开发了可解释的、置换不变的、完整的加权估计量类,适用于各种因果推断领域
  4. 残差自由性:识别了产生唯一残差自由估计量的特定权重选择,其包含-排斥和捕获最大效应
  5. 比率测量扩展:将结果扩展到风险比和优势比等比率效应测量

方法详解

任务定义

给定K个行动变量 X = {X₁, ..., Xₖ},每个变量有两个状态Xₖ(1)和Xₖ(0),目标是定义置换不变的因果估计量,使其在变量重新标记下保持不变。

代数框架

基本概念

  1. 幂集表示:使用幂集2^X索引所有2^K个状态
  2. 等价关系:定义等价关系~,使得A~B当且仅当|A|=|B|
  3. 等价类A = {B ∈ 2^X : |B| = |A|},可用基数q唯一索引为q
  4. 商集:Q := {q : 0 ≤ q ≤ K}

置换不变性定义

定义1(置换矩阵):置换矩阵是方形二进制矩阵,每行每列恰好有一个1。

定义2(置换不变性):对比向量Δ是置换不变的,当且仅当对任意诱导列置换矩阵Pₒ,存在行置换矩阵Pᵣ使得PᵣH = HPₒ。

验证算法

理论基础

定理1:对比向量Δ是置换不变的当且仅当对所有σ ∈ P,R(HPₒ) = R(H),其中R(H)是生成矩阵H的行多重集。

验证算法

算法1

  1. 计算H' = HPₒ
  2. 对i = 1到d,设σ(i) = j使得rᵢ = r'ⱼ
  3. 输出对应于置换σ的Pᵣ

完整估计量类

加权估计量定义

定义3:K个行动变量的可解释完整估计量类为:

ΔY = Σ(T⊆Yᶜ) w(T,Y)[Σ(Z⊆Y) (-1)^|Z| f(Z∪T)]

其中w是归一化权重函数。

两种权重类型

  1. 可置换权重:权重与行动变量一致置换
  2. 不变权重:权重在行动变量置换下保持不变

定理2

  • 对可置换权重:子类{ΔY : Y ∈ q}是置换不变的
  • 对不变权重:需要额外条件才能保证置换不变性
  • 完整类{ΔY : ∅ ≠ Y ∈ 2^X}既是置换不变的又是完整的

残差自由估计量

残差自由性定义

定义4:估计量类Δ是残差自由的,如果其包含-排斥和等于最大效应:

Σ(∅≠Y⊆X) (-1)^(|Y|+1) ΔY = f(∅) - f(X)

唯一性结果

定理3:对于不变权重的估计量类,残差为零当且仅当w(T,Y) = 1(T = ∅)且ΔY = Σ(Z⊆Y) (-1)^|Z| f(Z)。

实验设置

应用领域

论文主要通过理论例子和数学证明验证方法,涉及:

  1. 因果中介分析:K=2和K=3的多中介变量情况
  2. 因子实验:2^K因子设计
  3. 网络干扰:多单元网络分析
  4. 孟德尔随机化:多基因型分析

验证方法

  • 代数验证:通过矩阵运算验证置换不变性
  • 组合验证:使用多重集计数方法
  • 案例分析:具体K=2,3情况的详细计算

实验结果

置换不变性验证

例1 vs 例2

  • Lange等(2014)的估计量:不满足置换不变性
  • Xia和Chan(2022)的退出间接效应:满足置换不变性

权重选择效果

残差自由性

  • 点质量权重w(T,Y) = 1(T = ∅)产生唯一的残差自由估计量
  • 其他权重选择会产生非零残差效应

比率测量扩展

推论1-2展示了:

  • 风险比:ΔY = Π(Z⊆Y) f(Z)^((-1)^|Z|)
  • 优势比:相应的乘性结构

相关工作

现有研究

  1. 因果中介分析:Lange et al. (2014), Xia and Chan (2022)
  2. 因子实验:Dasgupta et al. (2015), Zhao and Ding (2022)
  3. 网络干扰:Hudgens and Halloran (2008)
  4. 孟德尔随机化:Hartwig et al. (2017)

本文贡献

  • 首次正式定义置换不变性
  • 统一了不同领域的估计量
  • 提供了系统的验证和构造方法

结论与讨论

主要结论

  1. 置换不变性是因果推断中的基本原则
  2. 可通过简单的多重集计数验证
  3. 存在唯一的残差自由估计量类
  4. 方法适用于多个因果推断领域

局限性

  1. 目前仅考虑二状态行动变量
  2. 理论框架需要扩展到多状态情况
  3. 实际应用中的计算复杂性未充分讨论

未来方向

  1. 扩展到多分类因子实验
  2. 处理有序处理的多中介分析
  3. 开发计算效率更高的算法

深度评价

优点

  1. 理论严谨性:首次对置换不变性进行严格数学刻画
  2. 方法通用性:统一框架适用于多个因果推断领域
  3. 实用价值:提供了明确的验证算法和构造方法
  4. 完整性:从定义到验证到构造的完整理论体系

不足

  1. 应用范围限制:仅限于二状态变量
  2. 实证验证不足:主要依赖理论证明,缺乏大规模实际数据验证
  3. 计算复杂性:对于大K值的计算效率问题未充分讨论

影响力

  1. 理论贡献:为因果推断提供了重要的理论基础
  2. 实践指导:为避免标记依赖性提供了具体方法
  3. 跨领域应用:统一了多个子领域的方法论

适用场景

  1. 多中介变量的因果分析
  2. 无序因子的实验设计
  3. 网络数据的因果推断
  4. 多工具变量的孟德尔随机化

参考文献

  1. Xia, F. and Chan, K. C. G. (2022). Decomposition, identification and multiply robust estimation of natural mediation effects with multiple mediators. Biometrika.
  2. Zhao, A. and Ding, P. (2022). Regression-based causal inference with factorial experiments. Biometrika.
  3. Dasgupta, T., Pillai, N. S., and Rubin, D. B. (2015). Causal inference from 2^k factorial designs by using potential outcomes. JRSS-B.
  4. Hudgens, M. G. and Halloran, M. E. (2008). Toward causal inference with interference. JASA.