2025-11-13T01:28:10.704881

Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators

Heng, Sun, He et al.

Collapsibility provides a principled approach for dimension reduction in contingency tables and graphical models. Madigan and Mosurski (1990) pioneered the study of minimal collapsible sets in decomposable models, but existing algorithms for general graphs remain computationally demanding. We show that a model is collapsible onto a target set precisely when that set contains all minimal separators between its non-adjacent vertices. This insight motivates the Close Minimal Separator Absorption (CMSA) algorithm, which constructs minimal collapsible sets using only local separator searches at very low costs. Simulations confirm substantial efficiency gains, making collapsibility analysis practical in high-dimensional settings.

academic

Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators

基本信息

论文ID: 2510.09024
标题: Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators
作者: Pei Heng (Northeast Normal University), Yi Sun (Xinjiang University), Shiyuan He, Jianhua Guo (Beijing Technology and Business University)
分类: stat.ME (Statistics - Methodology)
发表期刊: Biometrika (2025), 103, 1, p. 1
论文链接: https://arxiv.org/abs/2510.09024

**Madigan & Mosurski (1990)**的选择性无环超图约简(SAHR)算法仅适用于可分解图模型
**Wang et al. (2011)的凸包方法和Heng & Sun (2023)**的路径吸收方法通常需要全局图操作，在高维模型中计算成本昂贵
缺乏基于局部图性质的高效算法

研究动机

本文从新的角度重新审视最小可折叠性，旨在：

提供基于分离器的可折叠性刻画
开发基于局部操作的高效算法
使可折叠性分析在高维图模型中变得实用

核心贡献

理论贡献：证明了图模型可折叠到目标集当且仅当该集合包含其非邻接顶点之间的所有最小分离器
算法创新：提出了紧密最小分离器吸收(CMSA)算法，通过局部分离器搜索构造最小可折叠集
计算效率：CMSA算法具有O(nm)时间复杂度和O(n)空间复杂度，优于现有方法
实用价值：使可折叠性分析在高维设置中变得实际可行

组件识别：识别G_{V\A}的所有连通组件M₁,...,M_K
局部处理：对每个连通组件M_i：
- 初始化μᵢ := A
- 迭代识别G_{Mᵢ}的连通组件邻域中的非邻接顶点对
- 吸收它们的紧密最小分离器到μᵢ中
- 当所有连通组件的邻域形成完全子集时停止
结果合并：合并所有μᵢ得到最终的最小可折叠集μ = ⋃ᵢμᵢ

技术创新点

局部化策略：将全局图操作转化为局部分离器搜索
紧密分离器利用：利用紧密分离器的性质避免全图遍历
组件分解：通过连通组件分解降低问题复杂度
增量构造：迭代吸收分离器直至满足终止条件

实验设置

数据集

可分解图模型：
- 图规模：n ∈ {250, 500, 750, 1000}
- 边概率：p ∈ {0.1, 0.01}
- 每个配置生成100个随机弦图
一般图模型：
- 图规模：n ∈ {2500, 5000, 7500, 10000}
- 边概率：p ∈ {0.1, 0.01, 0.005, 0.001}
- 基于随机树添加边生成随机图

评价指标

运行时间：算法执行的平均时间（秒）
效率比较：与基线方法的相对性能

对比方法

SAHR (Madigan & Mosurski, 1990)：适用于可分解图
IPA (Heng & Sun, 2023)：诱导路径吸收算法，适用于一般图

实现细节

编程语言：C语言实现核心算法，Python接口
硬件环境：Intel Xeon Silver 4215R CPU，128 GB RAM
每个图随机选择10个目标顶点进行测试

实验结果

可分解图模型结果

节点数	250	500	750	1000
平均边数	529/3334	1812/12912	3567/28652	6062/52959
CMSA	0.0007/0.0012	0.0021/0.0047	0.0044/0.0112	0.0072/0.0248
SAHR	0.0113/0.0611	0.0681/0.5455	0.1876/2.1648	0.3808/6.6983

关键发现：

CMSA在所有图规模和密度下都显著优于SAHR
随着节点和边数增长，CMSA的优势越来越明显
在最大规模图(1000节点，高密度)中，CMSA比SAHR快约270倍

一般图模型结果

实验结果显示CMSA在密集图上比IPA效率显著更高，性能优势随节点数增长而增加。在稀疏图上，两种算法的运行时间都显著降低，但CMSA始终保持较优的效率。

案例分析

例1：考虑图G和目标集A = {c, b}

初始连通组件：M₁ = {x}, M₂ = {a, d}, M₃ = {g, l, t}
处理M₂时发现非邻接对{c, b}，吸收分离器{a}
处理M₃时同样处理{c, b}对，吸收分离器{l}
最终得到最小可折叠集{a, c, l, b}

结论与讨论

主要结论

理论突破：建立了可折叠性与最小分离器的等价关系
算法创新：CMSA算法实现了从全局到局部的范式转换
效率提升：在各种图模型中都取得了显著的计算效率提升
实用价值：使高维图模型的可折叠性分析变得实际可行

局限性

理论假设：基于分层对数线性模型框架
图结构依赖：算法效率可能受特定图结构影响
实现复杂性：需要高效的分离器搜索实现

未来方向

扩展到混合图模型（离散和连续变量）
研究在线/动态图的可折叠性分析
探索分离器视角在其他图推理问题中的应用

深度评价

优点

理论深度：提供了可折叠性的全新理论视角，将全局问题转化为局部分离器问题
算法创新：CMSA算法设计巧妙，充分利用了紧密分离器的局部性质
实验充分：在多种图规模和密度下进行了全面的性能评估
实用价值：显著的效率提升使得方法在实际应用中更有价值

不足

适用范围：主要针对无向图模型，对有向图的扩展性不明确
比较基线：在一般图模型中只与IPA算法比较，缺乏更多基线方法
理论分析：缺乏平均情况下的复杂度分析
实际应用：缺乏真实数据集上的应用案例

影响力

学术贡献：为图模型中的可折叠性研究提供了新的理论框架
实用价值：算法效率的显著提升使其在大规模数据分析中具有实际应用潜力
可复现性：作者提供了完整的开源代码，增强了结果的可复现性
后续研究：分离器视角可能启发其他图推理问题的研究

适用场景

高维列联表分析：当需要进行变量降维时
大规模图模型推理：计算资源受限的情况下
因果推断：识别最小充分集进行因果效应估计
数据挖掘：特征选择和降维任务

参考文献

本文主要建立在以下关键文献基础上：

Asmussen, S. & Edwards, D. (1983). Collapsibility and response variables in contingency tables. Biometrika.
Madigan, D. & Mosurski, K. (1990). An extension of the results of asmussen and edwards on collapsibility in contingency tables. Biometrika.
Takata, K. (2010). Space-optimal, backtracking algorithms to list the minimal vertex separators of a graph.
Wang, X., Guo, J. & He, X. (2011). Finding the minimal set for collapsible graphical models.