2025-11-13T01:28:10.704881

Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators

Heng, Sun, He et al.

Collapsibility provides a principled approach for dimension reduction in contingency tables and graphical models. Madigan and Mosurski (1990) pioneered the study of minimal collapsible sets in decomposable models, but existing algorithms for general graphs remain computationally demanding. We show that a model is collapsible onto a target set precisely when that set contains all minimal separators between its non-adjacent vertices. This insight motivates the Close Minimal Separator Absorption (CMSA) algorithm, which constructs minimal collapsible sets using only local separator searches at very low costs. Simulations confirm substantial efficiency gains, making collapsibility analysis practical in high-dimensional settings.

academic

Revisitando Madigan y Mosurski: Colapsabilidad mediante Separadores Mínimos

Información Básica

ID del Artículo: 2510.09024
Título: Revisitando Madigan y Mosurski: Colapsabilidad mediante Separadores Mínimos
Autores: Pei Heng (Northeast Normal University), Yi Sun (Xinjiang University), Shiyuan He, Jianhua Guo (Beijing Technology and Business University)
Clasificación: stat.ME (Estadística - Metodología)
Revista de Publicación: Biometrika (2025), 103, 1, p. 1
Enlace del Artículo: https://arxiv.org/abs/2510.09024

Resumen

La colapsabilidad proporciona un enfoque principista para la reducción de dimensionalidad en tablas de contingencia y modelos gráficos. Madigan y Mosurski (1990) iniciaron el estudio de conjuntos mínimamente colapsables en modelos descomponibles, pero los algoritmos gráficos generales existentes siguen siendo computacionalmente exigentes. Este artículo demuestra que un modelo es colapsable a un conjunto objetivo si y solo si dicho conjunto contiene todos los separadores mínimos entre sus vértices no adyacentes. Esta perspectiva motiva el algoritmo de Absorción de Separadores Mínimos Compactos (CMSA), que construye conjuntos mínimamente colapsables utilizando únicamente búsquedas de separadores locales de costo muy bajo. Las simulaciones confirman mejoras significativas en eficiencia, haciendo que el análisis de colapsabilidad sea práctico en configuraciones de alta dimensionalidad.

Antecedentes de Investigación y Motivación

Contexto del Problema

La colapsabilidad es un concepto clásico en análisis estadístico multivariante, introducido originalmente por Yule (1903) y Simpson (1951). Dentro del marco de modelos log-lineales, proporciona un método principista para eliminar variables y simplificar análisis estadísticos sin distorsionar asociaciones marginales.

Problema Central

Para un conjunto dado de variables objetivo, ¿cómo encontrar el superconjunto mínimo al cual el modelo puede colapsar sin perder validez inferencial? Tales superconjuntos se denominan conjuntos mínimamente colapsables.

Limitaciones de Métodos Existentes

Algoritmo SAHR de Madigan & Mosurski (1990): aplicable solo a modelos gráficos descomponibles
Método de envolvente convexo de Wang et al. (2011) y método de absorción de trayectorias de Heng & Sun (2023): típicamente requieren operaciones gráficas globales, con costo computacional elevado en modelos de alta dimensionalidad
Carencia de algoritmos eficientes basados en propiedades gráficas locales

Motivación de la Investigación

Este artículo revisita la colapsabilidad mínima desde una nueva perspectiva, con el objetivo de:

Proporcionar una caracterización de colapsabilidad basada en separadores
Desarrollar algoritmos eficientes basados en operaciones locales
Hacer que el análisis de colapsabilidad sea práctico en modelos gráficos de alta dimensionalidad

Contribuciones Principales

Contribución Teórica: Se demuestra que un modelo gráfico es colapsable a un conjunto objetivo si y solo si dicho conjunto contiene todos los separadores mínimos entre sus vértices no adyacentes
Innovación Algorítmica: Se propone el algoritmo de Absorción de Separadores Mínimos Compactos (CMSA), que construye conjuntos mínimamente colapsables mediante búsqueda de separadores locales
Eficiencia Computacional: El algoritmo CMSA posee complejidad temporal O(nm) y complejidad espacial O(n), superando métodos existentes
Valor Práctico: Hace que el análisis de colapsabilidad sea prácticamente viable en configuraciones de alta dimensionalidad

Explicación Detallada de Métodos

Definición de la Tarea

Entrada: Modelo log-lineal jerárquico L y su grafo de interacción G=(V,E), conjunto de variables objetivo A⊆V Salida: Conjunto mínimamente colapsable μ que contiene A Restricción: El modelo L es colapsable a μ, y μ es el conjunto mínimo que satisface esta condición

Teoría Principal

Lema Clave

Lema 1 (Asmussen & Edwards, 1983): Un modelo gráfico L es colapsable a un subconjunto A⊆V si y solo si para cualesquiera X,Y⊆A, X⊥Y|SG implica X⊥Y|S∩AG.

Teorema Principal

Teorema 1: Un modelo gráfico L es colapsable a un subconjunto A⊆V si y solo si A contiene cada separador mínimo xy para cada par de vértices no adyacentes x,y en A.

Corolario 1: Un modelo gráfico L es colapsable a un subconjunto A⊆V si y solo si A contiene al menos un separador mínimo xy para cada par de vértices no adyacentes x,y en A.

Arquitectura del Algoritmo CMSA

Conceptos Clave

Separador Mínimo Compacto (Definición 2): Para cualesquiera dos vértices no adyacentes x,y∈V, si un separador mínimo xy S está completamente contenido en la vecindad de x, es decir, S⊆N_G(x), entonces S se denomina separador compacto respecto a x, denotado como S_G(x,y).

Flujo del Algoritmo

El algoritmo CMSA comprende los siguientes pasos principales:

Identificación de Componentes: Identificar todas las componentes conexas M₁,...,M_K de G_{V\A}
Procesamiento Local: Para cada componente conexa M_i:
- Inicializar μᵢ := A
- Identificar iterativamente pares de vértices no adyacentes en las vecindades de componentes conexas de G_{Mᵢ}
- Absorber sus separadores mínimos compactos en μᵢ
- Detener cuando las vecindades de todas las componentes conexas formen subconjuntos completos
Fusión de Resultados: Combinar todos los μᵢ para obtener el conjunto mínimamente colapsable final μ = ⋃ᵢμᵢ

Puntos de Innovación Técnica

Estrategia de Localización: Transformar operaciones gráficas globales en búsquedas de separadores locales
Utilización de Separadores Compactos: Aprovechar las propiedades de separadores compactos para evitar recorridos completos del grafo
Descomposición de Componentes: Reducir la complejidad del problema mediante descomposición en componentes conexas
Construcción Incremental: Absorber iterativamente separadores hasta satisfacer la condición de terminación

Configuración Experimental

Conjuntos de Datos

Modelos Gráficos Descomponibles:
- Escala del grafo: n ∈ {250, 500, 750, 1000}
- Probabilidad de arista: p ∈ {0.1, 0.01}
- Se generan 100 grafos cordales aleatorios para cada configuración
Modelos Gráficos Generales:
- Escala del grafo: n ∈ {2500, 5000, 7500, 10000}
- Probabilidad de arista: p ∈ {0.1, 0.01, 0.005, 0.001}
- Grafos aleatorios generados añadiendo aristas a árboles aleatorios

Métricas de Evaluación

Tiempo de Ejecución: Tiempo promedio de ejecución del algoritmo (segundos)
Comparación de Eficiencia: Desempeño relativo respecto a métodos de referencia

Métodos de Comparación

SAHR (Madigan & Mosurski, 1990): Aplicable a grafos descomponibles
IPA (Heng & Sun, 2023): Algoritmo de absorción de trayectorias inducidas, aplicable a grafos generales

Detalles de Implementación

Lenguaje de Programación: Implementación en lenguaje C del algoritmo principal, interfaz Python
Entorno de Hardware: CPU Intel Xeon Silver 4215R, 128 GB RAM
Se prueban 10 vértices objetivo seleccionados aleatoriamente para cada grafo

Resultados Experimentales

Resultados en Modelos Gráficos Descomponibles

Número de Nodos	250	500	750	1000
Número Promedio de Aristas	529/3334	1812/12912	3567/28652	6062/52959
CMSA	0.0007/0.0012	0.0021/0.0047	0.0044/0.0112	0.0072/0.0248
SAHR	0.0113/0.0611	0.0681/0.5455	0.1876/2.1648	0.3808/6.6983

Hallazgos Clave:

CMSA supera significativamente a SAHR en todas las escalas de grafo y densidades
A medida que aumentan el número de nodos y aristas, la ventaja de CMSA se hace más evidente
En grafos de mayor escala (1000 nodos, alta densidad), CMSA es aproximadamente 270 veces más rápido que SAHR

Resultados en Modelos Gráficos Generales

Los resultados experimentales muestran que CMSA es significativamente más eficiente que IPA en grafos densos, con ventajas de desempeño que aumentan con el número de nodos. En grafos dispersos, el tiempo de ejecución de ambos algoritmos disminuye significativamente, pero CMSA mantiene consistentemente una eficiencia superior.

Análisis de Casos

Ejemplo 1: Considérese un grafo G y conjunto objetivo A = {c, b}

Componentes conexas iniciales: M₁ = {x}, M₂ = {a, d}, M₃ = {g, l, t}
Al procesar M₂ se descubre el par no adyacente {c, b}, absorbiendo el separador {a}
Al procesar M₃ se maneja similarmente el par {c, b}, absorbiendo el separador {l}
Se obtiene finalmente el conjunto mínimamente colapsable {a, c, l, b}

Trabajo Relacionado

Desarrollo de la Teoría de Colapsabilidad

Yule (1903), Simpson (1951): Introducen originalmente el concepto de colapsabilidad
Asmussen & Edwards (1983): Proporcionan formulación teórica rigurosa en Biometrika
Madigan & Mosurski (1990): Proponen el problema de conjuntos mínimamente colapsables en Biometrika

Evolución de Algoritmos

Algoritmo SAHR: Aplicable solo a grafos descomponibles, eficiente pero con aplicabilidad limitada
Método de envolvente convexo (Wang et al., 2011): Extensión a grafos generales pero con costo computacional elevado
Método de absorción de trayectorias (Heng & Sun, 2023): Mejora de eficiencia pero requiere operaciones globales

Avance Teórico: Se establece la equivalencia entre colapsabilidad y separadores mínimos
Innovación Algorítmica: El algoritmo CMSA realiza una transformación de paradigma de operaciones globales a locales
Mejora de Eficiencia: Se logran mejoras significativas en eficiencia computacional en diversos modelos gráficos
Valor Práctico: Hace que el análisis de colapsabilidad en modelos gráficos de alta dimensionalidad sea prácticamente viable

Limitaciones

Supuestos Teóricos: Basado en el marco de modelos log-lineales jerárquicos
Dependencia de Estructura Gráfica: La eficiencia del algoritmo puede verse afectada por estructuras gráficas específicas
Complejidad de Implementación: Requiere implementación eficiente de búsqueda de separadores

Direcciones Futuras

Extensión a modelos gráficos mixtos (variables discretas y continuas)
Investigación de análisis de colapsabilidad en grafos en línea/dinámicos
Exploración de la perspectiva de separadores en otros problemas de inferencia gráfica

Evaluación Profunda

Fortalezas

Profundidad Teórica: Proporciona una nueva perspectiva teórica sobre colapsabilidad, transformando problemas globales en problemas de separadores locales
Innovación Algorítmica: El diseño del algoritmo CMSA es ingenioso, aprovechando plenamente las propiedades locales de separadores compactos
Experimentación Completa: Se realiza evaluación de desempeño integral en múltiples escalas de grafo y densidades
Valor Práctico: Las mejoras significativas en eficiencia hacen que el método sea más valioso en aplicaciones prácticas

Deficiencias

Rango de Aplicabilidad: Se enfoca principalmente en modelos gráficos no dirigidos, con extensibilidad a grafos dirigidos no clara
Líneas Base de Comparación: En modelos gráficos generales solo se compara con el algoritmo IPA, careciendo de más métodos de referencia
Análisis Teórico: Carece de análisis de complejidad en caso promedio
Aplicaciones Prácticas: Faltan casos de aplicación en conjuntos de datos reales

Impacto

Contribución Académica: Proporciona un nuevo marco teórico para investigación de colapsabilidad en modelos gráficos
Valor Práctico: Las mejoras significativas en eficiencia del algoritmo tienen potencial de aplicación práctica en análisis de datos a gran escala
Reproducibilidad: Los autores proporcionan código de fuente abierta completo, mejorando la reproducibilidad de resultados
Investigación Posterior: La perspectiva de separadores puede inspirar investigación en otros problemas de inferencia gráfica

Escenarios de Aplicación

Análisis de Tablas de Contingencia de Alta Dimensionalidad: Cuando se requiere reducción de variables
Inferencia en Modelos Gráficos a Gran Escala: En situaciones con recursos computacionales limitados
Inferencia Causal: Identificación de conjuntos mínimamente suficientes para estimación de efectos causales
Minería de Datos: Tareas de selección de características y reducción de dimensionalidad

Referencias Bibliográficas

Este artículo se construye principalmente sobre las siguientes referencias clave:

Asmussen, S. & Edwards, D. (1983). Collapsibility and response variables in contingency tables. Biometrika.
Madigan, D. & Mosurski, K. (1990). An extension of the results of asmussen and edwards on collapsibility in contingency tables. Biometrika.
Takata, K. (2010). Space-optimal, backtracking algorithms to list the minimal vertex separators of a graph.
Wang, X., Guo, J. & He, X. (2011). Finding the minimal set for collapsible graphical models.