Collapsibility provides a principled approach for dimension reduction in contingency tables and graphical models. Madigan and Mosurski (1990) pioneered the study of minimal collapsible sets in decomposable models, but existing algorithms for general graphs remain computationally demanding. We show that a model is collapsible onto a target set precisely when that set contains all minimal separators between its non-adjacent vertices. This insight motivates the Close Minimal Separator Absorption (CMSA) algorithm, which constructs minimal collapsible sets using only local separator searches at very low costs. Simulations confirm substantial efficiency gains, making collapsibility analysis practical in high-dimensional settings.
- ID de l'article : 2510.09024
- Titre : Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators
- Auteurs : Pei Heng (Northeast Normal University), Yi Sun (Xinjiang University), Shiyuan He, Jianhua Guo (Beijing Technology and Business University)
- Classification : stat.ME (Statistiques - Méthodologie)
- Journal de publication : Biometrika (2025), 103, 1, p. 1
- Lien de l'article : https://arxiv.org/abs/2510.09024
L'effondrement fournit une approche systématique pour la réduction de dimension dans les tableaux de contingence et les modèles graphiques. Madigan et Mosurski (1990) ont ouvert la voie à l'étude des ensembles minimaux effondrables dans les modèles décomposables, mais les algorithmes graphiques généraux existants restent exigeants sur le plan informatique. Cet article démontre qu'un modèle peut s'effondrer sur un ensemble cible si et seulement si cet ensemble contient tous les séparateurs minimaux entre ses sommets non adjacents. Cette intuition a inspiré l'algorithme d'absorption des séparateurs minimaux compacts (CMSA), qui construit des ensembles minimaux effondrables en utilisant uniquement des recherches de séparateurs locaux à coût très faible. Les simulations confirment une amélioration significative de l'efficacité, rendant l'analyse d'effondrement pratique dans les contextes de haute dimension.
L'effondrement est un concept classique en analyse statistique multivariée, introduit initialement par Yule (1903) et Simpson (1951). Dans le cadre des modèles log-linéaires, il fournit une approche systématique pour supprimer des variables et simplifier l'analyse statistique sans déformer les associations marginales.
Pour un ensemble donné de variables cibles, comment trouver le sur-ensemble minimal sur lequel le modèle peut s'effondrer sans perdre la validité inférentielle ? Un tel sur-ensemble est appelé ensemble minimal effondrable.
- L'algorithme de réduction de sur-graphe acyclique sélectif (SAHR) de Madigan & Mosurski (1990) s'applique uniquement aux modèles graphiques décomposables
- L'approche d'enveloppe convexe de Wang et al. (2011) et la méthode d'absorption de chemins de Heng & Sun (2023) nécessitent généralement des opérations graphiques globales, coûteuses en calcul pour les modèles de haute dimension
- Absence d'algorithmes efficaces basés sur les propriétés graphiques locales
Cet article réexamine la minimalité d'effondrement sous un nouvel angle, visant à :
- Fournir une caractérisation de l'effondrement basée sur les séparateurs
- Développer des algorithmes efficaces basés sur des opérations locales
- Rendre l'analyse d'effondrement pratique dans les modèles graphiques de haute dimension
- Contribution théorique : Démonstration qu'un modèle graphique peut s'effondrer sur un ensemble cible si et seulement si cet ensemble contient tous les séparateurs minimaux entre ses sommets non adjacents
- Innovation algorithmique : Proposition de l'algorithme d'absorption des séparateurs minimaux compacts (CMSA), qui construit des ensembles minimaux effondrables par recherche de séparateurs locaux
- Efficacité informatique : L'algorithme CMSA possède une complexité temporelle O(nm) et une complexité spatiale O(n), surpassant les méthodes existantes
- Valeur pratique : Rend l'analyse d'effondrement réellement réalisable dans les contextes de haute dimension
Entrée : Modèle log-linéaire hiérarchique L et son graphe d'interaction G=(V,E), ensemble de variables cibles A⊆V
Sortie : Ensemble minimal effondrable μ contenant A
Contrainte : Le modèle L peut s'effondrer sur μ, et μ est l'ensemble minimal satisfaisant cette condition
Lemme 1 (Asmussen & Edwards, 1983) : Un modèle graphique L peut s'effondrer sur un sous-ensemble A⊆V si et seulement si pour tous X,Y⊆A, X⊥Y|SG implique X⊥Y|S∩AG.
Théorème 1 : Un modèle graphique L peut s'effondrer sur un sous-ensemble A⊆V si et seulement si A contient chaque séparateur xy-minimal pour chaque paire de sommets non adjacents x,y dans A.
Corollaire 1 : Un modèle graphique L peut s'effondrer sur un sous-ensemble A⊆V si et seulement si A contient au moins un séparateur xy-minimal pour chaque paire de sommets non adjacents x,y dans A.
Séparateur minimal compact (Définition 2) : Pour deux sommets non adjacents quelconques x,y∈V, si un séparateur xy-minimal S est entièrement situé dans le voisinage de x, c'est-à-dire S⊆N_G(x), alors S est appelé séparateur proche de x, noté S_G(x,y).
L'algorithme CMSA comprend les étapes principales suivantes :
- Identification des composantes : Identification de toutes les composantes connexes M₁,...,M_K de G_{V\A}
- Traitement local : Pour chaque composante connexe M_i :
- Initialisation μᵢ := A
- Identification itérative des paires de sommets non adjacents dans les voisinages des composantes connexes de G_{Mᵢ}
- Absorption de leurs séparateurs minimaux compacts dans μᵢ
- Arrêt lorsque les voisinages de toutes les composantes connexes forment des sous-ensembles complets
- Fusion des résultats : Fusion de tous les μᵢ pour obtenir l'ensemble minimal effondrable final μ = ⋃ᵢμᵢ
- Stratégie de localisation : Transformation des opérations graphiques globales en recherches de séparateurs locaux
- Utilisation des séparateurs compacts : Exploitation des propriétés des séparateurs compacts pour éviter le parcours du graphe complet
- Décomposition en composantes : Réduction de la complexité du problème par décomposition en composantes connexes
- Construction incrémentale : Absorption itérative de séparateurs jusqu'à satisfaction de la condition d'arrêt
- Modèles graphiques décomposables :
- Taille du graphe : n ∈ {250, 500, 750, 1000}
- Probabilité d'arête : p ∈ {0.1, 0.01}
- 100 graphes d'accords aléatoires générés pour chaque configuration
- Modèles graphiques généraux :
- Taille du graphe : n ∈ {2500, 5000, 7500, 10000}
- Probabilité d'arête : p ∈ {0.1, 0.01, 0.005, 0.001}
- Graphes aléatoires générés en ajoutant des arêtes à des arbres aléatoires
- Temps d'exécution : Temps moyen d'exécution de l'algorithme (en secondes)
- Comparaison d'efficacité : Performance relative par rapport aux méthodes de base
- SAHR (Madigan & Mosurski, 1990) : Applicable aux graphes décomposables
- IPA (Heng & Sun, 2023) : Algorithme d'absorption de chemins induits, applicable aux graphes généraux
- Langage de programmation : Implémentation en langage C de l'algorithme principal, interface Python
- Environnement matériel : Processeur Intel Xeon Silver 4215R, RAM 128 GB
- 10 sommets cibles sélectionnés aléatoirement pour chaque graphe lors des tests
| Nombre de nœuds | 250 | 500 | 750 | 1000 |
|---|
| Nombre moyen d'arêtes | 529/3334 | 1812/12912 | 3567/28652 | 6062/52959 |
| CMSA | 0.0007/0.0012 | 0.0021/0.0047 | 0.0044/0.0112 | 0.0072/0.0248 |
| SAHR | 0.0113/0.0611 | 0.0681/0.5455 | 0.1876/2.1648 | 0.3808/6.6983 |
Découvertes clés :
- CMSA surpasse significativement SAHR pour toutes les tailles de graphe et densités
- L'avantage de CMSA s'accroît avec la croissance du nombre de nœuds et d'arêtes
- Sur le graphe de plus grande taille (1000 nœuds, haute densité), CMSA est environ 270 fois plus rapide que SAHR
Les résultats expérimentaux montrent que CMSA est significativement plus efficace que IPA sur les graphes denses, avec un avantage de performance qui augmente avec le nombre de nœuds. Sur les graphes creux, les temps d'exécution des deux algorithmes diminuent considérablement, mais CMSA maintient une efficacité supérieure.
Exemple 1 : Considérant le graphe G et l'ensemble cible A = {c, b}
- Composantes connexes initiales : M₁ = {x}, M₂ = {a, d}, M₃ = {g, l, t}
- Lors du traitement de M₂, découverte de la paire non adjacente {c, b}, absorption du séparateur {a}
- Lors du traitement de M₃, traitement similaire de la paire {c, b}, absorption du séparateur {l}
- Obtention finale de l'ensemble minimal effondrable {a, c, l, b}
- Yule (1903), Simpson (1951) : Introduction initiale du concept d'effondrement
- Asmussen & Edwards (1983) : Exposition théorique rigoureuse dans Biometrika
- Madigan & Mosurski (1990) : Proposition du problème d'ensemble minimal effondrable dans Biometrika
- Algorithme SAHR : Applicable uniquement aux graphes décomposables, efficace mais d'applicabilité limitée
- Méthode d'enveloppe convexe (Wang et al., 2011) : Extension aux graphes généraux mais coût informatique élevé
- Méthode d'absorption de chemins (Heng & Sun, 2023) : Amélioration de l'efficacité mais nécessitant toujours des opérations globales
Cet article unifie la théorie d'effondrement sous la perspective des séparateurs, fournissant le premier algorithme efficace basé sur des opérations purement locales.
- Percée théorique : Établissement d'une relation d'équivalence entre l'effondrement et les séparateurs minimaux
- Innovation algorithmique : L'algorithme CMSA réalise une transformation de paradigme du global au local
- Amélioration de l'efficacité : Réalisation d'améliorations significatives de l'efficacité informatique dans diverses structures de graphes
- Valeur pratique : Rend l'analyse d'effondrement des modèles graphiques de haute dimension réellement réalisable
- Hypothèses théoriques : Basé sur le cadre des modèles log-linéaires hiérarchiques
- Dépendance à la structure graphique : L'efficacité de l'algorithme peut être influencée par des structures graphiques spécifiques
- Complexité d'implémentation : Nécessite une implémentation efficace de la recherche de séparateurs
- Extension aux modèles graphiques mixtes (variables discrètes et continues)
- Étude de l'analyse d'effondrement pour les graphes en ligne/dynamiques
- Exploration de l'application de la perspective des séparateurs à d'autres problèmes d'inférence graphique
- Profondeur théorique : Fournit une nouvelle perspective théorique sur l'effondrement, transformant les problèmes globaux en problèmes de séparateurs locaux
- Innovation algorithmique : Conception ingénieuse de l'algorithme CMSA, exploitant pleinement les propriétés locales des séparateurs compacts
- Expérimentation complète : Évaluation de performance complète sur diverses tailles et densités de graphes
- Valeur pratique : L'amélioration significative de l'efficacité confère une plus grande valeur à la méthode dans les applications pratiques
- Portée d'application : Principalement orienté vers les modèles graphiques non orientés, l'extensibilité aux graphes orientés n'est pas claire
- Lignes de base de comparaison : Comparaison uniquement avec l'algorithme IPA pour les graphes généraux, manque de méthodes de base supplémentaires
- Analyse théorique : Absence d'analyse de complexité en cas moyen
- Applications pratiques : Manque de cas d'application sur des ensembles de données réelles
- Contribution académique : Fournit un nouveau cadre théorique pour la recherche sur l'effondrement dans les modèles graphiques
- Valeur pratique : L'amélioration significative de l'efficacité de l'algorithme présente un potentiel d'application pratique dans l'analyse de données à grande échelle
- Reproductibilité : Les auteurs fournissent un code source complet en libre accès, renforçant la reproductibilité des résultats
- Recherches ultérieures : La perspective des séparateurs peut inspirer la recherche sur d'autres problèmes d'inférence graphique
- Analyse de tableaux de contingence de haute dimension : Lors de la réduction de variables
- Inférence de modèles graphiques à grande échelle : Dans les contextes de ressources informatiques limitées
- Inférence causale : Identification d'ensembles minimaux suffisants pour l'estimation d'effets causaux
- Exploration de données : Tâches de sélection de caractéristiques et de réduction de dimension
Cet article s'appuie principalement sur les références clés suivantes :
- Asmussen, S. & Edwards, D. (1983). Collapsibility and response variables in contingency tables. Biometrika.
- Madigan, D. & Mosurski, K. (1990). An extension of the results of asmussen and edwards on collapsibility in contingency tables. Biometrika.
- Takata, K. (2010). Space-optimal, backtracking algorithms to list the minimal vertex separators of a graph.
- Wang, X., Guo, J. & He, X. (2011). Finding the minimal set for collapsible graphical models.