Collapsibility provides a principled approach for dimension reduction in contingency tables and graphical models. Madigan and Mosurski (1990) pioneered the study of minimal collapsible sets in decomposable models, but existing algorithms for general graphs remain computationally demanding. We show that a model is collapsible onto a target set precisely when that set contains all minimal separators between its non-adjacent vertices. This insight motivates the Close Minimal Separator Absorption (CMSA) algorithm, which constructs minimal collapsible sets using only local separator searches at very low costs. Simulations confirm substantial efficiency gains, making collapsibility analysis practical in high-dimensional settings.
- पेपर ID: 2510.09024
- शीर्षक: Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators
- लेखक: पेई हेंग (नॉर्थईस्ट नॉर्मल विश्वविद्यालय), यी सन (शिनजियांग विश्वविद्यालय), शियुआन हे, जियानहुआ गुओ (बीजिंग प्रौद्योगिकी और व्यापार विश्वविद्यालय)
- वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
- प्रकाशित पत्रिका: Biometrika (2025), 103, 1, p. 1
- पेपर लिंक: https://arxiv.org/abs/2510.09024
संक्षिप्तता (कोलेप्सिबिलिटी) सारणीबद्ध डेटा और ग्राफ मॉडल में आयाम में कमी के लिए एक सिद्धांतसम्मत दृष्टिकोण प्रदान करती है। मैडिगन और मोसुरस्की (1990) ने विघटनीय मॉडल में न्यूनतम संक्षिप्त समुच्चय के अध्ययन की स्थापना की, लेकिन मौजूदा सामान्य ग्राफ एल्गोरिदम अभी भी कम्प्यूटेशनल रूप से कठोर हैं। यह पेपर सिद्ध करता है कि मॉडल किसी लक्ष्य समुच्चय पर संक्षिप्त हो सकता है यदि और केवल यदि लक्ष्य समुच्चय इसके गैर-आसन्न शीर्षों के बीच सभी न्यूनतम विभाजकों को समाहित करता है। यह अंतर्दृष्टि सघन न्यूनतम विभाजक अवशोषण (CMSA) एल्गोरिदम को प्रेरित करती है, जो केवल अत्यंत कम लागत वाली स्थानीय विभाजक खोज का उपयोग करके न्यूनतम संक्षिप्त समुच्चय का निर्माण करता है। सिमुलेशन उल्लेखनीय दक्षता वृद्धि की पुष्टि करता है, जिससे संक्षिप्तता विश्लेषण उच्च-आयामी सेटिंग में व्यावहारिक हो जाता है।
संक्षिप्तता बहुभिन्नरूपी सांख्यिकीय विश्लेषण में एक शास्त्रीय अवधारणा है, जिसे सबसे पहले यूल (1903) और सिम्पसन (1951) द्वारा प्रस्तुत किया गया था। लॉग-रैखिक मॉडल ढांचे के भीतर, यह सीमांत संबंधों को विकृत किए बिना चर को हटाकर सांख्यिकीय विश्लेषण को सरल बनाने का एक सिद्धांतसम्मत तरीका प्रदान करता है।
दिए गए लक्ष्य चर समुच्चय के लिए, मॉडल किस न्यूनतम सुपरसेट तक अनुमान की वैधता खोए बिना संक्षिप्त हो सकता है? ऐसे सुपरसेट को न्यूनतम संक्षिप्त समुच्चय कहा जाता है।
- मैडिगन और मोसुरस्की (1990) की चयनात्मक अचक्रीय हाइपरग्राफ कमी (SAHR) एल्गोरिदम केवल विघटनीय ग्राफ मॉडल पर लागू होती है
- वांग एट अल. (2011) की उत्तल पतवार विधि और हेंग और सन (2023) की पथ अवशोषण विधि आमतौर पर वैश्विक ग्राफ संचालन की आवश्यकता होती है, जो उच्च-आयामी मॉडल में कम्प्यूटेशनल रूप से महंगी है
- स्थानीय ग्राफ गुणों पर आधारित कुशल एल्गोरिदम की कमी
यह पेपर न्यूनतम संक्षिप्तता का नए दृष्टिकोण से पुनर्विचार करता है, जिसका उद्देश्य है:
- विभाजक-आधारित संक्षिप्तता की विशेषता प्रदान करना
- स्थानीय संचालन पर आधारित कुशल एल्गोरिदम विकसित करना
- उच्च-आयामी ग्राफ मॉडल में संक्षिप्तता विश्लेषण को व्यावहारिक बनाना
- सैद्धांतिक योगदान: सिद्ध किया कि ग्राफ मॉडल लक्ष्य समुच्चय पर संक्षिप्त हो सकता है यदि और केवल यदि वह समुच्चय इसके गैर-आसन्न शीर्षों के बीच सभी न्यूनतम विभाजकों को समाहित करता है
- एल्गोरिदम नवाचार: सघन न्यूनतम विभाजक अवशोषण (CMSA) एल्गोरिदम प्रस्तावित किया, जो स्थानीय विभाजक खोज के माध्यम से न्यूनतम संक्षिप्त समुच्चय का निर्माण करता है
- कम्प्यूटेशनल दक्षता: CMSA एल्गोरिदम में O(nm) समय जटिलता और O(n) स्पेस जटिलता है, जो मौजूदा विधियों से बेहतर है
- व्यावहारिक मूल्य: उच्च-आयामी सेटिंग में संक्षिप्तता विश्लेषण को व्यावहारिक रूप से संभव बनाता है
इनपुट: स्तरीय लॉग-रैखिक मॉडल L और इसका अंतःक्रिया ग्राफ G=(V,E), लक्ष्य चर समुच्चय A⊆V
आउटपुट: A युक्त न्यूनतम संक्षिप्त समुच्चय μ
बाधा: मॉडल L को μ पर संक्षिप्त किया जा सकता है, और μ इस शर्त को पूरा करने वाला न्यूनतम समुच्चय है
लेम्मा 1 (असमुसेन और एडवर्ड्स, 1983): ग्राफ मॉडल L को उप-समुच्चय A⊆V पर संक्षिप्त किया जा सकता है यदि और केवल यदि किसी भी X,Y⊆A के लिए, X⊥Y|SG का तात्पर्य X⊥Y|S∩AG है।
प्रमेय 1: ग्राफ मॉडल L को उप-समुच्चय A⊆V पर संक्षिप्त किया जा सकता है यदि और केवल यदि A, A में प्रत्येक गैर-आसन्न शीर्ष जोड़ी x,y के प्रत्येक न्यूनतम xy-विभाजक को समाहित करता है।
परिणाम 1: ग्राफ मॉडल L को उप-समुच्चय A⊆V पर संक्षिप्त किया जा सकता है यदि और केवल यदि A, A में प्रत्येक गैर-आसन्न शीर्ष जोड़ी x,y के कम से कम एक न्यूनतम xy-विभाजक को समाहित करता है।
सघन न्यूनतम विभाजक (परिभाषा 2): किसी भी दो गैर-आसन्न शीर्षों x,y∈V के लिए, यदि न्यूनतम xy-विभाजक S पूरी तरह से x के पड़ोस के भीतर है, अर्थात S⊆N_G(x), तो S को x के पास विभाजक कहा जाता है, जिसे S_G(x,y) द्वारा दर्शाया जाता है।
CMSA एल्गोरिदम में निम्नलिखित मुख्य चरण शामिल हैं:
- घटक पहचान: G_{V\A} के सभी जुड़े घटकों M₁,...,M_K की पहचान करें
- स्थानीय प्रसंस्करण: प्रत्येक जुड़े घटक M_i के लिए:
- μᵢ := A को प्रारंभ करें
- G_{Mᵢ} के जुड़े घटकों के पड़ोस में गैर-आसन्न शीर्ष जोड़ी को पुनरावृत्ति से पहचानें
- उनके सघन न्यूनतम विभाजकों को μᵢ में अवशोषित करें
- जब सभी जुड़े घटकों का पड़ोस पूर्ण उप-समुच्चय बन जाए तो रुकें
- परिणाम विलय: अंतिम न्यूनतम संक्षिप्त समुच्चय μ = ⋃ᵢμᵢ प्राप्त करने के लिए सभी μᵢ को विलय करें
- स्थानीयकरण रणनीति: वैश्विक ग्राफ संचालन को स्थानीय विभाजक खोज में परिवर्तित करना
- सघन विभाजक उपयोग: सघन विभाजकों के गुणों का उपयोग करके पूर्ण ग्राफ ट्रैवर्सल से बचना
- घटक विघटन: जुड़े घटकों के विघटन के माध्यम से समस्या जटिलता को कम करना
- वृद्धिशील निर्माण: समाप्ति शर्त को पूरा करने तक विभाजकों को पुनरावृत्ति से अवशोषित करना
- विघटनीय ग्राफ मॉडल:
- ग्राफ आकार: n ∈ {250, 500, 750, 1000}
- किनारे की संभावना: p ∈ {0.1, 0.01}
- प्रत्येक कॉन्फ़िगरेशन के लिए 100 यादृच्छिक कॉर्डल ग्राफ उत्पन्न करें
- सामान्य ग्राफ मॉडल:
- ग्राफ आकार: n ∈ {2500, 5000, 7500, 10000}
- किनारे की संभावना: p ∈ {0.1, 0.01, 0.005, 0.001}
- यादृच्छिक पेड़ों में किनारे जोड़कर यादृच्छिक ग्राफ उत्पन्न करें
- चलने का समय: एल्गोरिदम निष्पादन का औसत समय (सेकंड)
- दक्षता तुलना: आधारभूत विधियों के साथ सापेक्ष प्रदर्शन
- SAHR (मैडिगन और मोसुरस्की, 1990): विघटनीय ग्राफ के लिए लागू
- IPA (हेंग और सन, 2023): प्रेरित पथ अवशोषण एल्गोरिदम, सामान्य ग्राफ के लिए लागू
- प्रोग्रामिंग भाषा: मुख्य एल्गोरिदम के लिए C भाषा, Python इंटरफेस
- हार्डवेयर वातावरण: Intel Xeon Silver 4215R CPU, 128 GB RAM
- प्रत्येक ग्राफ के लिए परीक्षण के लिए 10 यादृच्छिक लक्ष्य शीर्षों का चयन करें
| नोड्स | 250 | 500 | 750 | 1000 |
|---|
| औसत किनारे | 529/3334 | 1812/12912 | 3567/28652 | 6062/52959 |
| CMSA | 0.0007/0.0012 | 0.0021/0.0047 | 0.0044/0.0112 | 0.0072/0.0248 |
| SAHR | 0.0113/0.0611 | 0.0681/0.5455 | 0.1876/2.1648 | 0.3808/6.6983 |
मुख्य निष्कर्ष:
- CMSA सभी ग्राफ आकार और घनत्व में SAHR से काफी बेहतर है
- नोड्स और किनारों की संख्या बढ़ने के साथ, CMSA का लाभ अधिक स्पष्ट हो जाता है
- सबसे बड़े पैमाने के ग्राफ (1000 नोड्स, उच्च घनत्व) में, CMSA SAHR से लगभग 270 गुना तेज है
प्रयोगात्मक परिणाम दिखाते हैं कि CMSA घने ग्राफ पर IPA की तुलना में काफी अधिक कुशल है, और नोड्स की संख्या बढ़ने के साथ प्रदर्शन लाभ बढ़ता है। विरल ग्राफ पर, दोनों एल्गोरिदम के चलने का समय काफी कम हो जाता है, लेकिन CMSA हमेशा बेहतर दक्षता बनाए रखता है।
उदाहरण 1: ग्राफ G और लक्ष्य समुच्चय A = {c, b} पर विचार करें
- प्रारंभिक जुड़े घटक: M₁ = {x}, M₂ = {a, d}, M₃ = {g, l, t}
- M₂ को संसाधित करते समय गैर-आसन्न जोड़ी {c, b} की खोज करें, विभाजक {a} को अवशोषित करें
- M₃ को संसाधित करते समय समान रूप से {c, b} जोड़ी को संभालें, विभाजक {l} को अवशोषित करें
- अंतिम न्यूनतम संक्षिप्त समुच्चय {a, c, l, b} प्राप्त करें
- यूल (1903), सिम्पसन (1951): पहली बार संक्षिप्तता अवधारणा प्रस्तुत की
- असमुसेन और एडवर्ड्स (1983): Biometrika में कठोर सैद्धांतिक विवरण दिया
- मैडिगन और मोसुरस्की (1990): Biometrika में न्यूनतम संक्षिप्त समुच्चय समस्या प्रस्तावित की
- SAHR एल्गोरिदम: केवल विघटनीय ग्राफ पर लागू, दक्षता अधिक लेकिन प्रयोज्यता सीमित
- उत्तल पतवार विधि (वांग एट अल., 2011): सामान्य ग्राफ तक विस्तारित लेकिन कम्प्यूटेशनल लागत अधिक
- पथ अवशोषण विधि (हेंग और सन, 2023): दक्षता में सुधार लेकिन अभी भी वैश्विक संचालन की आवश्यकता
यह पेपर विभाजक दृष्टिकोण के माध्यम से संक्षिप्तता सिद्धांत को एकीकृत करता है, शुद्ध स्थानीय संचालन पर आधारित पहला कुशल एल्गोरिदम प्रदान करता है।
- सैद्धांतिक सफलता: संक्षिप्तता और न्यूनतम विभाजकों के बीच समतुल्यता संबंध स्थापित किया
- एल्गोरिदम नवाचार: CMSA एल्गोरिदम वैश्विक से स्थानीय के प्रतिमान परिवर्तन को लागू करता है
- दक्षता वृद्धि: विभिन्न ग्राफ मॉडल में उल्लेखनीय कम्प्यूटेशनल दक्षता वृद्धि प्राप्त की
- व्यावहारिक मूल्य: उच्च-आयामी ग्राफ मॉडल की संक्षिप्तता विश्लेषण को व्यावहारिक बनाता है
- सैद्धांतिक मान्यताएं: स्तरीय लॉग-रैखिक मॉडल ढांचे पर आधारित
- ग्राफ संरचना निर्भरता: एल्गोरिदम दक्षता विशिष्ट ग्राफ संरचना से प्रभावित हो सकती है
- कार्यान्वयन जटिलता: कुशल विभाजक खोज कार्यान्वयन की आवश्यकता
- व्यावहारिक अनुप्रयोग: वास्तविक डेटासेट पर अनुप्रयोग केस की कमी
- शैक्षणिक योगदान: ग्राफ मॉडल में संक्षिप्तता अनुसंधान के लिए नया सैद्धांतिक ढांचा प्रदान करता है
- व्यावहारिक मूल्य: एल्गोरिदम दक्षता में उल्लेखनीय वृद्धि बड़े पैमाने पर डेटा विश्लेषण में वास्तविक अनुप्रयोग क्षमता रखती है
- पुनरुत्पादनीयता: लेखकों द्वारा पूर्ण ओपन सोर्स कोड प्रदान किया गया है, परिणामों की पुनरुत्पादनीयता बढ़ाता है
- अनुवर्ती अनुसंधान: विभाजक दृष्टिकोण अन्य ग्राफ अनुमान समस्याओं के अनुसंधान को प्रेरित कर सकता है
- उच्च-आयामी सारणीबद्ध डेटा विश्लेषण: चर में कमी की आवश्यकता होने पर
- बड़े पैमाने पर ग्राफ मॉडल अनुमान: कम्प्यूटेशनल संसाधन सीमित होने की स्थिति में
- कारणात्मक अनुमान: कारणात्मक प्रभाव अनुमान के लिए न्यूनतम पर्याप्त समुच्चय की पहचान करना
- डेटा माइनिंग: विशेषता चयन और आयाम में कमी कार्य
यह पेपर मुख्य रूप से निम्नलिखित मुख्य साहित्य पर आधारित है:
- Asmussen, S. & Edwards, D. (1983). Collapsibility and response variables in contingency tables. Biometrika.
- Madigan, D. & Mosurski, K. (1990). An extension of the results of asmussen and edwards on collapsibility in contingency tables. Biometrika.
- Takata, K. (2010). Space-optimal, backtracking algorithms to list the minimal vertex separators of a graph.
- Wang, X., Guo, J. & He, X. (2011). Finding the minimal set for collapsible graphical models.