2025-11-13T01:28:10.704881

Revisiting Madigan and Mosurski: Collapsibility via Minimal Separators

Heng, Sun, He et al.

Collapsibility provides a principled approach for dimension reduction in contingency tables and graphical models. Madigan and Mosurski (1990) pioneered the study of minimal collapsible sets in decomposable models, but existing algorithms for general graphs remain computationally demanding. We show that a model is collapsible onto a target set precisely when that set contains all minimal separators between its non-adjacent vertices. This insight motivates the Close Minimal Separator Absorption (CMSA) algorithm, which constructs minimal collapsible sets using only local separator searches at very low costs. Simulations confirm substantial efficiency gains, making collapsibility analysis practical in high-dimensional settings.

academic

ম্যাডিগান এবং মোসুরস্কি পুনর্বিবেচনা: ন্যূনতম বিভাজকের মাধ্যমে সংকোচনযোগ্যতা

মৌলিক তথ্য

পেপার আইডি: 2510.09024
শিরোনাম: ম্যাডিগান এবং মোসুরস্কি পুনর্বিবেচনা: ন্যূনতম বিভাজকের মাধ্যমে সংকোচনযোগ্যতা
লেখক: পেই হেং (উত্তর-পূর্ব সাধারণ বিশ্ববিদ্যালয়), ই সান (জিনজিয়াং বিশ্ববিদ্যালয়), শিয়ুয়ান হে, জিয়ানহুয়া গুও (বেইজিং প্রযুক্তি এবং ব্যবসা বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: stat.ME (পরিসংখ্যান - পদ্ধতিবিদ্যা)
প্রকাশিত জার্নাল: বায়োমেট্রিকা (২০২৫), ১০৩, ১, পৃ. ১
পেপার লিঙ্ক: https://arxiv.org/abs/2510.09024

সারসংক্ষেপ

সংকোচনযোগ্যতা সংযোজন সারণী এবং গ্রাফ মডেলে মাত্রা হ্রাসের জন্য একটি নীতিবদ্ধ পদ্ধতি প্রদান করে। ম্যাডিগান এবং মোসুরস্কি (১৯৯০) বিয়োজনযোগ্য মডেলে ন্যূনতম সংকোচনযোগ্য সেটের গবেষণা অগ্রগামী করেছিলেন, কিন্তু বিদ্যমান সাধারণ গ্রাফ অ্যালগরিদম গণনামূলকভাবে এখনও অত্যন্ত কঠোর। এই পত্রটি প্রমাণ করে যে একটি মডেল লক্ষ্য সেটে সংকোচনযোগ্য হয় যদি এবং শুধুমাত্র যদি লক্ষ্য সেট এর অ-সন্নিহিত শীর্ষবিন্দুগুলির মধ্যে সমস্ত ন্যূনতম বিভাজক অন্তর্ভুক্ত করে। এই অন্তর্দৃষ্টি ঘনিষ্ঠ ন্যূনতম বিভাজক শোষণ (CMSA) অ্যালগরিদম অনুপ্রাণিত করে, যা শুধুমাত্র অত্যন্ত কম খরচের স্থানীয় বিভাজক অনুসন্ধান ব্যবহার করে ন্যূনতম সংকোচনযোগ্য সেট নির্মাণ করে। অনুকরণ উল্লেখযোগ্য দক্ষতা বৃদ্ধি নিশ্চিত করে, যা উচ্চ-মাত্রিক সেটিংয়ে সংকোচনযোগ্যতা বিশ্লেষণকে ব্যবহারিক করে তোলে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা পটভূমি

সংকোচনযোগ্যতা বহুপরিবর্তনশীল পরিসংখ্যান বিশ্লেষণে একটি ধ্রুপদী ধারণা, যা প্রথম ইউল (১৯০৩) এবং সিম্পসন (১৯৫১) দ্বারা প্রবর্তিত হয়েছিল। লগ-রৈখিক মডেল কাঠামোর মধ্যে, এটি সীমান্ত সংযোগ বিকৃত না করে পরিবর্তনশীল সরিয়ে পরিসংখ্যান বিশ্লেষণ সরল করার জন্য একটি নীতিবদ্ধ পদ্ধতি প্রদান করে।

মূল সমস্যা

প্রদত্ত লক্ষ্য পরিবর্তনশীল সেটের জন্য, কীভাবে মডেল সংকোচনযোগ্য হতে পারে এমন ন্যূনতম সুপারসেট খুঁজে পাওয়া যায় অনুমান বৈধতা হারানো ছাড়াই? এই ধরনের সুপারসেটকে ন্যূনতম সংকোচনযোগ্য সেট বলা হয়।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

১. ম্যাডিগান এবং মোসুরস্কি (১৯৯০) এর নির্বাচনী অ্যাসাইক্লিক হাইপারগ্রাফ হ্রাস (SAHR) অ্যালগরিদম শুধুমাত্র বিয়োজনযোগ্য গ্রাফ মডেলের জন্য প্রযোজ্য ২. ওয়াং এট আল. (২০১১) এর উত্তল হাল পদ্ধতি এবং হেং এবং সান (২০২৩) এর পথ শোষণ পদ্ধতি সাধারণত বৈশ্বিক গ্রাফ ক্রিয়াকলাপ প্রয়োজন, যা উচ্চ-মাত্রিক মডেলে গণনামূলকভাবে ব্যয়বহুল ३. স্থানীয় গ্রাফ বৈশিষ্ট্যের উপর ভিত্তি করে দক্ষ অ্যালগরিদমের অভাব

গবেষণা প্রেরণা

এই পত্রটি নতুন দৃষ্টিকোণ থেকে ন্যূনতম সংকোচনযোগ্যতা পুনর্বিবেচনা করে, যার লক্ষ্য: १. বিভাজক-ভিত্তিক সংকোচনযোগ্যতা বৈশিষ্ট্য প্রদান করা २. স্থানীয় ক্রিয়াকলাপের উপর ভিত্তি করে দক্ষ অ্যালগরিদম বিকাশ করা ३. উচ্চ-মাত্রিক গ্রাফ মডেলে সংকোচনযোগ্যতা বিশ্লেষণকে ব্যবহারিক করা

মূল অবদান

१. তাত্ত্বিক অবদান: প্রমাণ করা হয়েছে যে গ্রাফ মডেল লক্ষ্য সেটে সংকোচনযোগ্য হয় যদি এবং শুধুমাত্র যদি সেটটি এর অ-সন্নিহিত শীর্ষবিন্দুগুলির মধ্যে সমস্ত ন্যূনতম বিভাজক অন্তর্ভুক্ত করে २. অ্যালগরিদম উদ্ভাবন: ঘনিষ্ঠ ন্যূনতম বিভাজক শোষণ (CMSA) অ্যালগরিদম প্রস্তাব করা হয়েছে, যা স্থানীয় বিভাজক অনুসন্ধানের মাধ্যমে ন্যূনতম সংকোচনযোগ্য সেট নির্মাণ করে ३. গণনামূলক দক্ষতা: CMSA অ্যালগরিদম O(nm) সময় জটিলতা এবং O(n) স্থান জটিলতা রয়েছে, বিদ্যমান পদ্ধতির চেয়ে উন্নত ४. ব্যবহারিক মূল্য: উচ্চ-মাত্রিক সেটিংয়ে সংকোচনযোগ্যতা বিশ্লেষণকে বাস্তবিকভাবে সম্ভব করে তোলে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: স্তরযুক্ত লগ-রৈখিক মডেল L এবং এর মিথস্ক্রিয়া গ্রাফ G=(V,E), লক্ষ্য পরিবর্তনশীল সেট A⊆V আউটপুট: A ধারণকারী ন্যূনতম সংকোচনযোগ্য সেট μ সীমাবদ্ধতা: মডেল L μ-তে সংকোচনযোগ্য, এবং μ এই শর্ত সন্তুষ্ট করে এমন ন্যূনতম সেট

মূল তত্ত্ব

মূল লেম্মা

লেম্মা १ (অ্যাসমুসেন এবং এডওয়ার্ডস, १९८३): গ্রাফ মডেল L সাবসেট A⊆V-তে সংকোচনযোগ্য হয় যদি এবং শুধুমাত্র যদি যেকোনো X,Y⊆A এর জন্য, X⊥Y|SG নির্দেশ করে X⊥Y|S∩AG।

প্রধান উপপাদ্য

উপপাদ্য १: গ্রাফ মডেল L সাবসেট A⊆V-তে সংকোচনযোগ্য হয় যদি এবং শুধুমাত্র যদি A, A-তে প্রতিটি অ-সন্নিহিত শীর্ষবিন্দু জোড়া x,y এর প্রতিটি ন্যূনতম xy-বিভাজক অন্তর্ভুক্ত করে।

অনুসিদ্ধান্ত १: গ্রাফ মডেল L সাবসেট A⊆V-তে সংকোচনযোগ্য হয় যদি এবং শুধুমাত্র যদি A, A-তে প্রতিটি অ-সন্নিহিত শীর্ষবিন্দু জোড়া x,y এর কমপক্ষে একটি ন্যূনতম xy-বিভাজক অন্তর্ভুক্ত করে।

CMSA অ্যালগরিদম স্থাপত্য

মূল ধারণা

ঘনিষ্ঠ ন্যূনতম বিভাজক (সংজ্ঞা २): যেকোনো দুটি অ-সন্নিহিত শীর্ষবিন্দু x,y∈V এর জন্য, যদি ন্যূনতম xy-বিভাজক S সম্পূর্ণভাবে x এর প্রতিবেশের মধ্যে থাকে, অর্থাৎ S⊆N_G(x), তাহলে S কে x এর কাছাকাছি বিভাজক বলা হয়, S_G(x,y) দ্বারা চিহ্নিত।

অ্যালগরিদম প্রবাহ

CMSA অ্যালগরিদম নিম্নলিখিত প্রধান পদক্ষেপ অন্তর্ভুক্ত করে:

१. উপাদান সনাক্তকরণ: G_{V\A} এর সমস্ত সংযুক্ত উপাদান M₁,...,M_K সনাক্ত করা २. স্থানীয় প্রক্রিয়াকরণ: প্রতিটি সংযুক্ত উপাদান M_i এর জন্য:

μᵢ := A শুরু করা
G_{Mᵢ} এর সংযুক্ত উপাদান প্রতিবেশে অ-সন্নিহিত শীর্ষবিন্দু জোড়া পুনরাবৃত্তিমূলকভাবে সনাক্ত করা
তাদের ঘনিষ্ঠ ন্যূনতম বিভাজক μᵢ-তে শোষণ করা
যখন সমস্ত সংযুক্ত উপাদানের প্রতিবেশ সম্পূর্ণ সাবসেট গঠন করে তখন থামা ३. ফলাফল একীকরণ: সমস্ত μᵢ একীভূত করে চূড়ান্ত ন্যূনতম সংকোচনযোগ্য সেট μ = ⋃ᵢμᵢ পাওয়া

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. স্থানীয়করণ কৌশল: বৈশ্বিক গ্রাফ ক্রিয়াকলাপকে স্থানীয় বিভাজক অনুসন্ধানে রূপান্তরিত করা २. ঘনিষ্ঠ বিভাজক ব্যবহার: ঘনিষ্ঠ বিভাজকের বৈশিষ্ট্য ব্যবহার করে সম্পূর্ণ গ্রাফ ট্রাভার্সাল এড়ানো ३. উপাদান বিয়োজন: সংযুক্ত উপাদান বিয়োজনের মাধ্যমে সমস্যা জটিলতা হ্রাস করা ४. বর্ধনশীল নির্মাণ: সমাপ্তির শর্ত সন্তুষ্ট না হওয়া পর্যন্ত পুনরাবৃত্তিমূলকভাবে বিভাজক শোষণ করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. বিয়োজনযোগ্য গ্রাফ মডেল:

গ্রাফ স্কেল: n ∈ {२५०, ५००, ७५०, १०००}
প্রান্ত সম্ভাবনা: p ∈ {०.१, ०.०१}
প্রতিটি কনফিগারেশনের জন্য १०० টি র্যান্ডম কর্ড গ্রাফ তৈরি করা

२. সাধারণ গ্রাফ মডেল:

গ্রাফ স্কেল: n ∈ {२५००, ५०००, ७५००, १००००}
প্রান্ত সম্ভাবনা: p ∈ {०.१, ०.०१, ०.००५, ०.००१}
র্যান্ডম গাছে প্রান্ত যোগ করে র্যান্ডম গ্রাফ তৈরি করা

মূল্যায়ন মেট্রিক্স

চলমান সময়: অ্যালগরিদম সম্পাদনের গড় সময় (সেকেন্ড)
দক্ষতা তুলনা: বেসলাইন পদ্ধতির সাথে আপেক্ষিক কর্মক্ষমতা

তুলনা পদ্ধতি

१. SAHR (ম্যাডিগান এবং মোসুরস্কি, १९९०): বিয়োজনযোগ্য গ্রাফের জন্য প্রযোজ্য २. IPA (হেং এবং সান, २०२३): প্ররোচিত পথ শোষণ অ্যালগরিদম, সাধারণ গ্রাফের জন্য প্রযোজ্য

বাস্তবায়ন বিবরণ

প্রোগ্রামিং ভাষা: মূল অ্যালগরিদমের জন্য C ভাষা বাস্তবায়ন, Python ইন্টারফেস
হার্ডওয়্যার পরিবেশ: Intel Xeon Silver 4215R CPU, १२८ GB RAM
পরীক্ষার পদ্ধতি: প্রতিটি গ্রাফের জন্য १० টি র্যান্ডম লক্ষ্য শীর্ষবিন্দু নির্বাচন করা

পরীক্ষামূলক ফলাফল

বিয়োজনযোগ্য গ্রাফ মডেল ফলাফল

নোড সংখ্যা	२५०	५००	७५०	१०००
গড় প্রান্ত সংখ্যা	५२९/३३३४	१८१२/१२९१२	३५६७/२८६५२	६०६२/५२९५९
CMSA	०.०००७/०.००१२	०.००२१/०.००४७	०.००४४/०.०११२	०.००७२/०.०२४८
SAHR	०.०११३/०.०६११	०.०६८१/०.५४५५	०.१८७६/२.१६४८	०.३८०८/६.६९८३

মূল আবিষ্কার:

CMSA সমস্ত গ্রাফ স্কেল এবং ঘনত্বে SAHR এর চেয়ে উল্লেখযোগ্যভাবে উন্নত
নোড এবং প্রান্ত সংখ্যা বৃদ্ধির সাথে সাথে CMSA এর সুবিধা ক্রমবর্ধমান স্পষ্ট হয়
সর্বোচ্চ স্কেল গ্রাফে (१००० নোড, উচ্চ ঘনত্ব), CMSA SAHR এর চেয়ে প্রায় २७० গুণ দ্রুত

সাধারণ গ্রাফ মডেল ফলাফল

পরীক্ষার ফলাফল দেখায় যে CMSA ঘন গ্রাফে IPA এর চেয়ে উল্লেখযোগ্যভাবে বেশি দক্ষ, কর্মক্ষমতা সুবিধা নোড সংখ্যার সাথে বৃদ্ধি পায়। বিরল গ্রাফে, উভয় অ্যালগরিদমের চলমান সময় উল্লেখযোগ্যভাবে হ্রাস পায়, কিন্তু CMSA সর্বদা উন্নত দক্ষতা বজায় রাখে।

কেস বিশ্লেষণ

উদাহরণ १: গ্রাফ G এবং লক্ষ্য সেট A = {c, b} বিবেচনা করুন १. প্রাথমিক সংযুক্ত উপাদান: M₁ = {x}, M₂ = {a, d}, M₃ = {g, l, t} २. M₂ প্রক্রিয়াকরণ করার সময় অ-সন্নিহিত জোড়া {c, b} আবিষ্কার করা, বিভাজক {a} শোষণ করা ३. M₃ প্রক্রিয়াকরণ করার সময় একইভাবে {c, b} জোড়া পরিচালনা করা, বিভাজক {l} শোষণ করা ४. চূড়ান্ত ন্যূনতম সংকোচনযোগ্য সেট {a, c, l, b} পাওয়া

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. তাত্ত্বিক অগ্রগতি: সংকোচনযোগ্যতা এবং ন্যূনতম বিভাজকের মধ্যে সমতুল্য সম্পর্ক স্থাপন করা २. অ্যালগরিদম উদ্ভাবন: CMSA অ্যালগরিদম বৈশ্বিক থেকে স্থানীয়ের প্যারাডাইম রূপান্তর বাস্তবায়ন করে ३. দক্ষতা বৃদ্ধি: বিভিন্ন গ্রাফ মডেলে উল্লেখযোগ্য গণনামূলক দক্ষতা বৃদ্ধি অর্জন করা ४. ব্যবহারিক মূল্য: উচ্চ-মাত্রিক গ্রাফ মডেলের সংকোচনযোগ্যতা বিশ্লেষণকে বাস্তবিকভাবে সম্ভব করা

সীমাবদ্ধতা

१. তাত্ত্বিক অনুমান: স্তরযুক্ত লগ-রৈখিক মডেল কাঠামোর উপর ভিত্তি করে २. গ্রাফ কাঠামো নির্ভরতা: অ্যালগরিদম দক্ষতা নির্দিষ্ট গ্রাফ কাঠামো দ্বারা প্রভাবিত হতে পারে ३. বাস্তবায়ন জটিলতা: দক্ষ বিভাজক অনুসন্ধান বাস্তবায়ন প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

१. মিশ্র গ্রাফ মডেলে সম্প্রসারণ (বিচ্ছিন্ন এবং ক্রমাগত পরিবর্তনশীল) २. অনলাইন/গতিশীল গ্রাফের সংকোচনযোগ্যতা বিশ্লেষণ গবেষণা করা ३. অন্যান্য গ্রাফ অনুমান সমস্যায় বিভাজক দৃষ্টিভঙ্গির প্রয়োগ অন্বেষণ করা

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক গভীরতা: সংকোচনযোগ্যতার সম্পূর্ণ নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে, বৈশ্বিক সমস্যাকে স্থানীয় বিভাজক সমস্যায় রূপান্তরিত করে २. অ্যালগরিদম উদ্ভাবন: CMSA অ্যালগরিদম ডিজাইন সূক্ষ্ম, ঘনিষ্ঠ বিভাজকের স্থানীয় বৈশিষ্ট্য সম্পূর্ণভাবে ব্যবহার করে ३. পরীক্ষা ব্যাপক: বিভিন্ন গ্রাফ স্কেল এবং ঘনত্বে ব্যাপক কর্মক্ষমতা মূল্যায়ন পরিচালিত হয়েছে ४. ব্যবহারিক মূল্য: উল্লেখযোগ্য দক্ষতা বৃদ্ধি পদ্ধতিটিকে বাস্তব প্রয়োগে আরও মূল্যবান করে তোলে

অপূর্ণতা

१. প্রযোজ্যতা পরিসীমা: প্রধানত অনির্দেশিত গ্রাফ মডেলের জন্য, নির্দেশিত গ্রাফে সম্প্রসারণযোগ্যতা অস্পষ্ট २. তুলনা বেসলাইন: সাধারণ গ্রাফ মডেলে শুধুমাত্র IPA অ্যালগরিদমের সাথে তুলনা, আরও বেসলাইন পদ্ধতির অভাব ३. তাত্ত্বিক বিশ্লেষণ: গড় ক্ষেত্রে জটিলতা বিশ্লেষণের অভাব ४. বাস্তব প্রয়োগ: বাস্তব ডেটাসেটে প্রয়োগ কেস অধ্যয়নের অভাব

প্রভাব

१. একাডেমিক অবদান: গ্রাফ মডেলে সংকোচনযোগ্যতা গবেষণার জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে २. ব্যবহারিক মূল্য: অ্যালগরিদম দক্ষতার উল্লেখযোগ্য বৃদ্ধি এটিকে বড় আকারের ডেটা বিশ্লেষণে প্রকৃত প্রয়োগ সম্ভাবনা প্রদান করে ३. পুনরুৎপাদনযোগ্যতা: লেখকরা সম্পূর্ণ ওপেন সোর্স কোড প্রদান করেছেন, ফলাফলের পুনরুৎপাদনযোগ্যতা বৃদ্ধি করে ४. পরবর্তী গবেষণা: বিভাজক দৃষ্টিভঙ্গি অন্যান্য গ্রাফ অনুমান সমস্যার গবেষণা অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

१. উচ্চ-মাত্রিক সংযোজন সারণী বিশ্লেষণ: পরিবর্তনশীল হ্রাস প্রয়োজন হলে २. বড় আকারের গ্রাফ মডেল অনুমান: গণনামূলক সম্পদ সীমিত পরিস্থিতিতে ३. কারণ অনুমান: কারণ প্রভাব অনুমানের জন্য ন্যূনতম যথেষ্ট সেট সনাক্ত করা ४. ডেটা খনন: বৈশিষ্ট্য নির্বাচন এবং মাত্রা হ্রাস কাজ

সংদর্ভ

এই পত্রটি প্রধানত নিম্নলিখিত মূল সাহিত্যের উপর ভিত্তি করে নির্মিত: १. Asmussen, S. & Edwards, D. (१९८३). সংযোজন সারণীতে সংকোচনযোগ্যতা এবং প্রতিক্রিয়া পরিবর্তনশীল। বায়োমেট্রিকা। २. Madigan, D. & Mosurski, K. (१९९०). সংযোজন সারণীতে সংকোচনযোগ্যতার উপর Asmussen এবং Edwards এর ফলাফলের সম্প্রসারণ। বায়োমেট্রিকা। ३. Takata, K. (२०१०). একটি গ্রাফের ন্যূনতম শীর্ষবিন্দু বিভাজক তালিকাভুক্ত করার জন্য স্থান-সর্বোত্তম, ব্যাকট্র্যাকিং অ্যালগরিদম। ४. Wang, X., Guo, J. & He, X. (२०११). সংকোচনযোগ্য গ্রাফিক্যাল মডেলের জন্য ন্যূনতম সেট খুঁজে পাওয়া।