2025-11-15T21:31:10.952177

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

Sarkar, Ni

Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.

academic

MR.RGM: बायेसियन मल्टीवेरिएट द्विदिशात्मक मेंडेलियन रैंडमाइजेशन नेटवर्क के लिए एक R पैकेज

मूल जानकारी

पेपर ID: 2403.03944
शीर्षक: MR.RGM: बायेसियन मल्टीवेरिएट द्विदिशात्मक मेंडेलियन रैंडमाइजेशन नेटवर्क के लिए एक R पैकेज
लेखक: बिटन सरकार, यांग नी (टेक्सास A&M विश्वविद्यालय)
वर्गीकरण: stat.AP (सांख्यिकीय अनुप्रयोग)
प्रकाशित पत्रिका: बायोइनफॉर्मेटिक्स
पेपर लिंक: https://arxiv.org/abs/2403.03944
कोड रिपोजिटरी: https://github.com/bitansa/MR.RGM

सारांश

मेंडेलियन रैंडमाइजेशन (MR) आनुवंशिक भिन्नताओं को उपकरण चर के रूप में उपयोग करके जोखिम और परिणाम के बीच कारण संबंध का अनुमान लगाता है। पारंपरिक MR विधियां एक बार में केवल एक जोड़ी जोखिम और परिणाम चर पर विचार करती हैं, जो पूरे कारण नेटवर्क को कैप्चर करने की क्षमता को सीमित करती है। यह पेपर 'MR.RGM' (पारस्परिक ग्राफ मॉडल के माध्यम से मेंडेलियन रैंडमाइजेशन) विकसित करता है, जो एक तेज़ R पैकेज है जो बायेसियन पारस्परिक ग्राफ मॉडल को लागू करता है। यह शोधकर्ताओं को संभावित चक्रीय/पारस्परिक कारण संबंधों के साथ समग्र कारण नेटवर्क बनाने में सक्षम बनाता है और उचित अनिश्चितता परिमाणीकरण प्रदान करता है, जिससे जटिल जैविक प्रणालियों और उनके परस्पर संबंधों की व्यापक समझ मिलती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक मेंडेलियन रैंडमाइजेशन (MR) विधियां मुख्य रूप से एकल जोखिम-परिणाम जोड़ी के कारण अनुमान पर केंद्रित हैं, इस दृष्टिकोण की निम्नलिखित सीमाएं हैं:

नेटवर्क जटिलता की उपेक्षा: कई चर के बीच जटिल कारण नेटवर्क संरचना को कैप्चर नहीं कर सकते
द्विदिशात्मक कारण संबंध की कमी: चर के बीच पारस्परिक या चक्रीय कारण संबंधों को संभालना मुश्किल है
समग्र दृष्टिकोण की कमी: जैविक प्रणाली की वैश्विक कारण समझ प्रदान नहीं कर सकते

अनुसंधान का महत्व

जटिल जैविक प्रणालियों में, जीन, प्रोटीन और फेनोटाइप के बीच अक्सर जटिल परस्पर क्रिया नेटवर्क मौजूद होते हैं। इन नेटवर्कों को समझना निम्नलिखित के लिए महत्वपूर्ण है:

रोग जोखिम मूल्यांकन
चिकित्सीय लक्ष्य पहचान
जैविक तंत्र विश्लेषण
सटीक चिकित्सा विकास

मौजूदा विधियों की सीमाएं

मौजूदा R पैकेजों (mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR आदि सहित) के व्यापक सर्वेक्षण के माध्यम से, लेखकों ने पाया कि सभी मौजूदा विधियां द्विदिशात्मक MR विश्लेषण का समर्थन नहीं करती हैं, जो पूर्ण कारण नेटवर्क बनाने का एक महत्वपूर्ण दोष है।

मुख्य योगदान

द्विदिशात्मक MR का समर्थन करने वाला पहला R पैकेज: MR.RGM द्विदिशात्मक कारण संबंधों को संभालने में सक्षम एकमात्र बहुचर MR पैकेज है
बायेसियन नेटवर्क ढांचा: पारस्परिक ग्राफ मॉडल के आधार पर अनिश्चितता परिमाणीकरण और नेटवर्क संरचना अनुमान को लागू करता है
कई डेटा इनपुट प्रारूप: व्यक्तिगत स्तर के डेटा और दो प्रकार के सारांश स्तर के डेटा प्रारूपों का समर्थन करता है
कम्प्यूटेशनल दक्षता अनुकूलन: C++ बैकएंड और वुडबरी मैट्रिक्स पहचान का उपयोग करके कम्प्यूटेशनल दक्षता में सुधार करता है
नेटवर्क मोटिफ विश्लेषण: विशिष्ट नेटवर्क संरचनाओं के अनिश्चितता परिमाणीकरण के लिए NetworkMotif फ़ंक्शन प्रदान करता है

विधि विवरण

गणितीय मॉडल

मूल मॉडल

प्रतिक्रिया चर $Y_i = (Y_{i1}, \ldots, Y_{ip})^T$ और उपकरण चर $X_i = (X_{i1}, \ldots, X_{ik})^T$ के लिए, मॉडल को इस प्रकार परिभाषित किया गया है:

$Y_i = AY_i + BX_i + E_i, \quad E_i \sim N(0, \Sigma)$

जहां:

$A \in \mathbb{R}^{p \times p}$ : प्रतिक्रिया चर के बीच कारण प्रभाव मैट्रिक्स (विकर्ण शून्य है)
$B \in \mathbb{R}^{p \times k}$ : उपकरण चर से प्रतिक्रिया चर पर प्रभाव मैट्रिक्स
$\Sigma = \text{diag}(\sigma_1, \ldots, \sigma_p)$ : त्रुटि सहप्रसरण मैट्रिक्स

समतुल्य रूप

मॉडल को इस प्रकार पुनः लिखा जा सकता है: $Y_i \sim N_p\{(I_p - A)^{-1}BX_i, (I_p - A)^{-1}\Sigma(I_p - A)^{-T}\}$

पूर्व निर्धारण

स्पाइक और स्लैब पूर्व

मैट्रिक्स $A$ के तत्वों के लिए: $a_{ij} \sim \gamma_{ij}N(0, \tau_{ij}) + (1-\gamma_{ij})N(0, \nu_1 \times \tau_{ij})$ $\gamma_{ij} \sim \text{Ber}(\rho_{ij}), \quad \rho_{ij} \sim \text{Beta}(a_\rho, b_\rho)$

थ्रेसहोल्ड पूर्व

$\tilde{a}_{ij} \sim N(0, \tau_{ij}), \quad a_{ij} = \tilde{a}_{ij}I(|\tilde{a}_{ij}| > t_A)$

MCMC अनुमान

मेट्रोपोलिस-हेस्टिंग्स एल्गोरिथ्म और गिब्स नमूनाकरण की मिश्रित रणनीति का उपयोग करके पश्च अनुमान के लिए, जिसमें शामिल हैं:

सीमांत संभावना अपडेट (गिब्स)
प्रभाव गुणांक अपडेट (M-H)
विचरण पैरामीटर अपडेट (गिब्स)
थ्रेसहोल्ड पैरामीटर अपडेट (M-H, केवल थ्रेसहोल्ड पूर्व)

कम्प्यूटेशनल अनुकूलन

वुडबरी मैट्रिक्स पहचान

कम्प्यूटेशनल दक्षता में सुधार के लिए, निर्धारक और व्युत्क्रम मैट्रिक्स की गणना के लिए वुडबरी पहचान का उपयोग करें:

$\det(I_p - A^*) = (1 + (I_p - A)^{-1}_{(j,i)} \times (a_{ij} - a^*_{ij})) \det(I_p - A)$

$(I_p - A^*)^{-1} = (I_p - A)^{-1} - \frac{a_{ij} - a^*_{ij}}{1 + (a_{ij} - a^*_{ij})(I_p - A)^{-1}_{(j,i)}} (I_p - A)^{-1}_{(\cdot,i)} \times (I_p - A)^{-1}_{(j,\cdot)}$

सॉफ्टवेयर कार्यान्वयन

मुख्य कार्य

RGM फ़ंक्शन

इनपुट प्रारूप:
- व्यक्तिगत स्तर का डेटा: X (उपकरण चर मैट्रिक्स), Y (प्रतिक्रिया चर मैट्रिक्स)
- सारांश डेटा 1: Syy, Syx, Sxx सहप्रसरण मैट्रिक्स
- सारांश डेटा 2: Sxx, Beta, SigmaHat मैट्रिक्स
आवश्यक पैरामीटर: D (बाइनरी संकेतक मैट्रिक्स), n (नमूना आकार)
आउटपुट: कारण प्रभाव अनुमान, नेटवर्क संरचना, पश्च संभावनाएं आदि

NetworkMotif फ़ंक्शन

कार्यक्षमता: विशिष्ट नेटवर्क मोटिफ का अनिश्चितता परिमाणीकरण
इनपुट: लक्ष्य नेटवर्क संरचना Gamma, पश्च नमूने GammaPst
आउटपुट: पश्च संभावना

पहचान योग्यता शर्तें

मॉडल पहचान को सुनिश्चित करने के लिए, प्रत्येक प्रतिक्रिया चर के पास कम से कम एक अद्वितीय उपकरण चर होना आवश्यक है, अर्थात D मैट्रिक्स की प्रत्येक पंक्ति में कम से कम एक अद्वितीय 1 है।

प्रयोगात्मक सेटअप

सिमुलेशन डिज़ाइन

मॉडल: $Y = AY + BX + E$
नमूना आकार: 10k, 30k, 50k
नेटवर्क स्केल: 5, 10 नोड्स
विरलता: 25%, 50%
प्रभाव आकार: ±0.1
विचरण व्याख्या: 1%, 3%, 5%, 10%

मूल्यांकन मेट्रिक्स

TPR (सच्ची सकारात्मक दर)
FPR (झूठी सकारात्मक दर)
FDR (झूठी खोज दर)
MCC (मैथ्यूज सहसंबंध गुणांक)
AUC (ROC वक्र के तहत क्षेत्र)

तुलना विधियां

मुख्य रूप से OneSampleMR पैकेज के साथ तुलना, जो सबसे नई उन्नत MR उपकरण है।

प्रयोगात्मक परिणाम

मुख्य परिणाम

नेटवर्क संरचना पुनर्प्राप्ति प्रदर्शन

सभी परीक्षण स्थितियों में, MR.RGM OneSampleMR से काफी बेहतर है:

नेटवर्क स्केल 5, विरलता 50%:

स्पाइक और स्लैब पूर्व: AUC = 0.77-0.99, TPR = 0.50-0.99
OneSampleMR: AUC = 0.56-0.79, TPR = 0.08-0.84

नेटवर्क स्केल 10, विरलता 25%:

स्पाइक और स्लैब पूर्व: AUC = 0.87-0.995, TPR = 0.69-0.99
OneSampleMR: AUC = 0.48-0.52, TPR = 0.07-0.39

कम्प्यूटेशनल दक्षता

अच्छी स्केलेबिलिटी: नोड्स और उपकरण चर की संख्या के साथ उप-रैखिक वृद्धि
वास्तविक रन समय: Apple M2 Pro पर, 15 जीन 31 SNPs का विश्लेषण केवल 32.329 सेकंड में

मजबूतता विश्लेषण

विभिन्न त्रुटि वितरणों के प्रति संवेदनशीलता परीक्षण से पता चलता है कि MR.RGM सामान्य त्रुटि धारणा के प्रति असंवेदनशील है:

सामान्य वितरण: TPR=0.86, FPR=0.0133, MAD=0.0169
t वितरण (df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
लाप्लास वितरण: TPR=0.87, FPR=0.0333, MAD=0.0164

वास्तविक डेटा अनुप्रयोग

GTEx V7 डेटासेट पर अनुप्रयोग (332 नमूने, 15 जीन) ने सफलतापूर्वक जीन नियामक नेटवर्क का निर्माण किया, जो विधि की व्यावहारिकता को प्रदर्शित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

MR.RGM द्विदिशात्मक MR विश्लेषण में अंतराल को सफलतापूर्वक भरता है
बायेसियन ढांचा प्रभावी अनिश्चितता परिमाणीकरण प्रदान करता है
विधि सिमुलेशन और वास्तविक डेटा दोनों पर उत्कृष्ट प्रदर्शन करती है
कम्प्यूटेशनल दक्षता व्यावहारिक अनुप्रयोग आवश्यकताओं को पूरा करती है

सीमाएं

सामान्यता धारणा: हालांकि मजबूतता परीक्षण असंवेदनशीलता दिखाता है, सिद्धांत रूप में अभी भी सामान्य धारणा पर निर्भर है
पहचान योग्यता आवश्यकता: प्रत्येक प्रतिक्रिया चर के लिए अद्वितीय उपकरण चर की आवश्यकता है
बड़े पैमाने पर नेटवर्क: अति-बड़े नेटवर्क की कम्प्यूटेशनल दक्षता में और सुधार की आवश्यकता है

भविष्य की दिशाएं

गैर-रैखिक कारण संबंधों तक विस्तार
संभावित भ्रामक कारकों को संभालना
बहु-ओमिक्स डेटा को एकीकृत करना
ग्राफिकल उपयोगकर्ता इंटरफेस विकसित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवीनता: द्विदिशात्मक MR विश्लेषण को पहली बार लागू करता है, महत्वपूर्ण अंतराल को भरता है
कठोर विधि: बायेसियन ढांचे की ठोस सैद्धांतिक नींव, सही MCMC कार्यान्वयन
उच्च व्यावहारिकता: कई डेटा प्रारूपों का समर्थन करता है, विभिन्न अनुप्रयोग परिदृश्यों को पूरा करता है
पर्याप्त सत्यापन: व्यापक सिमुलेशन अध्ययन और वास्तविक डेटा सत्यापन
सॉफ्टवेयर गुणवत्ता: कोड खुला स्रोत, विस्तृत दस्तावेज, उपयोग में आसान

कमियां

सीमित सैद्धांतिक विश्लेषण: अभिसरण और पहचान योग्यता के सैद्धांतिक गारंटी की कमी
तुलना प्रयोग सीमित: मुख्य रूप से OneSampleMR के साथ तुलना, अन्य नेटवर्क विधियों के साथ तुलना की कमी
एकल अनुप्रयोग केस: केवल जीन अभिव्यक्ति डेटा अनुप्रयोग प्रदर्शित, अन्य जैविक अनुप्रयोगों की कमी

प्रभाव

शैक्षणिक मूल्य: कारण अनुमान क्षेत्र के लिए महत्वपूर्ण उपकरण प्रदान करता है
व्यावहारिक मूल्य: आनुवंशिकी, महामारी विज्ञान अनुसंधान में व्यापक अनुप्रयोग संभावनाएं
पुनरुत्पादनीयता: कोड खुला स्रोत, परिणाम पुनरुत्पादनीय

लागू परिदृश्य

आनुवंशिकी अनुसंधान: जीन नियामक नेटवर्क निर्माण
महामारी विज्ञान: रोग जोखिम कारक नेटवर्क विश्लेषण
प्रणाली जीव विज्ञान: बहु-ओमिक्स डेटा एकीकृत विश्लेषण
सटीक चिकित्सा: व्यक्तिगत चिकित्सीय लक्ष्य पहचान

संदर्भ

Ni, Y., Ji, Y., & Müller, P. (2018). पारस्परिक ग्राफिकल मॉडल एकीकृत जीन नियामक नेटवर्क विश्लेषण के लिए।
GTEx Consortium. (2020). GTEx Consortium मानव ऊतकों में आनुवंशिक नियामक प्रभावों का एटलस। विज्ञान, 369(6509), 1318-1330।
Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: एक नमूना मेंडेलियन रैंडमाइजेशन और उपकरण चर विश्लेषण।

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला पद्धति पेपर है जो बहुचर द्विदिशात्मक मेंडेलियन रैंडमाइजेशन की महत्वपूर्ण समस्या को सफलतापूर्वक हल करता है। सॉफ्टवेयर कार्यान्वयन पूर्ण है, सत्यापन पर्याप्त है, और कारण अनुमान और आनुवंशिकी अनुसंधान के लिए महत्वपूर्ण मूल्य है। हालांकि सैद्धांतिक विश्लेषण और अनुप्रयोग सीमा में सुधार की गुंजाइश है, लेकिन समग्र योगदान महत्वपूर्ण है और सिफारिश के योग्य है।