Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
- معرّف الورقة: 2403.03944
- العنوان: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
- المؤلفون: Bitan Sarkar, Yang Ni (جامعة تكساس A&M)
- التصنيف: stat.AP (التطبيقات الإحصائية)
- المجلة المنشورة: Bioinformatics
- رابط الورقة: https://arxiv.org/abs/2403.03944
- مستودع الكود: https://github.com/bitansa/MR.RGM
يستخدم الفحص الجيني المندلي (MR) التباينات الجينية كمتغيرات أداة للاستدلال على العلاقات السببية بين التعرض والنتائج. تقتصر الطرق التقليدية للفحص الجيني المندلي على النظر في زوج واحد من متغيرات التعرض والنتائج في كل مرة، مما يحد من قدرتها على التقاط الشبكة السببية الكاملة. تطور هذه الورقة 'MR.RGM' (الفحص الجيني المندلي عبر نماذج الرسوم البيانية المتبادلة)، وهي حزمة R سريعة تطبق نموذج الرسم البياني المتبادل البايزي، مما يمكّن الباحثين من بناء شبكة سببية شاملة مع علاقات سببية دورية/متبادلة محتملة، مع توفير تقدير مناسب للعدم اليقين، وبالتالي فهم شامل للأنظمة البيولوجية المعقدة وترابطاتها.
تركز طرق الفحص الجيني المندلي التقليدية بشكل أساسي على الاستدلال السببي لزوج واحد من التعرض والنتائج، وتعاني هذه الطريقة من القيود التالية:
- تجاهل التعقيد الشبكي: عدم القدرة على التقاط هياكل الشبكة السببية المعقدة بين متغيرات متعددة
- غياب العلاقات السببية ثنائية الاتجاه: صعوبة التعامل مع العلاقات السببية المتبادلة أو الدورية بين المتغيرات
- نقص المنظور الشامل: عدم القدرة على توفير فهم سببي عام للنظام البيولوجي
في الأنظمة البيولوجية المعقدة، غالباً ما توجد شبكات تفاعل معقدة بين الجينات والبروتينات والنمط الظاهري. يعتبر فهم هذه الشبكات حاسماً لـ:
- تقييم مخاطر الأمراض
- تحديد أهداف العلاج
- تحليل الآليات البيولوجية
- تطوير الطب الدقيق
من خلال مسح شامل للحزم الموجودة في R (بما في ذلك mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR وغيرها)، اكتشف المؤلفون أن جميع الطرق الموجودة لا تدعم تحليل الفحص الجيني المندلي ثنائي الاتجاه، وهو عيب رئيسي في بناء شبكة سببية كاملة.
- أول حزمة R تدعم الفحص الجيني المندلي ثنائي الاتجاه: MR.RGM هي الحزمة الوحيدة القادرة على التعامل مع العلاقات السببية ثنائية الاتجاه
- إطار عمل الشبكة البايزية: تطبيق تقدير العدم اليقين واستدلال هيكل الشبكة بناءً على نماذج الرسوم البيانية المتبادلة
- تنسيقات إدخال بيانات متعددة: دعم بيانات المستوى الفردي وتنسيقي بيانات ملخصة
- تحسين الكفاءة الحسابية: استخدام الواجهة الخلفية C++ وهوية مصفوفة Woodbury لتحسين الكفاءة الحسابية
- تحليل نماذج الشبكة: توفير وظيفة NetworkMotif لتقدير عدم اليقين في هياكل الشبكة المحددة
بالنسبة لمتغير الاستجابة Yi=(Yi1,…,Yip)T ومتغير الأداة Xi=(Xi1,…,Xik)T، يُعرّف النموذج كما يلي:
Yi=AYi+BXi+Ei,Ei∼N(0,Σ)
حيث:
- A∈Rp×p: مصفوفة التأثير السببي بين متغيرات الاستجابة (القطر يساوي صفر)
- B∈Rp×k: مصفوفة تأثير متغيرات الأداة على متغيرات الاستجابة
- Σ=diag(σ1,…,σp): مصفوفة التباين المشترك للأخطاء
يمكن إعادة كتابة النموذج كما يلي:
Yi∼Np{(Ip−A)−1BXi,(Ip−A)−1Σ(Ip−A)−T}
بالنسبة لعناصر المصفوفة A:
aij∼γijN(0,τij)+(1−γij)N(0,ν1×τij)γij∼Ber(ρij),ρij∼Beta(aρ,bρ)
a~ij∼N(0,τij),aij=a~ijI(∣a~ij∣>tA)
استخدام استراتيجية مختلطة من خوارزمية Metropolis-Hastings وأخذ عينات Gibbs للاستدلال اللاحق، بما في ذلك:
- تحديث احتمالية الحافة (Gibbs)
- تحديث معاملات التأثير (M-H)
- تحديث معاملات التباين (Gibbs)
- تحديث معاملات الحد الأدنى (M-H، أولوية الحد الأدنى فقط)
لتحسين الكفاءة الحسابية، استخدم هوية Woodbury لحساب المحدد والمصفوفة العكسية:
det(Ip−A∗)=(1+(Ip−A)(j,i)−1×(aij−aij∗))det(Ip−A)
(Ip−A∗)−1=(Ip−A)−1−1+(aij−aij∗)(Ip−A)(j,i)−1aij−aij∗(Ip−A)(⋅,i)−1×(Ip−A)(j,⋅)−1
- تنسيقات الإدخال:
- بيانات المستوى الفردي: X (مصفوفة متغيرات الأداة)، Y (مصفوفة متغيرات الاستجابة)
- بيانات ملخصة 1: مصفوفات التباين المشترك Syy, Syx, Sxx
- بيانات ملخصة 2: مصفوفات Sxx, Beta, SigmaHat
- المعاملات المطلوبة: D (مصفوفة المؤشر الثنائي)، n (حجم العينة)
- الإخراج: تقديرات التأثير السببي، هيكل الشبكة، الاحتمالات اللاحقة، وغيرها
- الوظيفة: تقدير عدم اليقين لنماذج الشبكة المحددة
- الإدخال: هيكل الشبكة المستهدف Gamma، العينات اللاحقة GammaPst
- الإخراج: الاحتمال اللاحق
لضمان قابلية تحديد النموذج، يُطلب أن يكون لكل متغير استجابة متغير أداة فريد واحد على الأقل، أي أن كل صف في مصفوفة D يحتوي على 1 فريد واحد على الأقل.
- النموذج: Y=AY+BX+E
- حجم العينة: 10k, 30k, 50k
- حجم الشبكة: 5, 10 عقد
- الندرة: 25%, 50%
- حجم التأثير: ±0.1
- نسبة التباين المشروح: 1%, 3%, 5%, 10%
- TPR (معدل الإيجابيات الحقيقية)
- FPR (معدل الإيجابيات الكاذبة)
- FDR (معدل الاكتشاف الخاطئ)
- MCC (معامل الارتباط لماثيوز)
- AUC (المساحة تحت منحنى ROC)
المقارنة الرئيسية مع حزمة OneSampleMR، وهي أحدث أداة متقدمة للفحص الجيني المندلي.
تتفوق MR.RGM بشكل كبير على OneSampleMR في جميع شروط الاختبار:
حجم الشبكة 5، ندرة 50%:
- أولوية Spike & Slab: AUC = 0.77-0.99، TPR = 0.50-0.99
- OneSampleMR: AUC = 0.56-0.79، TPR = 0.08-0.84
حجم الشبكة 10، ندرة 25%:
- أولوية Spike & Slab: AUC = 0.87-0.995، TPR = 0.69-0.99
- OneSampleMR: AUC = 0.48-0.52، TPR = 0.07-0.39
- قابلية التوسع الجيدة: النمو الخطي الفرعي مع عدد العقد ومتغيرات الأداة
- وقت التشغيل الفعلي: على Apple M2 Pro، يتطلب تحليل 15 جين و31 SNP 32.329 ثانية فقط
تشير اختبارات الحساسية لتوزيعات الأخطاء المختلفة إلى أن MR.RGM غير حساس لافتراض الخطأ الطبيعي:
- التوزيع الطبيعي: TPR=0.86, FPR=0.0133, MAD=0.0169
- توزيع t (df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
- توزيع لابلاس: TPR=0.87, FPR=0.0333, MAD=0.0164
أظهر التطبيق على مجموعة بيانات GTEx V7 (332 عينة، 15 جين) بناء شبكة تنظيم جيني بنجاح، مما يوضح الجدوى العملية للطريقة.
- الطرق أحادية المتغير: mr.pivw, OneSampleMR
- الطرق متعددة المتغيرات: MVMR, MRPC, MendelianRandomization
- الطرق البايزية: mrbayes, MrDAG
- طرق الشبكة: MrDAG (يدعم DAG فقط)
MR.RGM هي الأداة الوحيدة التي تدعم مجموعة الميزات التالية:
- التحليل متعدد المتغيرات
- العلاقات السببية ثنائية الاتجاه
- تقدير عدم اليقين
- دعم تنسيقات بيانات متعددة
- نجحت MR.RGM في ملء الفراغ في تحليل الفحص الجيني المندلي ثنائي الاتجاه
- يوفر الإطار البايزي تقدير عدم اليقين بشكل فعال
- تُظهر الطريقة أداءً ممتازاً على بيانات المحاكاة والبيانات الحقيقية
- تلبي الكفاءة الحسابية متطلبات التطبيق العملي
- افتراض الحالة الطبيعية: على الرغم من أن اختبارات الاستقرار تظهر عدم الحساسية، إلا أن النظرية تعتمد على افتراض الحالة الطبيعية
- متطلبات القابلية للتحديد: يتطلب أن يكون لكل متغير استجابة متغير أداة فريد
- الشبكات الكبيرة جداً: لا تزال الكفاءة الحسابية للشبكات الكبيرة جداً تتطلب مزيد من التحسين
- التوسع إلى العلاقات السببية غير الخطية
- التعامل مع عوامل الخلط المحتملة
- دمج بيانات متعددة الأوميكس
- تطوير واجهة مستخدم رسومية
- الابتكار القوي: أول تطبيق لتحليل الفحص الجيني المندلي ثنائي الاتجاه، يملأ فراغاً مهماً
- الطريقة الصارمة: الأساس النظري للإطار البايزي متين، تطبيق MCMC صحيح
- الجدوى العملية العالية: دعم تنسيقات بيانات متعددة، تلبية سيناريوهات تطبيق مختلفة
- التحقق الشامل: دراسة محاكاة شاملة والتحقق من البيانات الحقيقية
- جودة البرنامج: الكود مفتوح المصدر، التوثيق مفصل، سهل الاستخدام
- التحليل النظري محدود: نقص الضمانات النظرية للتقارب والقابلية للتحديد
- قيود التجارب المقارنة: المقارنة الرئيسية مع OneSampleMR، نقص المقارنة مع طرق الشبكة الأخرى
- حالات التطبيق الفردية: عرض تطبيق بيانات التعبير الجيني فقط، نقص التطبيقات البيولوجية الأخرى
- القيمة الأكاديمية: توفير أداة مهمة لمجال الاستدلال السببي
- القيمة العملية: آفاق تطبيق واسعة في أبحاث الوراثة والأوبئة
- القابلية للتكرار: الكود مفتوح المصدر، النتائج قابلة للتكرار
- أبحاث الوراثة: بناء شبكات تنظيم الجينات
- علم الأوبئة: تحليل شبكة عوامل خطر الأمراض
- علم الأحياء النظامية: تحليل تكامل بيانات متعددة الأوميكس
- الطب الدقيق: تحديد أهداف العلاج الفردية
- Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
- GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
- Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.
التقييم الشامل: هذه ورقة عالية الجودة في المنهجية، حيث تحل بنجاح مشكلة الفحص الجيني المندلي متعدد المتغيرات ثنائي الاتجاه المهمة. يتمتع تطبيق البرنامج بتحسينات كاملة والتحقق شامل، وله قيمة مهمة للاستدلال السببي وأبحاث الوراثة. على الرغم من وجود مجال للتحسن في التحليل النظري ونطاق التطبيق، فإن المساهمة الإجمالية كبيرة وتستحق التوصية.