2025-11-15T21:31:10.952177

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

Sarkar, Ni
Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
academic

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

基本信息

  • 论文ID: 2403.03944
  • 标题: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
  • 作者: Bitan Sarkar, Yang Ni (Texas A&M University)
  • 分类: stat.AP (统计应用)
  • 发表期刊: Bioinformatics
  • 论文链接: https://arxiv.org/abs/2403.03944
  • 代码仓库: https://github.com/bitansa/MR.RGM

摘要

孟德尔随机化(MR)通过使用遗传变异作为工具变量来推断暴露和结果之间的因果关系。传统的MR方法一次只考虑一对暴露和结果变量,限制了其捕获整个因果网络的能力。本文开发了'MR.RGM'(通过互惠图模型进行孟德尔随机化),这是一个快速的R包,实现了贝叶斯互惠图模型,使研究人员能够构建具有可能循环/互惠因果关系的整体因果网络,并提供适当的不确定性量化,从而全面理解复杂生物系统及其相互连接。

研究背景与动机

问题定义

传统的孟德尔随机化(MR)方法主要关注单一暴露-结果对的因果推断,这种方法存在以下局限性:

  1. 网络复杂性忽略:无法捕获多个变量间的复杂因果网络结构
  2. 双向因果关系缺失:难以处理变量间的互惠或循环因果关系
  3. 整体视角缺乏:无法提供生物系统的全局因果理解

研究重要性

在复杂生物系统中,基因、蛋白质和表型之间往往存在复杂的相互作用网络。理解这些网络对于:

  • 疾病风险评估
  • 治疗靶点识别
  • 生物机制解析
  • 精准医学发展

现有方法局限性

通过对现有R包的全面调研(包括mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR等),作者发现所有现有方法都不支持双向MR分析,这是构建完整因果网络的关键缺陷。

核心贡献

  1. 首个支持双向MR的R包:MR.RGM是唯一能够处理双向因果关系的多变量MR包
  2. 贝叶斯网络框架:基于互惠图模型实现不确定性量化和网络结构推断
  3. 多种数据输入格式:支持个体水平数据和两种汇总水平数据格式
  4. 计算效率优化:使用C++后端和Woodbury矩阵恒等式提高计算效率
  5. 网络模体分析:提供NetworkMotif函数进行特定网络结构的不确定性量化

方法详解

数学模型

基础模型

对于响应变量 Yi=(Yi1,,Yip)TY_i = (Y_{i1}, \ldots, Y_{ip})^T 和工具变量 Xi=(Xi1,,Xik)TX_i = (X_{i1}, \ldots, X_{ik})^T,模型定义为:

Yi=AYi+BXi+Ei,EiN(0,Σ)Y_i = AY_i + BX_i + E_i, \quad E_i \sim N(0, \Sigma)

其中:

  • ARp×pA \in \mathbb{R}^{p \times p}:响应变量间的因果效应矩阵(对角线为0)
  • BRp×kB \in \mathbb{R}^{p \times k}:工具变量对响应变量的效应矩阵
  • Σ=diag(σ1,,σp)\Sigma = \text{diag}(\sigma_1, \ldots, \sigma_p):误差协方差矩阵

等价形式

模型可重写为: YiNp{(IpA)1BXi,(IpA)1Σ(IpA)T}Y_i \sim N_p\{(I_p - A)^{-1}BX_i, (I_p - A)^{-1}\Sigma(I_p - A)^{-T}\}

先验设定

Spike and Slab先验

对于矩阵AA的元素: aijγijN(0,τij)+(1γij)N(0,ν1×τij)a_{ij} \sim \gamma_{ij}N(0, \tau_{ij}) + (1-\gamma_{ij})N(0, \nu_1 \times \tau_{ij})γijBer(ρij),ρijBeta(aρ,bρ)\gamma_{ij} \sim \text{Ber}(\rho_{ij}), \quad \rho_{ij} \sim \text{Beta}(a_\rho, b_\rho)

Threshold先验

a~ijN(0,τij),aij=a~ijI(a~ij>tA)\tilde{a}_{ij} \sim N(0, \tau_{ij}), \quad a_{ij} = \tilde{a}_{ij}I(|\tilde{a}_{ij}| > t_A)

MCMC推断

使用Metropolis-Hastings算法和Gibbs采样的混合策略进行后验推断,包括:

  1. 边缘概率更新(Gibbs)
  2. 效应系数更新(M-H)
  3. 方差参数更新(Gibbs)
  4. 阈值参数更新(M-H,仅Threshold先验)

计算优化

Woodbury矩阵恒等式

为提高计算效率,使用Woodbury恒等式计算行列式和逆矩阵:

det(IpA)=(1+(IpA)(j,i)1×(aijaij))det(IpA)\det(I_p - A^*) = (1 + (I_p - A)^{-1}_{(j,i)} \times (a_{ij} - a^*_{ij})) \det(I_p - A)

(IpA)1=(IpA)1aijaij1+(aijaij)(IpA)(j,i)1(IpA)(,i)1×(IpA)(j,)1(I_p - A^*)^{-1} = (I_p - A)^{-1} - \frac{a_{ij} - a^*_{ij}}{1 + (a_{ij} - a^*_{ij})(I_p - A)^{-1}_{(j,i)}} (I_p - A)^{-1}_{(\cdot,i)} \times (I_p - A)^{-1}_{(j,\cdot)}

软件实现

核心函数

RGM函数

  • 输入格式
    • 个体水平数据:X(工具变量矩阵)、Y(响应变量矩阵)
    • 汇总数据1:Syy、Syx、Sxx协方差矩阵
    • 汇总数据2:Sxx、Beta、SigmaHat矩阵
  • 必需参数:D(二元指示矩阵)、n(样本量)
  • 输出:因果效应估计、网络结构、后验概率等

NetworkMotif函数

  • 功能:特定网络模体的不确定性量化
  • 输入:目标网络结构Gamma、后验样本GammaPst
  • 输出:后验概率

可识别性条件

为确保模型可识别,要求每个响应变量至少有一个独有的工具变量,即D矩阵每行至少有一个唯一的1。

实验设置

仿真设计

  • 模型Y=AY+BX+EY = AY + BX + E
  • 样本量:10k, 30k, 50k
  • 网络规模:5, 10个节点
  • 稀疏度:25%, 50%
  • 效应大小:±0.1
  • 方差解释度:1%, 3%, 5%, 10%

评价指标

  • TPR(真阳性率)
  • FPR(假阳性率)
  • FDR(假发现率)
  • MCC(马修斯相关系数)
  • AUC(ROC曲线下面积)

对比方法

主要与OneSampleMR包进行比较,该包是最新的高级MR工具。

实验结果

主要结果

网络结构恢复性能

在所有测试条件下,MR.RGM显著优于OneSampleMR:

网络规模5,稀疏度50%

  • Spike & Slab先验:AUC = 0.77-0.99,TPR = 0.50-0.99
  • OneSampleMR:AUC = 0.56-0.79,TPR = 0.08-0.84

网络规模10,稀疏度25%

  • Spike & Slab先验:AUC = 0.87-0.995,TPR = 0.69-0.99
  • OneSampleMR:AUC = 0.48-0.52,TPR = 0.07-0.39

计算效率

  • 可扩展性良好:随节点数和工具变量数呈亚线性增长
  • 实际运行时间:在Apple M2 Pro上,15个基因31个SNPs的分析仅需32.329秒

鲁棒性分析

对不同误差分布的敏感性测试表明,MR.RGM对正态误差假设不敏感:

  • 正态分布:TPR=0.86, FPR=0.0133, MAD=0.0169
  • t分布(df=3):TPR=0.86, FPR=0.0200, MAD=0.0153
  • 拉普拉斯分布:TPR=0.87, FPR=0.0333, MAD=0.0164

真实数据应用

在GTEx V7数据集上的应用(332个样本,15个基因)成功构建了基因调控网络,展示了方法的实用性。

相关工作

现有MR方法分类

  1. 单变量方法:mr.pivw, OneSampleMR
  2. 多变量方法:MVMR, MRPC, MendelianRandomization
  3. 贝叶斯方法:mrbayes, MrDAG
  4. 网络方法:MrDAG(仅支持DAG)

本文优势

MR.RGM是唯一支持以下特性组合的工具:

  • 多变量分析
  • 双向因果关系
  • 不确定性量化
  • 多种数据格式支持

结论与讨论

主要结论

  1. MR.RGM成功填补了双向MR分析的空白
  2. 贝叶斯框架提供了有效的不确定性量化
  3. 方法在仿真和真实数据上均表现优异
  4. 计算效率满足实际应用需求

局限性

  1. 正态性假设:虽然鲁棒性测试显示不敏感,但理论上仍依赖正态假设
  2. 可识别性要求:需要每个响应变量有独有工具变量
  3. 大规模网络:超大规模网络的计算效率仍需进一步优化

未来方向

  1. 扩展到非线性因果关系
  2. 处理潜在混杂因子
  3. 整合多组学数据
  4. 开发图形用户界面

深度评价

优点

  1. 创新性强:首次实现双向MR分析,填补重要空白
  2. 方法严谨:贝叶斯框架理论基础扎实,MCMC实现正确
  3. 实用性高:支持多种数据格式,满足不同应用场景
  4. 验证充分:全面的仿真研究和真实数据验证
  5. 软件质量:代码开源,文档详细,易于使用

不足

  1. 理论分析有限:缺乏收敛性和可识别性的理论保证
  2. 对比实验局限:主要与OneSampleMR比较,缺乏与其他网络方法的对比
  3. 应用案例单一:仅展示基因表达数据应用,缺乏其他生物学应用

影响力

  1. 学术价值:为因果推断领域提供重要工具
  2. 实用价值:在遗传学、流行病学研究中有广泛应用前景
  3. 可复现性:代码开源,结果可重现

适用场景

  1. 遗传学研究:基因调控网络构建
  2. 流行病学:疾病风险因子网络分析
  3. 系统生物学:多组学数据整合分析
  4. 精准医学:个体化治疗靶点识别

参考文献

  1. Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
  2. GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
  3. Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.

总体评价:这是一篇高质量的方法学论文,成功解决了多变量双向孟德尔随机化这一重要问题。软件实现完善,验证充分,对因果推断和遗传学研究具有重要价值。虽然在理论分析和应用范围上还有提升空间,但整体贡献显著,值得推荐。