Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
- 論文ID: 2403.03944
- タイトル: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
- 著者: Bitan Sarkar, Yang Ni (テキサスA&M大学)
- 分類: stat.AP (統計応用)
- 掲載誌: Bioinformatics
- 論文リンク: https://arxiv.org/abs/2403.03944
- コードリポジトリ: https://github.com/bitansa/MR.RGM
メンデルランダム化(MR)は、遺伝的変異を操作変数として使用することにより、曝露と結果の間の因果関係を推論する。従来のMR方法は、一度に1対の曝露と結果の変数のみを考慮するため、全体的な因果ネットワークを捉える能力が限定されている。本論文では、「MR.RGM」(相互グラフモデルを通じたメンデルランダム化)を開発した。これは、ベイズ相互グラフモデルを実装した高速Rパッケージであり、研究者が循環的/相互的な因果関係を持つ可能性のある全体的な因果ネットワークを構築し、適切な不確実性の定量化を提供することで、複雑な生物学的システムとその相互接続の包括的な理解を可能にする。
従来のメンデルランダム化(MR)方法は、主に単一の曝露-結果対の因果推論に焦点を当てており、この方法には以下の制限がある:
- ネットワーク複雑性の無視:複数の変数間の複雑な因果ネットワーク構造を捉えることができない
- 双方向因果関係の欠落:変数間の相互的または循環的な因果関係を処理することが困難
- 全体的視点の欠如:生物学的システムの全体的な因果理解を提供できない
複雑な生物学的システムでは、遺伝子、タンパク質、表現型の間に複雑な相互作用ネットワークが存在することが多い。これらのネットワークを理解することは、以下の点で重要である:
- 疾病リスク評価
- 治療標的の同定
- 生物学的メカニズムの解析
- 精密医学の発展
既存のRパッケージ(mr.pivw、mr.raps、PPMR、OneSampleMR、MVMRなど)に関する包括的な調査を通じて、著者は既存のすべての方法が双方向MR分析をサポートしていないことを発見した。これは完全な因果ネットワークを構築するための重要な欠陥である。
- 双方向MRをサポートする最初のRパッケージ:MR.RGMは、双方向因果関係を処理できる唯一の多変量MRパッケージである
- ベイズネットワークフレームワーク:相互グラフモデルに基づいた不確実性の定量化とネットワーク構造推論の実装
- 複数のデータ入力形式:個体レベルデータと2種類の集計レベルデータ形式をサポート
- 計算効率の最適化:C++バックエンドとWoodbury行列恒等式を使用して計算効率を向上
- ネットワークモチーフ分析:特定のネットワーク構造の不確実性定量化のためのNetworkMotif関数を提供
応答変数 Yi=(Yi1,…,Yip)T と操作変数 Xi=(Xi1,…,Xik)T に対して、モデルは以下のように定義される:
Yi=AYi+BXi+Ei,Ei∼N(0,Σ)
ここで:
- A∈Rp×p:応答変数間の因果効果行列(対角線は0)
- B∈Rp×k:操作変数から応答変数への効果行列
- Σ=diag(σ1,…,σp):誤差共分散行列
モデルは以下のように書き直すことができる:
Yi∼Np{(Ip−A)−1BXi,(Ip−A)−1Σ(Ip−A)−T}
行列Aの要素に対して:
aij∼γijN(0,τij)+(1−γij)N(0,ν1×τij)γij∼Ber(ρij),ρij∼Beta(aρ,bρ)
a~ij∼N(0,τij),aij=a~ijI(∣a~ij∣>tA)
Metropolis-Hastingsアルゴリズムとギブスサンプリングの混合戦略を使用した事後推論を実施する。以下を含む:
- 辺周辺確率の更新(ギブス)
- 効果係数の更新(M-H)
- 分散パラメータの更新(ギブス)
- 閾値パラメータの更新(M-H、閾値事前分布のみ)
計算効率を向上させるため、Woodbury恒等式を使用して行列式と逆行列を計算する:
det(Ip−A∗)=(1+(Ip−A)(j,i)−1×(aij−aij∗))det(Ip−A)
(Ip−A∗)−1=(Ip−A)−1−1+(aij−aij∗)(Ip−A)(j,i)−1aij−aij∗(Ip−A)(⋅,i)−1×(Ip−A)(j,⋅)−1
- 入力形式:
- 個体レベルデータ:X(操作変数行列)、Y(応答変数行列)
- 集計データ1:Syy、Syx、Sxx共分散行列
- 集計データ2:Sxx、Beta、SigmaHat行列
- 必須パラメータ:D(二値指示行列)、n(標本サイズ)
- 出力:因果効果推定値、ネットワーク構造、事後確率など
- 機能:特定のネットワークモチーフの不確実性定量化
- 入力:目標ネットワーク構造Gamma、事後標本GammaPst
- 出力:事後確率
モデルの識別可能性を確保するため、各応答変数は少なくとも1つの独自の操作変数を持つ必要がある。つまり、D行列の各行は少なくとも1つの一意の1を持つ必要がある。
- モデル:Y=AY+BX+E
- 標本サイズ:10k、30k、50k
- ネットワーク規模:5、10ノード
- スパース性:25%、50%
- 効果サイズ:±0.1
- 分散説明度:1%、3%、5%、10%
- TPR(真陽性率)
- FPR(偽陽性率)
- FDR(偽発見率)
- MCC(マシューズ相関係数)
- AUC(ROC曲線下面積)
主にOneSampleMRパッケージと比較する。このパッケージは最新の高度なMRツールである。
すべてのテスト条件下で、MR.RGMはOneSampleMRを大幅に上回る:
ネットワーク規模5、スパース性50%:
- Spike & Slab事前分布:AUC = 0.77-0.99、TPR = 0.50-0.99
- OneSampleMR:AUC = 0.56-0.79、TPR = 0.08-0.84
ネットワーク規模10、スパース性25%:
- Spike & Slab事前分布:AUC = 0.87-0.995、TPR = 0.69-0.99
- OneSampleMR:AUC = 0.48-0.52、TPR = 0.07-0.39
- スケーラビリティが良好:ノード数と操作変数数に対して準線形の増加を示す
- 実際の実行時間:Apple M2 Proで、15個の遺伝子31個のSNPの分析はわずか32.329秒
異なる誤差分布に対する感度テストは、MR.RGMが正規誤差仮定に対して鈍感であることを示している:
- 正規分布:TPR=0.86、FPR=0.0133、MAD=0.0169
- t分布(df=3):TPR=0.86、FPR=0.0200、MAD=0.0153
- ラプラス分布:TPR=0.87、FPR=0.0333、MAD=0.0164
GTEx V7データセット(332サンプル、15遺伝子)への応用により、遺伝子制御ネットワークの構築に成功し、方法の実用性を実証した。
- 単変量方法:mr.pivw、OneSampleMR
- 多変量方法:MVMR、MRPC、MendelianRandomization
- ベイズ方法:mrbayes、MrDAG
- ネットワーク方法:MrDAG(DAGのみをサポート)
MR.RGMは、以下の特性の組み合わせをサポートする唯一のツールである:
- 多変量分析
- 双方向因果関係
- 不確実性の定量化
- 複数のデータ形式のサポート
- MR.RGMは双方向MR分析の空白を埋めることに成功した
- ベイズフレームワークは効果的な不確実性定量化を提供する
- 方法はシミュレーションと実データの両方で優れた性能を示す
- 計算効率は実際の応用要件を満たしている
- 正規性仮定:ロバストネステストは感度が低いことを示しているが、理論的には依然として正規仮定に依存している
- 識別可能性要件:各応答変数が独自の操作変数を持つ必要がある
- 大規模ネットワーク:超大規模ネットワークの計算効率はさらなる最適化が必要
- 非線形因果関係への拡張
- 潜在的な交絡因子の処理
- マルチオミクスデータの統合
- グラフィカルユーザーインターフェースの開発
- 革新性が高い:双方向MR分析を初めて実装し、重要な空白を埋める
- 方法が厳密:ベイズフレームワークの理論的基礎が堅実で、MCMC実装が正確
- 実用性が高い:複数のデータ形式をサポートし、異なる応用シナリオに対応
- 検証が充分:包括的なシミュレーション研究と実データ検証
- ソフトウェア品質:コードがオープンソース、ドキュメントが詳細で使いやすい
- 理論分析が限定的:収束性と識別可能性の理論的保証が不足
- 比較実験の制限:主にOneSampleMRとの比較で、他のネットワーク方法との比較が不足
- 応用事例が単一:遺伝子発現データの応用のみを示し、他の生物学的応用が不足
- 学術的価値:因果推論分野に重要なツールを提供
- 実用的価値:遺伝学、疫学研究における広範な応用の可能性
- 再現性:コードがオープンソースで結果が再現可能
- 遺伝学研究:遺伝子制御ネットワークの構築
- 疫学:疾病リスク因子ネットワーク分析
- システム生物学:マルチオミクスデータ統合分析
- 精密医学:個別化治療標的の同定
- Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
- GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
- Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.
総合評価:これは高品質の方法論論文であり、多変量双方向メンデルランダム化という重要な問題を成功裏に解決している。ソフトウェア実装が完善で、検証が充分であり、因果推論と遺伝学研究に重要な価値を持つ。理論分析と応用範囲にはさらなる改善の余地があるが、全体的な貢献は顕著であり、推奨に値する。