2025-11-15T21:31:10.952177

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

Sarkar, Ni
Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
academic

MR.RGM: 베이지안 다변량 양방향 멘델리안 무작위화 네트워크 적합을 위한 R 패키지

기본 정보

  • 논문ID: 2403.03944
  • 제목: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
  • 저자: Bitan Sarkar, Yang Ni (텍사스 A&M 대학교)
  • 분류: stat.AP (통계 응용)
  • 발표 저널: Bioinformatics
  • 논문 링크: https://arxiv.org/abs/2403.03944
  • 코드 저장소: https://github.com/bitansa/MR.RGM

초록

멘델리안 무작위화(MR)는 유전적 변이를 도구변수로 사용하여 노출과 결과 간의 인과관계를 추론합니다. 전통적인 MR 방법은 한 번에 하나의 노출-결과 변수 쌍만 고려하므로, 전체 인과 네트워크를 포착하는 능력이 제한됩니다. 본 논문은 'MR.RGM'(상호 그래프 모델을 통한 멘델리안 무작위화)을 개발했으며, 이는 베이지안 상호 그래프 모델을 구현하는 빠른 R 패키지로, 연구자들이 순환/상호 인과관계를 포함할 수 있는 전체 인과 네트워크를 구축하고 적절한 불확실성 정량화를 제공하여 복잡한 생물학적 시스템과 그 상호 연결성을 포괄적으로 이해할 수 있게 합니다.

연구 배경 및 동기

문제 정의

전통적인 멘델리안 무작위화(MR) 방법은 주로 단일 노출-결과 쌍의 인과 추론에 초점을 맞추고 있으며, 이러한 방법은 다음과 같은 한계가 있습니다:

  1. 네트워크 복잡성 무시: 여러 변수 간의 복잡한 인과 네트워크 구조를 포착할 수 없음
  2. 양방향 인과관계 부재: 변수 간의 상호 또는 순환 인과관계를 처리하기 어려움
  3. 전체적 관점 부족: 생물학적 시스템의 전역 인과 이해를 제공할 수 없음

연구의 중요성

복잡한 생물학적 시스템에서 유전자, 단백질 및 표현형 간에는 종종 복잡한 상호작용 네트워크가 존재합니다. 이러한 네트워크를 이해하는 것은 다음에 중요합니다:

  • 질병 위험 평가
  • 치료 표적 식별
  • 생물학적 메커니즘 해석
  • 정밀 의학 발전

기존 방법의 한계

기존 R 패키지에 대한 포괄적인 조사(mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR 포함)를 통해, 저자들은 모든 기존 방법이 양방향 MR 분석을 지원하지 않음을 발견했으며, 이는 완전한 인과 네트워크 구축의 핵심 결함입니다.

핵심 기여

  1. 양방향 MR을 지원하는 첫 번째 R 패키지: MR.RGM은 양방향 인과관계를 처리할 수 있는 유일한 다변량 MR 패키지입니다
  2. 베이지안 네트워크 프레임워크: 상호 그래프 모델을 기반으로 불확실성 정량화 및 네트워크 구조 추론을 구현합니다
  3. 다양한 데이터 입력 형식: 개인 수준 데이터 및 두 가지 요약 수준 데이터 형식을 지원합니다
  4. 계산 효율성 최적화: C++ 백엔드 및 Woodbury 행렬 항등식을 사용하여 계산 효율성을 향상시킵니다
  5. 네트워크 모티프 분석: 특정 네트워크 구조의 불확실성 정량화를 위한 NetworkMotif 함수를 제공합니다

방법론 상세 설명

수학적 모델

기본 모델

응답 변수 Yi=(Yi1,,Yip)TY_i = (Y_{i1}, \ldots, Y_{ip})^T와 도구변수 Xi=(Xi1,,Xik)TX_i = (X_{i1}, \ldots, X_{ik})^T에 대해, 모델은 다음과 같이 정의됩니다:

Yi=AYi+BXi+Ei,EiN(0,Σ)Y_i = AY_i + BX_i + E_i, \quad E_i \sim N(0, \Sigma)

여기서:

  • ARp×pA \in \mathbb{R}^{p \times p}: 응답 변수 간의 인과 효과 행렬(대각선은 0)
  • BRp×kB \in \mathbb{R}^{p \times k}: 도구변수의 응답 변수에 대한 효과 행렬
  • Σ=diag(σ1,,σp)\Sigma = \text{diag}(\sigma_1, \ldots, \sigma_p): 오차 공분산 행렬

동등 형식

모델은 다음과 같이 다시 쓸 수 있습니다: YiNp{(IpA)1BXi,(IpA)1Σ(IpA)T}Y_i \sim N_p\{(I_p - A)^{-1}BX_i, (I_p - A)^{-1}\Sigma(I_p - A)^{-T}\}

사전 분포 설정

Spike and Slab 사전

행렬 AA의 원소에 대해: aijγijN(0,τij)+(1γij)N(0,ν1×τij)a_{ij} \sim \gamma_{ij}N(0, \tau_{ij}) + (1-\gamma_{ij})N(0, \nu_1 \times \tau_{ij})γijBer(ρij),ρijBeta(aρ,bρ)\gamma_{ij} \sim \text{Ber}(\rho_{ij}), \quad \rho_{ij} \sim \text{Beta}(a_\rho, b_\rho)

임계값 사전

a~ijN(0,τij),aij=a~ijI(a~ij>tA)\tilde{a}_{ij} \sim N(0, \tau_{ij}), \quad a_{ij} = \tilde{a}_{ij}I(|\tilde{a}_{ij}| > t_A)

MCMC 추론

Metropolis-Hastings 알고리즘과 Gibbs 샘플링의 혼합 전략을 사용하여 사후 추론을 수행합니다:

  1. 변수 확률 업데이트(Gibbs)
  2. 효과 계수 업데이트(M-H)
  3. 분산 매개변수 업데이트(Gibbs)
  4. 임계값 매개변수 업데이트(M-H, 임계값 사전만 해당)

계산 최적화

Woodbury 행렬 항등식

계산 효율성을 높이기 위해 Woodbury 항등식을 사용하여 행렬식과 역행렬을 계산합니다:

det(IpA)=(1+(IpA)(j,i)1×(aijaij))det(IpA)\det(I_p - A^*) = (1 + (I_p - A)^{-1}_{(j,i)} \times (a_{ij} - a^*_{ij})) \det(I_p - A)

(IpA)1=(IpA)1aijaij1+(aijaij)(IpA)(j,i)1(IpA)(,i)1×(IpA)(j,)1(I_p - A^*)^{-1} = (I_p - A)^{-1} - \frac{a_{ij} - a^*_{ij}}{1 + (a_{ij} - a^*_{ij})(I_p - A)^{-1}_{(j,i)}} (I_p - A)^{-1}_{(\cdot,i)} \times (I_p - A)^{-1}_{(j,\cdot)}

소프트웨어 구현

핵심 함수

RGM 함수

  • 입력 형식:
    • 개인 수준 데이터: X(도구변수 행렬), Y(응답 변수 행렬)
    • 요약 데이터 1: Syy, Syx, Sxx 공분산 행렬
    • 요약 데이터 2: Sxx, Beta, SigmaHat 행렬
  • 필수 매개변수: D(이진 지시 행렬), n(표본 크기)
  • 출력: 인과 효과 추정, 네트워크 구조, 사후 확률 등

NetworkMotif 함수

  • 기능: 특정 네트워크 모티프의 불확실성 정량화
  • 입력: 목표 네트워크 구조 Gamma, 사후 샘플 GammaPst
  • 출력: 사후 확률

식별 가능성 조건

모델 식별 가능성을 보장하기 위해, 각 응답 변수는 최소한 하나의 고유한 도구변수를 가져야 하며, 즉 D 행렬의 각 행은 최소한 하나의 고유한 1을 가져야 합니다.

실험 설정

시뮬레이션 설계

  • 모델: Y=AY+BX+EY = AY + BX + E
  • 표본 크기: 10k, 30k, 50k
  • 네트워크 규모: 5, 10개 노드
  • 희소성: 25%, 50%
  • 효과 크기: ±0.1
  • 분산 설명도: 1%, 3%, 5%, 10%

평가 지표

  • TPR(참 양성률)
  • FPR(거짓 양성률)
  • FDR(거짓 발견률)
  • MCC(Matthews 상관 계수)
  • AUC(ROC 곡선 아래 면적)

비교 방법

주로 OneSampleMR 패키지와 비교하며, 이는 최신의 고급 MR 도구입니다.

실험 결과

주요 결과

네트워크 구조 복구 성능

모든 테스트 조건에서 MR.RGM은 OneSampleMR을 크게 능가합니다:

네트워크 규모 5, 희소성 50%:

  • Spike & Slab 사전: AUC = 0.77-0.99, TPR = 0.50-0.99
  • OneSampleMR: AUC = 0.56-0.79, TPR = 0.08-0.84

네트워크 규모 10, 희소성 25%:

  • Spike & Slab 사전: AUC = 0.87-0.995, TPR = 0.69-0.99
  • OneSampleMR: AUC = 0.48-0.52, TPR = 0.07-0.39

계산 효율성

  • 확장성 우수: 노드 수 및 도구변수 수에 따라 준선형 증가
  • 실제 실행 시간: Apple M2 Pro에서 15개 유전자 31개 SNP의 분석은 32.329초만 소요됩니다

견고성 분석

다양한 오차 분포에 대한 민감성 테스트는 MR.RGM이 정규 오차 가정에 민감하지 않음을 나타냅니다:

  • 정규 분포: TPR=0.86, FPR=0.0133, MAD=0.0169
  • t 분포(df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
  • 라플라스 분포: TPR=0.87, FPR=0.0333, MAD=0.0164

실제 데이터 응용

GTEx V7 데이터셋(332개 샘플, 15개 유전자)에 대한 응용은 유전자 조절 네트워크를 성공적으로 구축하여 방법의 실용성을 보여줍니다.

관련 연구

기존 MR 방법 분류

  1. 단변량 방법: mr.pivw, OneSampleMR
  2. 다변량 방법: MVMR, MRPC, MendelianRandomization
  3. 베이지안 방법: mrbayes, MrDAG
  4. 네트워크 방법: MrDAG(DAG만 지원)

본 논문의 장점

MR.RGM은 다음 특성의 조합을 지원하는 유일한 도구입니다:

  • 다변량 분석
  • 양방향 인과관계
  • 불확실성 정량화
  • 다양한 데이터 형식 지원

결론 및 논의

주요 결론

  1. MR.RGM은 양방향 MR 분석의 공백을 성공적으로 채웠습니다
  2. 베이지안 프레임워크는 효과적인 불확실성 정량화를 제공합니다
  3. 방법은 시뮬레이션 및 실제 데이터 모두에서 우수한 성능을 보입니다
  4. 계산 효율성은 실제 응용 요구사항을 충족합니다

한계

  1. 정규성 가정: 견고성 테스트는 민감하지 않음을 보여주지만, 이론적으로는 여전히 정규성 가정에 의존합니다
  2. 식별 가능성 요구사항: 각 응답 변수가 고유한 도구변수를 필요로 합니다
  3. 대규모 네트워크: 초대규모 네트워크의 계산 효율성은 추가 최적화가 필요합니다

향후 방향

  1. 비선형 인과관계로 확장
  2. 잠재 혼동 인자 처리
  3. 다중 오믹스 데이터 통합
  4. 그래픽 사용자 인터페이스 개발

심층 평가

장점

  1. 혁신성 강함: 양방향 MR 분석을 처음 구현하여 중요한 공백을 채웁니다
  2. 방법론 엄밀함: 베이지안 프레임워크의 이론적 기초가 견고하고 MCMC 구현이 정확합니다
  3. 실용성 높음: 다양한 데이터 형식을 지원하여 다양한 응용 시나리오를 충족합니다
  4. 검증 충분함: 포괄적인 시뮬레이션 연구 및 실제 데이터 검증
  5. 소프트웨어 품질: 코드 오픈소스, 문서 상세, 사용하기 쉬움

부족한 점

  1. 제한된 이론 분석: 수렴성 및 식별 가능성에 대한 이론적 보장 부족
  2. 제한된 비교 실험: 주로 OneSampleMR과 비교하며, 다른 네트워크 방법과의 비교 부족
  3. 단일 응용 사례: 유전자 발현 데이터 응용만 제시하며, 다른 생물학적 응용 부족

영향력

  1. 학술적 가치: 인과 추론 분야에 중요한 도구를 제공합니다
  2. 실용적 가치: 유전학, 역학 연구에 광범위한 응용 전망이 있습니다
  3. 재현성: 코드 오픈소스로 결과 재현 가능합니다

적용 시나리오

  1. 유전학 연구: 유전자 조절 네트워크 구축
  2. 역학: 질병 위험 인자 네트워크 분석
  3. 시스템 생물학: 다중 오믹스 데이터 통합 분석
  4. 정밀 의학: 개인화된 치료 표적 식별

참고문헌

  1. Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
  2. GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
  3. Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.

종합 평가: 이는 다변량 양방향 멘델리안 무작위화라는 중요한 문제를 성공적으로 해결한 고품질의 방법론 논문입니다. 소프트웨어 구현이 완벽하고 검증이 충분하며, 인과 추론 및 유전학 연구에 중요한 가치가 있습니다. 이론 분석 및 응용 범위에서 개선의 여지가 있지만, 전체적인 기여는 상당하여 추천할 만합니다.