2025-11-15T21:31:10.952177

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

Sarkar, Ni
Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
academic

MR.RGM : Un Package R pour l'Ajustement de Réseaux de Randomisation Mendélienne Bidirectionnelle Multivariée Bayésienne

Informations de Base

  • ID de l'article : 2403.03944
  • Titre : MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
  • Auteurs : Bitan Sarkar, Yang Ni (Texas A&M University)
  • Classification : stat.AP (Applications Statistiques)
  • Journal de Publication : Bioinformatics
  • Lien de l'article : https://arxiv.org/abs/2403.03944
  • Dépôt de Code : https://github.com/bitansa/MR.RGM

Résumé

La randomisation mendélienne (RM) déduit les relations causales entre l'exposition et les résultats en utilisant les variations génétiques comme variables instrumentales. Les méthodes RM traditionnelles ne considèrent qu'une seule paire de variables d'exposition et de résultat à la fois, ce qui limite leur capacité à capturer l'ensemble du réseau causal. Cet article développe « MR.RGM » (Randomisation Mendélienne via Modèles de Graphes Réciproques), un package R rapide qui implémente un modèle de graphe réciproque bayésien, permettant aux chercheurs de construire un réseau causal global avec des relations causales potentiellement cycliques/réciproques et de fournir une quantification appropriée de l'incertitude, permettant ainsi une compréhension complète des systèmes biologiques complexes et de leurs interconnexions.

Contexte et Motivation de la Recherche

Définition du Problème

Les méthodes traditionnelles de randomisation mendélienne (RM) se concentrent principalement sur l'inférence causale pour une seule paire exposition-résultat, approche présentant les limitations suivantes :

  1. Négligence de la complexité réseau : Incapacité à capturer les structures de réseaux causaux complexes entre plusieurs variables
  2. Absence de relations causales bidirectionnelles : Difficulté à traiter les relations causales réciproques ou cycliques entre variables
  3. Manque de perspective globale : Impossibilité de fournir une compréhension causale globale du système biologique

Importance de la Recherche

Dans les systèmes biologiques complexes, il existe souvent des réseaux d'interactions complexes entre les gènes, les protéines et les phénotypes. Comprendre ces réseaux est crucial pour :

  • L'évaluation du risque de maladie
  • L'identification des cibles thérapeutiques
  • L'analyse des mécanismes biologiques
  • Le développement de la médecine de précision

Limitations des Méthodes Existantes

Par une enquête exhaustive des packages R existants (incluant mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR, etc.), les auteurs ont découvert que toutes les méthodes existantes ne supportent pas l'analyse RM bidirectionnelle, ce qui constitue un défaut critique pour la construction de réseaux causaux complets.

Contributions Principales

  1. Premier package R supportant la RM bidirectionnelle : MR.RGM est l'unique package RM multivarié capable de traiter les relations causales bidirectionnelles
  2. Cadre de réseau bayésien : Implémentation basée sur des modèles de graphes réciproques pour la quantification de l'incertitude et l'inférence de structure réseau
  3. Formats d'entrée de données multiples : Support des données au niveau individuel et de deux formats de données résumées
  4. Optimisation de l'efficacité computationnelle : Utilisation d'un backend C++ et de l'identité matricielle de Woodbury pour améliorer l'efficacité computationnelle
  5. Analyse des motifs réseau : Fourniture d'une fonction NetworkMotif pour la quantification de l'incertitude de structures réseau spécifiques

Détails Méthodologiques

Modèle Mathématique

Modèle de Base

Pour la variable de réponse Yi=(Yi1,,Yip)TY_i = (Y_{i1}, \ldots, Y_{ip})^T et la variable instrumentale Xi=(Xi1,,Xik)TX_i = (X_{i1}, \ldots, X_{ik})^T, le modèle est défini comme :

Yi=AYi+BXi+Ei,EiN(0,Σ)Y_i = AY_i + BX_i + E_i, \quad E_i \sim N(0, \Sigma)

où :

  • ARp×pA \in \mathbb{R}^{p \times p} : matrice des effets causaux entre variables de réponse (diagonale nulle)
  • BRp×kB \in \mathbb{R}^{p \times k} : matrice des effets des variables instrumentales sur les variables de réponse
  • Σ=diag(σ1,,σp)\Sigma = \text{diag}(\sigma_1, \ldots, \sigma_p) : matrice de covariance des erreurs

Forme Équivalente

Le modèle peut être réécrit comme : YiNp{(IpA)1BXi,(IpA)1Σ(IpA)T}Y_i \sim N_p\{(I_p - A)^{-1}BX_i, (I_p - A)^{-1}\Sigma(I_p - A)^{-T}\}

Spécification des Priors

Prior Spike and Slab

Pour les éléments de la matrice AA : aijγijN(0,τij)+(1γij)N(0,ν1×τij)a_{ij} \sim \gamma_{ij}N(0, \tau_{ij}) + (1-\gamma_{ij})N(0, \nu_1 \times \tau_{ij})γijBer(ρij),ρijBeta(aρ,bρ)\gamma_{ij} \sim \text{Ber}(\rho_{ij}), \quad \rho_{ij} \sim \text{Beta}(a_\rho, b_\rho)

Prior de Seuil

a~ijN(0,τij),aij=a~ijI(a~ij>tA)\tilde{a}_{ij} \sim N(0, \tau_{ij}), \quad a_{ij} = \tilde{a}_{ij}I(|\tilde{a}_{ij}| > t_A)

Inférence MCMC

Une stratégie mixte d'algorithme Metropolis-Hastings et d'échantillonnage de Gibbs est utilisée pour l'inférence postérieure, incluant :

  1. Mise à jour des probabilités marginales (Gibbs)
  2. Mise à jour des coefficients d'effet (M-H)
  3. Mise à jour des paramètres de variance (Gibbs)
  4. Mise à jour des paramètres de seuil (M-H, prior de seuil uniquement)

Optimisation Computationnelle

Identité Matricielle de Woodbury

Pour améliorer l'efficacité computationnelle, l'identité de Woodbury est utilisée pour calculer les déterminants et les matrices inverses :

det(IpA)=(1+(IpA)(j,i)1×(aijaij))det(IpA)\det(I_p - A^*) = (1 + (I_p - A)^{-1}_{(j,i)} \times (a_{ij} - a^*_{ij})) \det(I_p - A)

(IpA)1=(IpA)1aijaij1+(aijaij)(IpA)(j,i)1(IpA)(,i)1×(IpA)(j,)1(I_p - A^*)^{-1} = (I_p - A)^{-1} - \frac{a_{ij} - a^*_{ij}}{1 + (a_{ij} - a^*_{ij})(I_p - A)^{-1}_{(j,i)}} (I_p - A)^{-1}_{(\cdot,i)} \times (I_p - A)^{-1}_{(j,\cdot)}

Implémentation Logicielle

Fonctions Principales

Fonction RGM

  • Formats d'entrée :
    • Données au niveau individuel : X (matrice de variables instrumentales), Y (matrice de variables de réponse)
    • Données résumées 1 : matrices de covariance Syy, Syx, Sxx
    • Données résumées 2 : matrices Sxx, Beta, SigmaHat
  • Paramètres requis : D (matrice d'indicateurs binaires), n (taille d'échantillon)
  • Résultats : estimations des effets causaux, structure réseau, probabilités postérieures, etc.

Fonction NetworkMotif

  • Fonctionnalité : Quantification de l'incertitude pour des motifs réseau spécifiques
  • Entrée : structure réseau cible Gamma, échantillons postérieurs GammaPst
  • Résultat : probabilité postérieure

Conditions d'Identifiabilité

Pour assurer l'identifiabilité du modèle, chaque variable de réponse doit avoir au moins une variable instrumentale unique, c'est-à-dire que chaque ligne de la matrice D doit avoir au moins un 1 unique.

Configuration Expérimentale

Conception de Simulation

  • Modèle : Y=AY+BX+EY = AY + BX + E
  • Tailles d'échantillon : 10k, 30k, 50k
  • Échelles réseau : 5, 10 nœuds
  • Sparsité : 25%, 50%
  • Tailles d'effet : ±0,1
  • Variance expliquée : 1%, 3%, 5%, 10%

Métriques d'Évaluation

  • TPR (Taux de Vrais Positifs)
  • FPR (Taux de Faux Positifs)
  • FDR (Taux de Fausses Découvertes)
  • MCC (Coefficient de Corrélation de Matthews)
  • AUC (Aire sous la Courbe ROC)

Méthodes de Comparaison

Comparaison principale avec le package OneSampleMR, qui est l'outil RM avancé le plus récent.

Résultats Expérimentaux

Résultats Principaux

Performance de Récupération de Structure Réseau

Dans toutes les conditions de test, MR.RGM surpasse significativement OneSampleMR :

Échelle réseau 5, sparsité 50% :

  • Prior Spike & Slab : AUC = 0,77-0,99, TPR = 0,50-0,99
  • OneSampleMR : AUC = 0,56-0,79, TPR = 0,08-0,84

Échelle réseau 10, sparsité 25% :

  • Prior Spike & Slab : AUC = 0,87-0,995, TPR = 0,69-0,99
  • OneSampleMR : AUC = 0,48-0,52, TPR = 0,07-0,39

Efficacité Computationnelle

  • Bonne scalabilité : croissance sous-linéaire avec le nombre de nœuds et de variables instrumentales
  • Temps d'exécution réel : sur Apple M2 Pro, l'analyse de 15 gènes avec 31 SNPs ne nécessite que 32,329 secondes

Analyse de Robustesse

Les tests de sensibilité à différentes distributions d'erreur montrent que MR.RGM est insensible à l'hypothèse d'erreur normale :

  • Distribution normale : TPR=0,86, FPR=0,0133, MAD=0,0169
  • Distribution t (df=3) : TPR=0,86, FPR=0,0200, MAD=0,0153
  • Distribution de Laplace : TPR=0,87, FPR=0,0333, MAD=0,0164

Application sur Données Réelles

L'application sur l'ensemble de données GTEx V7 (332 échantillons, 15 gènes) a construit avec succès un réseau de régulation génique, démontrant l'utilité pratique de la méthode.

Travaux Connexes

Classification des Méthodes RM Existantes

  1. Méthodes univariées : mr.pivw, OneSampleMR
  2. Méthodes multivariées : MVMR, MRPC, MendelianRandomization
  3. Méthodes bayésiennes : mrbayes, MrDAG
  4. Méthodes réseau : MrDAG (support DAG uniquement)

Avantages de cet Article

MR.RGM est l'unique outil supportant la combinaison suivante de caractéristiques :

  • Analyse multivariée
  • Relations causales bidirectionnelles
  • Quantification de l'incertitude
  • Support de formats de données multiples

Conclusions et Discussion

Conclusions Principales

  1. MR.RGM comble avec succès le vide dans l'analyse RM bidirectionnelle
  2. Le cadre bayésien fournit une quantification efficace de l'incertitude
  3. La méthode montre d'excellentes performances sur données simulées et réelles
  4. L'efficacité computationnelle satisfait les exigences d'application pratique

Limitations

  1. Hypothèse de normalité : bien que les tests de robustesse montrent une insensibilité, la théorie dépend toujours de l'hypothèse de normalité
  2. Exigences d'identifiabilité : nécessite que chaque variable de réponse ait une variable instrumentale unique
  3. Réseaux à grande échelle : l'efficacité computationnelle pour les réseaux très grands nécessite une optimisation supplémentaire

Directions Futures

  1. Extension aux relations causales non-linéaires
  2. Traitement des facteurs de confusion potentiels
  3. Intégration de données multi-omiques
  4. Développement d'une interface graphique utilisateur

Évaluation Approfondie

Points Forts

  1. Innovation forte : première implémentation de l'analyse RM bidirectionnelle, comblant un vide important
  2. Méthodologie rigoureuse : fondations théoriques solides du cadre bayésien, implémentation MCMC correcte
  3. Haute praticité : support de formats de données multiples, répondant à différents scénarios d'application
  4. Validation complète : études de simulation exhaustives et validation sur données réelles
  5. Qualité logicielle : code open-source, documentation détaillée, facilité d'utilisation

Insuffisances

  1. Analyse théorique limitée : manque de garanties théoriques sur la convergence et l'identifiabilité
  2. Limitations des expériences comparatives : comparaison principalement avec OneSampleMR, manque de comparaison avec d'autres méthodes réseau
  3. Cas d'application unique : démonstration uniquement sur données d'expression génique, manque d'applications biologiques diversifiées

Impact

  1. Valeur académique : fournit un outil important pour le domaine de l'inférence causale
  2. Valeur pratique : perspectives d'application large en recherche génétique et épidémiologique
  3. Reproductibilité : code open-source, résultats reproductibles

Scénarios d'Application

  1. Recherche génétique : construction de réseaux de régulation génique
  2. Épidémiologie : analyse de réseaux de facteurs de risque de maladie
  3. Biologie systémique : analyse intégrée de données multi-omiques
  4. Médecine de précision : identification de cibles thérapeutiques individualisées

Références

  1. Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
  2. GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
  3. Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.

Évaluation Globale : Cet article est un travail méthodologique de haute qualité qui résout avec succès le problème important de la randomisation mendélienne multivariée bidirectionnelle. L'implémentation logicielle est complète, la validation est exhaustive, et la contribution a une valeur importante pour l'inférence causale et la recherche génétique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et l'étendue des applications, la contribution globale est significative et mérite une recommandation.