Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
MR.RGM: Un Paquete de R para Ajustar Redes Bayesianas Multivariadas Bidireccionales de Randomización Mendeliana
- ID del Artículo: 2403.03944
- Título: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
- Autores: Bitan Sarkar, Yang Ni (Texas A&M University)
- Clasificación: stat.AP (Aplicaciones Estadísticas)
- Revista de Publicación: Bioinformatics
- Enlace del Artículo: https://arxiv.org/abs/2403.03944
- Repositorio de Código: https://github.com/bitansa/MR.RGM
La randomización mendeliana (MR) infiere relaciones causales entre exposiciones y resultados utilizando variaciones genéticas como variables instrumentales. Los métodos MR tradicionales consideran solo un par de variables de exposición y resultado a la vez, lo que limita su capacidad para capturar redes causales completas. Este artículo desarrolla 'MR.RGM' (Randomización Mendeliana mediante Modelos de Grafos Recíprocos), un paquete de R rápido que implementa modelos bayesianos de grafos recíprocos, permitiendo a los investigadores construir redes causales holísticas con posibles relaciones causales cíclicas/recíprocas, proporcionando cuantificación apropiada de incertidumbre para una comprensión integral de sistemas biológicos complejos e interconectados.
Los métodos tradicionales de randomización mendeliana (MR) se enfocaban principalmente en la inferencia causal de pares únicos de exposición-resultado, presentando las siguientes limitaciones:
- Negligencia de Complejidad de Red: Incapacidad para capturar estructuras de redes causales complejas entre múltiples variables
- Ausencia de Relaciones Causales Bidireccionales: Dificultad para manejar relaciones causales recíprocas o cíclicas entre variables
- Falta de Perspectiva Integral: Incapacidad para proporcionar comprensión causal global de sistemas biológicos
En sistemas biológicos complejos, típicamente existen redes complejas de interacciones entre genes, proteínas y fenotipos. Comprender estas redes es crucial para:
- Evaluación de riesgo de enfermedades
- Identificación de dianas terapéuticas
- Análisis de mecanismos biológicos
- Desarrollo de medicina de precisión
Mediante una investigación exhaustiva de paquetes de R existentes (incluyendo mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR, etc.), los autores descubrieron que todos los métodos existentes no soportan análisis MR bidireccional, representando un defecto crítico para construir redes causales completas.
- Primer Paquete de R que Soporta MR Bidireccional: MR.RGM es el único paquete MR multivariado capaz de manejar relaciones causales bidireccionales
- Marco de Red Bayesiana: Implementa cuantificación de incertidumbre e inferencia de estructura de red basada en modelos de grafos recíprocos
- Múltiples Formatos de Entrada de Datos: Soporta datos a nivel individual y dos formatos de datos a nivel de resumen
- Optimización de Eficiencia Computacional: Utiliza backend en C++ e identidad de matriz de Woodbury para mejorar eficiencia computacional
- Análisis de Motivos de Red: Proporciona función NetworkMotif para cuantificación de incertidumbre de estructuras de red específicas
Para variables de respuesta Yi=(Yi1,…,Yip)T y variables instrumentales Xi=(Xi1,…,Xik)T, el modelo se define como:
Yi=AYi+BXi+Ei,Ei∼N(0,Σ)
Donde:
- A∈Rp×p: Matriz de efectos causales entre variables de respuesta (diagonal = 0)
- B∈Rp×k: Matriz de efectos de variables instrumentales sobre variables de respuesta
- Σ=diag(σ1,…,σp): Matriz de covarianza de errores
El modelo puede reescribirse como:
Yi∼Np{(Ip−A)−1BXi,(Ip−A)−1Σ(Ip−A)−T}
Para elementos de la matriz A:
aij∼γijN(0,τij)+(1−γij)N(0,ν1×τij)γij∼Ber(ρij),ρij∼Beta(aρ,bρ)
a~ij∼N(0,τij),aij=a~ijI(∣a~ij∣>tA)
Se utiliza una estrategia mixta de algoritmo Metropolis-Hastings y muestreo de Gibbs para inferencia posterior, incluyendo:
- Actualización de probabilidades marginales (Gibbs)
- Actualización de coeficientes de efectos (M-H)
- Actualización de parámetros de varianza (Gibbs)
- Actualización de parámetros de umbral (M-H, solo priori de umbral)
Para mejorar la eficiencia computacional, se utiliza la identidad de Woodbury para calcular determinantes e inversas de matrices:
det(Ip−A∗)=(1+(Ip−A)(j,i)−1×(aij−aij∗))det(Ip−A)
(Ip−A∗)−1=(Ip−A)−1−1+(aij−aij∗)(Ip−A)(j,i)−1aij−aij∗(Ip−A)(⋅,i)−1×(Ip−A)(j,⋅)−1
- Formatos de Entrada:
- Datos a nivel individual: X (matriz de variables instrumentales), Y (matriz de variables de respuesta)
- Datos de Resumen 1: Matrices de covarianza Syy, Syx, Sxx
- Datos de Resumen 2: Matrices Sxx, Beta, SigmaHat
- Parámetros Requeridos: D (matriz indicadora binaria), n (tamaño de muestra)
- Salida: Estimaciones de efectos causales, estructura de red, probabilidades posteriores, etc.
- Funcionalidad: Cuantificación de incertidumbre para motivos de red específicos
- Entrada: Estructura de red objetivo Gamma, muestras posteriores GammaPst
- Salida: Probabilidad posterior
Para asegurar identificabilidad del modelo, se requiere que cada variable de respuesta tenga al menos una variable instrumental única, es decir, cada fila de la matriz D tenga al menos un 1 único.
- Modelo: Y=AY+BX+E
- Tamaños de Muestra: 10k, 30k, 50k
- Escala de Red: 5, 10 nodos
- Dispersión: 25%, 50%
- Magnitud de Efectos: ±0.1
- Varianza Explicada: 1%, 3%, 5%, 10%
- TPR (Tasa de Verdaderos Positivos)
- FPR (Tasa de Falsos Positivos)
- FDR (Tasa de Descubrimiento Falso)
- MCC (Coeficiente de Correlación de Matthews)
- AUC (Área Bajo la Curva ROC)
Principalmente comparación con el paquete OneSampleMR, que es la herramienta MR avanzada más reciente.
En todas las condiciones de prueba, MR.RGM superó significativamente a OneSampleMR:
Escala de Red 5, Dispersión 50%:
- Priori Spike & Slab: AUC = 0.77-0.99, TPR = 0.50-0.99
- OneSampleMR: AUC = 0.56-0.79, TPR = 0.08-0.84
Escala de Red 10, Dispersión 25%:
- Priori Spike & Slab: AUC = 0.87-0.995, TPR = 0.69-0.99
- OneSampleMR: AUC = 0.48-0.52, TPR = 0.07-0.39
- Escalabilidad Excelente: Crecimiento sublineal con respecto al número de nodos y variables instrumentales
- Tiempo de Ejecución Real: En Apple M2 Pro, análisis de 15 genes con 31 SNPs requiere solo 32.329 segundos
Las pruebas de sensibilidad a diferentes distribuciones de errores indican que MR.RGM es robusto a la suposición de normalidad de errores:
- Distribución Normal: TPR=0.86, FPR=0.0133, MAD=0.0169
- Distribución t (df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
- Distribución Laplace: TPR=0.87, FPR=0.0333, MAD=0.0164
La aplicación en el conjunto de datos GTEx V7 (332 muestras, 15 genes) construyó exitosamente una red de regulación génica, demostrando la practicidad del método.
- Métodos Univariados: mr.pivw, OneSampleMR
- Métodos Multivariados: MVMR, MRPC, MendelianRandomization
- Métodos Bayesianos: mrbayes, MrDAG
- Métodos de Red: MrDAG (solo soporta DAG)
MR.RGM es la única herramienta que soporta la siguiente combinación de características:
- Análisis multivariado
- Relaciones causales bidireccionales
- Cuantificación de incertidumbre
- Soporte para múltiples formatos de datos
- MR.RGM llena exitosamente el vacío en análisis MR bidireccional
- El marco bayesiano proporciona cuantificación efectiva de incertidumbre
- El método muestra desempeño excelente en simulaciones y datos reales
- La eficiencia computacional satisface requisitos de aplicaciones prácticas
- Suposición de Normalidad: Aunque pruebas de robustez muestran insensibilidad, teóricamente aún depende de suposición de normalidad
- Requisitos de Identificabilidad: Requiere que cada variable de respuesta tenga variables instrumentales únicas
- Redes a Gran Escala: La eficiencia computacional para redes de escala muy grande aún requiere optimización adicional
- Extensión a relaciones causales no lineales
- Manejo de factores de confusión potenciales
- Integración de datos multiómicos
- Desarrollo de interfaz gráfica de usuario
- Innovación Fuerte: Primera implementación de análisis MR bidireccional, llenando vacío importante
- Metodología Rigurosa: Fundamentos teóricos sólidos del marco bayesiano, implementación MCMC correcta
- Alta Practicidad: Soporta múltiples formatos de datos, satisface diferentes escenarios de aplicación
- Validación Completa: Estudios de simulación exhaustivos y validación en datos reales
- Calidad de Software: Código de código abierto, documentación detallada, fácil de usar
- Análisis Teórico Limitado: Falta de garantías teóricas sobre convergencia e identificabilidad
- Limitaciones en Experimentos Comparativos: Principalmente comparación con OneSampleMR, falta comparación con otros métodos de red
- Casos de Aplicación Únicos: Solo demuestra aplicación en datos de expresión génica, falta de otras aplicaciones biológicas
- Valor Académico: Proporciona herramienta importante para campo de inferencia causal
- Valor Práctico: Amplio potencial de aplicación en investigación genética y epidemiológica
- Reproducibilidad: Código de código abierto, resultados reproducibles
- Investigación Genética: Construcción de redes de regulación génica
- Epidemiología: Análisis de redes de factores de riesgo de enfermedades
- Biología de Sistemas: Análisis integrado de datos multiómicos
- Medicina de Precisión: Identificación de dianas terapéuticas individualizadas
- Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
- GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
- Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.
Evaluación General: Este es un artículo de metodología de alta calidad que resuelve exitosamente el importante problema de randomización mendeliana multivariada bidireccional. La implementación de software es completa, la validación es exhaustiva, y posee valor importante para investigación en inferencia causal y genética. Aunque hay espacio para mejora en análisis teórico y alcance de aplicaciones, la contribución general es significativa y merece recomendación.