Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
MR.RGM: Ein R-Paket zur Anpassung Bayesscher multivariater bidirektionaler Mendelsche Randomisierungsnetzwerke
- Papier-ID: 2403.03944
- Titel: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
- Autoren: Bitan Sarkar, Yang Ni (Texas A&M University)
- Klassifizierung: stat.AP (Angewandte Statistik)
- Veröffentlichtes Journal: Bioinformatics
- Papierlink: https://arxiv.org/abs/2403.03944
- Code-Repository: https://github.com/bitansa/MR.RGM
Die Mendelsche Randomisierung (MR) nutzt genetische Variationen als Instrumentalvariablen zur Inferenz von Kausalbeziehungen zwischen Expositionen und Ergebnissen. Traditionelle MR-Methoden berücksichtigen jeweils nur ein Paar von Expositions- und Ergebnisvariablen, was ihre Fähigkeit zur Erfassung des gesamten kausalen Netzwerks einschränkt. Dieses Papier entwickelt „MR.RGM" (Mendelsche Randomisierung durch reziproke Graphenmodelle), ein schnelles R-Paket, das Bayessche reziproke Graphenmodelle implementiert und es Forschern ermöglicht, ganzheitliche kausale Netzwerke mit möglicherweise zirkulären/reziproken Kausalbeziehungen zu konstruieren und angemessene Unsicherheitsquantifizierung bereitzustellen, um ein umfassendes Verständnis komplexer biologischer Systeme und ihrer gegenseitigen Verbindungen zu ermöglichen.
Traditionelle Mendelsche Randomisierungsmethoden konzentrieren sich hauptsächlich auf die Kausalinferenz für einzelne Expositions-Ergebnis-Paare, wobei dieser Ansatz folgende Einschränkungen aufweist:
- Vernachlässigung von Netzwerkkomplexität: Unfähigkeit, komplexe kausale Netzwerkstrukturen zwischen mehreren Variablen zu erfassen
- Fehlende bidirektionale Kausalbeziehungen: Schwierigkeit bei der Behandlung gegenseitiger oder zirkulärer Kausalbeziehungen zwischen Variablen
- Mangel an ganzheitlicher Perspektive: Unfähigkeit, ein globales kausales Verständnis biologischer Systeme zu bieten
In komplexen biologischen Systemen existieren häufig komplexe Wechselwirkungsnetzwerke zwischen Genen, Proteinen und Phänotypen. Das Verständnis dieser Netzwerke ist wichtig für:
- Bewertung des Krankheitsrisikos
- Identifizierung therapeutischer Ziele
- Analyse biologischer Mechanismen
- Entwicklung der Präzisionsmedizin
Durch umfassende Untersuchung bestehender R-Pakete (einschließlich mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR usw.) stellen die Autoren fest, dass alle bestehenden Methoden keine bidirektionale MR-Analyse unterstützen, was ein kritischer Mangel bei der Konstruktion vollständiger kausaler Netzwerke darstellt.
- Erstes R-Paket mit bidirektionaler MR-Unterstützung: MR.RGM ist das einzige multivariate MR-Paket, das bidirektionale Kausalbeziehungen verarbeiten kann
- Bayessches Netzwerk-Framework: Basierend auf reziproken Graphenmodellen zur Unsicherheitsquantifizierung und Netzwerkstruktur-Inferenz
- Mehrere Dateneingabeformate: Unterstützt Daten auf individueller Ebene und zwei Formate auf Zusammenfassungsebene
- Optimierte Recheneffizienz: Verwendung von C++-Backend und Woodbury-Matrixidentität zur Verbesserung der Recheneffizienz
- Netzwerk-Motiv-Analyse: Bereitstellung der NetworkMotif-Funktion zur Unsicherheitsquantifizierung spezifischer Netzwerkstrukturen
Für Antwortvariablen Yi=(Yi1,…,Yip)T und Instrumentalvariablen Xi=(Xi1,…,Xik)T ist das Modell definiert als:
Yi=AYi+BXi+Ei,Ei∼N(0,Σ)
wobei:
- A∈Rp×p: Kausaleffekt-Matrix zwischen Antwortvariablen (Diagonale = 0)
- B∈Rp×k: Effekt-Matrix der Instrumentalvariablen auf Antwortvariablen
- Σ=diag(σ1,…,σp): Fehlerkovarianz-Matrix
Das Modell kann umgeschrieben werden als:
Yi∼Np{(Ip−A)−1BXi,(Ip−A)−1Σ(Ip−A)−T}
Für Elemente der Matrix A:
aij∼γijN(0,τij)+(1−γij)N(0,ν1×τij)γij∼Ber(ρij),ρij∼Beta(aρ,bρ)
a~ij∼N(0,τij),aij=a~ijI(∣a~ij∣>tA)
Verwendung einer Hybrid-Strategie aus Metropolis-Hastings-Algorithmus und Gibbs-Sampling für Posterior-Inferenz, einschließlich:
- Randwahrscheinlichkeits-Update (Gibbs)
- Effektkoeffizienten-Update (M-H)
- Varianzparameter-Update (Gibbs)
- Schwellenwert-Parameter-Update (M-H, nur Threshold-Prior)
Zur Verbesserung der Recheneffizienz wird die Woodbury-Identität zur Berechnung von Determinanten und Inversen verwendet:
det(Ip−A∗)=(1+(Ip−A)(j,i)−1×(aij−aij∗))det(Ip−A)
(Ip−A∗)−1=(Ip−A)−1−1+(aij−aij∗)(Ip−A)(j,i)−1aij−aij∗(Ip−A)(⋅,i)−1×(Ip−A)(j,⋅)−1
- Eingabeformate:
- Daten auf individueller Ebene: X (Instrumentalvariablen-Matrix), Y (Antwortvariablen-Matrix)
- Zusammenfassungsdaten 1: Syy, Syx, Sxx Kovarianz-Matrizen
- Zusammenfassungsdaten 2: Sxx, Beta, SigmaHat-Matrizen
- Erforderliche Parameter: D (binäre Indikator-Matrix), n (Stichprobengröße)
- Ausgabe: Kausaleffekt-Schätzungen, Netzwerkstruktur, Posterior-Wahrscheinlichkeiten usw.
- Funktionalität: Unsicherheitsquantifizierung spezifischer Netzwerk-Motive
- Eingabe: Ziel-Netzwerkstruktur Gamma, Posterior-Stichproben GammaPst
- Ausgabe: Posterior-Wahrscheinlichkeit
Zur Sicherung der Modellidentifizierbarkeit wird gefordert, dass jede Antwortvariable mindestens eine eindeutige Instrumentalvariable hat, d.h. jede Zeile der D-Matrix hat mindestens eine eindeutige 1.
- Modell: Y=AY+BX+E
- Stichprobengröße: 10k, 30k, 50k
- Netzwerkgröße: 5, 10 Knoten
- Sparsität: 25%, 50%
- Effektgröße: ±0,1
- Varianzaufklärung: 1%, 3%, 5%, 10%
- TPR (True Positive Rate)
- FPR (False Positive Rate)
- FDR (False Discovery Rate)
- MCC (Matthews Korrelationskoeffizient)
- AUC (Fläche unter der ROC-Kurve)
Hauptsächlich Vergleich mit dem OneSampleMR-Paket, das das neueste fortgeschrittene MR-Tool ist.
Unter allen Testbedingungen übertrifft MR.RGM OneSampleMR deutlich:
Netzwerkgröße 5, Sparsität 50%:
- Spike & Slab Prior: AUC = 0,77–0,99, TPR = 0,50–0,99
- OneSampleMR: AUC = 0,56–0,79, TPR = 0,08–0,84
Netzwerkgröße 10, Sparsität 25%:
- Spike & Slab Prior: AUC = 0,87–0,995, TPR = 0,69–0,99
- OneSampleMR: AUC = 0,48–0,52, TPR = 0,07–0,39
- Gute Skalierbarkeit: Sublineares Wachstum mit Knotenzahl und Instrumentalvariablenzahl
- Tatsächliche Laufzeit: Auf Apple M2 Pro dauert die Analyse von 15 Genen mit 31 SNPs nur 32,329 Sekunden
Sensitivitätstests für verschiedene Fehlerverteilungen zeigen, dass MR.RGM unempfindlich gegenüber der Normalverteilungsannahme ist:
- Normalverteilung: TPR=0,86, FPR=0,0133, MAD=0,0169
- t-Verteilung (df=3): TPR=0,86, FPR=0,0200, MAD=0,0153
- Laplace-Verteilung: TPR=0,87, FPR=0,0333, MAD=0,0164
Die Anwendung auf dem GTEx V7-Datensatz (332 Stichproben, 15 Gene) konstruiert erfolgreich ein Genregulationsnetzwerk und zeigt die Praktikabilität der Methode.
- Univariate Methoden: mr.pivw, OneSampleMR
- Multivariate Methoden: MVMR, MRPC, MendelianRandomization
- Bayessche Methoden: mrbayes, MrDAG
- Netzwerk-Methoden: MrDAG (nur DAG-Unterstützung)
MR.RGM ist das einzige Tool, das folgende Merkmalskombination unterstützt:
- Multivariate Analyse
- Bidirektionale Kausalbeziehungen
- Unsicherheitsquantifizierung
- Unterstützung mehrerer Datenformate
- MR.RGM füllt erfolgreich die Lücke in der bidirektionalen MR-Analyse
- Das Bayessche Framework bietet effektive Unsicherheitsquantifizierung
- Die Methode zeigt sowohl bei Simulationen als auch bei realen Daten hervorragende Leistung
- Die Recheneffizienz erfüllt die Anforderungen praktischer Anwendungen
- Normalitätsannahme: Obwohl Robustheitstest Unempfindlichkeit zeigt, hängt die Theorie immer noch von der Normalitätsannahme ab
- Identifizierbarkeitserfordernisse: Erfordert eindeutige Instrumentalvariablen für jede Antwortvariable
- Großflächige Netzwerke: Die Recheneffizienz für übergroße Netzwerke erfordert weitere Optimierung
- Erweiterung auf nichtlineare Kausalbeziehungen
- Behandlung potenzieller Störfaktoren
- Integration von Multi-Omics-Daten
- Entwicklung einer grafischen Benutzeroberfläche
- Starke Innovativität: Erste Implementierung bidirektionaler MR-Analyse, füllt wichtige Lücke
- Strenge Methodik: Solide theoretische Grundlagen des Bayesschen Frameworks, korrekte MCMC-Implementierung
- Hohe Praktikabilität: Unterstützt mehrere Datenformate, erfüllt verschiedene Anwendungsszenarien
- Umfassende Validierung: Umfangreiche Simulationsstudien und Validierung mit realen Daten
- Software-Qualität: Open-Source-Code, detaillierte Dokumentation, benutzerfreundlich
- Begrenzte theoretische Analyse: Mangel an theoretischen Garantien für Konvergenz und Identifizierbarkeit
- Begrenzte Vergleichsexperimente: Hauptsächlich Vergleich mit OneSampleMR, mangelnde Vergleiche mit anderen Netzwerk-Methoden
- Einzelne Anwendungsfälle: Nur Anwendung auf Genexpressionsdaten, mangelnde andere biologische Anwendungen
- Akademischer Wert: Bietet wichtiges Tool für das Feld der Kausalinferenz
- Praktischer Wert: Breite Anwendungsperspektiven in genetischen und epidemiologischen Forschungen
- Reproduzierbarkeit: Open-Source-Code, Ergebnisse sind reproduzierbar
- Genetische Forschung: Konstruktion von Genregulationsnetzwerken
- Epidemiologie: Netzwerkanalyse von Krankheitsrisikofaktoren
- Systembiologie: Integrierte Analyse von Multi-Omics-Daten
- Präzisionsmedizin: Identifizierung individualisierter therapeutischer Ziele
- Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
- GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
- Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.
Gesamtbewertung: Dies ist ein hochqualitatives methodisches Papier, das das wichtige Problem der multivariaten bidirektionalen Mendelschen Randomisierung erfolgreich löst. Die Software-Implementierung ist ausgereift, die Validierung umfassend, und es hat wichtige Werte für die Kausalinferenz und genetische Forschung. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Anwendungsumfang gibt, ist der Gesamtbeitrag erheblich und empfehlenswert.