2025-11-15T21:31:10.952177

MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks

Sarkar, Ni
Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
academic

MR.RGM: R-пакет для подгонки байесовских многомерных двусторонних сетей менделевской рандомизации

Основная информация

  • ID статьи: 2403.03944
  • Название: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
  • Авторы: Bitan Sarkar, Yang Ni (Texas A&M University)
  • Классификация: stat.AP (прикладная статистика)
  • Журнал публикации: Bioinformatics
  • Ссылка на статью: https://arxiv.org/abs/2403.03944
  • Репозиторий кода: https://github.com/bitansa/MR.RGM

Аннотация

Менделевская рандомизация (MR) позволяет выводить причинно-следственные связи между воздействием и исходом, используя генетические вариации в качестве инструментальных переменных. Традиционные методы MR рассматривают только одну пару переменных воздействия и исхода одновременно, что ограничивает их способность захватывать всю причинно-следственную сеть. В данной работе разработан пакет 'MR.RGM' (Менделевская рандомизация через взаимные графические модели), который представляет собой быстрый R-пакет, реализующий байесовскую взаимную графическую модель. Это позволяет исследователям строить целостные причинно-следственные сети с возможными циклическими/взаимными причинно-следственными связями и обеспечивает надлежащую количественную оценку неопределённости, что способствует всестороннему пониманию сложных биологических систем и их взаимосвязей.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные методы менделевской рандомизации (MR) сосредоточены на причинном выводе для отдельных пар воздействие-исход, что имеет следующие ограничения:

  1. Игнорирование сетевой сложности: невозможность захватить сложные структуры причинно-следственной сети между несколькими переменными
  2. Отсутствие двусторонних причинно-следственных связей: трудность обработки взаимных или циклических причинно-следственных связей между переменными
  3. Недостаток целостного подхода: невозможность обеспечить глобальное причинно-следственное понимание биологических систем

Значимость исследования

В сложных биологических системах между генами, белками и фенотипами часто существуют сложные сети взаимодействия. Понимание этих сетей важно для:

  • оценки риска заболеваний
  • идентификации терапевтических мишеней
  • анализа биологических механизмов
  • развития персонализированной медицины

Ограничения существующих методов

На основе комплексного обзора существующих R-пакетов (включая mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR и др.) авторы обнаружили, что все существующие методы не поддерживают двусторонний анализ MR, что является критическим недостатком при построении полных причинно-следственных сетей.

Основные вклады

  1. Первый R-пакет с поддержкой двусторонней MR: MR.RGM — единственный многомерный пакет MR, способный обрабатывать двусторонние причинно-следственные связи
  2. Байесовская сетевая структура: реализация на основе взаимных графических моделей с количественной оценкой неопределённости и выводом структуры сети
  3. Множественные форматы входных данных: поддержка данных на уровне отдельных лиц и двух форматов данных на уровне сводки
  4. Оптимизация вычислительной эффективности: использование C++ backend и тождества матрицы Вудбери для повышения вычислительной эффективности
  5. Анализ сетевых мотивов: функция NetworkMotif для количественной оценки неопределённости специфических сетевых структур

Подробное описание методов

Математическая модель

Базовая модель

Для переменной отклика Yi=(Yi1,,Yip)TY_i = (Y_{i1}, \ldots, Y_{ip})^T и инструментальной переменной Xi=(Xi1,,Xik)TX_i = (X_{i1}, \ldots, X_{ik})^T модель определяется как:

Yi=AYi+BXi+Ei,EiN(0,Σ)Y_i = AY_i + BX_i + E_i, \quad E_i \sim N(0, \Sigma)

где:

  • ARp×pA \in \mathbb{R}^{p \times p}: матрица причинных эффектов между переменными отклика (диагональ равна нулю)
  • BRp×kB \in \mathbb{R}^{p \times k}: матрица эффектов инструментальных переменных на переменные отклика
  • Σ=diag(σ1,,σp)\Sigma = \text{diag}(\sigma_1, \ldots, \sigma_p): матрица ковариации ошибок

Эквивалентная форма

Модель может быть переписана как: YiNp{(IpA)1BXi,(IpA)1Σ(IpA)T}Y_i \sim N_p\{(I_p - A)^{-1}BX_i, (I_p - A)^{-1}\Sigma(I_p - A)^{-T}\}

Установка априорных распределений

Априорное распределение Spike and Slab

Для элементов матрицы AA: aijγijN(0,τij)+(1γij)N(0,ν1×τij)a_{ij} \sim \gamma_{ij}N(0, \tau_{ij}) + (1-\gamma_{ij})N(0, \nu_1 \times \tau_{ij})γijBer(ρij),ρijBeta(aρ,bρ)\gamma_{ij} \sim \text{Ber}(\rho_{ij}), \quad \rho_{ij} \sim \text{Beta}(a_\rho, b_\rho)

Пороговое априорное распределение

a~ijN(0,τij),aij=a~ijI(a~ij>tA)\tilde{a}_{ij} \sim N(0, \tau_{ij}), \quad a_{ij} = \tilde{a}_{ij}I(|\tilde{a}_{ij}| > t_A)

MCMC вывод

Использование смешанной стратегии алгоритма Метрополиса-Гастингса и выборки Гиббса для апостериорного вывода, включая:

  1. обновление предельных вероятностей (Гиббс)
  2. обновление коэффициентов эффектов (М-Г)
  3. обновление параметров дисперсии (Гиббс)
  4. обновление пороговых параметров (М-Г, только пороговое априорное распределение)

Вычислительная оптимизация

Тождество матрицы Вудбери

Для повышения вычислительной эффективности используется тождество Вудбери для вычисления определителя и обратной матрицы:

det(IpA)=(1+(IpA)(j,i)1×(aijaij))det(IpA)\det(I_p - A^*) = (1 + (I_p - A)^{-1}_{(j,i)} \times (a_{ij} - a^*_{ij})) \det(I_p - A)

(IpA)1=(IpA)1aijaij1+(aijaij)(IpA)(j,i)1(IpA)(,i)1×(IpA)(j,)1(I_p - A^*)^{-1} = (I_p - A)^{-1} - \frac{a_{ij} - a^*_{ij}}{1 + (a_{ij} - a^*_{ij})(I_p - A)^{-1}_{(j,i)}} (I_p - A)^{-1}_{(\cdot,i)} \times (I_p - A)^{-1}_{(j,\cdot)}

Реализация программного обеспечения

Основные функции

Функция RGM

  • Форматы входных данных:
    • данные на уровне отдельных лиц: X (матрица инструментальных переменных), Y (матрица переменных отклика)
    • данные сводки 1: матрицы ковариации Syy, Syx, Sxx
    • данные сводки 2: матрицы Sxx, Beta, SigmaHat
  • Необходимые параметры: D (двоичная матрица индикаторов), n (размер выборки)
  • Выходные данные: оценки причинных эффектов, структура сети, апостериорные вероятности и т.д.

Функция NetworkMotif

  • Функциональность: количественная оценка неопределённости специфических сетевых мотивов
  • Входные данные: целевая структура сети Gamma, апостериорные выборки GammaPst
  • Выходные данные: апостериорная вероятность

Условия идентифицируемости

Для обеспечения идентифицируемости модели требуется, чтобы каждая переменная отклика имела по крайней мере одну уникальную инструментальную переменную, то есть каждая строка матрицы D должна содержать по крайней мере одну уникальную единицу.

Экспериментальная установка

Дизайн симуляции

  • Модель: Y=AY+BX+EY = AY + BX + E
  • Размеры выборки: 10k, 30k, 50k
  • Размеры сети: 5, 10 узлов
  • Разреженность: 25%, 50%
  • Размеры эффектов: ±0.1
  • Доля объяснённой дисперсии: 1%, 3%, 5%, 10%

Показатели оценки

  • TPR (истинно положительный коэффициент)
  • FPR (ложно положительный коэффициент)
  • FDR (коэффициент ложного обнаружения)
  • MCC (коэффициент корреляции Мэтьюса)
  • AUC (площадь под кривой ROC)

Методы сравнения

Основное сравнение с пакетом OneSampleMR, который является самым современным передовым инструментом MR.

Результаты экспериментов

Основные результаты

Производительность восстановления структуры сети

При всех протестированных условиях MR.RGM значительно превосходит OneSampleMR:

Размер сети 5, разреженность 50%:

  • Априорное распределение Spike & Slab: AUC = 0.77-0.99, TPR = 0.50-0.99
  • OneSampleMR: AUC = 0.56-0.79, TPR = 0.08-0.84

Размер сети 10, разреженность 25%:

  • Априорное распределение Spike & Slab: AUC = 0.87-0.995, TPR = 0.69-0.99
  • OneSampleMR: AUC = 0.48-0.52, TPR = 0.07-0.39

Вычислительная эффективность

  • Хорошая масштабируемость: сублинейный рост с количеством узлов и инструментальных переменных
  • Фактическое время выполнения: на Apple M2 Pro анализ 15 генов с 31 SNP занимает всего 32.329 секунд

Анализ робастности

Тесты чувствительности к различным распределениям ошибок показывают, что MR.RGM нечувствителен к предположению о нормальности ошибок:

  • нормальное распределение: TPR=0.86, FPR=0.0133, MAD=0.0169
  • t-распределение (df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
  • распределение Лапласа: TPR=0.87, FPR=0.0333, MAD=0.0164

Применение к реальным данным

Применение к набору данных GTEx V7 (332 образца, 15 генов) успешно построило сеть генной регуляции, демонстрируя практическую применимость метода.

Связанные работы

Классификация существующих методов MR

  1. Одномерные методы: mr.pivw, OneSampleMR
  2. Многомерные методы: MVMR, MRPC, MendelianRandomization
  3. Байесовские методы: mrbayes, MrDAG
  4. Сетевые методы: MrDAG (поддерживает только DAG)

Преимущества данной работы

MR.RGM — единственный инструмент, поддерживающий следующую комбинацию характеристик:

  • многомерный анализ
  • двусторонние причинно-следственные связи
  • количественная оценка неопределённости
  • поддержка множественных форматов данных

Заключение и обсуждение

Основные выводы

  1. MR.RGM успешно заполняет пробел в анализе двусторонней MR
  2. Байесовская структура обеспечивает эффективную количественную оценку неопределённости
  3. Метод показывает отличные результаты как на симуляционных, так и на реальных данных
  4. Вычислительная эффективность соответствует требованиям практического применения

Ограничения

  1. Предположение о нормальности: хотя тесты робастности показывают нечувствительность, теоретически метод всё ещё зависит от предположения о нормальности
  2. Требования идентифицируемости: требуется наличие уникальной инструментальной переменной для каждой переменной отклика
  3. Крупномасштабные сети: вычислительная эффективность для сверхбольших сетей требует дальнейшей оптимизации

Направления будущих исследований

  1. расширение на нелинейные причинно-следственные связи
  2. обработка потенциальных факторов смешивания
  3. интеграция многоуровневых данных
  4. разработка графического пользовательского интерфейса

Углубленная оценка

Преимущества

  1. Высокая инновационность: первая реализация двусторонней MR, заполнение важного пробела
  2. Строгая методология: прочная теоретическая база байесовской структуры, правильная реализация MCMC
  3. Высокая практичность: поддержка множественных форматов данных, соответствие различным сценариям применения
  4. Достаточная верификация: комплексные симуляционные исследования и верификация на реальных данных
  5. Качество программного обеспечения: открытый исходный код, подробная документация, простота использования

Недостатки

  1. Ограниченный теоретический анализ: отсутствие теоретических гарантий сходимости и идентифицируемости
  2. Ограниченные сравнительные эксперименты: основное сравнение с OneSampleMR, отсутствие сравнения с другими сетевыми методами
  3. Единичные примеры применения: демонстрация только применения к данным экспрессии генов, отсутствие других биологических применений

Влияние

  1. Академическая ценность: предоставление важного инструмента для области причинного вывода
  2. Практическая ценность: широкие перспективы применения в генетических и эпидемиологических исследованиях
  3. Воспроизводимость: открытый исходный код, результаты воспроизводимы

Сценарии применения

  1. Генетические исследования: построение сетей генной регуляции
  2. Эпидемиология: анализ сетей факторов риска заболеваний
  3. Системная биология: интегрированный анализ многоуровневых данных
  4. Персонализированная медицина: идентификация индивидуализированных терапевтических мишеней

Библиография

  1. Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
  2. GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
  3. Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.

Общая оценка: Это высококачественная методологическая статья, которая успешно решает важную проблему многомерной двусторонней менделевской рандомизации. Реализация программного обеспечения совершенна, верификация полна, и работа имеет важное значение для причинного вывода и генетических исследований. Хотя есть место для улучшения в теоретическом анализе и диапазоне применения, общий вклад значителен и заслуживает рекомендации.