Motivation: Mendelian randomization (MR) infers causal relationships between exposures and outcomes using genetic variants as instrumental variables. Typically, MR considers only a pair of exposure and outcome at a time, limiting its capability of capturing the entire causal network. We overcome this limitation by developing 'MR.RGM' (Mendelian randomization via reciprocal graphical model), a fast R-package that implements the Bayesian reciprocal graphical model and enables practitioners to construct holistic causal networks with possibly cyclic/reciprocal causation and proper uncertainty quantifications, offering a comprehensive understanding of complex biological systems and their interconnections. We developed 'MR.RGM', an open-source R package that applies bidirectional MR using a network-based strategy, enabling the exploration of causal relationships among multiple variables in complex biological systems. 'MR.RGM' holds the promise of unveiling intricate interactions and advancing our understanding of genetic networks, disease risks, and phenotypic complexities.
- ID статьи: 2403.03944
- Название: MR.RGM: An R Package for Fitting Bayesian Multivariate Bidirectional Mendelian Randomization Networks
- Авторы: Bitan Sarkar, Yang Ni (Texas A&M University)
- Классификация: stat.AP (прикладная статистика)
- Журнал публикации: Bioinformatics
- Ссылка на статью: https://arxiv.org/abs/2403.03944
- Репозиторий кода: https://github.com/bitansa/MR.RGM
Менделевская рандомизация (MR) позволяет выводить причинно-следственные связи между воздействием и исходом, используя генетические вариации в качестве инструментальных переменных. Традиционные методы MR рассматривают только одну пару переменных воздействия и исхода одновременно, что ограничивает их способность захватывать всю причинно-следственную сеть. В данной работе разработан пакет 'MR.RGM' (Менделевская рандомизация через взаимные графические модели), который представляет собой быстрый R-пакет, реализующий байесовскую взаимную графическую модель. Это позволяет исследователям строить целостные причинно-следственные сети с возможными циклическими/взаимными причинно-следственными связями и обеспечивает надлежащую количественную оценку неопределённости, что способствует всестороннему пониманию сложных биологических систем и их взаимосвязей.
Традиционные методы менделевской рандомизации (MR) сосредоточены на причинном выводе для отдельных пар воздействие-исход, что имеет следующие ограничения:
- Игнорирование сетевой сложности: невозможность захватить сложные структуры причинно-следственной сети между несколькими переменными
- Отсутствие двусторонних причинно-следственных связей: трудность обработки взаимных или циклических причинно-следственных связей между переменными
- Недостаток целостного подхода: невозможность обеспечить глобальное причинно-следственное понимание биологических систем
В сложных биологических системах между генами, белками и фенотипами часто существуют сложные сети взаимодействия. Понимание этих сетей важно для:
- оценки риска заболеваний
- идентификации терапевтических мишеней
- анализа биологических механизмов
- развития персонализированной медицины
На основе комплексного обзора существующих R-пакетов (включая mr.pivw, mr.raps, PPMR, OneSampleMR, MVMR и др.) авторы обнаружили, что все существующие методы не поддерживают двусторонний анализ MR, что является критическим недостатком при построении полных причинно-следственных сетей.
- Первый R-пакет с поддержкой двусторонней MR: MR.RGM — единственный многомерный пакет MR, способный обрабатывать двусторонние причинно-следственные связи
- Байесовская сетевая структура: реализация на основе взаимных графических моделей с количественной оценкой неопределённости и выводом структуры сети
- Множественные форматы входных данных: поддержка данных на уровне отдельных лиц и двух форматов данных на уровне сводки
- Оптимизация вычислительной эффективности: использование C++ backend и тождества матрицы Вудбери для повышения вычислительной эффективности
- Анализ сетевых мотивов: функция NetworkMotif для количественной оценки неопределённости специфических сетевых структур
Для переменной отклика Yi=(Yi1,…,Yip)T и инструментальной переменной Xi=(Xi1,…,Xik)T модель определяется как:
Yi=AYi+BXi+Ei,Ei∼N(0,Σ)
где:
- A∈Rp×p: матрица причинных эффектов между переменными отклика (диагональ равна нулю)
- B∈Rp×k: матрица эффектов инструментальных переменных на переменные отклика
- Σ=diag(σ1,…,σp): матрица ковариации ошибок
Модель может быть переписана как:
Yi∼Np{(Ip−A)−1BXi,(Ip−A)−1Σ(Ip−A)−T}
Для элементов матрицы A:
aij∼γijN(0,τij)+(1−γij)N(0,ν1×τij)γij∼Ber(ρij),ρij∼Beta(aρ,bρ)
a~ij∼N(0,τij),aij=a~ijI(∣a~ij∣>tA)
Использование смешанной стратегии алгоритма Метрополиса-Гастингса и выборки Гиббса для апостериорного вывода, включая:
- обновление предельных вероятностей (Гиббс)
- обновление коэффициентов эффектов (М-Г)
- обновление параметров дисперсии (Гиббс)
- обновление пороговых параметров (М-Г, только пороговое априорное распределение)
Для повышения вычислительной эффективности используется тождество Вудбери для вычисления определителя и обратной матрицы:
det(Ip−A∗)=(1+(Ip−A)(j,i)−1×(aij−aij∗))det(Ip−A)
(Ip−A∗)−1=(Ip−A)−1−1+(aij−aij∗)(Ip−A)(j,i)−1aij−aij∗(Ip−A)(⋅,i)−1×(Ip−A)(j,⋅)−1
- Форматы входных данных:
- данные на уровне отдельных лиц: X (матрица инструментальных переменных), Y (матрица переменных отклика)
- данные сводки 1: матрицы ковариации Syy, Syx, Sxx
- данные сводки 2: матрицы Sxx, Beta, SigmaHat
- Необходимые параметры: D (двоичная матрица индикаторов), n (размер выборки)
- Выходные данные: оценки причинных эффектов, структура сети, апостериорные вероятности и т.д.
- Функциональность: количественная оценка неопределённости специфических сетевых мотивов
- Входные данные: целевая структура сети Gamma, апостериорные выборки GammaPst
- Выходные данные: апостериорная вероятность
Для обеспечения идентифицируемости модели требуется, чтобы каждая переменная отклика имела по крайней мере одну уникальную инструментальную переменную, то есть каждая строка матрицы D должна содержать по крайней мере одну уникальную единицу.
- Модель: Y=AY+BX+E
- Размеры выборки: 10k, 30k, 50k
- Размеры сети: 5, 10 узлов
- Разреженность: 25%, 50%
- Размеры эффектов: ±0.1
- Доля объяснённой дисперсии: 1%, 3%, 5%, 10%
- TPR (истинно положительный коэффициент)
- FPR (ложно положительный коэффициент)
- FDR (коэффициент ложного обнаружения)
- MCC (коэффициент корреляции Мэтьюса)
- AUC (площадь под кривой ROC)
Основное сравнение с пакетом OneSampleMR, который является самым современным передовым инструментом MR.
При всех протестированных условиях MR.RGM значительно превосходит OneSampleMR:
Размер сети 5, разреженность 50%:
- Априорное распределение Spike & Slab: AUC = 0.77-0.99, TPR = 0.50-0.99
- OneSampleMR: AUC = 0.56-0.79, TPR = 0.08-0.84
Размер сети 10, разреженность 25%:
- Априорное распределение Spike & Slab: AUC = 0.87-0.995, TPR = 0.69-0.99
- OneSampleMR: AUC = 0.48-0.52, TPR = 0.07-0.39
- Хорошая масштабируемость: сублинейный рост с количеством узлов и инструментальных переменных
- Фактическое время выполнения: на Apple M2 Pro анализ 15 генов с 31 SNP занимает всего 32.329 секунд
Тесты чувствительности к различным распределениям ошибок показывают, что MR.RGM нечувствителен к предположению о нормальности ошибок:
- нормальное распределение: TPR=0.86, FPR=0.0133, MAD=0.0169
- t-распределение (df=3): TPR=0.86, FPR=0.0200, MAD=0.0153
- распределение Лапласа: TPR=0.87, FPR=0.0333, MAD=0.0164
Применение к набору данных GTEx V7 (332 образца, 15 генов) успешно построило сеть генной регуляции, демонстрируя практическую применимость метода.
- Одномерные методы: mr.pivw, OneSampleMR
- Многомерные методы: MVMR, MRPC, MendelianRandomization
- Байесовские методы: mrbayes, MrDAG
- Сетевые методы: MrDAG (поддерживает только DAG)
MR.RGM — единственный инструмент, поддерживающий следующую комбинацию характеристик:
- многомерный анализ
- двусторонние причинно-следственные связи
- количественная оценка неопределённости
- поддержка множественных форматов данных
- MR.RGM успешно заполняет пробел в анализе двусторонней MR
- Байесовская структура обеспечивает эффективную количественную оценку неопределённости
- Метод показывает отличные результаты как на симуляционных, так и на реальных данных
- Вычислительная эффективность соответствует требованиям практического применения
- Предположение о нормальности: хотя тесты робастности показывают нечувствительность, теоретически метод всё ещё зависит от предположения о нормальности
- Требования идентифицируемости: требуется наличие уникальной инструментальной переменной для каждой переменной отклика
- Крупномасштабные сети: вычислительная эффективность для сверхбольших сетей требует дальнейшей оптимизации
- расширение на нелинейные причинно-следственные связи
- обработка потенциальных факторов смешивания
- интеграция многоуровневых данных
- разработка графического пользовательского интерфейса
- Высокая инновационность: первая реализация двусторонней MR, заполнение важного пробела
- Строгая методология: прочная теоретическая база байесовской структуры, правильная реализация MCMC
- Высокая практичность: поддержка множественных форматов данных, соответствие различным сценариям применения
- Достаточная верификация: комплексные симуляционные исследования и верификация на реальных данных
- Качество программного обеспечения: открытый исходный код, подробная документация, простота использования
- Ограниченный теоретический анализ: отсутствие теоретических гарантий сходимости и идентифицируемости
- Ограниченные сравнительные эксперименты: основное сравнение с OneSampleMR, отсутствие сравнения с другими сетевыми методами
- Единичные примеры применения: демонстрация только применения к данным экспрессии генов, отсутствие других биологических применений
- Академическая ценность: предоставление важного инструмента для области причинного вывода
- Практическая ценность: широкие перспективы применения в генетических и эпидемиологических исследованиях
- Воспроизводимость: открытый исходный код, результаты воспроизводимы
- Генетические исследования: построение сетей генной регуляции
- Эпидемиология: анализ сетей факторов риска заболеваний
- Системная биология: интегрированный анализ многоуровневых данных
- Персонализированная медицина: идентификация индивидуализированных терапевтических мишеней
- Ni, Y., Ji, Y., & Müller, P. (2018). Reciprocal graphical models for integrative gene regulatory network analysis.
- GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330.
- Palmer, T., Spiller, W., & Sanderson, E. (2023). OneSampleMR: One Sample Mendelian Randomization and Instrumental Variable Analyses.
Общая оценка: Это высококачественная методологическая статья, которая успешно решает важную проблему многомерной двусторонней менделевской рандомизации. Реализация программного обеспечения совершенна, верификация полна, и работа имеет важное значение для причинного вывода и генетических исследований. Хотя есть место для улучшения в теоретическом анализе и диапазоне применения, общий вклад значителен и заслуживает рекомендации.