A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
Patock, Ratnapriya, Barman
The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.
academic
Графический метод идентификации генных кластеров из данных секвенирования РНК
В данном исследовании предложен графический метод для идентификации генных кластеров, связанных с заболеваниями, из данных секвенирования РНК. Метод сначала строит сеть совместной экспрессии генов, затем использует алгоритм Node2Vec+ для вычисления встраивания генов и, наконец, применяет спектральную кластеризацию для идентификации генных кластеров. Весь процесс совместно оптимизируется с использованием оценщика структуры дерева Парзена (TPE) для обеспечения стабильности, робастности и оптимальности. Метод применяется к набору данных RNA-Seq 81 известного гена, связанного с возрастной макулярной дегенерацией (AMD), и валидационные эксперименты демонстрируют, что метод генерирует согласованные и робастные результаты кластеризации.
Регуляция экспрессии генов стала ключевым механизмом, посредством которого генетические вариации опосредуют риск развития заболеваний у человека. Хотя идентификация отдельных генов, связанных с заболеванием, из наборов данных RNA-Seq важна, идентификация генных кластеров, связанных с заболеванием, одинаково необходима, что помогает:
Понять общие биологические пути или процессы
Идентифицировать потенциально неизвестные гены
Разработать терапевтические подходы, направленные на механизмы заболевания, а не на отдельные гены
Потребность в персонализированной медицине: Открытия в исследованиях экспрессии генов имеют огромный потенциал для трансляции в персонализированную медицину
Пробел в исследованиях AMD: Хотя некоторые гены, связанные с AMD, были идентифицированы, большая часть наследуемости остается необъясненной
Клиническая ценность: Открытие новых генных взаимосвязей может привести к новым мишеням для лекарств, тестам риска для пациентов и улучшенной диагностике
Традиционные статистические методы: Методы проверки гипотез легко генерируют шумные результаты и ложноположительные результаты в больших наборах данных
Проблема пошаговой оптимизации: Существующие методы обычно оптимизируют каждый шаг отдельно (построение сети, вычисление встраивания, кластеризация), что не гарантирует оптимальность всего процесса
Недостаточная робастность: Отсутствует систематическая верификация стохастических процессов
Инновационный дизайн процесса: Предложен полный процесс кластеризации генов, включающий построение сети совместной экспрессии генов, вычисление встраивания Node2Vec+ и спектральную кластеризацию
Стратегия совместной оптимизации: Впервые все этапы процесса совместно оптимизируются, а не традиционно пошагово, с использованием TPE для оптимизации 9 гиперпараметров с целью максимизации метрики кластеризации DBCVI
Фреймворк верификации робастности: Разработан полный набор тестов, включающий:
100 повторных экспериментов для верификации согласованности
Тест статистической значимости против случайных наборов генов
Оценка стабильности кластеризации с использованием скорректированной взаимной информации (AMI)
Практичность и масштабируемость:
Не требует дорогостоящих вычислительных ресурсов, таких как GPU
Может беспрепятственно применяться к другим наборам данных RNA-Seq
Предоставляет визуализированные результаты для использования медицинскими специалистами
Входные данные: Набор данных bulk mRNA-seq, содержащий nc=105 контрольных образцов и ns=61 пациентов с поздней стадией AMD, с акцентом на анализ 81 известного гена, связанного с AMD
Метод CS-CORE: Используется статистический метод CS-CORE для вычисления матрицы совместной экспрессии, который может корректировать различия в глубине секвенирования и более точен, чем коэффициент корреляции Пирсона
Построение графа:
Узлы: 81 ген
Ребра: Добавляются ненаправленные взвешенные ребра, когда абсолютное значение совместной экспрессии CS-CORE превышает пороговое значение τ
Контрольная группа: 105 образцов (уровень 1 по системе классификации Minnesota)
Группа случаев: 61 пациент с поздней стадией AMD (уровень 4 по системе классификации Minnesota)
Анализируемые гены: 81 известный ген, связанный с AMD (предварительно идентифицированный и валидированный с помощью методов ML и анализа объяснимости SHAP)
Эффективность метода: Предложенный графический метод способен идентифицировать робастные и статистически значимые генные кластеры из данных RNA-Seq
Важность совместной оптимизации: Совместная оптимизация всех этапов процесса производит лучшие общие результаты, чем пошаговая оптимизация
Статистическая верификация: Качество кластеризации генов, связанных с AMD, значительно превосходит случайные наборы генов (p < 10^-20)
Робастность: Несмотря на наличие множественных стохастических процессов, 100 повторных экспериментов показывают среднюю и высокую согласованность (AMI = 0.49)
Масштабируемость: Метод может беспрепятственно применяться к другим заболеваниям и наборам данных RNA-Seq
Использование синтетических наборов данных с известным ground truth для более строгой оценки, независимая верификация способности метода восстанавливать информационную структуру
Стратегия совместной оптимизации: Впервые реализована сквозная совместная оптимизация в процессе кластеризации генов, преодолевая ограничения традиционной пошаговой оптимизации
Техническая интеграция: Умелое объединение CS-CORE, Node2Vec+ и спектральной кластеризации, каждый компонент имеет достаточную теоретическую поддержку
Выбор алгоритма оптимизации: TPE как метод байесовской оптимизации более эффективен, чем поиск по сетке
Отсутствие сравнения методов: Не проведено количественное сравнение с другими методами кластеризации генов (такими как WGCNA, иерархическая кластеризация)
Один набор данных: Верификация только на наборе данных AMD, универсальность не полностью доказана
Отсутствие ground truth: Отсутствие набора верификации с известными метками кластеризации
Функциональная группировка известных генов, связанных с заболеванием: Когда имеется набор генов, связанных с заболеванием, необходимо понять их функциональную классификацию
Наборы генов среднего размера: Кластеризация десятков-сотен генов
Исследовательские исследования: Открытие потенциальных отношений и структур между генами
Сравнение между заболеваниями: Сравнение паттернов генных кластеров различных заболеваний
10 Grover & Leskovec (2016): Оригинальная статья Node2vec, предложившая метод встраивания графов на основе случайного блуждания
13 Liu et al. (2023): Улучшенная версия Node2Vec+, учитывающая веса ребер в встраивании биологических сетей
12 John et al. (2020): Метод спектральной кластеризации Spectrum, предложивший адаптивное ядро, чувствительное к плотности, и многомодальный промежуток
26 Su et al. (2023): Метод CS-CORE, корректирующий оценку совместной экспрессии в RNA-seq одиночных клеток
14 Ma et al. (2025): Оригинальное исследование идентификации генов AMD, предоставившее 81 ген для анализа в данной работе
18 Moulavi et al. (2014): Метрика валидации кластеризации DBCVI, применимая к неконвексной кластеризации
3 Bergstra et al. (2013): Метод оптимизации гиперпараметров TPE
Это высококачественная биоинформатическая статья с сильной методологической инновативностью и разумным экспериментальным дизайном. Главное достоинство - стратегия совместной оптимизации, преодолевающая ограничения традиционной пошаговой оптимизации и предоставляющая новую парадигму для дизайна процессов кластеризации генов. Верификация робастности полная, статистическая значимость очевидна, практическая ценность высока.
Основные недостатки: (1) отсутствие прямого сравнения с другими методами; (2) верификация только на одном наборе данных; (3) отсутствие функционального анализа генных кластеров. Рекомендуется, чтобы будущие работы проводили верификацию на множественных наборах данных и систематическое сравнение с традиционными методами (такими как WGCNA), а также добавили функциональную аннотацию и экспериментальную верификацию генных кластеров.
В целом, это высококачественная статья по вычислительной биологии, имеющая важное справочное значение для анализа данных RNA-Seq и исследований генов, связанных с заболеванием. Рекомендуемый рейтинг: 8.5/10