2025-11-30T11:01:19.099104

A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data

Patock, Ratnapriya, Barman

The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.

academic

Графический метод идентификации генных кластеров из данных секвенирования РНК

Основная информация

ID статьи: 2511.09590
Название: A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
Авторы: Jake R. Patock (Rice University), Rinki Ratnapriya (Baylor College of Medicine), Arko Barman (Rice University)
Классификация: q-bio.GN (Геномика)
Дата публикации: 12 ноября 2025 г. (отправка на arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.09590

Аннотация

В данном исследовании предложен графический метод для идентификации генных кластеров, связанных с заболеваниями, из данных секвенирования РНК. Метод сначала строит сеть совместной экспрессии генов, затем использует алгоритм Node2Vec+ для вычисления встраивания генов и, наконец, применяет спектральную кластеризацию для идентификации генных кластеров. Весь процесс совместно оптимизируется с использованием оценщика структуры дерева Парзена (TPE) для обеспечения стабильности, робастности и оптимальности. Метод применяется к набору данных RNA-Seq 81 известного гена, связанного с возрастной макулярной дегенерацией (AMD), и валидационные эксперименты демонстрируют, что метод генерирует согласованные и робастные результаты кластеризации.

Исследовательский контекст и мотивация

1. Исследовательская проблема

Регуляция экспрессии генов стала ключевым механизмом, посредством которого генетические вариации опосредуют риск развития заболеваний у человека. Хотя идентификация отдельных генов, связанных с заболеванием, из наборов данных RNA-Seq важна, идентификация генных кластеров, связанных с заболеванием, одинаково необходима, что помогает:

Понять общие биологические пути или процессы
Идентифицировать потенциально неизвестные гены
Разработать терапевтические подходы, направленные на механизмы заболевания, а не на отдельные гены

2. Значимость проблемы

Потребность в персонализированной медицине: Открытия в исследованиях экспрессии генов имеют огромный потенциал для трансляции в персонализированную медицину
Пробел в исследованиях AMD: Хотя некоторые гены, связанные с AMD, были идентифицированы, большая часть наследуемости остается необъясненной
Клиническая ценность: Открытие новых генных взаимосвязей может привести к новым мишеням для лекарств, тестам риска для пациентов и улучшенной диагностике

3. Ограничения существующих методов

Традиционные статистические методы: Методы проверки гипотез легко генерируют шумные результаты и ложноположительные результаты в больших наборах данных
Проблема пошаговой оптимизации: Существующие методы обычно оптимизируют каждый шаг отдельно (построение сети, вычисление встраивания, кластеризация), что не гарантирует оптимальность всего процесса
Недостаточная робастность: Отсутствует систематическая верификация стохастических процессов

4. Исследовательская мотивация

Разработка сквозного, совместно оптимизированного процесса кластеризации генов, способного:

Обрабатывать высокий уровень шума в транскриптомных данных
Гарантировать оптимальность всего процесса, а не локальную оптимальность
Обеспечить гарантии статистической значимости и робастности
Легко переноситься на другие заболевания и наборы данных

Основные вклады

Инновационный дизайн процесса: Предложен полный процесс кластеризации генов, включающий построение сети совместной экспрессии генов, вычисление встраивания Node2Vec+ и спектральную кластеризацию
Стратегия совместной оптимизации: Впервые все этапы процесса совместно оптимизируются, а не традиционно пошагово, с использованием TPE для оптимизации 9 гиперпараметров с целью максимизации метрики кластеризации DBCVI
Фреймворк верификации робастности: Разработан полный набор тестов, включающий:
- 100 повторных экспериментов для верификации согласованности
- Тест статистической значимости против случайных наборов генов
- Оценка стабильности кластеризации с использованием скорректированной взаимной информации (AMI)
Практичность и масштабируемость:
- Не требует дорогостоящих вычислительных ресурсов, таких как GPU
- Может беспрепятственно применяться к другим наборам данных RNA-Seq
- Предоставляет визуализированные результаты для использования медицинскими специалистами

Подробное описание метода

Определение задачи

Входные данные: Набор данных bulk mRNA-seq, содержащий nc=105 контрольных образцов и ns=61 пациентов с поздней стадией AMD, с акцентом на анализ 81 известного гена, связанного с AMD

Выходные данные: Кластеризация 81 гена в k* функционально сходных генных кластеров

Ограничения:

Необходимо обрабатывать различия в глубине секвенирования
Учитывать неопределенность стохастических процессов
Гарантировать статистическую значимость

Архитектура модели

Общий процесс разделен на четыре основных этапа:

1. Построение сети совместной экспрессии генов

Метод CS-CORE: Используется статистический метод CS-CORE для вычисления матрицы совместной экспрессии, который может корректировать различия в глубине секвенирования и более точен, чем коэффициент корреляции Пирсона
Построение графа:
- Узлы: 81 ген
- Ребра: Добавляются ненаправленные взвешенные ребра, когда абсолютное значение совместной экспрессии CS-CORE превышает пороговое значение τ
- Веса ребер: Коэффициенты совместной экспрессии CS-CORE

2. Встраивание генов Node2Vec+

Node2Vec+ является улучшением классического Node2Vec, лучше обрабатывающим взвешенные графы:

Первый этап: взвешенное смещенное случайное блуждание

Выбор якорного узла
Выполнение взвешенного смещенного случайного блуждания с учетом трех гиперпараметров:
- Гиперпараметр возврата p: Контролирует склонность возвращаться к посещенным узлам
- Гиперпараметр входа-выхода q: Контролирует склонность к исследованию новых областей
- Гиперпараметр релаксации γ: Установлен на 0 для обеспечения робастности
Запись последовательности посещенных узлов

Второй этап: Skip-Gram с отрицательной выборкой (SGNS)

Входные данные: Якорный узел
Метки: Соседние узлы
Обучение на 100 эпохах
Выполнение 32 768 случайных блужданий для генерации обучающих данных

Оптимизируемые гиперпараметры:

p, q: Поведение случайного блуждания
WL: Длина каждого блуждания
E: Размерность встраивания
WS: Размер окна
Ns: Количество отрицательных выборок на положительный образец

3. Спектральная кластеризация

Применяется метод Spectrum, специально разработанный для мультиомных данных:

Адаптивное ядро, чувствительное к плотности: Матрица сродства определяется как:

Aij = exp(- d²(si, sj) / (σiσj(CNN(sisj) + 1)))

где:

d(si, sj): Евклидово расстояние между узлами
σi, σj: Параметры локального масштаба (расстояние до P-го ближайшего соседа)
CNN(sisj): Размер пересечения S ближайших соседей si и sj

Оценка количества кластеров:

Построение диагональной матрицы D и нормализованной матрицы Лапласа графа: L = D^(-1/2)AD^(-1/2)
Собственное разложение для получения собственных векторов V и собственных значений Λ
Вычисление статистики dip test для каждого собственного вектора Z
Вычисление промежутка мультимодальности: di = zi - zi-1
Использование последнего значительного промежутка мультимодальности для определения оптимального количества кластеров k*

Финальная кластеризация:

Объединение первых k* собственных векторов в матрицу X
Нормализация строк для получения Y
Использование гауссовой смешанной модели (GMM) для кластеризации строк Y

Технические инновационные моменты

1. Совместная оптимизация vs пошаговая оптимизация

Традиционный метод:

Отдельная оптимизация построения сети → отдельная оптимизация встраивания → отдельная оптимизация кластеризации
Каждый шаг локально оптимален, но общий процесс не гарантирует оптимальность

Метод данной работы:

Определение единственной целевой функции: максимизация DBCVI (индекс валидации кластеризации на основе плотности)
Одновременная оптимизация 9 гиперпараметров
Использование TPE для байесовской оптимизации с 256 выборками
Каждая конфигурация повторяется 8 раз и усредняется для обработки стохастичности

2. Выбор Node2Vec+

По сравнению с классическим Node2Vec:

Учитывает веса ребер в двухпорядковом случайном блуждании
Показывает лучшие результаты на биологических сетях и наборах данных
Лучше подходит для характеристик сетей совместной экспрессии генов

3. Механизм гарантии робастности

Обработка стохастичности: Каждая конфигурация гиперпараметров повторяется 8 раз
Верификация согласованности: 100 повторений полного процесса
Статистическая проверка: Сравнение со 100 случайными наборами генов

Экспериментальная установка

Набор данных

Источник: Данные bulk mRNA-seq пациентов с AMD

Контрольная группа: 105 образцов (уровень 1 по системе классификации Minnesota)
Группа случаев: 61 пациент с поздней стадией AMD (уровень 4 по системе классификации Minnesota)
Анализируемые гены: 81 известный ген, связанный с AMD (предварительно идентифицированный и валидированный с помощью методов ML и анализа объяснимости SHAP)

Метрики оценки

1. DBCVI (индекс валидации кластеризации на основе плотности)

Применим к неконвексным алгоритмам кластеризации (таким как спектральная кластеризация)
Диапазон значений: чем выше, тем лучше
Служит целевой функцией для совместной оптимизации

2. AMI (скорректированная взаимная информация)

Оценивает согласованность между результатами кластеризации
Диапазон значений: от -1 до 1
Применима к малым кластерам и несбалансированным размерам кластеров

3. Статистическая проверка

Тест Колмогорова-Смирнова (K-S): Проверка различий в распределениях
Многовыборочный тест Андерсона-Дарлинга: Непараметрическая проверка

Методы сравнения

Случайные наборы генов: Случайная выборка 81 гена из всех генов, повторено 100 раз
Цель: Верификация того, что кластеризация генов, связанных с AMD, значительно лучше, чем случайные гены

Детали реализации

Пространство поиска гиперпараметров (таблица I):

Метод	Гиперпараметр	Пространство поиска	Оптимальное значение
Построение графа	τ	0.3, 0.5	0.4
Node2vec+	p	0.01, 100.0	0.35
	q	0.01, 100.0	11.66
	WL	10, 30	20
	E	2, 16	10
	WS	4, 10	10
	Ns	5, 15	7
Спектральная кластеризация	P	3, 7	7
	S	P+2, P+4	11

Конфигурация обучения:

Количество выборок TPE: 256
Повторения для каждой конфигурации: 8
Раунды обучения SGNS: 100 эпох
Количество случайных блужданий: 32 768
γ зафиксирован на 0

Результаты экспериментов

Основные результаты

1. Производительность оптимизации

DBCVI на этапе оптимизации: 0.99 (среднее значение по 8 испытаниям)
Средний DBCVI при 100 повторениях: 0.95
Оптимальная размерность встраивания: E = 10

2. Верификация робастности

Среднее значение AMI: 0.49
Дисперсия AMI: 0.022
Интерпретация: Результаты кластеризации показывают среднюю и высокую согласованность, что хорошо для небольших наборов данных с потенциальным шумом

3. Статистическая значимость

Гены AMD vs случайные гены:

Средний DBCVI генов AMD: 0.95
Средний DBCVI случайных генов: 0.84
Тест K-S: p = 2.68 × 10^(-25)
Тест Андерсона-Дарлинга: p < 0.001

Вывод: Качество кластеризации генов, связанных с AMD, значительно превосходит случайные наборы генов с чрезвычайно высокой статистической значимостью

Результаты визуализации

Использование UMAP для снижения размерности 10-мерного встраивания до 3-мерного для визуализации (рисунок 2)
Предоставление интерактивной HTML-визуализации (репозиторий кода)
Структура кластеризации четко различима, удобна для интерпретации медицинскими специалистами

Экспериментальные находки

1. Преимущества совместной оптимизации

По сравнению с пошаговой оптимизацией, совместная оптимизация производит более согласованные, робастные и оптимальные результаты кластеризации
Единственная целевая функция гарантирует глобальный оптимум, а не локальный

2. Влияние количества случайных блужданий

Большее количество случайных блужданий приводит к более высокому AMI
При достаточных вычислительных ресурсах можно увеличить количество случайных блужданий для дальнейшего повышения согласованности

3. Роль CS-CORE

По сравнению с коэффициентом корреляции Пирсона, CS-CORE генерирует более детальные сети совместной экспрессии
Корректирует различия в глубине секвенирования, снижая ложноположительные результаты

4. Влияние размера набора данных

Текущий набор данных имеет ограниченный размер выборки (166 образцов)
Большие наборы данных, как ожидается, будут производить более согласованные результаты и более высокий AMI

Связанные работы

1. Применение машинного обучения к данным RNA-Seq

Рак молочной железы: Многоклассовая логистическая регрессия для стратификации молекулярных подтипов 5
Колоректальный рак: Идентификация диагностических биомаркеров 15
AMD: ML для идентификации дифференциально экспрессируемых генов и независимых регуляторных наборов генов 14, 24, 29

2. Классические алгоритмы ML

Обучение с учителем: SVM, XGBoost
Обучение без учителя: SOM, k-means, иерархическая кластеризация
Снижение размерности: t-SNE, PCA

3. Глубокое обучение на основе графов

Графы знаний: Применение к транскриптомике 28
Node2Vec: Применение к меланоме и другим заболеваниям 30
GNN: Захват сложных зависимостей между генами 2

4. Преимущества данной работы по сравнению с связанными работами

Сквозная оптимизация: Впервые предложена совместная оптимизация всего процесса
Гарантии робастности: Систематический фреймворк статистической верификации
Практичность: Не требует GPU, легко применяется к другим наборам данных
Интерпретируемость: Предоставляет визуализированные результаты для клинического использования

Заключение и обсуждение

Основные выводы

Эффективность метода: Предложенный графический метод способен идентифицировать робастные и статистически значимые генные кластеры из данных RNA-Seq
Важность совместной оптимизации: Совместная оптимизация всех этапов процесса производит лучшие общие результаты, чем пошаговая оптимизация
Статистическая верификация: Качество кластеризации генов, связанных с AMD, значительно превосходит случайные наборы генов (p < 10^-20)
Робастность: Несмотря на наличие множественных стохастических процессов, 100 повторных экспериментов показывают среднюю и высокую согласованность (AMI = 0.49)
Масштабируемость: Метод может беспрепятственно применяться к другим заболеваниям и наборам данных RNA-Seq

Ограничения

1. Размер набора данных

Относительно ограниченный размер выборки (166 образцов)
Анализ только 81 предварительно идентифицированного гена
Большие наборы данных могут производить более стабильные результаты

2. Методы верификации

Отсутствие верификации на синтетических наборах данных с известными метками ground truth
Отсутствие экспериментальной биологической верификации

3. Вычислительные затраты

Хотя GPU не требуется, 256 выборок TPE × 8 повторений все еще требуют значительного времени
Увеличение количества случайных блужданий значительно увеличивает вычислительные затраты

4. Предположения метода

Предположение, что CS-CORE применим к данным bulk RNA-seq (первоначально разработан для данных одиночных клеток)
Предположение, что отношения между генами могут быть достаточно захвачены сетью совместной экспрессии

Направления будущих исследований

1. Верификация на синтетических данных

Использование синтетических наборов данных с известным ground truth для более строгой оценки, независимая верификация способности метода восстанавливать информационную структуру

2. Расширение на другие заболевания

Применение метода к наборам данных RNA-Seq других заболеваний для верификации универсальности

3. Экспериментальная верификация

Сотрудничество с молекулярными генетиками для экспериментальной лабораторной верификации идентифицированных генных кластеров

4. Улучшение метода

Исследование более эффективных алгоритмов оптимизации
Разработка стратегий адаптивной настройки количества случайных блужданий
Интеграция других омных данных (протеомика, метаболомика)

5. Клиническое применение

Разработка удобного для пользователя инструмента для клинических исследователей
Интеграция в процессы диагностики заболеваний и открытия мишеней для лекарств

Глубокая оценка

Преимущества

1. Инновационность метода (★★★★★)

Стратегия совместной оптимизации: Впервые реализована сквозная совместная оптимизация в процессе кластеризации генов, преодолевая ограничения традиционной пошаговой оптимизации
Техническая интеграция: Умелое объединение CS-CORE, Node2Vec+ и спектральной кластеризации, каждый компонент имеет достаточную теоретическую поддержку
Выбор алгоритма оптимизации: TPE как метод байесовской оптимизации более эффективен, чем поиск по сетке

2. Полнота экспериментов (★★★★☆)

Верификация робастности: 100 повторных экспериментов систематически оценивают согласованность
Статистическая значимость: Использование двойной проверки K-S и Андерсона-Дарлинга
Дизайн контроля: Сравнение со 100 случайными наборами генов доказывает специфичность метода
Недостаток: Отсутствие прямого сравнения с другими методами кластеризации генов

3. Убедительность результатов (★★★★☆)

Высокие баллы DBCVI: Среднее значение 0.95 указывает на отличное качество кластеризации
Чрезвычайно значимые p-значения: p < 10^-20 доказывает неслучайность результатов
Умеренный AMI: AMI 0.49 является разумным диапазоном для шумных данных
Визуализация: Визуализация UMAP с снижением размерности повышает интерпретируемость

4. Ясность написания (★★★★★)

Четкие диаграммы процесса (рисунок 1)
Стандартный псевдокод алгоритма (алгоритм 1)
Полная таблица гиперпараметров (таблица I)
Подробное описание методов, легко воспроизводимо

5. Практическая ценность (★★★★★)

Отсутствие дорогостоящего оборудования: Не зависит от GPU, снижает барьер входа
Открытый исходный код: Предоставляется репозиторий GitHub
Сильная переносимость: Совместная оптимизация гарантирует применимость к новым наборам данных
Клиническая релевантность: Непосредственно направлена на AMD, важное офтальмологическое заболевание

Недостатки

1. Ограничения метода

Предположение CS-CORE: Первоначально разработан для данных одиночных клеток, применимость к bulk данным не полностью верифицирована
Линейное встраивание: Node2Vec+ основан на поверхностном встраивании, может не захватить высоконелинейные отношения между генами
Статическая сеть: Не учитывает динамические сети, специфичные для времени или условий

2. Недостатки экспериментального дизайна

Отсутствие сравнения методов: Не проведено количественное сравнение с другими методами кластеризации генов (такими как WGCNA, иерархическая кластеризация)
Один набор данных: Верификация только на наборе данных AMD, универсальность не полностью доказана
Отсутствие ground truth: Отсутствие набора верификации с известными метками кластеризации

3. Недостаточный анализ

Биологическая интерпретация: Не проведен функциональный анализ обогащения или анализ путей идентифицированных генных кластеров
Количество кластеров: Не обсуждается конкретное количество идентифицированных кластеров k* и его биологическое значение
Чувствительность гиперпараметров: Не проведен анализ влияния изменений гиперпараметров на результаты

4. Вычислительная эффективность

Стоимость оптимизации: 256 выборок TPE × 8 повторений = 2048 обучений модели, относительно высокие вычислительные затраты
Масштабируемость: Для анализа тысяч генов в большом масштабе вычислительная сложность может стать узким местом

Оценка влияния

1. Вклад в область (★★★★☆)

Методологический вклад: Парадигма совместной оптимизации может вдохновить дизайн других биоинформатических процессов
Исследование AMD: Предоставляет новый инструмент для исследования функции генов AMD
Универсальный фреймворк: Может быть обобщен на другие заболевания и омные данные

2. Практическая ценность (★★★★★)

Открытие мишеней для лекарств: Генные кластеры могут направлять идентификацию новых мишеней для лекарств
Стратификация пациентов: Может использоваться для классификации подтипов пациентов с AMD
Генерирование гипотез: Предоставляет проверяемые гипотезы для экспериментальных биологов

3. Воспроизводимость (★★★★★)

Открытый исходный код: Полный репозиторий GitHub
Подробное описание: Достаточное описание методов и гиперпараметров
Доступные данные: Использование общедоступного набора данных AMD
Интерактивная визуализация: Предоставляются файлы HTML-визуализации

4. Потенциал цитирования (★★★★☆)

Методологическая инновация: Стратегия совместной оптимизации может быть широко цитирована
Прикладная ценность: Исследователи AMD и других заболеваний могут принять метод
Ограничение: Верификация на одном наборе данных может ограничить раннее цитирование

Применимые сценарии

1. Идеальные сценарии применения

Функциональная группировка известных генов, связанных с заболеванием: Когда имеется набор генов, связанных с заболеванием, необходимо понять их функциональную классификацию
Наборы генов среднего размера: Кластеризация десятков-сотен генов
Исследовательские исследования: Открытие потенциальных отношений и структур между генами
Сравнение между заболеваниями: Сравнение паттернов генных кластеров различных заболеваний

2. Менее подходящие сценарии

Масштаб всего генома: Анализ десятков тысяч генов может столкнуться с вычислительными узкими местами
Данные временных рядов: Текущий метод не учитывает временную динамику
Данные одиночных клеток: Хотя используется CS-CORE, общий процесс разработан для bulk данных
Требуется причинный вывод: Метод идентифицирует корреляции, а не причинные отношения

3. Расширенное применение

Сети взаимодействия белков: Может быть адаптирован к анализу сетей белков
Анализ метаболических путей: Может применяться к анализу сетей метаболитов
Интеграция мультиомных данных: Может быть расширен на интеграцию нескольких типов омных данных

Ключевые ссылки

10 Grover & Leskovec (2016): Оригинальная статья Node2vec, предложившая метод встраивания графов на основе случайного блуждания
13 Liu et al. (2023): Улучшенная версия Node2Vec+, учитывающая веса ребер в встраивании биологических сетей
12 John et al. (2020): Метод спектральной кластеризации Spectrum, предложивший адаптивное ядро, чувствительное к плотности, и многомодальный промежуток
26 Su et al. (2023): Метод CS-CORE, корректирующий оценку совместной экспрессии в RNA-seq одиночных клеток
14 Ma et al. (2025): Оригинальное исследование идентификации генов AMD, предоставившее 81 ген для анализа в данной работе
18 Moulavi et al. (2014): Метрика валидации кластеризации DBCVI, применимая к неконвексной кластеризации
3 Bergstra et al. (2013): Метод оптимизации гиперпараметров TPE

Резюме

Это высококачественная биоинформатическая статья с сильной методологической инновативностью и разумным экспериментальным дизайном. Главное достоинство - стратегия совместной оптимизации, преодолевающая ограничения традиционной пошаговой оптимизации и предоставляющая новую парадигму для дизайна процессов кластеризации генов. Верификация робастности полная, статистическая значимость очевидна, практическая ценность высока.

Основные недостатки: (1) отсутствие прямого сравнения с другими методами; (2) верификация только на одном наборе данных; (3) отсутствие функционального анализа генных кластеров. Рекомендуется, чтобы будущие работы проводили верификацию на множественных наборах данных и систематическое сравнение с традиционными методами (такими как WGCNA), а также добавили функциональную аннотацию и экспериментальную верификацию генных кластеров.

В целом, это высококачественная статья по вычислительной биологии, имеющая важное справочное значение для анализа данных RNA-Seq и исследований генов, связанных с заболеванием. Рекомендуемый рейтинг: 8.5/10