2025-11-30T11:01:19.099104

A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data

Patock, Ratnapriya, Barman

The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.

academic

RNA配列データからの遺伝子クラスタ同定のための図形的方法

基本情報

論文ID: 2511.09590
タイトル: A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
著者: Jake R. Patock (Rice University)、Rinki Ratnapriya (Baylor College of Medicine)、Arko Barman (Rice University)
分類: q-bio.GN (ゲノミクス)
発表日時: 2025年11月12日 (arXiv投稿)
論文リンク: https://arxiv.org/abs/2511.09590

要約

本研究は、RNA配列決定データから疾病関連遺伝子クラスタを同定するためのグラフベースの方法を提案している。本方法は、まず遺伝子共発現ネットワークを構築し、次にNode2Vec+アルゴリズムを利用して遺伝子埋め込みを計算し、最後にスペクトラルクラスタリングで遺伝子クラスタを同定する。全プロセスは、樹構造Parzen推定器(TPE)を通じて共同最適化され、安定性、堅牢性、最適性を確保する。本方法は、加齢黄斑変性(AMD)の81個の既知関連遺伝子のRNA-Seqデータセットに適用され、検証実験は本方法が一貫性があり堅牢なクラスタリング結果を生成できることを示している。

研究背景と動機

1. 研究課題

遺伝子発現制御は、遺伝的変異が人間の疾病リスクを仲介する主要なメカニズムとなっている。RNA-Seqデータセットから個々の疾病関連遺伝子を同定することは重要だが、疾病関連を有する遺伝子クラスタを同定することも同様に必要であり、以下に役立つ:

共有される生物学的経路またはプロセスの理解
潜在的な未発見遺伝子の同定
個々の遺伝子ではなく疾病メカニズムを標的とした治療

2. 問題の重要性

精密医療の必要性: 遺伝子発現研究の知見を精密医療に転換する可能性は極めて大きい
AMD研究のギャップ: いくつかのAMD関連遺伝子は発見されているが、大部分の遺伝率はまだ説明されていない
臨床応用価値: 新しい遺伝子関係の発見は、新しい薬物標的、患者リスク検査、改善された診断をもたらす可能性がある

3. 既存方法の制限

従来の統計的方法: 仮説検定などの方法は、大規模データセットで容易にノイズ結果と偽陽性を生じさせる
段階的最適化の問題: 既存の方法は通常、各ステップ(ネットワーク構築、埋め込み計算、クラスタリング)を個別に最適化し、全体プロセスの最適性を保証できない
堅牢性の不足: ランダムプロセスの系統的検証が欠けている

4. 研究動機

エンドツーエンドの共同最適化遺伝子クラスタリングプロセスを開発し、以下が可能である:

トランスクリプトームデータの高ノイズを処理する
局所最適ではなく全体プロセスの最適性を保証する
統計的有意性と堅牢性の保証を提供する
他の疾病とデータセットへの容易な移行

核心的貢献

革新的なプロセス設計: 遺伝子共発現ネットワーク構築、Node2Vec+埋め込み計算、スペクトラルクラスタリングを含む完全な遺伝子クラスタリングプロセスを提案
共同最適化戦略: 従来の段階的最適化ではなく、初めてすべてのプロセスステップを共同最適化し、TPEを使用して9つのハイパーパラメータを最適化してDBCVI クラスタリング指標を最大化
堅牢性検証フレームワーク: 以下を含む完全なテスト計画を設計:
- 100回の反復実験による一貫性検証
- ランダム遺伝子セットとの統計的有意性検定
- 調整相互情報量(AMI)によるクラスタリング安定性評価
実用性と拡張性:
- GPUなどの高価な計算リソースが不要
- 他のRNA-Seqデータセットへのシームレスな適用
- 医療専門家向けの可視化結果を提供

方法の詳細説明

タスク定義

入力: nc=105個の対照サンプルとns=61個のAMD後期患者を含むバルクmRNA-seqデータセット。その中の81個の既知AMD関連遺伝子に焦点を当てた分析

出力: 81個の遺伝子を機能的に類似したk*個の遺伝子クラスタに分類

制約条件:

配列決定深度の差異を処理する必要がある
ランダムプロセスの不確実性を考慮する
統計的有意性を保証する

モデルアーキテクチャ

全体プロセスは4つの主要段階に分かれている:

1. 遺伝子共発現ネットワーク構築

CS-CORE方法: CS-CORE統計方法を使用して共発現マトリックスを計算。この方法は配列決定深度の差異を補正でき、Pearson相関係数と比較してより正確である
グラフ構築:
- ノード: 81個の遺伝子
- エッジ: CS-CORE共発現値の絶対値が閾値τを超える場合に無向加重エッジを追加
- エッジ重み: CS-CORE共発現係数

2. Node2Vec+遺伝子埋め込み

Node2Vec+は古典的なNode2Vecの改善版で、加重グラフをより良く処理する:

第1段階: 加重偏向ランダムウォーク

アンカーノードを選択
加重偏向ランダムウォークを実行。3つのハイパーパラメータを考慮:
- リターンハイパーパラメータp: 訪問済みノードに戻る傾向を制御
- 出入りハイパーパラメータq: 新しい領域を探索する傾向を制御
- 緩和ハイパーパラメータγ: 堅牢性を保証するため0に設定
訪問ノードシーケンスを記録

第2段階: 負のサンプリングを伴うSkip-Gram (SGNS)

入力: アンカーノード
ラベル: 隣接ノード
100エポック訓練
32,768回のランダムウォークを実行して訓練データを生成

最適化されたハイパーパラメータ:

p、q: ランダムウォークの動作
WL: 各ウォークの長さ
E: 埋め込み次元
WS: ウィンドウサイズ
Ns: 各正サンプルの負サンプリング数

3. スペクトラルクラスタリング

マルチオミクスデータ用に設計されたSpectrum方法を採用:

適応密度認識カーネル: 親和性マトリックスは以下のように定義される:

Aij = exp(- d²(si, sj) / (σiσj(CNN(sisj) + 1)))

ここで:

d(si, sj): ノード間のユークリッド距離
σi, σj: 局所スケールパラメータ(P番目の最近傍までの距離)
CNN(sisj): siとsjのS個の最近傍の交集合のサイズ

クラスタ数推定:

対角マトリックスDと正規化グラフラプラシアンマトリックスを構築: L = D^(-1/2)AD^(-1/2)
固有分解により固有ベクトルVと固有値Λを得る
各固有ベクトルのdip test統計量Zを計算
マルチモーダルギャップを計算: di = zi - zi-1
最後の有意なマルチモーダルギャップを使用して最適クラスタ数k*を決定

最終クラスタリング:

前k*個の固有ベクトルをスタックしてマトリックスXを形成
行正規化してYを得る
ガウス混合モデル(GMM)を使用してYの行をクラスタリング

技術的革新点

1. 共同最適化対段階的最適化

従来の方法:

ネットワーク構築を個別に最適化 → 埋め込みを個別に最適化 → クラスタリングを個別に最適化
各ステップは局所最適だが、全体は最適性を保証しない

本論文の方法:

単一の目的関数を定義: DBCVI(密度ベースのクラスタリング検証指標)を最大化
9つのハイパーパラメータを同時に最適化
ベイズ最適化にTPEを使用。256回のサンプリング
ランダム性を処理するため各構成を8回繰り返して平均化

2. Node2Vec+の選択

古典的なNode2Vecと比較:

エッジ重みを考慮した2次ランダムウォーク
生物学的ネットワークとデータセットでより良い効果
遺伝子共発現ネットワークの特性に適している

3. 堅牢性保証メカニズム

ランダム性の処理: 各ハイパーパラメータ構成を8回繰り返す
一貫性検証: 100回の完全なプロセス反復
統計検定: 100個のランダム遺伝子セットとの比較

実験設定

データセット

出典: AMD患者のバルクmRNA-seqデータ

対照群: 105個のサンプル(Minnesota分級システムグレード1)
症例群: 61個のAMD後期患者(Minnesota分級システムグレード4)
分析遺伝子: 81個の既知AMD関連遺伝子(ML方法とSHAP解釈可能性分析により事前に同定・検証)

評価指標

1. DBCVI (密度ベースのクラスタリング検証指標)

非凸クラスタリングアルゴリズム(スペクトラルクラスタリングなど)に適用可能
値の範囲: より高いほど良い
共同最適化の目的関数として機能

2. AMI (調整相互情報量)

クラスタリング結果間の一貫性を評価
値の範囲: -1から1
小さなクラスタと不均衡なクラスタサイズの場合に適用可能

3. 統計検定

Kolmogorov-Smirnov (K-S) 検定: 分布差異を検定
k-サンプルAnderson-Darling検定: ノンパラメトリック検定

比較方法

ランダム遺伝子セット: 全遺伝子から81個の遺伝子をランダムに抽出。100回繰り返す
目的: AMD関連遺伝子のクラスタリングがランダム遺伝子より有意に優れていることを検証

実装の詳細

ハイパーパラメータ探索空間(表I):

方法	ハイパーパラメータ	探索空間	最適値
グラフ構築	τ	0.3, 0.5	0.4
Node2vec+	p	0.01, 100.0	0.35
	q	0.01, 100.0	11.66
	WL	10, 30	20
	E	2, 16	10
	WS	4, 10	10
	Ns	5, 15	7
スペクトラルクラスタリング	P	3, 7	7
	S	P+2, P+4	11