The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.
論文ID : 2511.09590タイトル : A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data著者 : Jake R. Patock (Rice University)、Rinki Ratnapriya (Baylor College of Medicine)、Arko Barman (Rice University)分類 : q-bio.GN (ゲノミクス)発表日時 : 2025年11月12日 (arXiv投稿)論文リンク : https://arxiv.org/abs/2511.09590 本研究は、RNA配列決定データから疾病関連遺伝子クラスタを同定するためのグラフベースの方法を提案している。本方法は、まず遺伝子共発現ネットワークを構築し、次にNode2Vec+アルゴリズムを利用して遺伝子埋め込みを計算し、最後にスペクトラルクラスタリングで遺伝子クラスタを同定する。全プロセスは、樹構造Parzen推定器(TPE)を通じて共同最適化され、安定性、堅牢性、最適性を確保する。本方法は、加齢黄斑変性(AMD)の81個の既知関連遺伝子のRNA-Seqデータセットに適用され、検証実験は本方法が一貫性があり堅牢なクラスタリング結果を生成できることを示している。
遺伝子発現制御は、遺伝的変異が人間の疾病リスクを仲介する主要なメカニズムとなっている。RNA-Seqデータセットから個々の疾病関連遺伝子を同定することは重要だが、疾病関連を有する遺伝子クラスタを同定することも同様に必要であり、以下に役立つ:
共有される生物学的経路またはプロセスの理解 潜在的な未発見遺伝子の同定 個々の遺伝子ではなく疾病メカニズムを標的とした治療 精密医療の必要性 : 遺伝子発現研究の知見を精密医療に転換する可能性は極めて大きいAMD研究のギャップ : いくつかのAMD関連遺伝子は発見されているが、大部分の遺伝率はまだ説明されていない臨床応用価値 : 新しい遺伝子関係の発見は、新しい薬物標的、患者リスク検査、改善された診断をもたらす可能性がある従来の統計的方法 : 仮説検定などの方法は、大規模データセットで容易にノイズ結果と偽陽性を生じさせる段階的最適化の問題 : 既存の方法は通常、各ステップ(ネットワーク構築、埋め込み計算、クラスタリング)を個別に最適化し、全体プロセスの最適性を保証できない堅牢性の不足 : ランダムプロセスの系統的検証が欠けているエンドツーエンドの共同最適化遺伝子クラスタリングプロセスを開発し、以下が可能である:
トランスクリプトームデータの高ノイズを処理する 局所最適ではなく全体プロセスの最適性を保証する 統計的有意性と堅牢性の保証を提供する 他の疾病とデータセットへの容易な移行 革新的なプロセス設計 : 遺伝子共発現ネットワーク構築、Node2Vec+埋め込み計算、スペクトラルクラスタリングを含む完全な遺伝子クラスタリングプロセスを提案共同最適化戦略 : 従来の段階的最適化ではなく、初めてすべてのプロセスステップを共同最適化し、TPEを使用して9つのハイパーパラメータを最適化してDBCVI クラスタリング指標を最大化堅牢性検証フレームワーク : 以下を含む完全なテスト計画を設計:100回の反復実験による一貫性検証 ランダム遺伝子セットとの統計的有意性検定 調整相互情報量(AMI)によるクラスタリング安定性評価 実用性と拡張性 :GPUなどの高価な計算リソースが不要 他のRNA-Seqデータセットへのシームレスな適用 医療専門家向けの可視化結果を提供 入力 : nc=105個の対照サンプルとns=61個のAMD後期患者を含むバルクmRNA-seqデータセット。その中の81個の既知AMD関連遺伝子に焦点を当てた分析
出力 : 81個の遺伝子を機能的に類似したk*個の遺伝子クラスタに分類
制約条件 :
配列決定深度の差異を処理する必要がある ランダムプロセスの不確実性を考慮する 統計的有意性を保証する 全体プロセスは4つの主要段階に分かれている:
CS-CORE方法 : CS-CORE統計方法を使用して共発現マトリックスを計算。この方法は配列決定深度の差異を補正でき、Pearson相関係数と比較してより正確であるグラフ構築 :
ノード: 81個の遺伝子 エッジ: CS-CORE共発現値の絶対値が閾値τを超える場合に無向加重エッジを追加 エッジ重み: CS-CORE共発現係数 Node2Vec+は古典的なNode2Vecの改善版で、加重グラフをより良く処理する:
第1段階: 加重偏向ランダムウォーク
アンカーノードを選択 加重偏向ランダムウォークを実行。3つのハイパーパラメータを考慮:
リターンハイパーパラメータp: 訪問済みノードに戻る傾向を制御 出入りハイパーパラメータq: 新しい領域を探索する傾向を制御 緩和ハイパーパラメータγ: 堅牢性を保証するため0に設定 訪問ノードシーケンスを記録 第2段階: 負のサンプリングを伴うSkip-Gram (SGNS)
入力: アンカーノード ラベル: 隣接ノード 100エポック訓練 32,768回のランダムウォークを実行して訓練データを生成 最適化されたハイパーパラメータ :
p、q: ランダムウォークの動作 WL: 各ウォークの長さ E: 埋め込み次元 WS: ウィンドウサイズ Ns: 各正サンプルの負サンプリング数 マルチオミクスデータ用に設計されたSpectrum方法を採用:
適応密度認識カーネル :
親和性マトリックスは以下のように定義される:
Aij = exp(- d²(si, sj) / (σiσj(CNN(sisj) + 1)))
ここで:
d(si, sj): ノード間のユークリッド距離 σi, σj: 局所スケールパラメータ(P番目の最近傍までの距離) CNN(sisj): siとsjのS個の最近傍の交集合のサイズ クラスタ数推定 :
対角マトリックスDと正規化グラフラプラシアンマトリックスを構築: L = D^(-1/2)AD^(-1/2) 固有分解により固有ベクトルVと固有値Λを得る 各固有ベクトルのdip test統計量Zを計算 マルチモーダルギャップを計算: di = zi - zi-1 最後の有意なマルチモーダルギャップを使用して最適クラスタ数k*を決定 最終クラスタリング :
前k*個の固有ベクトルをスタックしてマトリックスXを形成 行正規化してYを得る ガウス混合モデル(GMM)を使用してYの行をクラスタリング 従来の方法 :
ネットワーク構築を個別に最適化 → 埋め込みを個別に最適化 → クラスタリングを個別に最適化 各ステップは局所最適だが、全体は最適性を保証しない 本論文の方法 :
単一の目的関数を定義: DBCVI(密度ベースのクラスタリング検証指標)を最大化 9つのハイパーパラメータを同時に最適化 ベイズ最適化にTPEを使用。256回のサンプリング ランダム性を処理するため各構成を8回繰り返して平均化 古典的なNode2Vecと比較:
エッジ重みを考慮した2次ランダムウォーク 生物学的ネットワークとデータセットでより良い効果 遺伝子共発現ネットワークの特性に適している ランダム性の処理 : 各ハイパーパラメータ構成を8回繰り返す一貫性検証 : 100回の完全なプロセス反復統計検定 : 100個のランダム遺伝子セットとの比較出典 : AMD患者のバルクmRNA-seqデータ
対照群 : 105個のサンプル(Minnesota分級システムグレード1)症例群 : 61個のAMD後期患者(Minnesota分級システムグレード4)分析遺伝子 : 81個の既知AMD関連遺伝子(ML方法とSHAP解釈可能性分析により事前に同定・検証)非凸クラスタリングアルゴリズム(スペクトラルクラスタリングなど)に適用可能 値の範囲: より高いほど良い 共同最適化の目的関数として機能 クラスタリング結果間の一貫性を評価 値の範囲: -1から1 小さなクラスタと不均衡なクラスタサイズの場合に適用可能 Kolmogorov-Smirnov (K-S) 検定 : 分布差異を検定k-サンプルAnderson-Darling検定 : ノンパラメトリック検定ランダム遺伝子セット : 全遺伝子から81個の遺伝子をランダムに抽出。100回繰り返す目的: AMD関連遺伝子のクラスタリングがランダム遺伝子より有意に優れていることを検証 ハイパーパラメータ探索空間 (表I):
方法 ハイパーパラメータ 探索空間 最適値 グラフ構築 τ 0.3, 0.5 0.4 Node2vec+ p 0.01, 100.0 0.35 q 0.01, 100.0 11.66 WL 10, 30 20 E 2, 16 10 WS 4, 10 10 Ns 5, 15 7 スペクトラルクラスタリング P 3, 7 7 S P+2, P+4 11
訓練構成 :
TPEサンプリング回数: 256回 各構成の繰り返し: 8回 SGNS訓練ラウンド: 100エポック ランダムウォーク回数: 32,768回 γは0に固定 最適化段階DBCVI : 0.99(8回の試験平均)100回反復の平均DBCVI : 0.95最適埋め込み次元 : E = 10AMI平均値 : 0.49AMI分散 : 0.022解釈 : クラスタリング結果は中程度から高度の一貫性を示し、小規模でノイズが存在する可能性のあるデータセットで良好な性能を発揮AMD遺伝子対ランダム遺伝子 :
AMD遺伝子平均DBCVI: 0.95 ランダム遺伝子平均DBCVI: 0.84 K-S検定: p = 2.68 × 10^(-25) Anderson-Darling検定: p < 0.001 結論 : AMD関連遺伝子のクラスタリング品質はランダム遺伝子セットより有意に優れており、差異は極めて高い統計的有意性を有する
UMAPを使用して10次元埋め込みを3次元に低次元化して可視化(図2) インタラクティブなHTML可視化を提供(コードリポジトリ) クラスタリング構造は明確に識別可能で、医療専門家による解釈に便利 段階的最適化と比較して、共同最適化はより一貫性があり、堅牢で最適なクラスタリング結果を生成 単一の成本関数は全体最適を保証し、局所最適ではない より多くのランダムウォークはより高いAMIをもたらす 計算リソースが十分な場合、ランダムウォーク回数を増加させてさらに一貫性を向上させることができる Pearson相関係数と比較して、CS-COREはより細かい共発現ネットワークを生成 配列決定深度の差異を補正し、偽陽性を低減 現在のデータセットのサンプルサイズは限定的(166個のサンプル) より大きなデータセットはより一貫性のある結果とより高いAMIをもたらすと予想される 乳がん : 分子亜型階層化のための多クラスロジスティック回帰 5 結腸直腸がん : 診断バイオマーカーの同定 15 AMD : ML差異発現遺伝子と独立調節遺伝子セットの同定 14 , 24 , 29 教師あり学習 : SVM、XGBoost教師なし学習 : SOM、k-means、階層的クラスタリング次元削減 : t-SNE、PCA知識グラフ : トランスクリプトミクスへの応用 28 Node2Vec : メラノーマなどの疾病への応用 30 GNN : 複雑な遺伝子間依存関係の捕捉 2 エンドツーエンド最適化 : 初めて全プロセスの共同最適化を提案堅牢性保証 : 系統的な統計検証フレームワーク実用性 : GPU不要で、他のデータセットへの容易な適用解釈可能性 : 臨床使用のための可視化結果を提供方法の有効性 : 提案されたグラフベースの方法はRNA-Seqデータから堅牢で統計的に有意な遺伝子クラスタを同定できる共同最適化の重要性 : 全プロセスステップの共同最適化は段階的最適化より優れた全体的結果を生成統計検証 : AMD関連遺伝子のクラスタリング品質はランダム遺伝子セットより有意に優れている(p < 10^-20)堅牢性 : 複数のランダムプロセスが関与しているにもかかわらず、100回の反復実験は中程度から高度の一貫性を示す(AMI = 0.49)拡張性 : 本方法は他の疾病とRNA-Seqデータセットへのシームレスな適用が可能サンプルサイズが相対的に限定的(166個のサンプル) 81個の事前に同定された遺伝子のみを分析 より大規模なデータセットはより安定した結果をもたらす可能性がある 既知のグラウンドトゥルースラベルを持つ合成データセットによる検証が欠けている 実験室生物学的検証が実施されていない GPUは不要だが、256回のTPEサンプリング × 8回の繰り返しはまだ長時間を要する ランダムウォーク回数の増加は計算コストを大幅に増加させる CS-COREがバルクRNA-seqデータに適用可能と仮定(元々単細胞データ用に設計) 遺伝子間関係が共発現ネットワークで十分に捕捉可能と仮定 既知のグラウンドトゥルースを持つ合成データセットを使用してより厳密な評価を実施。方法の情報構造復元能力を独立して検証
本方法を他の疾病のRNA-Seqデータセットに適用し、汎用性を検証
分子遺伝学者と協力して、同定された遺伝子クラスタの実験室検証を実施
より効率的な最適化アルゴリズムの探索 ランダムウォーク回数を適応的に調整する戦略の研究 他のオミクスデータ(プロテオミクス、メタボロミクス)の統合 臨床研究者向けのユーザーフレンドリーなツールの開発 疾病診断と薬物標的発見プロセスへの統合 共同最適化戦略 : 遺伝子クラスタリングプロセスで初めてエンドツーエンド共同最適化を実現。従来の段階的最適化の制限を突破技術統合 : CS-CORE、Node2Vec+、スペクトラルクラスタリングを巧みに結合。各コンポーネントは十分な理論的支持を有する最適化アルゴリズムの選択 : ベイズ最適化方法としてのTPEはグリッドサーチより効率的堅牢性検証 : 100回の反復実験による系統的な一貫性評価統計的有意性 : K-Sおよびanderson-Darling二重検定を使用対照設計 : 100個のランダム遺伝子セットとの比較により、方法の特異性を証明欠点 : 他の遺伝子クラスタリング方法との直接比較が欠けている高いDBCVI スコア : 0.95の平均スコアはクラスタリング品質が優秀であることを示す極めて有意なp値 : p < 10^-20は結果が非ランダムであることを証明適度なAMI : ノイズデータにおける0.49のAMIは合理的な範囲内可視化 : UMAP低次元化可視化は解釈可能性を向上させるプロセスフロー図が明確(図1) アルゴリズム疑似コードが規範的(Algorithm 1) ハイパーパラメータ表が完全(表I) 方法説明が詳細で復現が容易 高価なハードウェアが不要 : GPUに依存しない。使用のハードルを低減コードがオープンソース : GitHubリポジトリを提供移行可能性が強い : 共同最適化は新しいデータセットでの適用性を保証臨床関連 : AMD という重要な眼科疾患に直接対応CS-CORE仮定 : 元々単細胞データ用に設計。バルクデータでの適用可能性が十分に検証されていない線形埋め込み : Node2Vec+は浅層埋め込みに基づき、高度に非線形な遺伝子関係を捕捉できない可能性がある静的ネットワーク : 時間または条件特異的な動的ネットワークを考慮していない方法比較の欠落 : 他の遺伝子クラスタリング方法(WGCNA、階層的クラスタリングなど)との定量的比較がない単一データセット : AMD データセットのみで検証。汎化能力が十分に証明されていないグラウンドトゥルースなし : 既知のクラスタリングラベルを持つ検証セットが欠けている生物学的解釈 : 同定された遺伝子クラスタの機能富集分析または経路分析が実施されていないクラスタ数 : 同定された具体的なクラスタ数k*とその生物学的意義について議論されていないハイパーパラメータ感度 : ハイパーパラメータ変化が結果に与える影響の分析がない最適化コスト : 256回のTPEサンプリング × 8回の繰り返し = 2048回のモデル訓練。計算コストが比較的高いスケーラビリティ : 数千個の遺伝子の大規模分析では、計算複雑性がボトルネックになる可能性がある方法論的貢献 : 共同最適化パラダイムは他の生物情報学プロセス設計に触発を与える可能性があるAMD研究 : AMD遺伝子機能研究に新しいツールを提供汎用フレームワーク : 他の疾病とオミクスデータへの推広が可能薬物標的発見 : 遺伝子クラスタは新しい薬物標的の同定を指導する可能性がある患者層別化 : AMD患者の亜型分類に使用される可能性がある仮説生成 : 実験生物学者に検証可能な仮説を提供コードがオープンソース : 完全なGitHubリポジトリ詳細な説明 : 方法とハイパーパラメータの説明が充分データが利用可能 : 公開AMD データセットを使用インタラクティブ可視化 : HTML可視化ファイルを提供方法の革新性 : 共同最適化戦略は広く引用される可能性がある応用価値 : AMD および他の疾病研究者が採用する可能性がある制限 : 単一データセット検証は初期引用を制限する可能性がある既知の疾病関連遺伝子の機能分類 : 疾病関連遺伝子のグループがあり、その機能分類を理解する必要がある場合中小規模遺伝子セット : 数十から数百個の遺伝子のクラスタリング分析探索的研究 : 遺伝子間の潜在的関係と構造の発見多疾病比較 : 異なる疾病の遺伝子クラスタパターンの比較全ゲノム規模 : 数万個の遺伝子の分析は計算ボトルネックに直面する可能性がある時系列データ : 現在の方法は時間動態を考慮していない単細胞データ : CS-COREを使用しているが、全体プロセスはバルクデータ用に設計因果推論が必要 : 方法は相関を同定し、因果関係ではないタンパク質相互作用ネットワーク : タンパク質ネットワーク分析に適応可能代謝経路分析 : 代謝物ネットワークに適用可能マルチオミクス統合 : 複数のオミクスデータの統合に拡張可能10 Grover & Leskovec (2016) : Node2vec原論文。ランダムウォークベースのグラフ埋め込み方法を提案13 Liu et al. (2023) : Node2Vec+改善版。生物学的ネットワーク埋め込みでエッジ重みを考慮12 John et al. (2020) : Spectrumスペクトラルクラスタリング方法。適応密度カーネルとマルチモーダルギャップを提案26 Su et al. (2023) : CS-CORE方法。単細胞RNA-seqの共発現推定を補正14 Ma et al. (2025) : 元のAMD遺伝子同定研究。本論文の分析に使用される81個の遺伝子を提供18 Moulavi et al. (2014) : DBCVIクラスタリング検証指標。非凸クラスタリングに適用可能3 Bergstra et al. (2013) : TPEハイパーパラメータ最適化方法これは方法論の革新性が強く、実験設計が合理的な生物情報学論文である。最大の亮点は共同最適化戦略 で、従来の段階的最適化の制限を突破し、遺伝子クラスタリングプロセス設計に新しいパラダイムを提供する。堅牢性検証は充分で、統計的有意性は明白で、実用的価値は高い。
主な不足は: (1)他の方法との直接比較が欠けている; (2)単一データセットのみで検証; (3)生物学的機能分析が欠けている。今後の研究では複数のデータセットでの検証を推奨し、従来の方法(WGCNA など)との系統的比較を行い、遺伝子クラスタの機能注釈と実験検証を増加させることを提案する。
全体として、これはRNA-Seq データ分析と疾病遺伝子研究に重要な参考価値を有する高品質な計算生物学論文である。推奨指数: 8.5/10