2025-11-30T11:01:19.099104

A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data

Patock, Ratnapriya, Barman
The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.
academic

A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data

基本信息

  • 论文ID: 2511.09590
  • 标题: A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
  • 作者: Jake R. Patock (Rice University), Rinki Ratnapriya (Baylor College of Medicine), Arko Barman (Rice University)
  • 分类: q-bio.GN (Genomics)
  • 发表时间: 2025年11月12日 (arXiv提交)
  • 论文链接: https://arxiv.org/abs/2511.09590

摘要

本研究提出了一种基于图的方法,用于从RNA测序数据中识别与疾病相关的基因簇。该方法首先构建基因共表达网络,然后利用Node2Vec+算法计算基因嵌入,最后通过谱聚类识别基因簇。所有流程通过树结构Parzen估计器(TPE)进行联合优化,以确保稳定性、鲁棒性和最优性。该方法应用于年龄相关性黄斑变性(AMD)的81个已知相关基因的RNA-Seq数据集,验证实验表明该方法能够生成一致且鲁棒的聚类结果。

研究背景与动机

1. 研究问题

基因表达调控已成为遗传变异介导人类疾病风险的关键机制。虽然从RNA-Seq数据集中识别单个疾病相关基因很重要,但识别具有疾病关系的基因簇同样必要,这有助于:

  • 理解共享的生物学通路或过程
  • 识别潜在的未发现基因
  • 针对疾病机制而非单个基因进行治疗

2. 问题重要性

  • 精准医疗需求:基因表达研究的发现转化为精准医疗具有巨大潜力
  • AMD研究缺口:虽然已发现一些AMD相关基因,但大部分遗传力仍未解释
  • 临床应用价值:发现新的基因关系可以带来新的药物靶点、患者风险测试和改进诊断

3. 现有方法的局限性

  • 传统统计方法:假设检验等方法在大规模数据集中容易产生噪声结果和假阳性
  • 分步优化问题:现有方法通常单独优化各个步骤(网络构建、嵌入计算、聚类),无法保证整体流程的最优性
  • 鲁棒性不足:缺乏对随机性过程的系统性验证

4. 研究动机

开发一个端到端的、联合优化的基因聚类流程,能够:

  • 处理转录组数据中的高噪声
  • 保证整体流程的最优性而非局部最优
  • 提供统计显著性和鲁棒性保证
  • 易于迁移到其他疾病和数据集

核心贡献

  1. 创新性流程设计:提出了一个完整的基因聚类流程,包括基因共表达网络构建、Node2Vec+嵌入计算和谱聚类
  2. 联合优化策略:首次将所有流程步骤进行联合优化,而非传统的分步优化,使用TPE优化9个超参数以最大化DBCVI聚类指标
  3. 鲁棒性验证框架:设计了一套完整的测试方案,包括:
    • 100次重复实验验证一致性
    • 与随机基因集的统计显著性检验
    • 调整互信息(AMI)评估聚类稳定性
  4. 实用性和可扩展性
    • 无需GPU等昂贵计算资源
    • 可无缝应用于其他RNA-Seq数据集
    • 提供可视化结果供医学专业人员使用

方法详解

任务定义

输入:包含nc=105个对照样本和ns=61个AMD晚期患者的bulk mRNA-seq数据集,重点分析其中81个已知AMD相关基因

输出:将81个基因聚类成k*个功能相似的基因簇

约束条件

  • 需要处理测序深度差异
  • 考虑随机过程的不确定性
  • 保证统计显著性

模型架构

整体流程分为四个主要阶段:

1. 基因共表达网络构建

  • CS-CORE方法:使用CS-CORE统计方法计算共表达矩阵,该方法能够校正测序深度差异,相比Pearson相关系数更准确
  • 图构建
    • 节点:81个基因
    • 边:当CS-CORE共表达值的绝对值大于阈值τ时添加无向加权边
    • 边权重:CS-CORE共表达系数

2. Node2Vec+基因嵌入

Node2Vec+是对经典Node2Vec的改进,更好地处理加权图:

第一阶段:加权偏向随机游走

  • 选择锚节点
  • 执行加权偏向随机游走,考虑三个超参数:
    • 返回超参数p:控制返回已访问节点的倾向
    • 进出超参数q:控制探索新区域的倾向
    • 松弛超参数γ:设为0以保证鲁棒性
  • 记录访问节点序列

第二阶段:Skip-Gram with Negative Sampling (SGNS)

  • 输入:锚节点
  • 标签:邻居节点
  • 训练100个epoch
  • 执行32,768次随机游走生成训练数据

优化的超参数

  • p, q:随机游走行为
  • WL:每次游走的长度
  • E:嵌入维度
  • WS:窗口大小
  • Ns:每个正样本的负采样数

3. 谱聚类

采用Spectrum方法,专为多组学数据设计:

自适应密度感知核: 亲和度矩阵定义为:

Aij = exp(- d²(si, sj) / (σiσj(CNN(sisj) + 1)))

其中:

  • d(si, sj):节点间欧氏距离
  • σi, σj:局部尺度参数(到第P个最近邻的距离)
  • CNN(sisj):si和sj的S个最近邻的交集大小

聚类数估计

  • 构建对角矩阵D和归一化图拉普拉斯矩阵:L = D^(-1/2)AD^(-1/2)
  • 特征分解得到特征向量V和特征值Λ
  • 计算每个特征向量的dip test统计量Z
  • 计算多模态间隙:di = zi - zi-1
  • 使用最后一个显著多模态间隙确定最优聚类数k*

最终聚类

  • 堆叠前k*个特征向量形成矩阵X
  • 行归一化得到Y
  • 使用高斯混合模型(GMM)对Y的行进行聚类

技术创新点

1. 联合优化vs分步优化

传统方法

  • 单独优化网络构建 → 单独优化嵌入 → 单独优化聚类
  • 每步局部最优,但整体不保证最优

本文方法

  • 定义单一目标函数:最大化DBCVI(基于密度的聚类验证指数)
  • 同时优化9个超参数
  • 使用TPE进行贝叶斯优化,256次采样
  • 每个配置重复8次取平均以处理随机性

2. Node2Vec+的选择

相比经典Node2Vec:

  • 考虑边权重的二阶随机游走
  • 对生物网络和数据集效果更好
  • 更适合基因共表达网络的特性

3. 鲁棒性保证机制

  • 处理随机性:每个超参数配置重复8次
  • 验证一致性:100次完整流程重复
  • 统计检验:与100个随机基因集对比

实验设置

数据集

来源:AMD患者的bulk mRNA-seq数据

  • 对照组:105个样本(Minnesota分级系统1级)
  • 病例组:61个AMD晚期患者(Minnesota分级系统4级)
  • 分析基因:81个已知AMD相关基因(通过ML方法和SHAP解释性分析预先识别并验证)

评价指标

1. DBCVI (Density-Based Clustering Validation Index)

  • 适用于非凸聚类算法(如谱聚类)
  • 取值范围:越高越好
  • 作为联合优化的目标函数

2. AMI (Adjusted Mutual Information)

  • 评估聚类结果之间的一致性
  • 取值范围:-1到1
  • 适用于小簇和不平衡簇大小的情况

3. 统计检验

  • Kolmogorov-Smirnov (K-S) test:检验分布差异
  • k-sample Anderson-Darling test:非参数检验

对比方法

  • 随机基因集:从全部基因中随机抽取81个基因,重复100次
  • 目的:验证AMD相关基因的聚类显著优于随机基因

实现细节

超参数搜索空间(表I):

方法超参数搜索空间最优值
图构建τ0.3, 0.50.4
Node2vec+p0.01, 100.00.35
q0.01, 100.011.66
WL10, 3020
E2, 1610
WS4, 1010
Ns5, 157
谱聚类P3, 77
SP+2, P+411

训练配置

  • TPE采样次数:256次
  • 每个配置重复:8次
  • SGNS训练轮数:100 epochs
  • 随机游走次数:32,768次
  • γ固定为0

实验结果

主要结果

1. 优化性能

  • 优化阶段DBCVI:0.99(8次试验平均)
  • 100次重复平均DBCVI:0.95
  • 最优嵌入维度:E = 10

2. 鲁棒性验证

  • AMI均值:0.49
  • AMI方差:0.022
  • 解读:聚类结果显示中等到高度的一致性,对于小规模且可能存在噪声的数据集表现良好

3. 统计显著性

AMD基因 vs 随机基因

  • AMD基因平均DBCVI:0.95
  • 随机基因平均DBCVI:0.84
  • K-S检验:p = 2.68 × 10^(-25)
  • Anderson-Darling检验:p < 0.001

结论:AMD相关基因的聚类质量显著优于随机基因集,差异具有极高的统计显著性

可视化结果

  • 使用UMAP将10维嵌入降至3维进行可视化(图2)
  • 提供交互式HTML可视化(代码仓库)
  • 聚类结构清晰可辨,便于医学专业人员解读

实验发现

1. 联合优化的优势

  • 相比分步优化,联合优化产生更一致、鲁棒和最优的聚类结果
  • 单一成本函数确保全局最优而非局部最优

2. 随机游走次数的影响

  • 更多的随机游走导致更高的AMI
  • 在计算资源充足时,可以增加随机游走次数进一步提升一致性

3. CS-CORE的作用

  • 相比Pearson相关系数,CS-CORE生成更精细的共表达网络
  • 校正测序深度差异,减少假阳性

4. 数据集规模的影响

  • 当前数据集样本量有限(166个样本)
  • 更大的数据集预期会产生更一致的结果和更高的AMI

相关工作

1. RNA-Seq数据的机器学习应用

  • 乳腺癌:多类逻辑回归进行分子亚型分层 5
  • 结直肠癌:识别诊断生物标志物 15
  • AMD:ML识别差异表达基因和独立调控基因集 14, 24, 29

2. 经典ML算法

  • 监督学习:SVM, XGBoost
  • 无监督学习:SOM, k-means, 层次聚类
  • 降维:t-SNE, PCA

3. 图基础深度学习

  • 知识图谱:用于转录组学 28
  • Node2Vec:应用于黑色素瘤等疾病 30
  • GNN:捕获复杂的基因间依赖关系 2

4. 本文相比相关工作的优势

  • 端到端优化:首次提出联合优化整个流程
  • 鲁棒性保证:系统性的统计验证框架
  • 实用性:无需GPU,易于应用到其他数据集
  • 可解释性:提供可视化结果供临床使用

结论与讨论

主要结论

  1. 方法有效性:提出的图基础方法能够从RNA-Seq数据中识别鲁棒且统计显著的基因簇
  2. 联合优化的重要性:联合优化所有流程步骤比分步优化产生更优的整体结果
  3. 统计验证:AMD相关基因的聚类质量显著优于随机基因集(p < 10^-20)
  4. 鲁棒性:尽管涉及多个随机过程,100次重复实验显示中等到高度的一致性(AMI = 0.49)
  5. 可扩展性:方法可无缝应用于其他疾病和RNA-Seq数据集

局限性

1. 数据集规模

  • 样本量相对有限(166个样本)
  • 仅分析81个预先识别的基因
  • 更大规模数据集可能产生更稳定的结果

2. 验证方法

  • 缺乏已知ground truth标签的合成数据集验证
  • 未进行实验室生物学验证

3. 计算成本

  • 虽然不需要GPU,但256次TPE采样 × 8次重复仍需较长时间
  • 随机游走次数的增加会显著增加计算成本

4. 方法假设

  • 假设CS-CORE适用于bulk RNA-seq数据(原本设计用于单细胞数据)
  • 假设基因间关系可以通过共表达网络充分捕获

未来方向

1. 合成数据验证

使用已知ground truth的合成数据集进行更严格的评估,独立验证方法的信息结构恢复能力

2. 扩展到更多疾病

将方法应用于其他疾病的RNA-Seq数据集,验证通用性

3. 实验验证

与分子遗传学家合作,对识别的基因簇进行实验室验证

4. 方法改进

  • 探索更高效的优化算法
  • 研究自适应调整随机游走次数的策略
  • 整合其他组学数据(蛋白质组、代谢组)

5. 临床应用

  • 开发用户友好的工具供临床研究人员使用
  • 整合到疾病诊断和药物靶点发现流程

深度评价

优点

1. 方法创新性(★★★★★)

  • 联合优化策略:首次在基因聚类流程中实现端到端联合优化,突破了传统分步优化的局限
  • 技术整合:巧妙结合CS-CORE、Node2Vec+和谱聚类,每个组件都有充分的理论支撑
  • 优化算法选择:TPE作为贝叶斯优化方法,相比网格搜索更高效

2. 实验充分性(★★★★☆)

  • 鲁棒性验证:100次重复实验系统性评估一致性
  • 统计显著性:使用K-S和Anderson-Darling双重检验
  • 对照设计:与100个随机基因集对比,证明方法的特异性
  • 缺点:缺乏与其他基因聚类方法的直接对比

3. 结果说服力(★★★★☆)

  • 高DBCVI分数:0.95的平均分数表明聚类质量优秀
  • 极显著p值:p < 10^-20证明结果非随机
  • 适度AMI:0.49的AMI在噪声数据中属于合理范围
  • 可视化:UMAP降维可视化增强可解释性

4. 写作清晰度(★★★★★)

  • 流程图清晰(图1)
  • 算法伪代码规范(Algorithm 1)
  • 超参数表格完整(表I)
  • 方法描述详尽,易于复现

5. 实用价值(★★★★★)

  • 无需昂贵硬件:不依赖GPU,降低使用门槛
  • 代码开源:提供GitHub仓库
  • 可迁移性强:联合优化保证在新数据集上的适用性
  • 临床相关:直接针对AMD这一重要眼科疾病

不足

1. 方法局限性

  • CS-CORE假设:原本设计用于单细胞数据,在bulk数据上的适用性未充分验证
  • 线性嵌入:Node2Vec+基于浅层嵌入,可能无法捕获高度非线性的基因关系
  • 静态网络:未考虑时间或条件特异性的动态网络

2. 实验设计缺陷

  • 缺少方法对比:未与其他基因聚类方法(如WGCNA、层次聚类等)进行定量比较
  • 单一数据集:仅在AMD数据集上验证,泛化能力未充分证明
  • 无ground truth:缺乏已知聚类标签的验证集

3. 分析不足

  • 生物学解释:未对识别的基因簇进行功能富集分析或通路分析
  • 聚类数量:未讨论识别的具体聚类数k*及其生物学意义
  • 超参数敏感性:未分析超参数变化对结果的影响

4. 计算效率

  • 优化成本:256次TPE采样 × 8次重复 = 2048次模型训练,计算成本较高
  • 可扩展性:对于数千个基因的大规模分析,计算复杂度可能成为瓶颈

影响力评估

1. 对领域的贡献(★★★★☆)

  • 方法论贡献:联合优化范式可启发其他生物信息学流程设计
  • AMD研究:为AMD基因功能研究提供新工具
  • 通用框架:可推广到其他疾病和组学数据

2. 实用价值(★★★★★)

  • 药物靶点发现:基因簇可指导新药物靶点识别
  • 患者分层:可能用于AMD患者的亚型分类
  • 假设生成:为实验生物学家提供可验证的假设

3. 可复现性(★★★★★)

  • 代码开源:完整的GitHub仓库
  • 详细描述:方法和超参数描述充分
  • 数据可用:使用公开的AMD数据集
  • 交互式可视化:提供HTML可视化文件

4. 引用潜力(★★★★☆)

  • 方法创新:联合优化策略可能被广泛引用
  • 应用价值:AMD和其他疾病研究者可能采用
  • 局限:单一数据集验证可能限制早期引用

适用场景

1. 理想应用场景

  • 已知疾病相关基因的功能分组:当已有一组疾病相关基因,需要理解其功能分类
  • 中小规模基因集:数十到数百个基因的聚类分析
  • 探索性研究:发现基因间的潜在关系和结构
  • 多疾病比较:比较不同疾病的基因簇模式

2. 不太适合的场景

  • 全基因组规模:数万个基因的分析可能面临计算瓶颈
  • 时间序列数据:当前方法未考虑时间动态
  • 单细胞数据:虽然使用CS-CORE,但整体流程针对bulk数据设计
  • 需要因果推断:方法识别相关性而非因果关系

3. 扩展应用

  • 蛋白质相互作用网络:可适配到蛋白质网络分析
  • 代谢通路分析:可应用于代谢物网络
  • 多组学整合:可扩展到整合多种组学数据

参考文献(关键文献)

  1. 10 Grover & Leskovec (2016): Node2vec原始论文,提出基于随机游走的图嵌入方法
  2. 13 Liu et al. (2023): Node2Vec+改进版本,考虑边权重的生物网络嵌入
  3. 12 John et al. (2020): Spectrum谱聚类方法,提出自适应密度核和多模态间隙
  4. 26 Su et al. (2023): CS-CORE方法,校正单细胞RNA-seq的共表达估计
  5. 14 Ma et al. (2025): 原始AMD基因识别研究,提供本文分析的81个基因
  6. 18 Moulavi et al. (2014): DBCVI聚类验证指标,适用于非凸聚类
  7. 3 Bergstra et al. (2013): TPE超参数优化方法

总结

这是一篇方法论创新性强、实验设计合理的生物信息学论文。最大亮点是联合优化策略,突破了传统分步优化的局限,为基因聚类流程设计提供了新范式。鲁棒性验证充分,统计显著性明显,实用价值高。

主要不足在于:(1)缺少与其他方法的直接对比;(2)仅在单一数据集上验证;(3)缺乏生物学功能分析。建议未来工作在多个数据集上验证,并与传统方法(如WGCNA)进行系统比较,同时增加基因簇的功能注释和实验验证。

总体而言,这是一篇高质量的计算生物学论文,对RNA-Seq数据分析和疾病基因研究具有重要参考价值。推荐指数:8.5/10