Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- 论文ID: 2510.13542
- 标题: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
- 作者: Martin Licht, Sara Ketabi, Farzad Khalvati
- 分类: cs.LG (Machine Learning)
- 发表时间: 2025年10月15日
- 论文链接: https://arxiv.org/abs/2510.13542v1
主题建模是分析大型文档语料库(特别是学术论文)的有用工具。尽管已有多种主题建模技术,但这些技术在应用于医学文本时表现不佳,这可能是由于医疗保健领域某些主题可用文档数量较少。本文提出ProtoTopic,一个基于原型网络的主题模型,用于医学论文摘要的主题生成。原型网络是高效且可解释的模型,通过计算输入数据点与原型表示集合之间的距离进行预测,在低数据或少样本学习场景中特别有效。通过ProtoTopic,作者展示了相比文献中两个主题建模基线的改进主题一致性和多样性,证明了该模型即使在有限数据下也能生成医学相关主题的能力。
- 核心问题:现有主题建模技术在医学文本上表现不佳,特别是在数据稀缺的情况下
- 重要性:医学文献的快速增长需要有效的主题建模工具帮助研究人员和临床医生快速筛选和查找相关信息
- 现有方法局限性:
- 训练数据不足:临床环境中高质量训练数据稀缺
- 缺乏可解释性:大多数SOTA模型是黑盒模型
- 医学术语特殊性:医学文本具有特定术语和格式差异
医疗保健领域的NLP应用面临三大挑战:数据稀缺、缺乏可解释性、以及医学术语的特殊性。原型网络能够在少样本场景下有效学习,同时提供可解释性,使其成为医学主题建模的理想选择。
- 首次将原型网络应用于主题建模任务:开发了ProtoTopic,专门针对医学摘要的主题建模
- 综合性能评估:与两个SOTA基线模型(LDA和BERTopic)进行了全面比较
- 多主题数量分析:研究了不同主题数量(25、50、100)对模型性能的影响
- 统计显著性验证:通过t检验证明了ProtoTopic相对于基线的显著优势
输入:医学论文摘要集合
输出:主题聚类结果和每个主题的代表性关键词
目标:在少样本场景下生成高一致性、高多样性的医学主题
使用两种Transformer模型生成文本嵌入:
- PubMedBERT:专门在医学论文上训练的BERT变体,生成768维向量
- all-MiniLM-L6-v2:通用句子Transformer,生成384维向量
对嵌入向量进行K-means聚类,生成伪标签:
- 将文档分配到K个聚类中
- 聚类中心作为伪标签用于训练原型网络
核心算法基于Snell等人的原型网络:
原型计算:
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
其中Sk是类别k的支持集,fϕ是嵌入函数。
分类概率:
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
损失函数:
J(ϕ)=−logpϕ(y=k∣x)
使用class-based TF-IDF (c-TF-IDF)提取每个主题的代表性关键词,该方法将词频重新定义为词在所有组中出现的百分比,而非出现该词的组的比例。
- 少样本学习能力:通过原型网络实现仅需少量样本即可学习有效主题表示
- 可解释性:通过展示最相似的原型案例提供解释
- 领域适应性:结合医学专用嵌入(PubMedBERT)和通用嵌入进行对比
- episodic训练:每个episode包含5个组,每组5个支持样本和5个查询点
- 数据集:PubMed200k RCT
- 规模:200,000个随机对照试验摘要,230万个句子
- 预处理:
- 移除非字母字符
- 转换为小写
- 文本分词
- 移除高频词(如"the", "and", "of"等)
- 主题一致性(Topic Coherence):使用CV指标,分析主题关键词在语料库中的共现情况
- 主题多样性(Topic Diversity):提取每个主题前25个关键词,计算所有主题关键词中唯一词的百分比
- LDA(Latent Dirichlet Allocation):经典概率主题模型
- BERTopic:基于BERT嵌入的神经主题模型
- 优化器:ADAM,学习率0.00005
- 训练设置:50 episodes/epoch,总计10 epochs
- 硬件:Google Colab T4 GPU(15GB RAM)
- 参数冻结:预训练Transformer除最后两层外全部冻结
25个主题:
| 模型 | 一致性得分 | 主题多样性 |
|---|
| LDA | 0.4910 | 40.8% |
| BERTopic | 0.5137 | 49.6% |
| ProtoTopic (all-MiniLM) | 0.5396 | 84.5% |
| ProtoTopic (PubMedBERT) | 0.5754 | 86.1% |
50个主题:
| 模型 | 一致性得分 | 主题多样性 |
|---|
| LDA | 0.5017 | 43.8% |
| BERTopic | 0.5394 | 54.5% |
| ProtoTopic (all-MiniLM) | 0.6789 | 73.5% |
| ProtoTopic (PubMedBERT) | 0.6734 | 75.9% |
100个主题:
| 模型 | 一致性得分 | 主题多样性 |
|---|
| LDA | 0.5090 | 55.6% |
| BERTopic | 0.6173 | 58.0% |
| ProtoTopic (all-MiniLM) | 0.7173 | 58.6% |
| ProtoTopic (PubMedBERT) | 0.7117 | 61.2% |
通过t检验(p < 0.00001)证明ProtoTopic在一致性和多样性指标上显著优于BERTopic。
- BERTopic:生成过于通用的关键词(如"patients", "median", "overall"),缺乏区分性
- ProtoTopic:生成高度特异性关键词,避免通用词汇,如针对下肢损伤的具体术语
- 一致性趋势:所有模型的主题一致性随主题数量增加而提升
- 多样性趋势:
- 基线模型:多样性随主题数量增加而提升
- ProtoTopic:多样性随主题数量增加而下降(从86.1%降至61.2%)
- 概率模型:LDA使用词袋假设,忽略词序
- 神经模型:
- LDA2VEC:结合Word2Vec嵌入
- ETM:使用CBOW嵌入
- BERTopic:基于BERT嵌入
- 优化方法:MAML等元学习算法
- 度量方法:
- Siamese网络
- Matching Networks
- Relation Networks
- Prototypical Networks
- 计算机视觉:图像分类任务
- NLP领域:ProSeNet、ProtoryNet、ProtoSeq等文本分类应用
- ProtoTopic在所有评估指标上均优于基线模型
- 即使使用通用嵌入(all-MiniLM-L6-v2)也能取得优异性能
- 模型能生成医学相关且可解释的主题
- 损失函数:仅使用基础原型网络损失,未考虑聚类紧密性和原型间距离
- 聚类算法:仅使用K-means,未探索HDBSCAN等其他方法
- 维度约简:未探索高维嵌入的降维效果
- 用户评估:缺乏临床医生的主观评价
- 改进损失函数设计
- 探索不同聚类技术
- 研究维度约简的影响
- 进行临床用户研究
- 创新性强:首次将原型网络应用于主题建模任务
- 实验充分:多种嵌入模型、多个主题数量的全面对比
- 统计严谨:提供统计显著性检验
- 实用价值高:解决医学领域数据稀缺问题
- 可解释性好:原型网络提供直观的解释机制
- 数据集单一:仅在PubMed200k数据集上验证
- 评估维度有限:缺乏人工评估和下游任务评估
- 计算复杂度未分析:未提供与基线的计算效率对比
- 超参数敏感性:未充分分析关键超参数的影响
- 学术贡献:为医学NLP领域提供新的主题建模范式
- 实用价值:可应用于医学文献分析、临床决策支持
- 可复现性:使用公开数据集,实验设置详细
- 医学文献分析:帮助研究人员快速理解大量医学论文
- 临床知识发现:从少量病例中发现疾病模式
- 跨领域扩展:可推广到其他数据稀缺的专业领域
本文引用了45篇相关文献,涵盖主题建模、少样本学习、原型网络等关键领域,为研究提供了坚实的理论基础。关键参考文献包括:
- Snell et al. (2017): Prototypical Networks for Few-Shot Learning
- Grootendorst (2022): BERTopic neural topic modeling
- Blei et al. (2003): Latent Dirichlet Allocation
总体评价:本文提出了一个创新且实用的医学主题建模方法,在解决数据稀缺问题方面具有重要价值。实验设计合理,结果令人信服,为医学NLP领域做出了有意义的贡献。