2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati

Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.

academic

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

基本信息

论文ID: 2510.13542
标题: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
作者: Martin Licht, Sara Ketabi, Farzad Khalvati
分类: cs.LG (Machine Learning)
发表时间: 2025年10月15日
论文链接: https://arxiv.org/abs/2510.13542v1

摘要

主题建模是分析大型文档语料库（特别是学术论文）的有用工具。尽管已有多种主题建模技术，但这些技术在应用于医学文本时表现不佳，这可能是由于医疗保健领域某些主题可用文档数量较少。本文提出ProtoTopic，一个基于原型网络的主题模型，用于医学论文摘要的主题生成。原型网络是高效且可解释的模型，通过计算输入数据点与原型表示集合之间的距离进行预测，在低数据或少样本学习场景中特别有效。通过ProtoTopic，作者展示了相比文献中两个主题建模基线的改进主题一致性和多样性，证明了该模型即使在有限数据下也能生成医学相关主题的能力。

研究背景与动机

问题定义

核心问题：现有主题建模技术在医学文本上表现不佳，特别是在数据稀缺的情况下
重要性：医学文献的快速增长需要有效的主题建模工具帮助研究人员和临床医生快速筛选和查找相关信息
现有方法局限性：
- 训练数据不足：临床环境中高质量训练数据稀缺
- 缺乏可解释性：大多数SOTA模型是黑盒模型
- 医学术语特殊性：医学文本具有特定术语和格式差异

研究动机

医疗保健领域的NLP应用面临三大挑战：数据稀缺、缺乏可解释性、以及医学术语的特殊性。原型网络能够在少样本场景下有效学习，同时提供可解释性，使其成为医学主题建模的理想选择。

核心贡献

首次将原型网络应用于主题建模任务：开发了ProtoTopic，专门针对医学摘要的主题建模
综合性能评估：与两个SOTA基线模型（LDA和BERTopic）进行了全面比较
多主题数量分析：研究了不同主题数量（25、50、100）对模型性能的影响
统计显著性验证：通过t检验证明了ProtoTopic相对于基线的显著优势

方法详解

任务定义

输入：医学论文摘要集合输出：主题聚类结果和每个主题的代表性关键词目标：在少样本场景下生成高一致性、高多样性的医学主题

模型架构

1. 文本嵌入生成

使用两种Transformer模型生成文本嵌入：

PubMedBERT：专门在医学论文上训练的BERT变体，生成768维向量
all-MiniLM-L6-v2：通用句子Transformer，生成384维向量

2. K-means聚类

对嵌入向量进行K-means聚类，生成伪标签：

将文档分配到K个聚类中
聚类中心作为伪标签用于训练原型网络

3. 原型网络训练

核心算法基于Snell等人的原型网络：

原型计算： $c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)$

其中 $S_k$ 是类别k的支持集， $f_\phi$ 是嵌入函数。

分类概率： $p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}$

损失函数： $J(\phi) = -\log p_\phi(y=k|x)$

4. 关键词提取

使用class-based TF-IDF (c-TF-IDF)提取每个主题的代表性关键词，该方法将词频重新定义为词在所有组中出现的百分比，而非出现该词的组的比例。

技术创新点

少样本学习能力：通过原型网络实现仅需少量样本即可学习有效主题表示
可解释性：通过展示最相似的原型案例提供解释
领域适应性：结合医学专用嵌入（PubMedBERT）和通用嵌入进行对比
episodic训练：每个episode包含5个组，每组5个支持样本和5个查询点

实验设置

数据集

数据集：PubMed200k RCT
规模：200,000个随机对照试验摘要，230万个句子
预处理：
- 移除非字母字符
- 转换为小写
- 文本分词
- 移除高频词（如"the", "and", "of"等）

评价指标

主题一致性（Topic Coherence）：使用CV指标，分析主题关键词在语料库中的共现情况
主题多样性（Topic Diversity）：提取每个主题前25个关键词，计算所有主题关键词中唯一词的百分比

对比方法

LDA（Latent Dirichlet Allocation）：经典概率主题模型
BERTopic：基于BERT嵌入的神经主题模型

实现细节

优化器：ADAM，学习率0.00005
训练设置：50 episodes/epoch，总计10 epochs
硬件：Google Colab T4 GPU（15GB RAM）
参数冻结：预训练Transformer除最后两层外全部冻结

实验结果

主要结果

定量结果

25个主题：

模型	一致性得分	主题多样性
LDA	0.4910	40.8%
BERTopic	0.5137	49.6%
ProtoTopic (all-MiniLM)	0.5396	84.5%
ProtoTopic (PubMedBERT)	0.5754	86.1%

50个主题：

模型	一致性得分	主题多样性
LDA	0.5017	43.8%
BERTopic	0.5394	54.5%
ProtoTopic (all-MiniLM)	0.6789	73.5%
ProtoTopic (PubMedBERT)	0.6734	75.9%

100个主题：

模型	一致性得分	主题多样性
LDA	0.5090	55.6%
BERTopic	0.6173	58.0%
ProtoTopic (all-MiniLM)	0.7173	58.6%
ProtoTopic (PubMedBERT)	0.7117	61.2%

统计显著性

通过t检验（p < 0.00001）证明ProtoTopic在一致性和多样性指标上显著优于BERTopic。

定性结果分析

主题特异性对比

BERTopic：生成过于通用的关键词（如"patients", "median", "overall"），缺乏区分性
ProtoTopic：生成高度特异性关键词，避免通用词汇，如针对下肢损伤的具体术语

趋势分析

一致性趋势：所有模型的主题一致性随主题数量增加而提升
多样性趋势：
- 基线模型：多样性随主题数量增加而提升
- ProtoTopic：多样性随主题数量增加而下降（从86.1%降至61.2%）

相关工作

主题建模发展

概率模型：LDA使用词袋假设，忽略词序
神经模型：
- LDA2VEC：结合Word2Vec嵌入
- ETM：使用CBOW嵌入
- BERTopic：基于BERT嵌入

少样本学习

优化方法：MAML等元学习算法
度量方法：
- Siamese网络
- Matching Networks
- Relation Networks
- Prototypical Networks

原型网络应用

计算机视觉：图像分类任务
NLP领域：ProSeNet、ProtoryNet、ProtoSeq等文本分类应用

结论与讨论

主要结论

ProtoTopic在所有评估指标上均优于基线模型
即使使用通用嵌入（all-MiniLM-L6-v2）也能取得优异性能
模型能生成医学相关且可解释的主题

局限性

损失函数：仅使用基础原型网络损失，未考虑聚类紧密性和原型间距离
聚类算法：仅使用K-means，未探索HDBSCAN等其他方法
维度约简：未探索高维嵌入的降维效果
用户评估：缺乏临床医生的主观评价

未来方向

改进损失函数设计
探索不同聚类技术
研究维度约简的影响
进行临床用户研究

深度评价

优点

创新性强：首次将原型网络应用于主题建模任务
实验充分：多种嵌入模型、多个主题数量的全面对比
统计严谨：提供统计显著性检验
实用价值高：解决医学领域数据稀缺问题
可解释性好：原型网络提供直观的解释机制

不足

数据集单一：仅在PubMed200k数据集上验证
评估维度有限：缺乏人工评估和下游任务评估
计算复杂度未分析：未提供与基线的计算效率对比
超参数敏感性：未充分分析关键超参数的影响

影响力

学术贡献：为医学NLP领域提供新的主题建模范式
实用价值：可应用于医学文献分析、临床决策支持
可复现性：使用公开数据集，实验设置详细

适用场景

医学文献分析：帮助研究人员快速理解大量医学论文
临床知识发现：从少量病例中发现疾病模式
跨领域扩展：可推广到其他数据稀缺的专业领域

参考文献

本文引用了45篇相关文献，涵盖主题建模、少样本学习、原型网络等关键领域，为研究提供了坚实的理论基础。关键参考文献包括：

Snell et al. (2017): Prototypical Networks for Few-Shot Learning
Grootendorst (2022): BERTopic neural topic modeling
Blei et al. (2003): Latent Dirichlet Allocation

总体评价：本文提出了一个创新且实用的医学主题建模方法，在解决数据稀缺问题方面具有重要价值。实验设计合理，结果令人信服，为医学NLP领域做出了有意义的贡献。