Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- ID de l'article : 2510.13542
- Titre : ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
- Auteurs : Martin Licht, Sara Ketabi, Farzad Khalvati
- Classification : cs.LG (Apprentissage Automatique)
- Date de publication : 15 octobre 2025
- Lien de l'article : https://arxiv.org/abs/2510.13542v1
La modélisation de sujets est un outil utile pour analyser de grands corpus de documents, en particulier les articles académiques. Bien que plusieurs techniques de modélisation de sujets existent, elles fonctionnent mal lorsqu'elles sont appliquées à des textes médicaux, probablement en raison du nombre limité de documents disponibles pour certains sujets dans le domaine de la santé. Cet article propose ProtoTopic, un modèle de sujets basé sur des réseaux prototypiques pour la génération de sujets dans les résumés d'articles médicaux. Les réseaux prototypiques sont des modèles efficaces et interprétables qui effectuent des prédictions en calculant les distances entre les points de données d'entrée et un ensemble de représentations prototypiques, et sont particulièrement efficaces dans les scénarios d'apprentissage avec peu de données ou peu d'exemples. Par le biais de ProtoTopic, les auteurs démontrent une cohérence et une diversité de sujets améliorées par rapport à deux modèles de base de la littérature, prouvant la capacité du modèle à générer des sujets pertinents pour le domaine médical, même avec des données limitées.
- Problème central : Les techniques de modélisation de sujets existantes fonctionnent mal sur les textes médicaux, particulièrement en cas de rareté des données
- Importance : La croissance rapide de la littérature médicale nécessite des outils efficaces de modélisation de sujets pour aider les chercheurs et les cliniciens à filtrer et trouver rapidement les informations pertinentes
- Limitations des approches existantes :
- Données d'entraînement insuffisantes : les données d'entraînement de haute qualité sont rares dans les environnements cliniques
- Manque d'interprétabilité : la plupart des modèles SOTA sont des boîtes noires
- Spécificité de la terminologie médicale : les textes médicaux présentent une terminologie spécifique et des variations de format
Les applications du TAL dans le domaine de la santé font face à trois défis majeurs : la rareté des données, le manque d'interprétabilité et la spécificité de la terminologie médicale. Les réseaux prototypiques peuvent apprendre efficacement dans des scénarios peu supervisés tout en fournissant une interprétabilité, ce qui en fait un choix idéal pour la modélisation de sujets médicaux.
- Application pionnière des réseaux prototypiques à la modélisation de sujets : développement de ProtoTopic, spécialement conçu pour la modélisation de sujets dans les résumés médicaux
- Évaluation de performance complète : comparaison exhaustive avec deux modèles SOTA (LDA et BERTopic)
- Analyse multi-nombres de sujets : étude de l'impact du nombre de sujets (25, 50, 100) sur la performance du modèle
- Validation de la signification statistique : démonstration par test-t de l'avantage significatif de ProtoTopic par rapport aux modèles de base
Entrée : ensemble de résumés d'articles médicaux
Sortie : résultats de clustering de sujets et mots-clés représentatifs pour chaque sujet
Objectif : générer des sujets médicaux avec une cohérence et une diversité élevées dans un scénario peu supervisé
Utilisation de deux modèles Transformer pour générer des embeddings de texte :
- PubMedBERT : variante BERT entraînée spécifiquement sur des articles médicaux, générant des vecteurs de 768 dimensions
- all-MiniLM-L6-v2 : Transformer de phrases universel, générant des vecteurs de 384 dimensions
Clustering des vecteurs d'embedding avec K-means pour générer des pseudo-étiquettes :
- Attribution des documents à K clusters
- Les centres de clustering servent de pseudo-étiquettes pour l'entraînement du réseau prototypique
Algorithme central basé sur le réseau prototypique de Snell et al. :
Calcul des Prototypes :
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
où Sk est l'ensemble de support de la classe k, et fϕ est la fonction d'embedding.
Probabilité de Classification :
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
Fonction de Perte :
J(ϕ)=−logpϕ(y=k∣x)
Utilisation de TF-IDF basé sur les classes (c-TF-IDF) pour extraire les mots-clés représentatifs de chaque sujet, cette méthode redéfinissant la fréquence des termes comme le pourcentage d'apparition du terme dans tous les groupes, plutôt que le ratio du groupe contenant le terme.
- Capacité d'apprentissage peu supervisé : réalisation de l'apprentissage de représentations de sujets efficaces avec seulement quelques exemples via les réseaux prototypiques
- Interprétabilité : fourniture d'explications en affichant les cas prototypiques les plus similaires
- Adaptation au domaine : combinaison d'embeddings spécialisés en médecine (PubMedBERT) et d'embeddings génériques pour la comparaison
- Entraînement épisodique : chaque épisode contient 5 classes, chacune avec 5 exemples de support et 5 points de requête
- Ensemble de données : PubMed200k RCT
- Taille : 200 000 résumés d'essais contrôlés randomisés, 2,3 millions de phrases
- Prétraitement :
- Suppression des caractères non alphabétiques
- Conversion en minuscules
- Tokenisation du texte
- Suppression des mots très fréquents (comme « the », « and », « of », etc.)
- Cohérence de Sujet (Topic Coherence) : utilisation de la métrique CV, analysant la co-occurrence des mots-clés de sujets dans le corpus
- Diversité de Sujet (Topic Diversity) : extraction des 25 premiers mots-clés de chaque sujet, calcul du pourcentage de mots uniques parmi tous les mots-clés de sujets
- LDA (Latent Dirichlet Allocation) : modèle de sujet probabiliste classique
- BERTopic : modèle de sujet neuronal basé sur les embeddings BERT
- Optimiseur : ADAM, taux d'apprentissage 0,00005
- Configuration d'entraînement : 50 épisodes/époque, total de 10 époques
- Matériel : GPU T4 Google Colab (15 Go de RAM)
- Paramètres gelés : tous les Transformers pré-entraînés gelés sauf les deux dernières couches
25 sujets :
| Modèle | Score de Cohérence | Diversité de Sujet |
|---|
| LDA | 0,4910 | 40,8 % |
| BERTopic | 0,5137 | 49,6 % |
| ProtoTopic (all-MiniLM) | 0,5396 | 84,5 % |
| ProtoTopic (PubMedBERT) | 0,5754 | 86,1 % |
50 sujets :
| Modèle | Score de Cohérence | Diversité de Sujet |
|---|
| LDA | 0,5017 | 43,8 % |
| BERTopic | 0,5394 | 54,5 % |
| ProtoTopic (all-MiniLM) | 0,6789 | 73,5 % |
| ProtoTopic (PubMedBERT) | 0,6734 | 75,9 % |
100 sujets :
| Modèle | Score de Cohérence | Diversité de Sujet |
|---|
| LDA | 0,5090 | 55,6 % |
| BERTopic | 0,6173 | 58,0 % |
| ProtoTopic (all-MiniLM) | 0,7173 | 58,6 % |
| ProtoTopic (PubMedBERT) | 0,7117 | 61,2 % |
Le test-t (p < 0,00001) démontre que ProtoTopic surpasse significativement BERTopic sur les métriques de cohérence et de diversité.
- BERTopic : génère des mots-clés trop génériques (comme « patients », « median », « overall »), manquant de pouvoir discriminant
- ProtoTopic : génère des mots-clés hautement spécifiques, évitant le vocabulaire générique, comme la terminologie spécifique pour les lésions des membres inférieurs
- Tendance de Cohérence : la cohérence de sujet de tous les modèles augmente avec le nombre de sujets
- Tendance de Diversité :
- Modèles de base : la diversité augmente avec le nombre de sujets
- ProtoTopic : la diversité diminue avec le nombre de sujets (de 86,1 % à 61,2 %)
- Modèles Probabilistes : LDA utilisant l'hypothèse de sac de mots, ignorant l'ordre des mots
- Modèles Neuronaux :
- LDA2VEC : combinaison d'embeddings Word2Vec
- ETM : utilisation d'embeddings CBOW
- BERTopic : basé sur les embeddings BERT
- Méthodes d'Optimisation : algorithmes de méta-apprentissage comme MAML
- Méthodes de Mesure :
- Réseaux Siamois
- Matching Networks
- Relation Networks
- Réseaux Prototypiques
- Vision par Ordinateur : tâches de classification d'images
- Domaine du TAL : ProSeNet, ProtoryNet, ProtoSeq et autres applications de classification de texte
- ProtoTopic surpasse les modèles de base sur tous les indicateurs d'évaluation
- Même avec des embeddings génériques (all-MiniLM-L6-v2), le modèle obtient d'excellentes performances
- Le modèle peut générer des sujets pertinents pour le domaine médical et interprétables
- Fonction de Perte : utilisation uniquement de la perte de réseau prototypique de base, sans considération de la compacité du clustering et de la distance entre prototypes
- Algorithme de Clustering : utilisation uniquement de K-means, sans exploration d'autres méthodes comme HDBSCAN
- Réduction de Dimensionnalité : pas d'exploration de l'effet de la réduction de dimensionnalité des embeddings de haute dimension
- Évaluation Utilisateur : absence d'évaluation subjective par des cliniciens
- Amélioration de la conception de la fonction de perte
- Exploration de différentes techniques de clustering
- Étude de l'impact de la réduction de dimensionnalité
- Réalisation d'études utilisateur cliniques
- Forte Innovativité : application pionnière des réseaux prototypiques à la modélisation de sujets
- Expérimentation Complète : comparaison exhaustive avec plusieurs modèles d'embeddings et plusieurs nombres de sujets
- Rigueur Statistique : fourniture de tests de signification statistique
- Valeur Pratique Élevée : résolution du problème de rareté des données dans le domaine médical
- Bonne Interprétabilité : les réseaux prototypiques fournissent un mécanisme d'explication intuitif
- Ensemble de Données Unique : validation uniquement sur l'ensemble de données PubMed200k
- Dimensions d'Évaluation Limitées : absence d'évaluation humaine et d'évaluation sur des tâches en aval
- Complexité Computationnelle Non Analysée : pas de comparaison d'efficacité computationnelle avec les modèles de base
- Sensibilité aux Hyperparamètres : analyse insuffisante de l'impact des hyperparamètres clés
- Contribution Académique : fourniture d'un nouveau paradigme de modélisation de sujets pour le domaine du TAL médical
- Valeur Pratique : applicable à l'analyse de littérature médicale, au soutien à la décision clinique
- Reproductibilité : utilisation d'ensembles de données publics, configuration expérimentale détaillée
- Analyse de Littérature Médicale : aide aux chercheurs pour comprendre rapidement un grand nombre d'articles médicaux
- Découverte de Connaissances Cliniques : découverte de modèles de maladies à partir d'un petit nombre de cas
- Extension Interdisciplinaire : généralisation à d'autres domaines spécialisés avec rareté de données
Cet article cite 45 références pertinentes, couvrant la modélisation de sujets, l'apprentissage peu supervisé, les réseaux prototypiques et d'autres domaines clés, fournissant une base théorique solide pour la recherche. Les références clés incluent :
- Snell et al. (2017) : Prototypical Networks for Few-Shot Learning
- Grootendorst (2022) : modélisation neuronale de sujets BERTopic
- Blei et al. (2003) : Latent Dirichlet Allocation
Évaluation Générale : Cet article propose une méthode innovante et pratique de modélisation de sujets médicaux, présentant une valeur importante pour résoudre le problème de rareté des données. La conception expérimentale est rationnelle, les résultats sont convaincants, et l'article apporte une contribution significative au domaine du TAL médical.