2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati

Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.

academic

ProtoTopic : Réseau Prototypique pour la Modélisation de Sujets Médicaux en Apprentissage Peu Supervisé

Informations Fondamentales

ID de l'article : 2510.13542
Titre : ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
Auteurs : Martin Licht, Sara Ketabi, Farzad Khalvati
Classification : cs.LG (Apprentissage Automatique)
Date de publication : 15 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.13542v1

Résumé

La modélisation de sujets est un outil utile pour analyser de grands corpus de documents, en particulier les articles académiques. Bien que plusieurs techniques de modélisation de sujets existent, elles fonctionnent mal lorsqu'elles sont appliquées à des textes médicaux, probablement en raison du nombre limité de documents disponibles pour certains sujets dans le domaine de la santé. Cet article propose ProtoTopic, un modèle de sujets basé sur des réseaux prototypiques pour la génération de sujets dans les résumés d'articles médicaux. Les réseaux prototypiques sont des modèles efficaces et interprétables qui effectuent des prédictions en calculant les distances entre les points de données d'entrée et un ensemble de représentations prototypiques, et sont particulièrement efficaces dans les scénarios d'apprentissage avec peu de données ou peu d'exemples. Par le biais de ProtoTopic, les auteurs démontrent une cohérence et une diversité de sujets améliorées par rapport à deux modèles de base de la littérature, prouvant la capacité du modèle à générer des sujets pertinents pour le domaine médical, même avec des données limitées.

Contexte de Recherche et Motivation

Définition du Problème

Problème central : Les techniques de modélisation de sujets existantes fonctionnent mal sur les textes médicaux, particulièrement en cas de rareté des données
Importance : La croissance rapide de la littérature médicale nécessite des outils efficaces de modélisation de sujets pour aider les chercheurs et les cliniciens à filtrer et trouver rapidement les informations pertinentes
Limitations des approches existantes :
- Données d'entraînement insuffisantes : les données d'entraînement de haute qualité sont rares dans les environnements cliniques
- Manque d'interprétabilité : la plupart des modèles SOTA sont des boîtes noires
- Spécificité de la terminologie médicale : les textes médicaux présentent une terminologie spécifique et des variations de format

Motivation de la Recherche

Les applications du TAL dans le domaine de la santé font face à trois défis majeurs : la rareté des données, le manque d'interprétabilité et la spécificité de la terminologie médicale. Les réseaux prototypiques peuvent apprendre efficacement dans des scénarios peu supervisés tout en fournissant une interprétabilité, ce qui en fait un choix idéal pour la modélisation de sujets médicaux.

Contributions Principales

Application pionnière des réseaux prototypiques à la modélisation de sujets : développement de ProtoTopic, spécialement conçu pour la modélisation de sujets dans les résumés médicaux
Évaluation de performance complète : comparaison exhaustive avec deux modèles SOTA (LDA et BERTopic)
Analyse multi-nombres de sujets : étude de l'impact du nombre de sujets (25, 50, 100) sur la performance du modèle
Validation de la signification statistique : démonstration par test-t de l'avantage significatif de ProtoTopic par rapport aux modèles de base

Détails de la Méthode

Définition de la Tâche

Entrée : ensemble de résumés d'articles médicaux Sortie : résultats de clustering de sujets et mots-clés représentatifs pour chaque sujet Objectif : générer des sujets médicaux avec une cohérence et une diversité élevées dans un scénario peu supervisé

Architecture du Modèle

1. Génération d'Embeddings de Texte

Utilisation de deux modèles Transformer pour générer des embeddings de texte :

PubMedBERT : variante BERT entraînée spécifiquement sur des articles médicaux, générant des vecteurs de 768 dimensions
all-MiniLM-L6-v2 : Transformer de phrases universel, générant des vecteurs de 384 dimensions

2. Clustering K-means

Clustering des vecteurs d'embedding avec K-means pour générer des pseudo-étiquettes :

Attribution des documents à K clusters
Les centres de clustering servent de pseudo-étiquettes pour l'entraînement du réseau prototypique

3. Entraînement du Réseau Prototypique

Algorithme central basé sur le réseau prototypique de Snell et al. :

Calcul des Prototypes : $c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)$

où $S_k$ est l'ensemble de support de la classe k, et $f_\phi$ est la fonction d'embedding.

Probabilité de Classification : $p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}$

Fonction de Perte : $J(\phi) = -\log p_\phi(y=k|x)$

4. Extraction de Mots-clés

Utilisation de TF-IDF basé sur les classes (c-TF-IDF) pour extraire les mots-clés représentatifs de chaque sujet, cette méthode redéfinissant la fréquence des termes comme le pourcentage d'apparition du terme dans tous les groupes, plutôt que le ratio du groupe contenant le terme.

Points d'Innovation Technique

Capacité d'apprentissage peu supervisé : réalisation de l'apprentissage de représentations de sujets efficaces avec seulement quelques exemples via les réseaux prototypiques
Interprétabilité : fourniture d'explications en affichant les cas prototypiques les plus similaires
Adaptation au domaine : combinaison d'embeddings spécialisés en médecine (PubMedBERT) et d'embeddings génériques pour la comparaison
Entraînement épisodique : chaque épisode contient 5 classes, chacune avec 5 exemples de support et 5 points de requête

Configuration Expérimentale

Ensemble de Données

Ensemble de données : PubMed200k RCT
Taille : 200 000 résumés d'essais contrôlés randomisés, 2,3 millions de phrases
Prétraitement :
- Suppression des caractères non alphabétiques
- Conversion en minuscules
- Tokenisation du texte
- Suppression des mots très fréquents (comme « the », « and », « of », etc.)

Métriques d'Évaluation

Cohérence de Sujet (Topic Coherence) : utilisation de la métrique CV, analysant la co-occurrence des mots-clés de sujets dans le corpus
Diversité de Sujet (Topic Diversity) : extraction des 25 premiers mots-clés de chaque sujet, calcul du pourcentage de mots uniques parmi tous les mots-clés de sujets

Méthodes de Comparaison

LDA (Latent Dirichlet Allocation) : modèle de sujet probabiliste classique
BERTopic : modèle de sujet neuronal basé sur les embeddings BERT

Détails d'Implémentation

Optimiseur : ADAM, taux d'apprentissage 0,00005
Configuration d'entraînement : 50 épisodes/époque, total de 10 époques
Matériel : GPU T4 Google Colab (15 Go de RAM)
Paramètres gelés : tous les Transformers pré-entraînés gelés sauf les deux dernières couches

Résultats Expérimentaux

Résultats Principaux

Résultats Quantitatifs

25 sujets :

Modèle	Score de Cohérence	Diversité de Sujet
LDA	0,4910	40,8 %
BERTopic	0,5137	49,6 %
ProtoTopic (all-MiniLM)	0,5396	84,5 %
ProtoTopic (PubMedBERT)	0,5754	86,1 %

50 sujets :

Modèle	Score de Cohérence	Diversité de Sujet
LDA	0,5017	43,8 %
BERTopic	0,5394	54,5 %
ProtoTopic (all-MiniLM)	0,6789	73,5 %
ProtoTopic (PubMedBERT)	0,6734	75,9 %

100 sujets :

Modèle	Score de Cohérence	Diversité de Sujet
LDA	0,5090	55,6 %
BERTopic	0,6173	58,0 %
ProtoTopic (all-MiniLM)	0,7173	58,6 %
ProtoTopic (PubMedBERT)	0,7117	61,2 %

Signification Statistique

Le test-t (p < 0,00001) démontre que ProtoTopic surpasse significativement BERTopic sur les métriques de cohérence et de diversité.

Analyse des Résultats Qualitatifs

Comparaison de la Spécificité des Sujets

BERTopic : génère des mots-clés trop génériques (comme « patients », « median », « overall »), manquant de pouvoir discriminant
ProtoTopic : génère des mots-clés hautement spécifiques, évitant le vocabulaire générique, comme la terminologie spécifique pour les lésions des membres inférieurs

Analyse des Tendances

Tendance de Cohérence : la cohérence de sujet de tous les modèles augmente avec le nombre de sujets
Tendance de Diversité :
- Modèles de base : la diversité augmente avec le nombre de sujets
- ProtoTopic : la diversité diminue avec le nombre de sujets (de 86,1 % à 61,2 %)

Travaux Connexes

Évolution de la Modélisation de Sujets

Modèles Probabilistes : LDA utilisant l'hypothèse de sac de mots, ignorant l'ordre des mots
Modèles Neuronaux :
- LDA2VEC : combinaison d'embeddings Word2Vec
- ETM : utilisation d'embeddings CBOW
- BERTopic : basé sur les embeddings BERT

Apprentissage Peu Supervisé

Méthodes d'Optimisation : algorithmes de méta-apprentissage comme MAML
Méthodes de Mesure :
- Réseaux Siamois
- Matching Networks
- Relation Networks
- Réseaux Prototypiques

Applications des Réseaux Prototypiques

Vision par Ordinateur : tâches de classification d'images
Domaine du TAL : ProSeNet, ProtoryNet, ProtoSeq et autres applications de classification de texte

Conclusions et Discussion

Conclusions Principales

ProtoTopic surpasse les modèles de base sur tous les indicateurs d'évaluation
Même avec des embeddings génériques (all-MiniLM-L6-v2), le modèle obtient d'excellentes performances
Le modèle peut générer des sujets pertinents pour le domaine médical et interprétables

Limitations

Fonction de Perte : utilisation uniquement de la perte de réseau prototypique de base, sans considération de la compacité du clustering et de la distance entre prototypes
Algorithme de Clustering : utilisation uniquement de K-means, sans exploration d'autres méthodes comme HDBSCAN
Réduction de Dimensionnalité : pas d'exploration de l'effet de la réduction de dimensionnalité des embeddings de haute dimension
Évaluation Utilisateur : absence d'évaluation subjective par des cliniciens

Directions Futures

Amélioration de la conception de la fonction de perte
Exploration de différentes techniques de clustering
Étude de l'impact de la réduction de dimensionnalité
Réalisation d'études utilisateur cliniques

Évaluation Approfondie

Points Forts

Forte Innovativité : application pionnière des réseaux prototypiques à la modélisation de sujets
Expérimentation Complète : comparaison exhaustive avec plusieurs modèles d'embeddings et plusieurs nombres de sujets
Rigueur Statistique : fourniture de tests de signification statistique
Valeur Pratique Élevée : résolution du problème de rareté des données dans le domaine médical
Bonne Interprétabilité : les réseaux prototypiques fournissent un mécanisme d'explication intuitif

Insuffisances

Ensemble de Données Unique : validation uniquement sur l'ensemble de données PubMed200k
Dimensions d'Évaluation Limitées : absence d'évaluation humaine et d'évaluation sur des tâches en aval
Complexité Computationnelle Non Analysée : pas de comparaison d'efficacité computationnelle avec les modèles de base
Sensibilité aux Hyperparamètres : analyse insuffisante de l'impact des hyperparamètres clés

Impact

Contribution Académique : fourniture d'un nouveau paradigme de modélisation de sujets pour le domaine du TAL médical
Valeur Pratique : applicable à l'analyse de littérature médicale, au soutien à la décision clinique
Reproductibilité : utilisation d'ensembles de données publics, configuration expérimentale détaillée

Scénarios d'Application

Analyse de Littérature Médicale : aide aux chercheurs pour comprendre rapidement un grand nombre d'articles médicaux
Découverte de Connaissances Cliniques : découverte de modèles de maladies à partir d'un petit nombre de cas
Extension Interdisciplinaire : généralisation à d'autres domaines spécialisés avec rareté de données

Références Bibliographiques

Cet article cite 45 références pertinentes, couvrant la modélisation de sujets, l'apprentissage peu supervisé, les réseaux prototypiques et d'autres domaines clés, fournissant une base théorique solide pour la recherche. Les références clés incluent :

Snell et al. (2017) : Prototypical Networks for Few-Shot Learning
Grootendorst (2022) : modélisation neuronale de sujets BERTopic
Blei et al. (2003) : Latent Dirichlet Allocation

Évaluation Générale : Cet article propose une méthode innovante et pratique de modélisation de sujets médicaux, présentant une valeur importante pour résoudre le problème de rareté des données. La conception expérimentale est rationnelle, les résultats sont convaincants, et l'article apporte une contribution significative au domaine du TAL médical.