2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati
Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
academic

ProtoTopic : Réseau Prototypique pour la Modélisation de Sujets Médicaux en Apprentissage Peu Supervisé

Informations Fondamentales

  • ID de l'article : 2510.13542
  • Titre : ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
  • Auteurs : Martin Licht, Sara Ketabi, Farzad Khalvati
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de publication : 15 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.13542v1

Résumé

La modélisation de sujets est un outil utile pour analyser de grands corpus de documents, en particulier les articles académiques. Bien que plusieurs techniques de modélisation de sujets existent, elles fonctionnent mal lorsqu'elles sont appliquées à des textes médicaux, probablement en raison du nombre limité de documents disponibles pour certains sujets dans le domaine de la santé. Cet article propose ProtoTopic, un modèle de sujets basé sur des réseaux prototypiques pour la génération de sujets dans les résumés d'articles médicaux. Les réseaux prototypiques sont des modèles efficaces et interprétables qui effectuent des prédictions en calculant les distances entre les points de données d'entrée et un ensemble de représentations prototypiques, et sont particulièrement efficaces dans les scénarios d'apprentissage avec peu de données ou peu d'exemples. Par le biais de ProtoTopic, les auteurs démontrent une cohérence et une diversité de sujets améliorées par rapport à deux modèles de base de la littérature, prouvant la capacité du modèle à générer des sujets pertinents pour le domaine médical, même avec des données limitées.

Contexte de Recherche et Motivation

Définition du Problème

  1. Problème central : Les techniques de modélisation de sujets existantes fonctionnent mal sur les textes médicaux, particulièrement en cas de rareté des données
  2. Importance : La croissance rapide de la littérature médicale nécessite des outils efficaces de modélisation de sujets pour aider les chercheurs et les cliniciens à filtrer et trouver rapidement les informations pertinentes
  3. Limitations des approches existantes :
    • Données d'entraînement insuffisantes : les données d'entraînement de haute qualité sont rares dans les environnements cliniques
    • Manque d'interprétabilité : la plupart des modèles SOTA sont des boîtes noires
    • Spécificité de la terminologie médicale : les textes médicaux présentent une terminologie spécifique et des variations de format

Motivation de la Recherche

Les applications du TAL dans le domaine de la santé font face à trois défis majeurs : la rareté des données, le manque d'interprétabilité et la spécificité de la terminologie médicale. Les réseaux prototypiques peuvent apprendre efficacement dans des scénarios peu supervisés tout en fournissant une interprétabilité, ce qui en fait un choix idéal pour la modélisation de sujets médicaux.

Contributions Principales

  1. Application pionnière des réseaux prototypiques à la modélisation de sujets : développement de ProtoTopic, spécialement conçu pour la modélisation de sujets dans les résumés médicaux
  2. Évaluation de performance complète : comparaison exhaustive avec deux modèles SOTA (LDA et BERTopic)
  3. Analyse multi-nombres de sujets : étude de l'impact du nombre de sujets (25, 50, 100) sur la performance du modèle
  4. Validation de la signification statistique : démonstration par test-t de l'avantage significatif de ProtoTopic par rapport aux modèles de base

Détails de la Méthode

Définition de la Tâche

Entrée : ensemble de résumés d'articles médicaux Sortie : résultats de clustering de sujets et mots-clés représentatifs pour chaque sujet Objectif : générer des sujets médicaux avec une cohérence et une diversité élevées dans un scénario peu supervisé

Architecture du Modèle

1. Génération d'Embeddings de Texte

Utilisation de deux modèles Transformer pour générer des embeddings de texte :

  • PubMedBERT : variante BERT entraînée spécifiquement sur des articles médicaux, générant des vecteurs de 768 dimensions
  • all-MiniLM-L6-v2 : Transformer de phrases universel, générant des vecteurs de 384 dimensions

2. Clustering K-means

Clustering des vecteurs d'embedding avec K-means pour générer des pseudo-étiquettes :

  • Attribution des documents à K clusters
  • Les centres de clustering servent de pseudo-étiquettes pour l'entraînement du réseau prototypique

3. Entraînement du Réseau Prototypique

Algorithme central basé sur le réseau prototypique de Snell et al. :

Calcul des Prototypes : ck=1Sk(xi,yi)Skfϕ(xi)c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)

SkS_k est l'ensemble de support de la classe k, et fϕf_\phi est la fonction d'embedding.

Probabilité de Classification : pϕ(y=kx)=exp(d(fϕ(x),ck))kexp(d(fϕ(x),ck))p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}

Fonction de Perte : J(ϕ)=logpϕ(y=kx)J(\phi) = -\log p_\phi(y=k|x)

4. Extraction de Mots-clés

Utilisation de TF-IDF basé sur les classes (c-TF-IDF) pour extraire les mots-clés représentatifs de chaque sujet, cette méthode redéfinissant la fréquence des termes comme le pourcentage d'apparition du terme dans tous les groupes, plutôt que le ratio du groupe contenant le terme.

Points d'Innovation Technique

  1. Capacité d'apprentissage peu supervisé : réalisation de l'apprentissage de représentations de sujets efficaces avec seulement quelques exemples via les réseaux prototypiques
  2. Interprétabilité : fourniture d'explications en affichant les cas prototypiques les plus similaires
  3. Adaptation au domaine : combinaison d'embeddings spécialisés en médecine (PubMedBERT) et d'embeddings génériques pour la comparaison
  4. Entraînement épisodique : chaque épisode contient 5 classes, chacune avec 5 exemples de support et 5 points de requête

Configuration Expérimentale

Ensemble de Données

  • Ensemble de données : PubMed200k RCT
  • Taille : 200 000 résumés d'essais contrôlés randomisés, 2,3 millions de phrases
  • Prétraitement :
    • Suppression des caractères non alphabétiques
    • Conversion en minuscules
    • Tokenisation du texte
    • Suppression des mots très fréquents (comme « the », « and », « of », etc.)

Métriques d'Évaluation

  1. Cohérence de Sujet (Topic Coherence) : utilisation de la métrique CV, analysant la co-occurrence des mots-clés de sujets dans le corpus
  2. Diversité de Sujet (Topic Diversity) : extraction des 25 premiers mots-clés de chaque sujet, calcul du pourcentage de mots uniques parmi tous les mots-clés de sujets

Méthodes de Comparaison

  1. LDA (Latent Dirichlet Allocation) : modèle de sujet probabiliste classique
  2. BERTopic : modèle de sujet neuronal basé sur les embeddings BERT

Détails d'Implémentation

  • Optimiseur : ADAM, taux d'apprentissage 0,00005
  • Configuration d'entraînement : 50 épisodes/époque, total de 10 époques
  • Matériel : GPU T4 Google Colab (15 Go de RAM)
  • Paramètres gelés : tous les Transformers pré-entraînés gelés sauf les deux dernières couches

Résultats Expérimentaux

Résultats Principaux

Résultats Quantitatifs

25 sujets :

ModèleScore de CohérenceDiversité de Sujet
LDA0,491040,8 %
BERTopic0,513749,6 %
ProtoTopic (all-MiniLM)0,539684,5 %
ProtoTopic (PubMedBERT)0,575486,1 %

50 sujets :

ModèleScore de CohérenceDiversité de Sujet
LDA0,501743,8 %
BERTopic0,539454,5 %
ProtoTopic (all-MiniLM)0,678973,5 %
ProtoTopic (PubMedBERT)0,673475,9 %

100 sujets :

ModèleScore de CohérenceDiversité de Sujet
LDA0,509055,6 %
BERTopic0,617358,0 %
ProtoTopic (all-MiniLM)0,717358,6 %
ProtoTopic (PubMedBERT)0,711761,2 %

Signification Statistique

Le test-t (p < 0,00001) démontre que ProtoTopic surpasse significativement BERTopic sur les métriques de cohérence et de diversité.

Analyse des Résultats Qualitatifs

Comparaison de la Spécificité des Sujets

  • BERTopic : génère des mots-clés trop génériques (comme « patients », « median », « overall »), manquant de pouvoir discriminant
  • ProtoTopic : génère des mots-clés hautement spécifiques, évitant le vocabulaire générique, comme la terminologie spécifique pour les lésions des membres inférieurs

Analyse des Tendances

  1. Tendance de Cohérence : la cohérence de sujet de tous les modèles augmente avec le nombre de sujets
  2. Tendance de Diversité :
    • Modèles de base : la diversité augmente avec le nombre de sujets
    • ProtoTopic : la diversité diminue avec le nombre de sujets (de 86,1 % à 61,2 %)

Travaux Connexes

Évolution de la Modélisation de Sujets

  1. Modèles Probabilistes : LDA utilisant l'hypothèse de sac de mots, ignorant l'ordre des mots
  2. Modèles Neuronaux :
    • LDA2VEC : combinaison d'embeddings Word2Vec
    • ETM : utilisation d'embeddings CBOW
    • BERTopic : basé sur les embeddings BERT

Apprentissage Peu Supervisé

  1. Méthodes d'Optimisation : algorithmes de méta-apprentissage comme MAML
  2. Méthodes de Mesure :
    • Réseaux Siamois
    • Matching Networks
    • Relation Networks
    • Réseaux Prototypiques

Applications des Réseaux Prototypiques

  • Vision par Ordinateur : tâches de classification d'images
  • Domaine du TAL : ProSeNet, ProtoryNet, ProtoSeq et autres applications de classification de texte

Conclusions et Discussion

Conclusions Principales

  1. ProtoTopic surpasse les modèles de base sur tous les indicateurs d'évaluation
  2. Même avec des embeddings génériques (all-MiniLM-L6-v2), le modèle obtient d'excellentes performances
  3. Le modèle peut générer des sujets pertinents pour le domaine médical et interprétables

Limitations

  1. Fonction de Perte : utilisation uniquement de la perte de réseau prototypique de base, sans considération de la compacité du clustering et de la distance entre prototypes
  2. Algorithme de Clustering : utilisation uniquement de K-means, sans exploration d'autres méthodes comme HDBSCAN
  3. Réduction de Dimensionnalité : pas d'exploration de l'effet de la réduction de dimensionnalité des embeddings de haute dimension
  4. Évaluation Utilisateur : absence d'évaluation subjective par des cliniciens

Directions Futures

  1. Amélioration de la conception de la fonction de perte
  2. Exploration de différentes techniques de clustering
  3. Étude de l'impact de la réduction de dimensionnalité
  4. Réalisation d'études utilisateur cliniques

Évaluation Approfondie

Points Forts

  1. Forte Innovativité : application pionnière des réseaux prototypiques à la modélisation de sujets
  2. Expérimentation Complète : comparaison exhaustive avec plusieurs modèles d'embeddings et plusieurs nombres de sujets
  3. Rigueur Statistique : fourniture de tests de signification statistique
  4. Valeur Pratique Élevée : résolution du problème de rareté des données dans le domaine médical
  5. Bonne Interprétabilité : les réseaux prototypiques fournissent un mécanisme d'explication intuitif

Insuffisances

  1. Ensemble de Données Unique : validation uniquement sur l'ensemble de données PubMed200k
  2. Dimensions d'Évaluation Limitées : absence d'évaluation humaine et d'évaluation sur des tâches en aval
  3. Complexité Computationnelle Non Analysée : pas de comparaison d'efficacité computationnelle avec les modèles de base
  4. Sensibilité aux Hyperparamètres : analyse insuffisante de l'impact des hyperparamètres clés

Impact

  1. Contribution Académique : fourniture d'un nouveau paradigme de modélisation de sujets pour le domaine du TAL médical
  2. Valeur Pratique : applicable à l'analyse de littérature médicale, au soutien à la décision clinique
  3. Reproductibilité : utilisation d'ensembles de données publics, configuration expérimentale détaillée

Scénarios d'Application

  1. Analyse de Littérature Médicale : aide aux chercheurs pour comprendre rapidement un grand nombre d'articles médicaux
  2. Découverte de Connaissances Cliniques : découverte de modèles de maladies à partir d'un petit nombre de cas
  3. Extension Interdisciplinaire : généralisation à d'autres domaines spécialisés avec rareté de données

Références Bibliographiques

Cet article cite 45 références pertinentes, couvrant la modélisation de sujets, l'apprentissage peu supervisé, les réseaux prototypiques et d'autres domaines clés, fournissant une base théorique solide pour la recherche. Les références clés incluent :

  • Snell et al. (2017) : Prototypical Networks for Few-Shot Learning
  • Grootendorst (2022) : modélisation neuronale de sujets BERTopic
  • Blei et al. (2003) : Latent Dirichlet Allocation

Évaluation Générale : Cet article propose une méthode innovante et pratique de modélisation de sujets médicaux, présentant une valeur importante pour résoudre le problème de rareté des données. La conception expérimentale est rationnelle, les résultats sont convaincants, et l'article apporte une contribution significative au domaine du TAL médical.