Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- ID Articolo: 2510.13542
- Titolo: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
- Autori: Martin Licht, Sara Ketabi, Farzad Khalvati
- Classificazione: cs.LG (Machine Learning)
- Data di Pubblicazione: 15 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.13542v1
La modellazione di argomenti è uno strumento utile per analizzare grandi corpora di documenti, in particolare articoli accademici. Sebbene esistano diverse tecniche di modellazione di argomenti, queste presentano prestazioni scadenti quando applicate a testi medici, probabilmente a causa della scarsità di documenti disponibili per determinati argomenti nel settore sanitario. Questo articolo propone ProtoTopic, un modello di argomenti basato su reti prototipiche per la generazione di argomenti da abstract di articoli medici. Le reti prototipiche sono modelli efficienti e interpretabili che effettuano previsioni calcolando le distanze tra punti dati di input e un insieme di rappresentazioni prototipiche, risultando particolarmente efficaci in scenari di apprendimento con pochi dati o pochi esempi. Attraverso ProtoTopic, gli autori dimostrano una coerenza e diversità di argomenti migliorate rispetto a due baseline di modellazione di argomenti presenti in letteratura, provando la capacità del modello di generare argomenti rilevanti dal punto di vista medico anche con dati limitati.
- Problema centrale: Le tecniche di modellazione di argomenti esistenti presentano prestazioni scadenti su testi medici, in particolare in condizioni di scarsità di dati
- Importanza: La crescita rapida della letteratura medica richiede strumenti efficaci di modellazione di argomenti per aiutare ricercatori e clinici a setacciare e trovare rapidamente informazioni rilevanti
- Limitazioni dei metodi esistenti:
- Insufficienza di dati di addestramento: i dati di addestramento di alta qualità sono scarsi negli ambienti clinici
- Mancanza di interpretabilità: la maggior parte dei modelli SOTA sono modelli black-box
- Specificità della terminologia medica: i testi medici presentano terminologia specifica e variazioni di formato
Le applicazioni di NLP nel settore sanitario affrontano tre sfide principali: scarsità di dati, mancanza di interpretabilità e specificità della terminologia medica. Le reti prototipiche sono in grado di apprendere efficacemente in scenari con pochi esempi, fornendo al contempo interpretabilità, rendendole una scelta ideale per la modellazione di argomenti medici.
- Prima applicazione di reti prototipiche a compiti di modellazione di argomenti: sviluppo di ProtoTopic, specificamente progettato per la modellazione di argomenti da abstract medici
- Valutazione delle prestazioni complessiva: confronto completo con due modelli SOTA (LDA e BERTopic)
- Analisi di molteplici numeri di argomenti: studio dell'impatto di diversi numeri di argomenti (25, 50, 100) sulle prestazioni del modello
- Verifica della significatività statistica: dimostrazione attraverso test t del vantaggio significativo di ProtoTopic rispetto alle baseline
Input: Insieme di abstract di articoli medici
Output: Risultati di clustering di argomenti e parole chiave rappresentative per ogni argomento
Obiettivo: Generare argomenti medici con elevata coerenza e diversità in scenari con pochi esempi
Utilizzo di due modelli Transformer per generare embedding di testo:
- PubMedBERT: Variante BERT addestrata specificamente su articoli medici, generando vettori di 768 dimensioni
- all-MiniLM-L6-v2: Transformer di frasi generico, generando vettori di 384 dimensioni
Clustering dei vettori di embedding mediante K-means per generare pseudo-etichette:
- Assegnazione di documenti a K cluster
- I centri dei cluster fungono da pseudo-etichette per l'addestramento della rete prototipica
Algoritmo principale basato sulla rete prototipica di Snell et al.:
Calcolo del Prototipo:
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
dove Sk è l'insieme di supporto della classe k e fϕ è la funzione di embedding.
Probabilità di Classificazione:
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
Funzione di Perdita:
J(ϕ)=−logpϕ(y=k∣x)
Utilizzo di TF-IDF basato su classe (c-TF-IDF) per estrarre parole chiave rappresentative per ogni argomento, metodo che ridefinisce la frequenza dei termini come percentuale di apparizione della parola in tutti i gruppi, anziché la proporzione del gruppo in cui appare la parola.
- Capacità di apprendimento con pochi esempi: realizzazione dell'apprendimento di rappresentazioni di argomenti efficaci con solo pochi campioni attraverso reti prototipiche
- Interpretabilità: fornitura di spiegazioni attraverso la visualizzazione dei casi prototipici più simili
- Adattabilità al dominio: combinazione di embedding specializzati per il settore medico (PubMedBERT) e embedding generici per il confronto
- Addestramento episodico: ogni episodio contiene 5 classi, ciascuna con 5 campioni di supporto e 5 punti di query
- Dataset: PubMed200k RCT
- Dimensione: 200.000 abstract di studi controllati randomizzati, 2,3 milioni di frasi
- Preprocessing:
- Rimozione di caratteri non alfabetici
- Conversione a minuscole
- Tokenizzazione del testo
- Rimozione di parole ad alta frequenza (come "the", "and", "of", ecc.)
- Coerenza di Argomenti (Topic Coherence): utilizzo della metrica CV, analizzando la co-occorrenza delle parole chiave di argomenti nel corpus
- Diversità di Argomenti (Topic Diversity): estrazione delle prime 25 parole chiave per ogni argomento, calcolo della percentuale di parole uniche tra tutte le parole chiave di argomenti
- LDA (Latent Dirichlet Allocation): modello probabilistico di argomenti classico
- BERTopic: modello neurale di argomenti basato su embedding BERT
- Ottimizzatore: ADAM, tasso di apprendimento 0,00005
- Configurazione di addestramento: 50 episodi/epoca, totale 10 epoche
- Hardware: GPU T4 Google Colab (15GB RAM)
- Congelamento dei parametri: congelamento di tutti i Transformer pre-addestrati eccetto gli ultimi due strati
25 Argomenti:
| Modello | Punteggio di Coerenza | Diversità di Argomenti |
|---|
| LDA | 0,4910 | 40,8% |
| BERTopic | 0,5137 | 49,6% |
| ProtoTopic (all-MiniLM) | 0,5396 | 84,5% |
| ProtoTopic (PubMedBERT) | 0,5754 | 86,1% |
50 Argomenti:
| Modello | Punteggio di Coerenza | Diversità di Argomenti |
|---|
| LDA | 0,5017 | 43,8% |
| BERTopic | 0,5394 | 54,5% |
| ProtoTopic (all-MiniLM) | 0,6789 | 73,5% |
| ProtoTopic (PubMedBERT) | 0,6734 | 75,9% |
100 Argomenti:
| Modello | Punteggio di Coerenza | Diversità di Argomenti |
|---|
| LDA | 0,5090 | 55,6% |
| BERTopic | 0,6173 | 58,0% |
| ProtoTopic (all-MiniLM) | 0,7173 | 58,6% |
| ProtoTopic (PubMedBERT) | 0,7117 | 61,2% |
Attraverso test t (p < 0,00001) è stata provata la superiorità significativa di ProtoTopic rispetto a BERTopic nelle metriche di coerenza e diversità.
- BERTopic: genera parole chiave eccessivamente generiche (come "patients", "median", "overall"), mancando di potere discriminativo
- ProtoTopic: genera parole chiave altamente specifiche, evitando vocabolario generico, come terminologia specifica per lesioni degli arti inferiori
- Tendenza di Coerenza: la coerenza di argomenti di tutti i modelli aumenta con l'aumento del numero di argomenti
- Tendenza di Diversità:
- Modelli baseline: la diversità aumenta con l'aumento del numero di argomenti
- ProtoTopic: la diversità diminuisce con l'aumento del numero di argomenti (da 86,1% a 61,2%)
- Modelli Probabilistici: LDA utilizza l'ipotesi bag-of-words, ignorando l'ordine delle parole
- Modelli Neurali:
- LDA2VEC: combinazione di embedding Word2Vec
- ETM: utilizzo di embedding CBOW
- BERTopic: basato su embedding BERT
- Metodi di Ottimizzazione: algoritmi di meta-apprendimento come MAML
- Metodi di Metrica:
- Reti Siamese
- Matching Networks
- Relation Networks
- Prototypical Networks
- Visione Artificiale: compiti di classificazione di immagini
- Settore NLP: ProSeNet, ProtoryNet, ProtoSeq e altre applicazioni di classificazione di testi
- ProtoTopic supera i modelli baseline in tutte le metriche di valutazione
- Anche l'utilizzo di embedding generici (all-MiniLM-L6-v2) raggiunge prestazioni eccellenti
- Il modello è in grado di generare argomenti rilevanti dal punto di vista medico e interpretabili
- Funzione di Perdita: utilizzo solo della perdita di rete prototipica di base, senza considerazione della compattezza del clustering e della distanza tra prototipi
- Algoritmo di Clustering: utilizzo solo di K-means, senza esplorazione di altri metodi come HDBSCAN
- Riduzione di Dimensionalità: nessuna esplorazione dell'effetto della riduzione dimensionale di embedding ad alta dimensionalità
- Valutazione da Parte dell'Utente: mancanza di valutazione soggettiva da parte di medici clinici
- Miglioramento della progettazione della funzione di perdita
- Esplorazione di diverse tecniche di clustering
- Studio dell'impatto della riduzione di dimensionalità
- Conduzione di studi con utenti clinici
- Forte Innovatività: prima applicazione di reti prototipiche a compiti di modellazione di argomenti
- Esperimenti Completi: confronto completo con molteplici modelli di embedding e numeri di argomenti
- Rigore Statistico: fornitura di test di significatività statistica
- Alto Valore Pratico: risoluzione del problema di scarsità di dati nel settore medico
- Buona Interpretabilità: le reti prototipiche forniscono meccanismi di spiegazione intuitivi
- Dataset Singolo: validazione solo sul dataset PubMed200k
- Dimensioni di Valutazione Limitate: mancanza di valutazione umana e valutazione di compiti a valle
- Analisi della Complessità Computazionale Non Fornita: nessun confronto di efficienza computazionale con le baseline
- Sensibilità agli Iperparametri: analisi insufficiente dell'impatto dei iperparametri chiave
- Contributo Accademico: fornitura di un nuovo paradigma di modellazione di argomenti per il settore medico NLP
- Valore Pratico: applicabilità all'analisi di letteratura medica e al supporto decisionale clinico
- Riproducibilità: utilizzo di dataset pubblici, configurazione sperimentale dettagliata
- Analisi di Letteratura Medica: aiuto ai ricercatori nella comprensione rapida di grandi quantità di articoli medici
- Scoperta di Conoscenze Cliniche: scoperta di modelli di malattie da un numero limitato di casi
- Estensione Interdisciplinare: generalizzazione ad altri settori specializzati con scarsità di dati
Questo articolo cita 45 lavori correlati, coprendo modellazione di argomenti, apprendimento con pochi esempi, reti prototipiche e altri settori chiave, fornendo una base teorica solida per la ricerca. Le bibliografie chiave includono:
- Snell et al. (2017): Prototypical Networks for Few-Shot Learning
- Grootendorst (2022): BERTopic neural topic modeling
- Blei et al. (2003): Latent Dirichlet Allocation
Valutazione Complessiva: Questo articolo propone un metodo innovativo e pratico di modellazione di argomenti medici, possedendo un valore importante nella risoluzione del problema di scarsità di dati. La progettazione sperimentale è ragionevole, i risultati sono convincenti e fornisce un contributo significativo al settore medico NLP.