2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati

Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.

academic

ProtoTopic: कम-शॉट मेडिकल टॉपिक मॉडलिंग के लिए प्रोटोटाइपिकल नेटवर्क

बुनियादी जानकारी

पेपर ID: 2510.13542
शीर्षक: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
लेखक: Martin Licht, Sara Ketabi, Farzad Khalvati
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 15 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.13542v1

सारांश

टॉपिक मॉडलिंग बड़े दस्तावेज़ कॉर्पस (विशेषकर शैक्षणिक पत्रों) का विश्लेषण करने के लिए एक उपयोगी उपकरण है। हालांकि कई टॉपिक मॉडलिंग तकनीकें मौजूद हैं, ये चिकित्सा पाठ पर लागू होने पर खराब प्रदर्शन करती हैं, जो संभवतः स्वास्थ्यसेवा क्षेत्र में कुछ विषयों के लिए उपलब्ध दस्तावेज़ों की कम संख्या के कारण है। यह पेपर ProtoTopic प्रस्तावित करता है, जो चिकित्सा पत्रों के सारांश के लिए टॉपिक जनरेशन के लिए प्रोटोटाइपिकल नेटवर्क पर आधारित एक टॉपिक मॉडल है। प्रोटोटाइपिकल नेटवर्क कुशल और व्याख्यायोग्य मॉडल हैं जो इनपुट डेटा बिंदुओं और प्रोटोटाइप प्रतिनिधित्व के एक सेट के बीच दूरी की गणना करके भविष्यवाणी करते हैं, और कम डेटा या कम-शॉट लर्निंग परिदृश्यों में विशेष रूप से प्रभावी हैं। ProtoTopic के माध्यम से, लेखकों ने साहित्य में दो टॉपिक मॉडलिंग बेसलाइन की तुलना में बेहतर टॉपिक सुसंगतता और विविधता का प्रदर्शन किया है, जो सीमित डेटा के तहत भी चिकित्सा-संबंधित विषयों को उत्पन्न करने की मॉडल की क्षमता को साबित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: मौजूदा टॉपिक मॉडलिंग तकनीकें चिकित्सा पाठ पर खराब प्रदर्शन करती हैं, विशेषकर डेटा की कमी की स्थिति में
महत्व: चिकित्सा साहित्य की तीव्र वृद्धि के लिए प्रभावी टॉपिक मॉडलिंग उपकरणों की आवश्यकता है जो शोधकर्ताओं और चिकित्सकों को प्रासंगिक जानकारी को तेजी से छानने और खोजने में मदद करें
मौजूदा विधियों की सीमाएं:
- प्रशिक्षण डेटा की अपर्याप्तता: नैदानिक वातावरण में उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की कमी
- व्याख्यायोग्यता की कमी: अधिकांश SOTA मॉडल ब्लैक-बॉक्स मॉडल हैं
- चिकित्सा शब्दावली की विशेषता: चिकित्सा पाठ में विशिष्ट शब्दावली और प्रारूप भिन्नताएं हैं

अनुसंधान प्रेरणा

स्वास्थ्यसेवा क्षेत्र में NLP अनुप्रयोग तीन प्रमुख चुनौतियों का सामना करते हैं: डेटा की कमी, व्याख्यायोग्यता की कमी, और चिकित्सा शब्दावली की विशेषता। प्रोटोटाइपिकल नेटवर्क कम-शॉट परिदृश्यों में प्रभावी ढंग से सीख सकते हैं, साथ ही व्याख्यायोग्यता भी प्रदान करते हैं, जो उन्हें चिकित्सा टॉपिक मॉडलिंग के लिए आदर्श विकल्प बनाता है।

मुख्य योगदान

टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग: चिकित्सा सारांश के टॉपिक मॉडलिंग के लिए विशेष रूप से ProtoTopic विकसित किया गया
व्यापक प्रदर्शन मूल्यांकन: दो SOTA बेसलाइन मॉडल (LDA और BERTopic) के साथ व्यापक तुलना
बहु-विषय संख्या विश्लेषण: विभिन्न विषय संख्याओं (25, 50, 100) के मॉडल प्रदर्शन पर प्रभाव का अध्ययन
सांख्यिकीय महत्व सत्यापन: t-परीक्षण के माध्यम से बेसलाइन के सापेक्ष ProtoTopic के महत्वपूर्ण लाभ को साबित किया

विधि विवरण

कार्य परिभाषा

इनपुट: चिकित्सा पत्रों के सारांश का संग्रह आउटपुट: विषय क्लस्टरिंग परिणाम और प्रत्येक विषय के प्रतिनिधि कीवर्ड लक्ष्य: कम-शॉट परिदृश्य में उच्च सुसंगतता और उच्च विविधता वाले चिकित्सा विषयों को उत्पन्न करना

मॉडल आर्किटेक्चर

1. पाठ एम्बेडिंग जनरेशन

पाठ एम्बेडिंग उत्पन्न करने के लिए दो Transformer मॉडल का उपयोग:

PubMedBERT: चिकित्सा पत्रों पर प्रशिक्षित BERT वेरिएंट, 768-आयामी वेक्टर उत्पन्न करता है
all-MiniLM-L6-v2: सामान्य वाक्य Transformer, 384-आयामी वेक्टर उत्पन्न करता है

2. K-means क्लस्टरिंग

एम्बेडिंग वेक्टर पर K-means क्लस्टरिंग, छद्म लेबल उत्पन्न करता है:

दस्तावेज़ों को K क्लस्टर में असाइन करना
क्लस्टर केंद्र को प्रोटोटाइपिकल नेटवर्क प्रशिक्षण के लिए छद्म लेबल के रूप में उपयोग किया जाता है

3. प्रोटोटाइपिकल नेटवर्क प्रशिक्षण

मुख्य एल्गोरिथ्म Snell et al. के प्रोटोटाइपिकल नेटवर्क पर आधारित है:

प्रोटोटाइप गणना: $c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)$

जहां $S_k$ वर्ग k का समर्थन सेट है, $f_\phi$ एम्बेडिंग फ़ंक्शन है।

वर्गीकरण संभावना: $p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}$

हानि फ़ंक्शन: $J(\phi) = -\log p_\phi(y=k|x)$

4. कीवर्ड निष्कर्षण

प्रत्येक विषय के प्रतिनिधि कीवर्ड निकालने के लिए class-based TF-IDF (c-TF-IDF) का उपयोग, यह विधि शब्द आवृत्ति को शब्द के साथ सभी समूहों में दिखाई देने के प्रतिशत के रूप में पुनर्परिभाषित करती है, न कि उस शब्द को दिखाने वाले समूह के अनुपात के रूप में।

तकनीकी नवाचार बिंदु

कम-शॉट लर्निंग क्षमता: प्रोटोटाइपिकल नेटवर्क के माध्यम से केवल कुछ नमूनों के साथ प्रभावी विषय प्रतिनिधित्व सीखना
व्याख्यायोग्यता: सबसे समान प्रोटोटाइप मामलों को दिखाकर व्याख्या प्रदान करना
डोमेन अनुकूलन: चिकित्सा-विशिष्ट एम्बेडिंग (PubMedBERT) और सामान्य एम्बेडिंग के साथ तुलना
episodic प्रशिक्षण: प्रत्येक episode में 5 समूह होते हैं, प्रत्येक समूह में 5 समर्थन नमूने और 5 क्वेरी बिंदु होते हैं

प्रायोगिक सेटअप

डेटासेट

डेटासेट: PubMed200k RCT
आकार: 200,000 यादृच्छिक नियंत्रित परीक्षण सारांश, 2.3 मिलियन वाक्य
पूर्व-प्रसंस्करण:
- गैर-वर्णमाला वर्णों को हटाना
- लोअरकेस में रूपांतरण
- पाठ टोकनाइजेशन
- उच्च-आवृत्ति शब्दों को हटाना (जैसे "the", "and", "of" आदि)

मूल्यांकन मेट्रिक्स

विषय सुसंगतता (Topic Coherence): CV संकेतक का उपयोग, कॉर्पस में विषय कीवर्ड के सह-घटना का विश्लेषण
विषय विविधता (Topic Diversity): प्रत्येक विषय के शीर्ष 25 कीवर्ड निकालना, सभी विषय कीवर्ड में अद्वितीय शब्दों का प्रतिशत की गणना करना

तुलनात्मक विधियां

LDA (Latent Dirichlet Allocation): शास्त्रीय संभाव्य विषय मॉडल
BERTopic: BERT एम्बेडिंग पर आधारित तंत्रिका विषय मॉडल

कार्यान्वयन विवरण

अनुकूलक: ADAM, सीखने की दर 0.00005
प्रशिक्षण सेटअप: 50 episodes/epoch, कुल 10 epochs
हार्डवेयर: Google Colab T4 GPU (15GB RAM)
पैरामीटर फ्रीजिंग: पूर्व-प्रशिक्षित Transformer के अंतिम दो परतों को छोड़कर सभी को फ्रीज किया गया

प्रायोगिक परिणाम

मुख्य परिणाम

मात्रात्मक परिणाम

25 विषय:

मॉडल	सुसंगतता स्कोर	विषय विविधता
LDA	0.4910	40.8%
BERTopic	0.5137	49.6%
ProtoTopic (all-MiniLM)	0.5396	84.5%
ProtoTopic (PubMedBERT)	0.5754	86.1%

50 विषय:

मॉडल	सुसंगतता स्कोर	विषय विविधता
LDA	0.5017	43.8%
BERTopic	0.5394	54.5%
ProtoTopic (all-MiniLM)	0.6789	73.5%
ProtoTopic (PubMedBERT)	0.6734	75.9%

100 विषय:

मॉडल	सुसंगतता स्कोर	विषय विविधता
LDA	0.5090	55.6%
BERTopic	0.6173	58.0%
ProtoTopic (all-MiniLM)	0.7173	58.6%
ProtoTopic (PubMedBERT)	0.7117	61.2%

सांख्यिकीय महत्व

t-परीक्षण (p < 0.00001) के माध्यम से ProtoTopic सुसंगतता और विविधता मेट्रिक्स पर BERTopic से महत्वपूर्ण रूप से बेहतर साबित हुआ।

गुणात्मक परिणाम विश्लेषण

विषय विशिष्टता तुलना

BERTopic: बहुत सामान्य कीवर्ड उत्पन्न करता है (जैसे "patients", "median", "overall"), विभेदन की कमी
ProtoTopic: अत्यधिक विशिष्ट कीवर्ड उत्पन्न करता है, सामान्य शब्दों से बचता है, जैसे निचले अंग की चोटों के लिए विशिष्ट शब्दावली

प्रवृत्ति विश्लेषण

सुसंगतता प्रवृत्ति: सभी मॉडलों की विषय सुसंगतता विषय संख्या बढ़ने के साथ बढ़ती है
विविधता प्रवृत्ति:
- बेसलाइन मॉडल: विविधता विषय संख्या बढ़ने के साथ बढ़ती है
- ProtoTopic: विविधता विषय संख्या बढ़ने के साथ घटती है (86.1% से 61.2% तक)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

ProtoTopic सभी मूल्यांकन मेट्रिक्स पर बेसलाइन मॉडल से बेहतर है
सामान्य एम्बेडिंग (all-MiniLM-L6-v2) का उपयोग करते हुए भी उत्कृष्ट प्रदर्शन प्राप्त किया जा सकता है
मॉडल चिकित्सा-संबंधित और व्याख्यायोग्य विषयों को उत्पन्न कर सकता है

सीमाएं

हानि फ़ंक्शन: केवल बुनियादी प्रोटोटाइपिकल नेटवर्क हानि का उपयोग, क्लस्टर कसने और प्रोटोटाइप दूरी पर विचार नहीं किया
क्लस्टरिंग एल्गोरिदम: केवल K-means का उपयोग, HDBSCAN जैसी अन्य विधियों की खोज नहीं की
आयाम में कमी: उच्च-आयामी एम्बेडिंग के आयाम में कमी के प्रभाव की खोज नहीं की
उपयोगकर्ता मूल्यांकन: नैदानिक चिकित्सकों के व्यक्तिपरक मूल्यांकन की कमी

भविष्य की दिशाएं

हानि फ़ंक्शन डिजाइन में सुधार
विभिन्न क्लस्टरिंग तकनीकों की खोज
आयाम में कमी के प्रभाव का अध्ययन
नैदानिक उपयोगकर्ता अनुसंधान का संचालन

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग
पर्याप्त प्रयोग: विभिन्न एम्बेडिंग मॉडल, विभिन्न विषय संख्याओं की व्यापक तुलना
सांख्यिकीय कठोरता: सांख्यिकीय महत्व परीक्षण प्रदान करता है
उच्च व्यावहारिक मूल्य: चिकित्सा क्षेत्र में डेटा की कमी की समस्या को हल करता है
अच्छी व्याख्यायोग्यता: प्रोटोटाइपिकल नेटवर्क सहज व्याख्या तंत्र प्रदान करता है

कमियां

एकल डेटासेट: केवल PubMed200k डेटासेट पर सत्यापित
सीमित मूल्यांकन आयाम: मानव मूल्यांकन और डाउनस्ट्रीम कार्य मूल्यांकन की कमी
कम्प्यूटेशनल जटिलता विश्लेषण नहीं: बेसलाइन के साथ कम्प्यूटेशनल दक्षता तुलना प्रदान नहीं की
हाइपरपैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर के प्रभाव का पर्याप्त विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: चिकित्सा NLP क्षेत्र के लिए नया विषय मॉडलिंग प्रतिमान प्रदान करता है
व्यावहारिक मूल्य: चिकित्सा साहित्य विश्लेषण, नैदानिक निर्णय समर्थन में लागू किया जा सकता है
पुनरुत्पादनीयता: सार्वजनिक डेटासेट का उपयोग, विस्तृत प्रायोगिक सेटअप

लागू परिदृश्य

चिकित्सा साहित्य विश्लेषण: शोधकर्ताओं को बड़ी संख्या में चिकित्सा पत्रों को तेजी से समझने में मदद करता है
नैदानिक ज्ञान खोज: कम मामलों से रोग पैटर्न की खोज करता है
क्रॉस-डोमेन विस्तार: अन्य डेटा-कम विशेषज्ञ क्षेत्रों में विस्तारित किया जा सकता है

संदर्भ

यह पेपर 45 संबंधित संदर्भों का हवाला देता है, जो विषय मॉडलिंग, कम-शॉट लर्निंग, प्रोटोटाइपिकल नेटवर्क आदि मुख्य क्षेत्रों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ साहित्य में शामिल हैं:

Snell et al. (2017): Prototypical Networks for Few-Shot Learning
Grootendorst (2022): BERTopic neural topic modeling
Blei et al. (2003): Latent Dirichlet Allocation

समग्र मूल्यांकन: यह पेपर एक नवीन और व्यावहारिक चिकित्सा विषय मॉडलिंग विधि प्रस्तावित करता है, जो डेटा की कमी की समस्या को हल करने में महत्वपूर्ण मूल्य रखता है। प्रायोगिक डिजाइन उचित है, परिणाम विश्वसनीय हैं, और यह चिकित्सा NLP क्षेत्र में सार्थक योगदान देता है।