Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
- पेपर ID: 2510.13542
- शीर्षक: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
- लेखक: Martin Licht, Sara Ketabi, Farzad Khalvati
- वर्गीकरण: cs.LG (मशीन लर्निंग)
- प्रकाशन तिथि: 15 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.13542v1
टॉपिक मॉडलिंग बड़े दस्तावेज़ कॉर्पस (विशेषकर शैक्षणिक पत्रों) का विश्लेषण करने के लिए एक उपयोगी उपकरण है। हालांकि कई टॉपिक मॉडलिंग तकनीकें मौजूद हैं, ये चिकित्सा पाठ पर लागू होने पर खराब प्रदर्शन करती हैं, जो संभवतः स्वास्थ्यसेवा क्षेत्र में कुछ विषयों के लिए उपलब्ध दस्तावेज़ों की कम संख्या के कारण है। यह पेपर ProtoTopic प्रस्तावित करता है, जो चिकित्सा पत्रों के सारांश के लिए टॉपिक जनरेशन के लिए प्रोटोटाइपिकल नेटवर्क पर आधारित एक टॉपिक मॉडल है। प्रोटोटाइपिकल नेटवर्क कुशल और व्याख्यायोग्य मॉडल हैं जो इनपुट डेटा बिंदुओं और प्रोटोटाइप प्रतिनिधित्व के एक सेट के बीच दूरी की गणना करके भविष्यवाणी करते हैं, और कम डेटा या कम-शॉट लर्निंग परिदृश्यों में विशेष रूप से प्रभावी हैं। ProtoTopic के माध्यम से, लेखकों ने साहित्य में दो टॉपिक मॉडलिंग बेसलाइन की तुलना में बेहतर टॉपिक सुसंगतता और विविधता का प्रदर्शन किया है, जो सीमित डेटा के तहत भी चिकित्सा-संबंधित विषयों को उत्पन्न करने की मॉडल की क्षमता को साबित करता है।
- मुख्य समस्या: मौजूदा टॉपिक मॉडलिंग तकनीकें चिकित्सा पाठ पर खराब प्रदर्शन करती हैं, विशेषकर डेटा की कमी की स्थिति में
- महत्व: चिकित्सा साहित्य की तीव्र वृद्धि के लिए प्रभावी टॉपिक मॉडलिंग उपकरणों की आवश्यकता है जो शोधकर्ताओं और चिकित्सकों को प्रासंगिक जानकारी को तेजी से छानने और खोजने में मदद करें
- मौजूदा विधियों की सीमाएं:
- प्रशिक्षण डेटा की अपर्याप्तता: नैदानिक वातावरण में उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की कमी
- व्याख्यायोग्यता की कमी: अधिकांश SOTA मॉडल ब्लैक-बॉक्स मॉडल हैं
- चिकित्सा शब्दावली की विशेषता: चिकित्सा पाठ में विशिष्ट शब्दावली और प्रारूप भिन्नताएं हैं
स्वास्थ्यसेवा क्षेत्र में NLP अनुप्रयोग तीन प्रमुख चुनौतियों का सामना करते हैं: डेटा की कमी, व्याख्यायोग्यता की कमी, और चिकित्सा शब्दावली की विशेषता। प्रोटोटाइपिकल नेटवर्क कम-शॉट परिदृश्यों में प्रभावी ढंग से सीख सकते हैं, साथ ही व्याख्यायोग्यता भी प्रदान करते हैं, जो उन्हें चिकित्सा टॉपिक मॉडलिंग के लिए आदर्श विकल्प बनाता है।
- टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग: चिकित्सा सारांश के टॉपिक मॉडलिंग के लिए विशेष रूप से ProtoTopic विकसित किया गया
- व्यापक प्रदर्शन मूल्यांकन: दो SOTA बेसलाइन मॉडल (LDA और BERTopic) के साथ व्यापक तुलना
- बहु-विषय संख्या विश्लेषण: विभिन्न विषय संख्याओं (25, 50, 100) के मॉडल प्रदर्शन पर प्रभाव का अध्ययन
- सांख्यिकीय महत्व सत्यापन: t-परीक्षण के माध्यम से बेसलाइन के सापेक्ष ProtoTopic के महत्वपूर्ण लाभ को साबित किया
इनपुट: चिकित्सा पत्रों के सारांश का संग्रह
आउटपुट: विषय क्लस्टरिंग परिणाम और प्रत्येक विषय के प्रतिनिधि कीवर्ड
लक्ष्य: कम-शॉट परिदृश्य में उच्च सुसंगतता और उच्च विविधता वाले चिकित्सा विषयों को उत्पन्न करना
पाठ एम्बेडिंग उत्पन्न करने के लिए दो Transformer मॉडल का उपयोग:
- PubMedBERT: चिकित्सा पत्रों पर प्रशिक्षित BERT वेरिएंट, 768-आयामी वेक्टर उत्पन्न करता है
- all-MiniLM-L6-v2: सामान्य वाक्य Transformer, 384-आयामी वेक्टर उत्पन्न करता है
एम्बेडिंग वेक्टर पर K-means क्लस्टरिंग, छद्म लेबल उत्पन्न करता है:
- दस्तावेज़ों को K क्लस्टर में असाइन करना
- क्लस्टर केंद्र को प्रोटोटाइपिकल नेटवर्क प्रशिक्षण के लिए छद्म लेबल के रूप में उपयोग किया जाता है
मुख्य एल्गोरिथ्म Snell et al. के प्रोटोटाइपिकल नेटवर्क पर आधारित है:
प्रोटोटाइप गणना:
ck=∣Sk∣1∑(xi,yi)∈Skfϕ(xi)
जहां Sk वर्ग k का समर्थन सेट है, fϕ एम्बेडिंग फ़ंक्शन है।
वर्गीकरण संभावना:
pϕ(y=k∣x)=∑k′exp(−d(fϕ(x),ck′))exp(−d(fϕ(x),ck))
हानि फ़ंक्शन:
J(ϕ)=−logpϕ(y=k∣x)
प्रत्येक विषय के प्रतिनिधि कीवर्ड निकालने के लिए class-based TF-IDF (c-TF-IDF) का उपयोग, यह विधि शब्द आवृत्ति को शब्द के साथ सभी समूहों में दिखाई देने के प्रतिशत के रूप में पुनर्परिभाषित करती है, न कि उस शब्द को दिखाने वाले समूह के अनुपात के रूप में।
- कम-शॉट लर्निंग क्षमता: प्रोटोटाइपिकल नेटवर्क के माध्यम से केवल कुछ नमूनों के साथ प्रभावी विषय प्रतिनिधित्व सीखना
- व्याख्यायोग्यता: सबसे समान प्रोटोटाइप मामलों को दिखाकर व्याख्या प्रदान करना
- डोमेन अनुकूलन: चिकित्सा-विशिष्ट एम्बेडिंग (PubMedBERT) और सामान्य एम्बेडिंग के साथ तुलना
- episodic प्रशिक्षण: प्रत्येक episode में 5 समूह होते हैं, प्रत्येक समूह में 5 समर्थन नमूने और 5 क्वेरी बिंदु होते हैं
- डेटासेट: PubMed200k RCT
- आकार: 200,000 यादृच्छिक नियंत्रित परीक्षण सारांश, 2.3 मिलियन वाक्य
- पूर्व-प्रसंस्करण:
- गैर-वर्णमाला वर्णों को हटाना
- लोअरकेस में रूपांतरण
- पाठ टोकनाइजेशन
- उच्च-आवृत्ति शब्दों को हटाना (जैसे "the", "and", "of" आदि)
- विषय सुसंगतता (Topic Coherence): CV संकेतक का उपयोग, कॉर्पस में विषय कीवर्ड के सह-घटना का विश्लेषण
- विषय विविधता (Topic Diversity): प्रत्येक विषय के शीर्ष 25 कीवर्ड निकालना, सभी विषय कीवर्ड में अद्वितीय शब्दों का प्रतिशत की गणना करना
- LDA (Latent Dirichlet Allocation): शास्त्रीय संभाव्य विषय मॉडल
- BERTopic: BERT एम्बेडिंग पर आधारित तंत्रिका विषय मॉडल
- अनुकूलक: ADAM, सीखने की दर 0.00005
- प्रशिक्षण सेटअप: 50 episodes/epoch, कुल 10 epochs
- हार्डवेयर: Google Colab T4 GPU (15GB RAM)
- पैरामीटर फ्रीजिंग: पूर्व-प्रशिक्षित Transformer के अंतिम दो परतों को छोड़कर सभी को फ्रीज किया गया
25 विषय:
| मॉडल | सुसंगतता स्कोर | विषय विविधता |
|---|
| LDA | 0.4910 | 40.8% |
| BERTopic | 0.5137 | 49.6% |
| ProtoTopic (all-MiniLM) | 0.5396 | 84.5% |
| ProtoTopic (PubMedBERT) | 0.5754 | 86.1% |
50 विषय:
| मॉडल | सुसंगतता स्कोर | विषय विविधता |
|---|
| LDA | 0.5017 | 43.8% |
| BERTopic | 0.5394 | 54.5% |
| ProtoTopic (all-MiniLM) | 0.6789 | 73.5% |
| ProtoTopic (PubMedBERT) | 0.6734 | 75.9% |
100 विषय:
| मॉडल | सुसंगतता स्कोर | विषय विविधता |
|---|
| LDA | 0.5090 | 55.6% |
| BERTopic | 0.6173 | 58.0% |
| ProtoTopic (all-MiniLM) | 0.7173 | 58.6% |
| ProtoTopic (PubMedBERT) | 0.7117 | 61.2% |
t-परीक्षण (p < 0.00001) के माध्यम से ProtoTopic सुसंगतता और विविधता मेट्रिक्स पर BERTopic से महत्वपूर्ण रूप से बेहतर साबित हुआ।
- BERTopic: बहुत सामान्य कीवर्ड उत्पन्न करता है (जैसे "patients", "median", "overall"), विभेदन की कमी
- ProtoTopic: अत्यधिक विशिष्ट कीवर्ड उत्पन्न करता है, सामान्य शब्दों से बचता है, जैसे निचले अंग की चोटों के लिए विशिष्ट शब्दावली
- सुसंगतता प्रवृत्ति: सभी मॉडलों की विषय सुसंगतता विषय संख्या बढ़ने के साथ बढ़ती है
- विविधता प्रवृत्ति:
- बेसलाइन मॉडल: विविधता विषय संख्या बढ़ने के साथ बढ़ती है
- ProtoTopic: विविधता विषय संख्या बढ़ने के साथ घटती है (86.1% से 61.2% तक)
- संभाव्य मॉडल: LDA शब्द-बैग धारणा का उपयोग करता है, शब्द क्रम को नजरअंदाज करता है
- तंत्रिका मॉडल:
- LDA2VEC: Word2Vec एम्बेडिंग को जोड़ता है
- ETM: CBOW एम्बेडिंग का उपयोग करता है
- BERTopic: BERT एम्बेडिंग पर आधारित
- अनुकूलन विधियां: MAML जैसे मेटा-लर्निंग एल्गोरिदम
- मेट्रिक विधियां:
- Siamese नेटवर्क
- Matching Networks
- Relation Networks
- Prototypical Networks
- कंप्यूटर विजन: छवि वर्गीकरण कार्य
- NLP क्षेत्र: ProSeNet, ProtoryNet, ProtoSeq आदि पाठ वर्गीकरण अनुप्रयोग
- ProtoTopic सभी मूल्यांकन मेट्रिक्स पर बेसलाइन मॉडल से बेहतर है
- सामान्य एम्बेडिंग (all-MiniLM-L6-v2) का उपयोग करते हुए भी उत्कृष्ट प्रदर्शन प्राप्त किया जा सकता है
- मॉडल चिकित्सा-संबंधित और व्याख्यायोग्य विषयों को उत्पन्न कर सकता है
- हानि फ़ंक्शन: केवल बुनियादी प्रोटोटाइपिकल नेटवर्क हानि का उपयोग, क्लस्टर कसने और प्रोटोटाइप दूरी पर विचार नहीं किया
- क्लस्टरिंग एल्गोरिदम: केवल K-means का उपयोग, HDBSCAN जैसी अन्य विधियों की खोज नहीं की
- आयाम में कमी: उच्च-आयामी एम्बेडिंग के आयाम में कमी के प्रभाव की खोज नहीं की
- उपयोगकर्ता मूल्यांकन: नैदानिक चिकित्सकों के व्यक्तिपरक मूल्यांकन की कमी
- हानि फ़ंक्शन डिजाइन में सुधार
- विभिन्न क्लस्टरिंग तकनीकों की खोज
- आयाम में कमी के प्रभाव का अध्ययन
- नैदानिक उपयोगकर्ता अनुसंधान का संचालन
- मजबूत नवाचार: टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग
- पर्याप्त प्रयोग: विभिन्न एम्बेडिंग मॉडल, विभिन्न विषय संख्याओं की व्यापक तुलना
- सांख्यिकीय कठोरता: सांख्यिकीय महत्व परीक्षण प्रदान करता है
- उच्च व्यावहारिक मूल्य: चिकित्सा क्षेत्र में डेटा की कमी की समस्या को हल करता है
- अच्छी व्याख्यायोग्यता: प्रोटोटाइपिकल नेटवर्क सहज व्याख्या तंत्र प्रदान करता है
- एकल डेटासेट: केवल PubMed200k डेटासेट पर सत्यापित
- सीमित मूल्यांकन आयाम: मानव मूल्यांकन और डाउनस्ट्रीम कार्य मूल्यांकन की कमी
- कम्प्यूटेशनल जटिलता विश्लेषण नहीं: बेसलाइन के साथ कम्प्यूटेशनल दक्षता तुलना प्रदान नहीं की
- हाइपरपैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर के प्रभाव का पर्याप्त विश्लेषण नहीं
- शैक्षणिक योगदान: चिकित्सा NLP क्षेत्र के लिए नया विषय मॉडलिंग प्रतिमान प्रदान करता है
- व्यावहारिक मूल्य: चिकित्सा साहित्य विश्लेषण, नैदानिक निर्णय समर्थन में लागू किया जा सकता है
- पुनरुत्पादनीयता: सार्वजनिक डेटासेट का उपयोग, विस्तृत प्रायोगिक सेटअप
- चिकित्सा साहित्य विश्लेषण: शोधकर्ताओं को बड़ी संख्या में चिकित्सा पत्रों को तेजी से समझने में मदद करता है
- नैदानिक ज्ञान खोज: कम मामलों से रोग पैटर्न की खोज करता है
- क्रॉस-डोमेन विस्तार: अन्य डेटा-कम विशेषज्ञ क्षेत्रों में विस्तारित किया जा सकता है
यह पेपर 45 संबंधित संदर्भों का हवाला देता है, जो विषय मॉडलिंग, कम-शॉट लर्निंग, प्रोटोटाइपिकल नेटवर्क आदि मुख्य क्षेत्रों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ साहित्य में शामिल हैं:
- Snell et al. (2017): Prototypical Networks for Few-Shot Learning
- Grootendorst (2022): BERTopic neural topic modeling
- Blei et al. (2003): Latent Dirichlet Allocation
समग्र मूल्यांकन: यह पेपर एक नवीन और व्यावहारिक चिकित्सा विषय मॉडलिंग विधि प्रस्तावित करता है, जो डेटा की कमी की समस्या को हल करने में महत्वपूर्ण मूल्य रखता है। प्रायोगिक डिजाइन उचित है, परिणाम विश्वसनीय हैं, और यह चिकित्सा NLP क्षेत्र में सार्थक योगदान देता है।