2025-11-10T02:45:09.159666

ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling

Licht, Ketabi, Khalvati
Topic modeling is a useful tool for analyzing large corpora of written documents, particularly academic papers. Despite a wide variety of proposed topic modeling techniques, these techniques do not perform well when applied to medical texts. This can be due to the low number of documents available for some topics in the healthcare domain. In this paper, we propose ProtoTopic, a prototypical network-based topic model used for topic generation for a set of medical paper abstracts. Prototypical networks are efficient, explainable models that make predictions by computing distances between input datapoints and a set of prototype representations, making them particularly effective in low-data or few-shot learning scenarios. With ProtoTopic, we demonstrate improved topic coherence and diversity compared to two topic modeling baselines used in the literature, demonstrating the ability of our model to generate medically relevant topics even with limited data.
academic

ProtoTopic: कम-शॉट मेडिकल टॉपिक मॉडलिंग के लिए प्रोटोटाइपिकल नेटवर्क

बुनियादी जानकारी

  • पेपर ID: 2510.13542
  • शीर्षक: ProtoTopic: Prototypical Network for Few-Shot Medical Topic Modeling
  • लेखक: Martin Licht, Sara Ketabi, Farzad Khalvati
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 15 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.13542v1

सारांश

टॉपिक मॉडलिंग बड़े दस्तावेज़ कॉर्पस (विशेषकर शैक्षणिक पत्रों) का विश्लेषण करने के लिए एक उपयोगी उपकरण है। हालांकि कई टॉपिक मॉडलिंग तकनीकें मौजूद हैं, ये चिकित्सा पाठ पर लागू होने पर खराब प्रदर्शन करती हैं, जो संभवतः स्वास्थ्यसेवा क्षेत्र में कुछ विषयों के लिए उपलब्ध दस्तावेज़ों की कम संख्या के कारण है। यह पेपर ProtoTopic प्रस्तावित करता है, जो चिकित्सा पत्रों के सारांश के लिए टॉपिक जनरेशन के लिए प्रोटोटाइपिकल नेटवर्क पर आधारित एक टॉपिक मॉडल है। प्रोटोटाइपिकल नेटवर्क कुशल और व्याख्यायोग्य मॉडल हैं जो इनपुट डेटा बिंदुओं और प्रोटोटाइप प्रतिनिधित्व के एक सेट के बीच दूरी की गणना करके भविष्यवाणी करते हैं, और कम डेटा या कम-शॉट लर्निंग परिदृश्यों में विशेष रूप से प्रभावी हैं। ProtoTopic के माध्यम से, लेखकों ने साहित्य में दो टॉपिक मॉडलिंग बेसलाइन की तुलना में बेहतर टॉपिक सुसंगतता और विविधता का प्रदर्शन किया है, जो सीमित डेटा के तहत भी चिकित्सा-संबंधित विषयों को उत्पन्न करने की मॉडल की क्षमता को साबित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: मौजूदा टॉपिक मॉडलिंग तकनीकें चिकित्सा पाठ पर खराब प्रदर्शन करती हैं, विशेषकर डेटा की कमी की स्थिति में
  2. महत्व: चिकित्सा साहित्य की तीव्र वृद्धि के लिए प्रभावी टॉपिक मॉडलिंग उपकरणों की आवश्यकता है जो शोधकर्ताओं और चिकित्सकों को प्रासंगिक जानकारी को तेजी से छानने और खोजने में मदद करें
  3. मौजूदा विधियों की सीमाएं:
    • प्रशिक्षण डेटा की अपर्याप्तता: नैदानिक वातावरण में उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की कमी
    • व्याख्यायोग्यता की कमी: अधिकांश SOTA मॉडल ब्लैक-बॉक्स मॉडल हैं
    • चिकित्सा शब्दावली की विशेषता: चिकित्सा पाठ में विशिष्ट शब्दावली और प्रारूप भिन्नताएं हैं

अनुसंधान प्रेरणा

स्वास्थ्यसेवा क्षेत्र में NLP अनुप्रयोग तीन प्रमुख चुनौतियों का सामना करते हैं: डेटा की कमी, व्याख्यायोग्यता की कमी, और चिकित्सा शब्दावली की विशेषता। प्रोटोटाइपिकल नेटवर्क कम-शॉट परिदृश्यों में प्रभावी ढंग से सीख सकते हैं, साथ ही व्याख्यायोग्यता भी प्रदान करते हैं, जो उन्हें चिकित्सा टॉपिक मॉडलिंग के लिए आदर्श विकल्प बनाता है।

मुख्य योगदान

  1. टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग: चिकित्सा सारांश के टॉपिक मॉडलिंग के लिए विशेष रूप से ProtoTopic विकसित किया गया
  2. व्यापक प्रदर्शन मूल्यांकन: दो SOTA बेसलाइन मॉडल (LDA और BERTopic) के साथ व्यापक तुलना
  3. बहु-विषय संख्या विश्लेषण: विभिन्न विषय संख्याओं (25, 50, 100) के मॉडल प्रदर्शन पर प्रभाव का अध्ययन
  4. सांख्यिकीय महत्व सत्यापन: t-परीक्षण के माध्यम से बेसलाइन के सापेक्ष ProtoTopic के महत्वपूर्ण लाभ को साबित किया

विधि विवरण

कार्य परिभाषा

इनपुट: चिकित्सा पत्रों के सारांश का संग्रह आउटपुट: विषय क्लस्टरिंग परिणाम और प्रत्येक विषय के प्रतिनिधि कीवर्ड लक्ष्य: कम-शॉट परिदृश्य में उच्च सुसंगतता और उच्च विविधता वाले चिकित्सा विषयों को उत्पन्न करना

मॉडल आर्किटेक्चर

1. पाठ एम्बेडिंग जनरेशन

पाठ एम्बेडिंग उत्पन्न करने के लिए दो Transformer मॉडल का उपयोग:

  • PubMedBERT: चिकित्सा पत्रों पर प्रशिक्षित BERT वेरिएंट, 768-आयामी वेक्टर उत्पन्न करता है
  • all-MiniLM-L6-v2: सामान्य वाक्य Transformer, 384-आयामी वेक्टर उत्पन्न करता है

2. K-means क्लस्टरिंग

एम्बेडिंग वेक्टर पर K-means क्लस्टरिंग, छद्म लेबल उत्पन्न करता है:

  • दस्तावेज़ों को K क्लस्टर में असाइन करना
  • क्लस्टर केंद्र को प्रोटोटाइपिकल नेटवर्क प्रशिक्षण के लिए छद्म लेबल के रूप में उपयोग किया जाता है

3. प्रोटोटाइपिकल नेटवर्क प्रशिक्षण

मुख्य एल्गोरिथ्म Snell et al. के प्रोटोटाइपिकल नेटवर्क पर आधारित है:

प्रोटोटाइप गणना: ck=1Sk(xi,yi)Skfϕ(xi)c_k = \frac{1}{|S_k|} \sum_{(x_i,y_i) \in S_k} f_\phi(x_i)

जहां SkS_k वर्ग k का समर्थन सेट है, fϕf_\phi एम्बेडिंग फ़ंक्शन है।

वर्गीकरण संभावना: pϕ(y=kx)=exp(d(fϕ(x),ck))kexp(d(fϕ(x),ck))p_\phi(y=k|x) = \frac{\exp(-d(f_\phi(x), c_k))}{\sum_{k'} \exp(-d(f_\phi(x), c_{k'}))}

हानि फ़ंक्शन: J(ϕ)=logpϕ(y=kx)J(\phi) = -\log p_\phi(y=k|x)

4. कीवर्ड निष्कर्षण

प्रत्येक विषय के प्रतिनिधि कीवर्ड निकालने के लिए class-based TF-IDF (c-TF-IDF) का उपयोग, यह विधि शब्द आवृत्ति को शब्द के साथ सभी समूहों में दिखाई देने के प्रतिशत के रूप में पुनर्परिभाषित करती है, न कि उस शब्द को दिखाने वाले समूह के अनुपात के रूप में।

तकनीकी नवाचार बिंदु

  1. कम-शॉट लर्निंग क्षमता: प्रोटोटाइपिकल नेटवर्क के माध्यम से केवल कुछ नमूनों के साथ प्रभावी विषय प्रतिनिधित्व सीखना
  2. व्याख्यायोग्यता: सबसे समान प्रोटोटाइप मामलों को दिखाकर व्याख्या प्रदान करना
  3. डोमेन अनुकूलन: चिकित्सा-विशिष्ट एम्बेडिंग (PubMedBERT) और सामान्य एम्बेडिंग के साथ तुलना
  4. episodic प्रशिक्षण: प्रत्येक episode में 5 समूह होते हैं, प्रत्येक समूह में 5 समर्थन नमूने और 5 क्वेरी बिंदु होते हैं

प्रायोगिक सेटअप

डेटासेट

  • डेटासेट: PubMed200k RCT
  • आकार: 200,000 यादृच्छिक नियंत्रित परीक्षण सारांश, 2.3 मिलियन वाक्य
  • पूर्व-प्रसंस्करण:
    • गैर-वर्णमाला वर्णों को हटाना
    • लोअरकेस में रूपांतरण
    • पाठ टोकनाइजेशन
    • उच्च-आवृत्ति शब्दों को हटाना (जैसे "the", "and", "of" आदि)

मूल्यांकन मेट्रिक्स

  1. विषय सुसंगतता (Topic Coherence): CV संकेतक का उपयोग, कॉर्पस में विषय कीवर्ड के सह-घटना का विश्लेषण
  2. विषय विविधता (Topic Diversity): प्रत्येक विषय के शीर्ष 25 कीवर्ड निकालना, सभी विषय कीवर्ड में अद्वितीय शब्दों का प्रतिशत की गणना करना

तुलनात्मक विधियां

  1. LDA (Latent Dirichlet Allocation): शास्त्रीय संभाव्य विषय मॉडल
  2. BERTopic: BERT एम्बेडिंग पर आधारित तंत्रिका विषय मॉडल

कार्यान्वयन विवरण

  • अनुकूलक: ADAM, सीखने की दर 0.00005
  • प्रशिक्षण सेटअप: 50 episodes/epoch, कुल 10 epochs
  • हार्डवेयर: Google Colab T4 GPU (15GB RAM)
  • पैरामीटर फ्रीजिंग: पूर्व-प्रशिक्षित Transformer के अंतिम दो परतों को छोड़कर सभी को फ्रीज किया गया

प्रायोगिक परिणाम

मुख्य परिणाम

मात्रात्मक परिणाम

25 विषय:

मॉडलसुसंगतता स्कोरविषय विविधता
LDA0.491040.8%
BERTopic0.513749.6%
ProtoTopic (all-MiniLM)0.539684.5%
ProtoTopic (PubMedBERT)0.575486.1%

50 विषय:

मॉडलसुसंगतता स्कोरविषय विविधता
LDA0.501743.8%
BERTopic0.539454.5%
ProtoTopic (all-MiniLM)0.678973.5%
ProtoTopic (PubMedBERT)0.673475.9%

100 विषय:

मॉडलसुसंगतता स्कोरविषय विविधता
LDA0.509055.6%
BERTopic0.617358.0%
ProtoTopic (all-MiniLM)0.717358.6%
ProtoTopic (PubMedBERT)0.711761.2%

सांख्यिकीय महत्व

t-परीक्षण (p < 0.00001) के माध्यम से ProtoTopic सुसंगतता और विविधता मेट्रिक्स पर BERTopic से महत्वपूर्ण रूप से बेहतर साबित हुआ।

गुणात्मक परिणाम विश्लेषण

विषय विशिष्टता तुलना

  • BERTopic: बहुत सामान्य कीवर्ड उत्पन्न करता है (जैसे "patients", "median", "overall"), विभेदन की कमी
  • ProtoTopic: अत्यधिक विशिष्ट कीवर्ड उत्पन्न करता है, सामान्य शब्दों से बचता है, जैसे निचले अंग की चोटों के लिए विशिष्ट शब्दावली

प्रवृत्ति विश्लेषण

  1. सुसंगतता प्रवृत्ति: सभी मॉडलों की विषय सुसंगतता विषय संख्या बढ़ने के साथ बढ़ती है
  2. विविधता प्रवृत्ति:
    • बेसलाइन मॉडल: विविधता विषय संख्या बढ़ने के साथ बढ़ती है
    • ProtoTopic: विविधता विषय संख्या बढ़ने के साथ घटती है (86.1% से 61.2% तक)

संबंधित कार्य

विषय मॉडलिंग विकास

  1. संभाव्य मॉडल: LDA शब्द-बैग धारणा का उपयोग करता है, शब्द क्रम को नजरअंदाज करता है
  2. तंत्रिका मॉडल:
    • LDA2VEC: Word2Vec एम्बेडिंग को जोड़ता है
    • ETM: CBOW एम्बेडिंग का उपयोग करता है
    • BERTopic: BERT एम्बेडिंग पर आधारित

कम-शॉट लर्निंग

  1. अनुकूलन विधियां: MAML जैसे मेटा-लर्निंग एल्गोरिदम
  2. मेट्रिक विधियां:
    • Siamese नेटवर्क
    • Matching Networks
    • Relation Networks
    • Prototypical Networks

प्रोटोटाइपिकल नेटवर्क अनुप्रयोग

  • कंप्यूटर विजन: छवि वर्गीकरण कार्य
  • NLP क्षेत्र: ProSeNet, ProtoryNet, ProtoSeq आदि पाठ वर्गीकरण अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. ProtoTopic सभी मूल्यांकन मेट्रिक्स पर बेसलाइन मॉडल से बेहतर है
  2. सामान्य एम्बेडिंग (all-MiniLM-L6-v2) का उपयोग करते हुए भी उत्कृष्ट प्रदर्शन प्राप्त किया जा सकता है
  3. मॉडल चिकित्सा-संबंधित और व्याख्यायोग्य विषयों को उत्पन्न कर सकता है

सीमाएं

  1. हानि फ़ंक्शन: केवल बुनियादी प्रोटोटाइपिकल नेटवर्क हानि का उपयोग, क्लस्टर कसने और प्रोटोटाइप दूरी पर विचार नहीं किया
  2. क्लस्टरिंग एल्गोरिदम: केवल K-means का उपयोग, HDBSCAN जैसी अन्य विधियों की खोज नहीं की
  3. आयाम में कमी: उच्च-आयामी एम्बेडिंग के आयाम में कमी के प्रभाव की खोज नहीं की
  4. उपयोगकर्ता मूल्यांकन: नैदानिक चिकित्सकों के व्यक्तिपरक मूल्यांकन की कमी

भविष्य की दिशाएं

  1. हानि फ़ंक्शन डिजाइन में सुधार
  2. विभिन्न क्लस्टरिंग तकनीकों की खोज
  3. आयाम में कमी के प्रभाव का अध्ययन
  4. नैदानिक उपयोगकर्ता अनुसंधान का संचालन

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: टॉपिक मॉडलिंग कार्य के लिए प्रोटोटाइपिकल नेटवर्क का पहली बार अनुप्रयोग
  2. पर्याप्त प्रयोग: विभिन्न एम्बेडिंग मॉडल, विभिन्न विषय संख्याओं की व्यापक तुलना
  3. सांख्यिकीय कठोरता: सांख्यिकीय महत्व परीक्षण प्रदान करता है
  4. उच्च व्यावहारिक मूल्य: चिकित्सा क्षेत्र में डेटा की कमी की समस्या को हल करता है
  5. अच्छी व्याख्यायोग्यता: प्रोटोटाइपिकल नेटवर्क सहज व्याख्या तंत्र प्रदान करता है

कमियां

  1. एकल डेटासेट: केवल PubMed200k डेटासेट पर सत्यापित
  2. सीमित मूल्यांकन आयाम: मानव मूल्यांकन और डाउनस्ट्रीम कार्य मूल्यांकन की कमी
  3. कम्प्यूटेशनल जटिलता विश्लेषण नहीं: बेसलाइन के साथ कम्प्यूटेशनल दक्षता तुलना प्रदान नहीं की
  4. हाइपरपैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर के प्रभाव का पर्याप्त विश्लेषण नहीं

प्रभाव

  1. शैक्षणिक योगदान: चिकित्सा NLP क्षेत्र के लिए नया विषय मॉडलिंग प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: चिकित्सा साहित्य विश्लेषण, नैदानिक निर्णय समर्थन में लागू किया जा सकता है
  3. पुनरुत्पादनीयता: सार्वजनिक डेटासेट का उपयोग, विस्तृत प्रायोगिक सेटअप

लागू परिदृश्य

  1. चिकित्सा साहित्य विश्लेषण: शोधकर्ताओं को बड़ी संख्या में चिकित्सा पत्रों को तेजी से समझने में मदद करता है
  2. नैदानिक ज्ञान खोज: कम मामलों से रोग पैटर्न की खोज करता है
  3. क्रॉस-डोमेन विस्तार: अन्य डेटा-कम विशेषज्ञ क्षेत्रों में विस्तारित किया जा सकता है

संदर्भ

यह पेपर 45 संबंधित संदर्भों का हवाला देता है, जो विषय मॉडलिंग, कम-शॉट लर्निंग, प्रोटोटाइपिकल नेटवर्क आदि मुख्य क्षेत्रों को कवर करता है, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करता है। मुख्य संदर्भ साहित्य में शामिल हैं:

  • Snell et al. (2017): Prototypical Networks for Few-Shot Learning
  • Grootendorst (2022): BERTopic neural topic modeling
  • Blei et al. (2003): Latent Dirichlet Allocation

समग्र मूल्यांकन: यह पेपर एक नवीन और व्यावहारिक चिकित्सा विषय मॉडलिंग विधि प्रस्तावित करता है, जो डेटा की कमी की समस्या को हल करने में महत्वपूर्ण मूल्य रखता है। प्रायोगिक डिजाइन उचित है, परिणाम विश्वसनीय हैं, और यह चिकित्सा NLP क्षेत्र में सार्थक योगदान देता है।