2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.

Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.

academic

कम-शॉट NER के लिए हाइब्रिड मल्टी-स्टेज डिकोडिंग और इकाई-जागरूक कंट्रास्टिव लर्निंग

बुनियादी जानकारी

पेपर ID: 2404.06970
शीर्षक: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
लेखक: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
वर्गीकरण: cs.CL
प्रकाशन समय: अप्रैल 2024 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2404.06970

सारांश

कम-शॉट नामित इकाई पहचान (Few-shot NER) कुछ लेबल किए गए उदाहरणों के आधार पर नई प्रकार की नामित इकाइयों की पहचान कर सकती है। टोकन-स्तर या स्पैन-स्तर की मीट्रिक लर्निंग का उपयोग करने वाली पूर्ववर्ती विधियां कम्प्यूटेशनल बोझ और बड़ी संख्या में नकारात्मक नमूना स्पैन से ग्रस्त हैं। इस पेपर में, हम कम-शॉट NER के लिए इकाई-जागरूक कंट्रास्टिव लर्निंग के साथ हाइब्रिड मल्टी-स्टेज डिकोडिंग (MsFNER) प्रस्तावित करते हैं, जो सामान्य NER को दो चरणों में विभाजित करता है: इकाई-स्पैन पहचान और इकाई वर्गीकरण। MsFNER को प्रस्तुत करने के लिए 3 प्रक्रियाएं हैं: प्रशिक्षण, सूक्ष्म-समायोजन और अनुमान। प्रशिक्षण प्रक्रिया में, हम मेटा-लर्निंग का उपयोग करके स्रोत डोमेन पर सर्वोत्तम इकाई-स्पैन पहचान मॉडल और इकाई वर्गीकरण मॉडल को अलग से प्रशिक्षित और प्राप्त करते हैं, जहां हम इकाई वर्गीकरण के लिए इकाई प्रतिनिधित्व को बढ़ाने के लिए एक कंट्रास्टिव लर्निंग मॉड्यूल बनाते हैं। सूक्ष्म-समायोजन के दौरान, हम लक्ष्य डोमेन के समर्थन डेटासेट पर दोनों मॉडलों को सूक्ष्म-समायोजित करते हैं। अनुमान प्रक्रिया में, अनलेबल किए गए डेटा के लिए, हम पहले इकाई-स्पैन का पता लगाते हैं, फिर इकाई-स्पैन को इकाई वर्गीकरण मॉडल और KNN द्वारा संयुक्त रूप से निर्धारित किया जाता है। हम खुले FewNERD डेटासेट पर प्रयोग करते हैं और परिणाम MsFNER की प्रगति को प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

कम-शॉट नामित इकाई पहचान (Few-shot NER) का उद्देश्य कुछ लेबल किए गए नमूनों के आधार पर नई प्रकार की नामित इकाइयों को तेजी से पहचानना है। यह कार्य गतिशील रूप से बदलते वास्तविक-विश्व अनुप्रयोग परिदृश्यों के अनुकूल होने के लिए महत्वपूर्ण है, विशेष रूप से उन स्थितियों में जहां मॉडल को नए डेटा या पर्यावरणीय परिवर्तनों के लिए तेजी से अनुकूल होने की आवश्यकता होती है।

मौजूदा विधियों की सीमाएं

टोकन-स्तरीय विधियां: यद्यपि प्रोटोटाइप या समर्थन सेट टोकन से दूरी के आधार पर टोकन-आधारित विधियां सरल और सहज हैं, लेकिन उच्च कम्प्यूटेशनल लागत, इकाई टोकन शब्दार्थ पूर्णता को बनाए रखने में असमर्थता, और गैर-इकाई मार्करों से हस्तक्षेप की समस्याएं हैं।
स्पैन-स्तरीय विधियां: यद्यपि पूरे स्पैन का मूल्यांकन करके टोकन-स्तरीय विधियों की कुछ समस्याओं को कम किया जा सकता है, लेकिन सभी संभावित स्पैन की गणना O(N²) जटिलता की ओर ले जाती है और बड़ी संख्या में नकारात्मक नमूनों का शोर बढ़ाती है।

अनुसंधान प्रेरणा

लेखक दो मुख्य समस्याओं को हल करना चाहते हैं:

इकाई और गैर-इकाई के बीच शब्दार्थ अंतर को बढ़ाकर प्रभावी इकाई स्पैन निर्धारित करने के लिए कम-शॉट NER पहचान दक्षता कैसे बढ़ाई जाए
विभिन्न इकाई प्रकारों के शब्दार्थ दूरी को नियंत्रित और समन्वित करके इकाई स्पैन वर्गीकरण कैसे सुधारा जाए, जिससे समान इकाई शब्दार्थ प्रतिनिधित्व करीब हो और विभिन्न इकाइयां दूर हों

मुख्य योगदान

MsFNER फ्रेमवर्क का प्रस्ताव: पारंपरिक NER कार्य को इकाई स्पैन पहचान और इकाई वर्गीकरण के दो चरणों में विघटित करता है, कम्प्यूटेशनल जटिलता को प्रभावी ढंग से कम करता है और नकारात्मक नमूनों के प्रभाव को कम करता है
इकाई-जागरूक कंट्रास्टिव लर्निंग मॉड्यूल डिजाइन: इकाई प्रतिनिधित्व सीखने को बढ़ाता है, समान इकाइयों की स्थिरता में सुधार करता है और विभिन्न इकाइयों के बीच दूरी बढ़ाता है
हाइब्रिड अनुमान तंत्र का निर्माण: इकाई वर्गीकरण मॉडल और KNN विधि को संयुक्त भविष्यवाणी के लिए जोड़ता है, वर्गीकरण सटीकता में सुधार करता है
SOTA प्रदर्शन प्राप्त किया: FewNERD और FewAPTER डेटासेट पर मौजूदा विधियों को महत्वपूर्ण रूप से पार करता है, और ChatGPT के साथ व्यापक तुलना की गई है

विधि विवरण

कार्य परिभाषा

कम-शॉट NER कार्य को इस प्रकार परिभाषित किया गया है: मॉडल पहले स्रोत डोमेन डेटासेट $D_{source} = (S_{source}, Q_{source})$ पर प्रशिक्षित होता है, फिर लक्ष्य डोमेन डेटासेट $D_{target} = (S_{target}, Q_{target})$ में अनुमान के लिए स्थानांतरित होता है। जहां $S_{target}$ समर्थन सेट है, जिसमें N इकाई प्रकार (N-way) हैं, प्रत्येक प्रकार में K लेबल किए गए उदाहरण (K-shot) हैं; $Q_{target}$ क्वेरी सेट है, जिसमें समर्थन सेट के समान इकाई प्रकार हैं।

मॉडल आर्किटेक्चर

MsFNER में तीन मुख्य प्रक्रियाएं हैं:

1. प्रशिक्षण प्रक्रिया (Training Process)

इकाई स्पैन पहचान (ESD) मॉड्यूल:

इकाई स्पैन पहचान को अनुक्रम लेबलिंग कार्य के रूप में मानता है, BIOES लेबलिंग योजना का उपयोग करता है
इनपुट वाक्य $x = (x_1, x_2, ..., x_n)$ के लिए, BERT एनकोडर का उपयोग करके संदर्भ प्रतिनिधित्व $h = (h_1, h_2, ..., h_n)$ प्राप्त करता है
CRF परत के माध्यम से इकाई स्पैन पहचान करता है, प्रशिक्षण हानि है:

$L_{ESD} = -\sum \log P(y|x)$

जहां: $P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}$

MAML मेटा-लर्निंग विधि का उपयोग करके प्रशिक्षित करता है, जिसमें आंतरिक लूप अपडेट और बाहरी लूप अपडेट शामिल हैं

इकाई वर्गीकरण (EC) मॉड्यूल:

इकाई $e_k = (x_f, ..., x_{f+l})$ के लिए, अधिकतम पूलिंग का उपयोग करके प्रतिनिधित्व प्राप्त करता है: $\hat{e}_k = \max(h_f, ..., h_{f+l})$
इकाई-जागरूक कंट्रास्टिव लर्निंग को शामिल करता है, हानि फ़ंक्शन है: $L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}$
प्रोटोटाइप प्रतिनिधित्व बनाता है और वर्गीकरण करता है: $c_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m$

$p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}$

2. सूक्ष्म-समायोजन प्रक्रिया (Finetuning Process)

लक्ष्य डोमेन समर्थन सेट $S_{target}$ पर प्रशिक्षित इकाई पहचान और वर्गीकरण मॉडल को सूक्ष्म-समायोजित करता है, प्रशिक्षण प्रक्रिया के समान पैटर्न का उपयोग करता है।

3. अनुमान प्रक्रिया (Inference Process)

चार चरणों को शामिल करता है:

की-वैल्यू डेटा स्टोर $D_{knn}$ बनाता है, कुंजी इकाई प्रतिनिधित्व है, मान संबंधित लेबल है
इकाई पहचान मॉडल का उपयोग करके इकाई स्पैन प्राप्त करता है
पहचानी गई इकाई प्रतिनिधित्व को क्रमशः वर्गीकरण मॉडल और KNN मॉड्यूल में इनपुट करता है
संयुक्त भविष्यवाणी: $p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)$

तकनीकी नवाचार बिंदु

दो-चरणीय विघटन रणनीति: NER कार्य को स्पैन पहचान और वर्गीकरण के दो उप-कार्यों में विघटित करता है, पारंपरिक विधियों में सभी संभावित स्पैन की गणना करने की जटिलता समस्या से बचता है
इकाई-जागरूक कंट्रास्टिव लर्निंग: विशेष रूप से डिजाइन किया गया कंट्रास्टिव लर्निंग मॉड्यूल इकाई प्रतिनिधित्व को बढ़ाता है, समान इकाइयों की एकत्रीकरण और विभिन्न इकाइयों के विभेदन में सुधार करता है
हाइब्रिड अनुमान तंत्र: पैरामीट्रिक मॉडल और गैर-पैरामीट्रिक KNN विधि को जोड़ता है, समर्थन सेट जानकारी का पूरी तरह से उपयोग करता है

प्रयोगात्मक सेटअप

डेटासेट

FewNERD डेटासेट:

8 मोटे-दाने और 66 सूक्ष्म-दाने इकाई प्रकार शामिल हैं
FewNERD-INTRA और FewNERD-INTER दोनों सेटिंग्स का मूल्यांकन करता है
कार्य बनाने के लिए N-way K~2K-shot नमूनाकरण विधि का उपयोग करता है

FewAPTER डेटासेट:

नेटवर्क सुरक्षा खतरे की बुद्धिमत्ता डेटासेट APTER पर आधारित है
मूल 37 इकाई प्रकारों को 21 वर्गों में एकीकृत करता है, कुल 28,250 इकाइयां
प्रशिक्षण/सत्यापन/परीक्षण सेट को 7:7:7 अनुपात में विभाजित करता है
4-way 1-shot, 4-way 3-shot, 6-way 1-shot, 6-way 3-shot चार सेटिंग्स बनाता है

मूल्यांकन मेट्रिक्स

मुख्य मूल्यांकन मेट्रिक के रूप में F1 स्कोर का उपयोग करता है, और मानक विचलन की रिपोर्ट करता है।

तुलनात्मक विधियां

ProtoBERT: BERT छिपी हुई स्थिति समानता पर आधारित टोकन-स्तरीय विधि
CONTAINER: टोकन-स्तरीय कंट्रास्टिव लर्निंग का उपयोग करने वाली विधि
NNShot/StructShot: निकटतम पड़ोसी एल्गोरिथम पर आधारित विधि
ESD: स्पैन-स्तरीय मिलान विधि
MAML-ProtoNet: MAML और प्रोटोटाइप नेटवर्क को जोड़ने वाली मेटा-लर्निंग विधि
BDCP: सीमा विभेदक और प्रासंगिकता शुद्धिकरण विधि
ChatGPT: बड़े भाषा मॉडल आधारभूत

कार्यान्वयन विवरण

एनकोडर: BERT-base
अनुकूलक: AdamW, सीखने की दर 3e-5
बैच आकार: 32, अधिकतम अनुक्रम लंबाई: 128
KNN में K=10, λ=0.1
1000 चरणों के लिए प्रशिक्षण, सत्यापन सेट पर सर्वोत्तम मॉडल चुनता है

प्रयोगात्मक परिणाम

मुख्य परिणाम

FewNERD डेटासेट:

FewNERD-INTRA पर औसत F1 में 2.65% सुधार
FewNERD-INTER पर औसत F1 में 4.44% सुधार
पिछली सर्वोत्तम विधि MAML-ProtoNet की तुलना में महत्वपूर्ण सुधार

FewAPTER डेटासेट:

औसत F1 स्कोर में 11.42% सुधार
अधिकांश सेटिंग्स में ChatGPT को पार करता है

ChatGPT के साथ तुलना:

FewNERD पर समग्र रूप से ChatGPT को पार करता है
FewAPTER पर ChatGPT से थोड़ा कम, लेकिन अनुमान गति काफी तेज है

विलोपन प्रयोग

कंट्रास्टिव लर्निंग मॉड्यूल हटाना:
- FewNERD पर औसत 0.905% की गिरावट
- FewAPTER पर औसत 0.745% की गिरावट
KNN मॉड्यूल हटाना:
- FewNERD पर औसत 0.524% की गिरावट
- FewAPTER पर औसत 0.635% की गिरावट

परिणाम दर्शाते हैं कि दोनों मॉड्यूल प्रदर्शन में सकारात्मक योगदान देते हैं।

दक्षता विश्लेषण

MsFNER की अनुमान समय ChatGPT की तुलना में काफी तेज है, सभी सेटिंग्स में उच्च दक्षता प्रदर्शित करता है, ओकाम के रेजर सिद्धांत के अनुरूप है।

प्रयोगात्मक निष्कर्ष

K-shot संख्या प्रभाव: K-shot नमूनों की संख्या बढ़ाने से प्रदर्शन में महत्वपूर्ण सुधार हो सकता है
N-way संख्या प्रभाव: N-way बढ़ाने से प्रदर्शन में कमी आती है, जो सहज है
डोमेन अनुकूलन: मॉडल क्रॉस-डोमेन कार्यों पर अच्छा प्रदर्शन करता है
LLM स्थिरता: ChatGPT प्रदर्शन अपेक्षाकृत स्थिर है, डेटा और डोमेन परिवर्तन से कम प्रभावित है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता: MsFNER कई डेटासेट पर SOTA प्रदर्शन प्राप्त करता है, दो-चरणीय विघटन रणनीति की प्रभावशीलता को साबित करता है
दक्षता: पारंपरिक स्पैन-स्तरीय विधियों की तुलना में कम्प्यूटेशनल जटिलता में महत्वपूर्ण कमी
सामान्यता: विभिन्न डोमेन और सेटिंग्स में अच्छा प्रदर्शन करता है

सीमाएं

डोमेन अनुकूलन सीमा: कुछ विशिष्ट डोमेन (जैसे FewAPTER) में सामान्यीकरण क्षमता में अभी भी सुधार की गुंजाइश है
हाइपरपैरामीटर संवेदनशीलता: λ जैसे हाइपरपैरामीटर को विभिन्न डेटासेट के लिए समायोजित करने की आवश्यकता है
कम्प्यूटेशनल संसाधन: अभी भी आधार के रूप में पूर्व-प्रशिक्षित BERT मॉडल की आवश्यकता है

भविष्य की दिशाएं

मजबूत डोमेन अनुकूलन क्षमता: बेहतर क्रॉस-डोमेन स्थानांतरण विधियों की खोज करना
अंत-से-अंत अनुकूलन: दो-चरणीय संयुक्त अनुकूलन रणनीति का अनुसंधान करना
बड़े पैमाने पर मूल्यांकन: अधिक डोमेन और भाषाओं पर विधि की प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

लाभ

विधि नवाचार मजबूत: दो-चरणीय विघटन रणनीति नई है, मौजूदा विधियों की मुख्य समस्याओं को प्रभावी ढंग से हल करती है
तकनीकी डिजाइन उचित: इकाई-जागरूक कंट्रास्टिव लर्निंग और हाइब्रिड अनुमान तंत्र डिजाइन चतुर है
प्रयोग व्यापक: कई डेटासेट पर व्यापक मूल्यांकन, LLM के साथ तुलना सहित
विश्लेषण गहन: विस्तृत विलोपन प्रयोग और दक्षता विश्लेषण प्रदान करता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: विधि प्रभावशीलता के लिए सैद्धांतिक व्याख्या की कमी
कम्प्यूटेशनल जटिलता विश्लेषण: यद्यपि जटिलता में कमी का दावा करता है, लेकिन मात्रात्मक विश्लेषण की कमी है
त्रुटि विश्लेषण अनुपस्थित: मॉडल विफलता के मामलों का गहन विश्लेषण नहीं है

प्रभाव

शैक्षणिक योगदान: कम-शॉट NER के लिए नई समाधान सोच प्रदान करता है
व्यावहारिक मूल्य: विधि सरल और प्रभावी है, कार्यान्वयन और तैनाती में आसान है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है

लागू परिदृश्य

संसाधन-सीमित वातावरण: बड़े भाषा मॉडल की तुलना में सीमित कम्प्यूटेशनल संसाधन वाले परिदृश्यों के लिए अधिक उपयुक्त है
तेजी से तैनाती की आवश्यकता: नई इकाई प्रकारों के लिए तेजी से अनुकूल हो सकता है
विशिष्ट डोमेन अनुप्रयोग: नेटवर्क सुरक्षा जैसे ऊर्ध्वाधर डोमेन में अच्छी अनुप्रयोग संभावना है

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

कम-शॉट लर्निंग बुनियादी विधियां (Prototypical Networks, MAML)
नामित इकाई पहचान शास्त्रीय विधियां (BERT-based approaches)
कंट्रास्टिव लर्निंग संबंधित कार्य (Supervised Contrastive Learning)
कम-शॉट NER विशेष विधियां (ProtoBERT, ESD, MAML-ProtoNet आदि)

समग्र मूल्यांकन: यह तकनीकी रूप से ठोस और प्रयोगात्मक रूप से व्यापक एक उत्कृष्ट पेपर है। लेखकों द्वारा प्रस्तावित दो-चरणीय विघटन रणनीति मौजूदा विधियों की मुख्य समस्याओं को प्रभावी ढंग से हल करती है, कई डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करती है। विधि डिजाइन उचित है, व्यावहारिक मूल्य अधिक है, कम-शॉट NER क्षेत्र को मूल्यवान योगदान प्रदान करता है।