2025-11-19T20:19:14.203751

Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning

Liu, Wang, Liu et al.
Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
academic

فك التشفير الهجين متعدد المراحل لتعرف الكيانات المسماة بعدد قليل من الأمثلة مع التعلم التباعدي الواعي للكيانات

المعلومات الأساسية

  • معرّف الورقة: 2404.06970
  • العنوان: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
  • المؤلفون: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
  • التصنيف: cs.CL
  • وقت النشر: أبريل 2024 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2404.06970

الملخص

يمكن لتعرف الكيانات المسماة بعدد قليل من الأمثلة (Few-shot NER) تحديد أنواع جديدة من الكيانات المسماة بناءً على عدد قليل من الأمثلة المصنفة. تعاني الطرق السابقة التي تستخدم التعلم المتري على مستوى الرمز أو مستوى الامتداد من العبء الحسابي وعدد كبير من عينات الامتداد السلبية. في هذه الورقة، نقترح فك التشفير الهجين متعدد المراحل لتعرف الكيانات المسماة بعدد قليل من الأمثلة مع التعلم التباعدي الواعي للكيانات (MsFNER)، والذي يقسم مهمة تعرف الكيانات المسماة العامة إلى مرحلتين: كشف امتداد الكيان وتصنيف الكيان. هناك 3 عمليات لتقديم MsFNER: التدريب والضبط الدقيق والاستدلال. في عملية التدريب، نقوم بتدريب والحصول على أفضل نموذج كشف امتداد الكيان ونموذج تصنيف الكيان بشكل منفصل على المجال المصدري باستخدام التعلم الفوقي، حيث ننشئ وحدة تعلم تباعدي لتحسين تمثيلات الكيان لتصنيف الكيان. أثناء الضبط الدقيق، نقوم بضبط كلا النموذجين على مجموعة الدعم للمجال المستهدف. في عملية الاستدلال، بالنسبة للبيانات غير المصنفة، نكتشف أولاً امتدادات الكيان، ثم يتم تحديد امتدادات الكيان بشكل مشترك من خلال نموذج تصنيف الكيان و KNN. نجري تجارب على مجموعة بيانات FewNERD المفتوحة والنتائج توضح تقدم MsFNER.

الخلفية البحثية والدافع

تعريف المشكلة

يهدف تعرف الكيانات المسماة بعدد قليل من الأمثلة (Few-shot NER) إلى تحديد أنواع جديدة من الكيانات المسماة بسرعة بناءً على عدد قليل من العينات المصنفة. تتمتع هذه المهمة بأهمية كبيرة للتكيف مع السيناريوهات التطبيقية الواقعية المتغيرة بشكل ديناميكي، خاصة في الحالات التي يحتاج فيها النموذج إلى التكيف السريع مع البيانات الجديدة أو التغييرات البيئية.

حدود الطرق الموجودة

  1. طرق مستوى الرمز: على الرغم من أن الطرق القائمة على المسافة بين الرمز والنماذج الأولية أو رموز مجموعة الدعم بسيطة وبديهية، إلا أنها تعاني من تكاليف حسابية عالية وعدم القدرة على الحفاظ على السلامة الدلالية لرموز الكيان، مما يجعلها عرضة للتأثر بالرموز غير الكيانية.
  2. طرق مستوى الامتداد: على الرغم من أن تقييم الامتداد بالكامل يمكن أن يخفف من بعض مشاكل طرق مستوى الرمز، إلا أن تعداد جميع امتدادات ممكنة يؤدي إلى تعقيد O(N²) ويزيد من ضوضاء العينات السلبية الكبيرة.

الدافع البحثي

يأمل المؤلفون في حل مشكلتين أساسيتين:

  1. كيفية تحسين كفاءة تعرف الكيانات المسماة بعدد قليل من الأمثلة، من خلال تعزيز الفرق الدلالي بين الكيان وغير الكيان لتحديد امتداد كيان فعال
  2. كيفية تحسين تصنيف امتداد الكيان، من خلال التحكم والتنسيق بين المسافة الدلالية لأنواع كيانات مختلفة، بحيث تكون تمثيلات الكيانات من نفس النوع أقرب دلالياً وتكون الكيانات من أنواع مختلفة أبعد.

المساهمات الأساسية

  1. اقتراح إطار عمل MsFNER: يقسم مهمة تعرف الكيانات المسماة التقليدية إلى مرحلتين: كشف امتداد الكيان وتصنيف الكيان، مما يقلل بشكل فعال من التعقيد الحسابي ويقلل من تأثير العينات السلبية
  2. تصميم وحدة التعلم التباعدي الواعي للكيان: تحسين تعلم تمثيل الكيان، وتحسين اتساق الكيانات من نفس النوع وزيادة المسافة بين الكيانات من أنواع مختلفة
  3. بناء آلية استدلال هجينة: الجمع بين نموذج تصنيف الكيان وطريقة KNN للتنبؤ المشترك، وتحسين دقة التصنيف
  4. تحقيق أداء متقدم (SOTA): تجاوز الطرق الموجودة بشكل كبير على مجموعات بيانات FewNERD و FewAPTER، وإجراء مقارنة شاملة مع ChatGPT

شرح الطريقة

تعريف المهمة

يتم تعريف مهمة تعرف الكيانات المسماة بعدد قليل من الأمثلة على النحو التالي: يتم تدريب النموذج أولاً على مجموعة بيانات المجال المصدري Dsource=(Ssource,Qsource)D_{source} = (S_{source}, Q_{source})، ثم ينتقل إلى مجموعة بيانات المجال المستهدف Dtarget=(Starget,Qtarget)D_{target} = (S_{target}, Q_{target}) للاستدلال. حيث StargetS_{target} هي مجموعة الدعم، التي تحتوي على N نوع من الكيانات (N-way)، مع K عينة مصنفة لكل نوع (K-shot)؛ و QtargetQ_{target} هي مجموعة الاستعلام، التي تحتوي على نفس أنواع الكيانات في مجموعة الدعم.

معمارية النموذج

يتضمن MsFNER ثلاث عمليات رئيسية:

1. عملية التدريب (Training Process)

وحدة كشف امتداد الكيان (ESD):

  • تعامل مع كشف امتداد الكيان كمهمة وسم التسلسل، باستخدام مخطط وسم BIOES
  • بالنسبة لجملة الإدخال x=(x1,x2,...,xn)x = (x_1, x_2, ..., x_n)، استخدم مشفر BERT للحصول على تمثيل السياق h=(h1,h2,...,hn)h = (h_1, h_2, ..., h_n)
  • إجراء كشف امتداد الكيان من خلال طبقة CRF، حيث تكون خسارة التدريب:

LESD=logP(yx)L_{ESD} = -\sum \log P(y|x)

حيث: P(yx)=i=1xϕi(yi1,yi,x)yi=1xϕi(yi1,yi,x)P(y|x) = \frac{\prod_{i=1}^{|x|} \phi_i(y_{i-1}, y_i, x)}{\sum_{y'} \prod_{i=1}^{|x|} \phi_i(y'_{i-1}, y'_i, x)}

  • استخدام طريقة التعلم الفوقي MAML للتدريب، والتي تتضمن تحديثات الحلقة الداخلية والخارجية

وحدة تصنيف الكيان (EC):

  • بالنسبة للكيان ek=(xf,...,xf+l)e_k = (x_f, ..., x_{f+l})، استخدم أقصى تجميع للحصول على التمثيل: e^k=max(hf,...,hf+l)\hat{e}_k = \max(h_f, ..., h_{f+l})
  • إدخال التعلم التباعدي الواعي للكيان، حيث تكون دالة الخسارة: LCL=j1P(j)pP(j)logexp(sim(zj,zp)/τ)aA(j)exp(sim(zj,za)/τ)L_{CL} = \sum_j -\frac{1}{|P(j)|} \sum_{p \in P(j)} \log \frac{\exp(\text{sim}(z_j, z_p)/\tau)}{\sum_{a \in A(j)} \exp(\text{sim}(z_j, z_a)/\tau)}
  • بناء تمثيل نموذجي وإجراء التصنيف: ct(S)=1StemSte^mc_t(S) = \frac{1}{|S_t|} \sum_{e_m \in S_t} \hat{e}_m

psoft(ek)=exp(d(ct(S),e^k))i=1ϕexp(d(ci(S),e^k))p_{soft}(e_k) = \frac{\exp(-d(c_t(S), \hat{e}_k))}{\sum_{i=1}^{|\phi|} \exp(-d(c_i(S), \hat{e}_k))}

2. عملية الضبط الدقيق (Finetuning Process)

ضبط دقيق للنماذج المدربة لكشف الكيان وتصنيفه على مجموعة دعم المجال المستهدف StargetS_{target}، باستخدام نفس النمط من عملية التدريب.

3. عملية الاستدلال (Inference Process)

تتضمن أربع مراحل:

  1. بناء مخزن بيانات مفتاح-قيمة DknnD_{knn}، حيث يكون المفتاح تمثيل الكيان والقيمة هي التسمية المقابلة
  2. استخدام نموذج كشف الكيان للحصول على امتدادات الكيان
  3. إدخال تمثيلات الكيان المكتشفة بشكل منفصل إلى نموذج التصنيف ووحدة KNN
  4. التنبؤ المشترك: p(yek)=λpknn(yek)+(1λ)psoft(yek)p(y|e'_k) = \lambda p_{knn}(y|e'_k) + (1-\lambda) p_{soft}(y|e'_k)

نقاط الابتكار التقني

  1. استراتيجية التقسيم ثنائي المراحل: تقسيم مهمة تعرف الكيانات المسماة إلى مهمتي فرعيتين: كشف الامتداد والتصنيف، مما يتجنب مشكلة التعقيد الناتجة عن تعداد جميع امتدادات ممكنة في الطرق التقليدية
  2. التعلم التباعدي الواعي للكيان: وحدة تعلم تباعدي مصممة خصيصاً لتحسين تمثيل الكيان، وتحسين التجميع للكيانات من نفس النوع وتحسين التمييز بين الكيانات من أنواع مختلفة
  3. آلية الاستدلال الهجينة: الجمع بين النموذج المعاملي وطريقة KNN غير المعاملية، والاستفادة الكاملة من معلومات مجموعة الدعم

إعداد التجربة

مجموعات البيانات

مجموعة بيانات FewNERD:

  • تحتوي على 8 أنواع كيانات بحبيبات خشنة و 66 نوع بحبيبات دقيقة
  • تقييم إعدادات FewNERD-INTRA و FewNERD-INTER
  • استخدام طريقة أخذ العينات N-way K~2K-shot لبناء المهام

مجموعة بيانات FewAPTER:

  • مبنية على مجموعة بيانات ذكاء التهديدات الأمنية السيبرانية APTER
  • دمج 37 نوع كيان أصلي إلى 21 نوع، مع إجمالي 28,250 كيان
  • تقسيم بنسبة 7:7:7 لمجموعات التدريب والتحقق والاختبار
  • بناء أربعة إعدادات: 4-way 1-shot و 4-way 3-shot و 6-way 1-shot و 6-way 3-shot

مقاييس التقييم

استخدام درجة F1 كمقياس تقييم رئيسي، مع الإبلاغ عن الانحراف المعياري.

طرق المقارنة

  • ProtoBERT: طريقة مستوى الرمز بناءً على تشابه حالات BERT المخفية
  • CONTAINER: طريقة تستخدم التعلم التباعدي على مستوى الرمز
  • NNShot/StructShot: طرق قائمة على خوارزمية أقرب جار
  • ESD: طريقة مطابقة مستوى الامتداد
  • MAML-ProtoNet: طريقة تجمع بين MAML وشبكة النماذج الأولية
  • BDCP: طريقة التمييز الحدودي وتنقية الصلة
  • ChatGPT: خط أساس نموذج اللغة الكبير

تفاصيل التنفيذ

  • المشفر: BERT-base
  • المحسّن: AdamW، معدل التعلم 3e-5
  • حجم الدفعة: 32، أقصى طول تسلسل: 128
  • K=10 في KNN، λ=0.1
  • التدريب لمدة 1000 خطوة، اختيار أفضل نموذج على مجموعة التحقق

نتائج التجربة

النتائج الرئيسية

مجموعة بيانات FewNERD:

  • تحسن متوسط F1 بنسبة 2.65% على FewNERD-INTRA
  • تحسن متوسط F1 بنسبة 4.44% على FewNERD-INTER
  • تحسن كبير مقارنة بأفضل طريقة سابقة MAML-ProtoNet

مجموعة بيانات FewAPTER:

  • تحسن متوسط درجة F1 بنسبة 11.42%
  • تجاوز ChatGPT في معظم الإعدادات

المقارنة مع ChatGPT:

  • تجاوز ChatGPT بشكل عام على FewNERD
  • أداء أقل قليلاً من ChatGPT على FewAPTER، لكن سرعة الاستدلال أسرع بشكل كبير

تجارب الاستئصال

  1. إزالة وحدة التعلم التباعدي:
    • انخفاض متوسط بنسبة 0.905% على FewNERD
    • انخفاض متوسط بنسبة 0.745% على FewAPTER
  2. إزالة وحدة KNN:
    • انخفاض متوسط بنسبة 0.524% على FewNERD
    • انخفاض متوسط بنسبة 0.635% على FewAPTER

تشير النتائج إلى أن كلا الوحدتين تساهمان بشكل إيجابي في الأداء.

تحليل الكفاءة

وقت الاستدلال لـ MsFNER أسرع بشكل كبير من ChatGPT، مما يظهر كفاءة أعلى في جميع الإعدادات، متوافقاً مع مبدأ حلاقة أوكام.

النتائج التجريبية

  1. تأثير عدد K-shot: زيادة عينات K-shot يمكن أن تحسن الأداء بشكل كبير
  2. تأثير عدد N-way: زيادة N-way تقلل الأداء، وهو متوافق مع الحدس
  3. التكيف عبر المجالات: يظهر النموذج أداء جيدة في المهام عبر المجالات
  4. استقرار نموذج اللغة الكبير: أداء ChatGPT مستقرة نسبياً، وتتأثر بشكل أقل بتغييرات البيانات والمجال

الأعمال ذات الصلة

الاتجاهات الرئيسية لتعرف الكيانات المسماة بعدد قليل من الأمثلة

  1. طرق مستوى الرمز: مثل ProtoBERT و CONTAINER وغيرها، بناءً على تشابه الرمز للتنبؤ
  2. طرق مستوى الامتداد: مثل ESD، معاملة الكيان كامتداد كامل
  3. طرق التعلم الفوقي: مثل MAML-ProtoNet، باستخدام إطار عمل التعلم الفوقي للتكيف السريع مع المهام الجديدة

مزايا هذه الورقة

مقارنة بالأعمال الموجودة، يحل MsFNER بشكل فعال مشاكل التعقيد الحسابي والعينات السلبية من خلال استراتيجية التقسيم ثنائي المراحل، مع إدخال التعلم التباعدي لتحسين تعلم التمثيل.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. الفعالية: يحقق MsFNER أداء متقدمة (SOTA) على مجموعات بيانات متعددة، مما يثبت فعالية استراتيجية التقسيم ثنائي المراحل
  2. الكفاءة: يقلل بشكل كبير من التعقيد الحسابي مقارنة بطرق الامتداد التقليدية
  3. العمومية: تظهر أداء جيدة في مجالات وإعدادات مختلفة

القيود

  1. قيود التكيف عبر المجالات: لا تزال القدرة على التعميم في بعض المجالات المحددة (مثل FewAPTER) بحاجة إلى تحسين
  2. حساسية المعاملات الفائقة: تحتاج معاملات مثل λ إلى ضبط لمجموعات بيانات مختلفة
  3. الموارد الحسابية: لا تزال بحاجة إلى نموذج BERT مدرب مسبقاً كأساس

الاتجاهات المستقبلية

  1. قدرة تكيف عبر المجالات أقوى: استكشاف طرق نقل أفضل عبر المجالات
  2. التحسين من طرف إلى طرف: البحث عن استراتيجيات التحسين المشترك للمرحلتين
  3. تقييم على نطاق أوسع: التحقق من فعالية الطريقة على مجالات ولغات أكثر

التقييم المتعمق

المزايا

  1. قوة الابتكار المنهجي: استراتيجية التقسيم ثنائي المراحل جديدة وتحل المشاكل الأساسية للطرق الموجودة بشكل فعال
  2. تصميم تقني معقول: وحدة التعلم التباعدي الواعي للكيان وآلية الاستدلال الهجينة مصممة بذكاء
  3. تجارب شاملة: إجراء تقييم شامل على مجموعات بيانات متعددة، بما في ذلك المقارنة مع نماذج اللغة الكبيرة
  4. تحليل متعمق: توفير تجارب استئصال مفصلة وتحليل الكفاءة

أوجه القصور

  1. نقص التحليل النظري: افتقار إلى شرح نظري لفعالية الطريقة
  2. تحليل التعقيد الحسابي: على الرغم من الادعاء بتقليل التعقيد، يفتقر إلى التحليل الكمي
  3. غياب تحليل الأخطاء: لم يتم تحليل حالات فشل النموذج بعمق

التأثير

  1. المساهمة الأكاديمية: توفير فكرة حل جديدة لتعرف الكيانات المسماة بعدد قليل من الأمثلة
  2. القيمة العملية: الطريقة بسيطة وفعالة وسهلة التنفيذ والنشر
  3. قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات فائقة

السيناريوهات المطبقة

  1. البيئات ذات الموارد المحدودة: أكثر ملاءمة من نماذج اللغة الكبيرة للسيناريوهات ذات الموارد الحسابية المحدودة
  2. متطلبات النشر السريع: القدرة على التكيف السريع مع أنواع كيانات جديدة
  3. تطبيقات المجالات المحددة: آفاق تطبيق جيدة في المجالات الرأسية مثل الأمن السيبراني

المراجع

تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك:

  • طرق أساسية للتعلم بعدد قليل من الأمثلة (Prototypical Networks, MAML)
  • الطرق الكلاسيكية لتعرف الكيانات المسماة (طرق قائمة على BERT)
  • الأعمال ذات الصلة بالتعلم التباعدي (Supervised Contrastive Learning)
  • طرق متخصصة لتعرف الكيانات المسماة بعدد قليل من الأمثلة (ProtoBERT, ESD, MAML-ProtoNet وغيرها)

التقييم العام: هذه ورقة ممتازة متينة تقنياً وشاملة في التجارب. تحل استراتيجية التقسيم ثنائي المراحل المقترحة من قبل المؤلفين المشاكل الرئيسية للطرق الموجودة بشكل فعال، وتحقق تحسناً كبيراً في الأداء على مجموعات بيانات متعددة. التصميم المنهجي معقول والقيمة العملية عالية، مما يوفر مساهمة قيمة لمجال تعرف الكيانات المسماة بعدد قليل من الأمثلة.