Few-shot named entity recognition can identify new types of named entities based on a few labeled examples. Previous methods employing token-level or span-level metric learning suffer from the computational burden and a large number of negative sample spans. In this paper, we propose the Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning (MsFNER), which splits the general NER into two stages: entity-span detection and entity classification. There are 3 processes for introducing MsFNER: training, finetuning, and inference. In the training process, we train and get the best entity-span detection model and the entity classification model separately on the source domain using meta-learning, where we create a contrastive learning module to enhance entity representations for entity classification. During finetuning, we finetune the both models on the support dataset of target domain. In the inference process, for the unlabeled data, we first detect the entity-spans, then the entity-spans are jointly determined by the entity classification model and the KNN. We conduct experiments on the open FewNERD dataset and the results demonstrate the advance of MsFNER.
- معرّف الورقة: 2404.06970
- العنوان: Hybrid Multi-stage Decoding for Few-shot NER with Entity-aware Contrastive Learning
- المؤلفون: Congying Liu, Gaosheng Wang, Peipei Liu, Xingyuan Wei, Hongsong Zhu
- التصنيف: cs.CL
- وقت النشر: أبريل 2024 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2404.06970
يمكن لتعرف الكيانات المسماة بعدد قليل من الأمثلة (Few-shot NER) تحديد أنواع جديدة من الكيانات المسماة بناءً على عدد قليل من الأمثلة المصنفة. تعاني الطرق السابقة التي تستخدم التعلم المتري على مستوى الرمز أو مستوى الامتداد من العبء الحسابي وعدد كبير من عينات الامتداد السلبية. في هذه الورقة، نقترح فك التشفير الهجين متعدد المراحل لتعرف الكيانات المسماة بعدد قليل من الأمثلة مع التعلم التباعدي الواعي للكيانات (MsFNER)، والذي يقسم مهمة تعرف الكيانات المسماة العامة إلى مرحلتين: كشف امتداد الكيان وتصنيف الكيان. هناك 3 عمليات لتقديم MsFNER: التدريب والضبط الدقيق والاستدلال. في عملية التدريب، نقوم بتدريب والحصول على أفضل نموذج كشف امتداد الكيان ونموذج تصنيف الكيان بشكل منفصل على المجال المصدري باستخدام التعلم الفوقي، حيث ننشئ وحدة تعلم تباعدي لتحسين تمثيلات الكيان لتصنيف الكيان. أثناء الضبط الدقيق، نقوم بضبط كلا النموذجين على مجموعة الدعم للمجال المستهدف. في عملية الاستدلال، بالنسبة للبيانات غير المصنفة، نكتشف أولاً امتدادات الكيان، ثم يتم تحديد امتدادات الكيان بشكل مشترك من خلال نموذج تصنيف الكيان و KNN. نجري تجارب على مجموعة بيانات FewNERD المفتوحة والنتائج توضح تقدم MsFNER.
يهدف تعرف الكيانات المسماة بعدد قليل من الأمثلة (Few-shot NER) إلى تحديد أنواع جديدة من الكيانات المسماة بسرعة بناءً على عدد قليل من العينات المصنفة. تتمتع هذه المهمة بأهمية كبيرة للتكيف مع السيناريوهات التطبيقية الواقعية المتغيرة بشكل ديناميكي، خاصة في الحالات التي يحتاج فيها النموذج إلى التكيف السريع مع البيانات الجديدة أو التغييرات البيئية.
- طرق مستوى الرمز: على الرغم من أن الطرق القائمة على المسافة بين الرمز والنماذج الأولية أو رموز مجموعة الدعم بسيطة وبديهية، إلا أنها تعاني من تكاليف حسابية عالية وعدم القدرة على الحفاظ على السلامة الدلالية لرموز الكيان، مما يجعلها عرضة للتأثر بالرموز غير الكيانية.
- طرق مستوى الامتداد: على الرغم من أن تقييم الامتداد بالكامل يمكن أن يخفف من بعض مشاكل طرق مستوى الرمز، إلا أن تعداد جميع امتدادات ممكنة يؤدي إلى تعقيد O(N²) ويزيد من ضوضاء العينات السلبية الكبيرة.
يأمل المؤلفون في حل مشكلتين أساسيتين:
- كيفية تحسين كفاءة تعرف الكيانات المسماة بعدد قليل من الأمثلة، من خلال تعزيز الفرق الدلالي بين الكيان وغير الكيان لتحديد امتداد كيان فعال
- كيفية تحسين تصنيف امتداد الكيان، من خلال التحكم والتنسيق بين المسافة الدلالية لأنواع كيانات مختلفة، بحيث تكون تمثيلات الكيانات من نفس النوع أقرب دلالياً وتكون الكيانات من أنواع مختلفة أبعد.
- اقتراح إطار عمل MsFNER: يقسم مهمة تعرف الكيانات المسماة التقليدية إلى مرحلتين: كشف امتداد الكيان وتصنيف الكيان، مما يقلل بشكل فعال من التعقيد الحسابي ويقلل من تأثير العينات السلبية
- تصميم وحدة التعلم التباعدي الواعي للكيان: تحسين تعلم تمثيل الكيان، وتحسين اتساق الكيانات من نفس النوع وزيادة المسافة بين الكيانات من أنواع مختلفة
- بناء آلية استدلال هجينة: الجمع بين نموذج تصنيف الكيان وطريقة KNN للتنبؤ المشترك، وتحسين دقة التصنيف
- تحقيق أداء متقدم (SOTA): تجاوز الطرق الموجودة بشكل كبير على مجموعات بيانات FewNERD و FewAPTER، وإجراء مقارنة شاملة مع ChatGPT
يتم تعريف مهمة تعرف الكيانات المسماة بعدد قليل من الأمثلة على النحو التالي: يتم تدريب النموذج أولاً على مجموعة بيانات المجال المصدري Dsource=(Ssource,Qsource)، ثم ينتقل إلى مجموعة بيانات المجال المستهدف Dtarget=(Starget,Qtarget) للاستدلال. حيث Starget هي مجموعة الدعم، التي تحتوي على N نوع من الكيانات (N-way)، مع K عينة مصنفة لكل نوع (K-shot)؛ و Qtarget هي مجموعة الاستعلام، التي تحتوي على نفس أنواع الكيانات في مجموعة الدعم.
يتضمن MsFNER ثلاث عمليات رئيسية:
وحدة كشف امتداد الكيان (ESD):
- تعامل مع كشف امتداد الكيان كمهمة وسم التسلسل، باستخدام مخطط وسم BIOES
- بالنسبة لجملة الإدخال x=(x1,x2,...,xn)، استخدم مشفر BERT للحصول على تمثيل السياق h=(h1,h2,...,hn)
- إجراء كشف امتداد الكيان من خلال طبقة CRF، حيث تكون خسارة التدريب:
LESD=−∑logP(y∣x)
حيث:
P(y∣x)=∑y′∏i=1∣x∣ϕi(yi−1′,yi′,x)∏i=1∣x∣ϕi(yi−1,yi,x)
- استخدام طريقة التعلم الفوقي MAML للتدريب، والتي تتضمن تحديثات الحلقة الداخلية والخارجية
وحدة تصنيف الكيان (EC):
- بالنسبة للكيان ek=(xf,...,xf+l)، استخدم أقصى تجميع للحصول على التمثيل:
e^k=max(hf,...,hf+l)
- إدخال التعلم التباعدي الواعي للكيان، حيث تكون دالة الخسارة:
LCL=∑j−∣P(j)∣1∑p∈P(j)log∑a∈A(j)exp(sim(zj,za)/τ)exp(sim(zj,zp)/τ)
- بناء تمثيل نموذجي وإجراء التصنيف:
ct(S)=∣St∣1∑em∈Ste^m
psoft(ek)=∑i=1∣ϕ∣exp(−d(ci(S),e^k))exp(−d(ct(S),e^k))
ضبط دقيق للنماذج المدربة لكشف الكيان وتصنيفه على مجموعة دعم المجال المستهدف Starget، باستخدام نفس النمط من عملية التدريب.
تتضمن أربع مراحل:
- بناء مخزن بيانات مفتاح-قيمة Dknn، حيث يكون المفتاح تمثيل الكيان والقيمة هي التسمية المقابلة
- استخدام نموذج كشف الكيان للحصول على امتدادات الكيان
- إدخال تمثيلات الكيان المكتشفة بشكل منفصل إلى نموذج التصنيف ووحدة KNN
- التنبؤ المشترك: p(y∣ek′)=λpknn(y∣ek′)+(1−λ)psoft(y∣ek′)
- استراتيجية التقسيم ثنائي المراحل: تقسيم مهمة تعرف الكيانات المسماة إلى مهمتي فرعيتين: كشف الامتداد والتصنيف، مما يتجنب مشكلة التعقيد الناتجة عن تعداد جميع امتدادات ممكنة في الطرق التقليدية
- التعلم التباعدي الواعي للكيان: وحدة تعلم تباعدي مصممة خصيصاً لتحسين تمثيل الكيان، وتحسين التجميع للكيانات من نفس النوع وتحسين التمييز بين الكيانات من أنواع مختلفة
- آلية الاستدلال الهجينة: الجمع بين النموذج المعاملي وطريقة KNN غير المعاملية، والاستفادة الكاملة من معلومات مجموعة الدعم
مجموعة بيانات FewNERD:
- تحتوي على 8 أنواع كيانات بحبيبات خشنة و 66 نوع بحبيبات دقيقة
- تقييم إعدادات FewNERD-INTRA و FewNERD-INTER
- استخدام طريقة أخذ العينات N-way K~2K-shot لبناء المهام
مجموعة بيانات FewAPTER:
- مبنية على مجموعة بيانات ذكاء التهديدات الأمنية السيبرانية APTER
- دمج 37 نوع كيان أصلي إلى 21 نوع، مع إجمالي 28,250 كيان
- تقسيم بنسبة 7:7:7 لمجموعات التدريب والتحقق والاختبار
- بناء أربعة إعدادات: 4-way 1-shot و 4-way 3-shot و 6-way 1-shot و 6-way 3-shot
استخدام درجة F1 كمقياس تقييم رئيسي، مع الإبلاغ عن الانحراف المعياري.
- ProtoBERT: طريقة مستوى الرمز بناءً على تشابه حالات BERT المخفية
- CONTAINER: طريقة تستخدم التعلم التباعدي على مستوى الرمز
- NNShot/StructShot: طرق قائمة على خوارزمية أقرب جار
- ESD: طريقة مطابقة مستوى الامتداد
- MAML-ProtoNet: طريقة تجمع بين MAML وشبكة النماذج الأولية
- BDCP: طريقة التمييز الحدودي وتنقية الصلة
- ChatGPT: خط أساس نموذج اللغة الكبير
- المشفر: BERT-base
- المحسّن: AdamW، معدل التعلم 3e-5
- حجم الدفعة: 32، أقصى طول تسلسل: 128
- K=10 في KNN، λ=0.1
- التدريب لمدة 1000 خطوة، اختيار أفضل نموذج على مجموعة التحقق
مجموعة بيانات FewNERD:
- تحسن متوسط F1 بنسبة 2.65% على FewNERD-INTRA
- تحسن متوسط F1 بنسبة 4.44% على FewNERD-INTER
- تحسن كبير مقارنة بأفضل طريقة سابقة MAML-ProtoNet
مجموعة بيانات FewAPTER:
- تحسن متوسط درجة F1 بنسبة 11.42%
- تجاوز ChatGPT في معظم الإعدادات
المقارنة مع ChatGPT:
- تجاوز ChatGPT بشكل عام على FewNERD
- أداء أقل قليلاً من ChatGPT على FewAPTER، لكن سرعة الاستدلال أسرع بشكل كبير
- إزالة وحدة التعلم التباعدي:
- انخفاض متوسط بنسبة 0.905% على FewNERD
- انخفاض متوسط بنسبة 0.745% على FewAPTER
- إزالة وحدة KNN:
- انخفاض متوسط بنسبة 0.524% على FewNERD
- انخفاض متوسط بنسبة 0.635% على FewAPTER
تشير النتائج إلى أن كلا الوحدتين تساهمان بشكل إيجابي في الأداء.
وقت الاستدلال لـ MsFNER أسرع بشكل كبير من ChatGPT، مما يظهر كفاءة أعلى في جميع الإعدادات، متوافقاً مع مبدأ حلاقة أوكام.
- تأثير عدد K-shot: زيادة عينات K-shot يمكن أن تحسن الأداء بشكل كبير
- تأثير عدد N-way: زيادة N-way تقلل الأداء، وهو متوافق مع الحدس
- التكيف عبر المجالات: يظهر النموذج أداء جيدة في المهام عبر المجالات
- استقرار نموذج اللغة الكبير: أداء ChatGPT مستقرة نسبياً، وتتأثر بشكل أقل بتغييرات البيانات والمجال
- طرق مستوى الرمز: مثل ProtoBERT و CONTAINER وغيرها، بناءً على تشابه الرمز للتنبؤ
- طرق مستوى الامتداد: مثل ESD، معاملة الكيان كامتداد كامل
- طرق التعلم الفوقي: مثل MAML-ProtoNet، باستخدام إطار عمل التعلم الفوقي للتكيف السريع مع المهام الجديدة
مقارنة بالأعمال الموجودة، يحل MsFNER بشكل فعال مشاكل التعقيد الحسابي والعينات السلبية من خلال استراتيجية التقسيم ثنائي المراحل، مع إدخال التعلم التباعدي لتحسين تعلم التمثيل.
- الفعالية: يحقق MsFNER أداء متقدمة (SOTA) على مجموعات بيانات متعددة، مما يثبت فعالية استراتيجية التقسيم ثنائي المراحل
- الكفاءة: يقلل بشكل كبير من التعقيد الحسابي مقارنة بطرق الامتداد التقليدية
- العمومية: تظهر أداء جيدة في مجالات وإعدادات مختلفة
- قيود التكيف عبر المجالات: لا تزال القدرة على التعميم في بعض المجالات المحددة (مثل FewAPTER) بحاجة إلى تحسين
- حساسية المعاملات الفائقة: تحتاج معاملات مثل λ إلى ضبط لمجموعات بيانات مختلفة
- الموارد الحسابية: لا تزال بحاجة إلى نموذج BERT مدرب مسبقاً كأساس
- قدرة تكيف عبر المجالات أقوى: استكشاف طرق نقل أفضل عبر المجالات
- التحسين من طرف إلى طرف: البحث عن استراتيجيات التحسين المشترك للمرحلتين
- تقييم على نطاق أوسع: التحقق من فعالية الطريقة على مجالات ولغات أكثر
- قوة الابتكار المنهجي: استراتيجية التقسيم ثنائي المراحل جديدة وتحل المشاكل الأساسية للطرق الموجودة بشكل فعال
- تصميم تقني معقول: وحدة التعلم التباعدي الواعي للكيان وآلية الاستدلال الهجينة مصممة بذكاء
- تجارب شاملة: إجراء تقييم شامل على مجموعات بيانات متعددة، بما في ذلك المقارنة مع نماذج اللغة الكبيرة
- تحليل متعمق: توفير تجارب استئصال مفصلة وتحليل الكفاءة
- نقص التحليل النظري: افتقار إلى شرح نظري لفعالية الطريقة
- تحليل التعقيد الحسابي: على الرغم من الادعاء بتقليل التعقيد، يفتقر إلى التحليل الكمي
- غياب تحليل الأخطاء: لم يتم تحليل حالات فشل النموذج بعمق
- المساهمة الأكاديمية: توفير فكرة حل جديدة لتعرف الكيانات المسماة بعدد قليل من الأمثلة
- القيمة العملية: الطريقة بسيطة وفعالة وسهلة التنفيذ والنشر
- قابلية إعادة الإنتاج: توفير تفاصيل تنفيذ شاملة وإعدادات معاملات فائقة
- البيئات ذات الموارد المحدودة: أكثر ملاءمة من نماذج اللغة الكبيرة للسيناريوهات ذات الموارد الحسابية المحدودة
- متطلبات النشر السريع: القدرة على التكيف السريع مع أنواع كيانات جديدة
- تطبيقات المجالات المحددة: آفاق تطبيق جيدة في المجالات الرأسية مثل الأمن السيبراني
تستشهد الورقة بالأعمال المهمة في المجالات ذات الصلة، بما في ذلك:
- طرق أساسية للتعلم بعدد قليل من الأمثلة (Prototypical Networks, MAML)
- الطرق الكلاسيكية لتعرف الكيانات المسماة (طرق قائمة على BERT)
- الأعمال ذات الصلة بالتعلم التباعدي (Supervised Contrastive Learning)
- طرق متخصصة لتعرف الكيانات المسماة بعدد قليل من الأمثلة (ProtoBERT, ESD, MAML-ProtoNet وغيرها)
التقييم العام: هذه ورقة ممتازة متينة تقنياً وشاملة في التجارب. تحل استراتيجية التقسيم ثنائي المراحل المقترحة من قبل المؤلفين المشاكل الرئيسية للطرق الموجودة بشكل فعال، وتحقق تحسناً كبيراً في الأداء على مجموعات بيانات متعددة. التصميم المنهجي معقول والقيمة العملية عالية، مما يوفر مساهمة قيمة لمجال تعرف الكيانات المسماة بعدد قليل من الأمثلة.