Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.
- معرّف الورقة: 2501.01349
- العنوان: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
- المؤلفون: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (جامعة نانجينج)
- التصنيف: cs.AI
- تاريخ النشر: 2 يناير 2025 (نسخة arXiv المسبقة)
- رابط الورقة: https://arxiv.org/abs/2501.01349
تعتبر مجموعات البيانات المرجعية حاسمة لتقييم أداء خوارزميات التعلم الآلي، لكن الانحيازات في مجموعات البيانات تؤدي إلى تعلم النماذج لأنماط اختصارات، مما يسبب تقييماً غير دقيق ويعيق التطبيقات العملية. تتناول هذه الورقة مشكلة الانحياز المتعلق بالكيانات في مهام استخراج العلاقات، حيث تميل النماذج إلى الاعتماد على ذكر الكيانات بدلاً من السياق. يقترح المؤلفون معيار استخراج العلاقات المنحاز DREB، الذي يكسر الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات من خلال استبدال الكيانات. يستخدم DREB مقيّماً للانحياز ومقيّماً للارتباك لضمان انحياز منخفض وطبيعية عالية. لإنشاء خطوط أساس جديدة على DREB، يقدم المؤلفون طريقة MixDebias التي تجمع بين تقنيات إزالة الانحياز على مستوى البيانات ومستوى تدريب النموذج.
توجد مشكلة انحياز الكيانات الخطيرة في مهام استخراج العلاقات:
- الارتباطات الزائفة: وجود ارتباط إحصائي وهمي بين ذكر الكيانات وأنواع العلاقات
- تعلم الاختصارات: الاعتماد المفرط للنموذج على أسماء الكيانات بدلاً من معلومات السياق للتنبؤ
- ضعف القدرة على التعميم: انخفاض كبير في أداء النموذج عند استبدال أو حذف الكيانات
- في مجموعة بيانات TACRED، يمكن التنبؤ بشكل صحيح بأكثر من نصف الحالات من خلال ذكر الكيانات وحده
- تنخفض درجات F1 لنماذج متقدمة مثل LUKE و IRE بنسبة 30%-50% بعد استبدال الكيانات
- تميل نماذج اللغة الكبيرة إلى تجاهل المعلومات السياقية المتناقضة أو الممثلة بشكل ناقص، مع الاعتماد المفرط على المعرفة المعاملية المنحازة
على مستوى البيانات:
- قد تقدم طرق إزالة الانحياز الموجودة انحيازات جديدة
- تؤدي طريقة Wang وآخرين إلى انحياز التوزيع
- يفتقر استبدال الكيانات في ENTRED إلى القيود الدلالية
على مستوى النموذج:
- قد يضر DFL بالأداء داخل المجال
- يفتقر R-Drop إلى التحكم الدقيق في انحياز الكيانات
- الطبيعة اللاحقة لـ CoRE لا تستطيع القضاء تماماً على الانحياز المتعلم أثناء التدريب
- اقتراح معيار DREB: أول معيار متخصص لإزالة الانحياز في استخراج العلاقات يركز على انحياز الكيانات، مما يضمن عدم قدرة النموذج على الاعتماد على ذكر الكيانات وحده للتنبؤ
- تصميم آلية تقييم مزدوجة: مقيّم الانحياز ومقيّم الارتباك يضمنان انحيازاً منخفضاً وطبيعية عالية
- تطوير طريقة MixDebias: طريقة خط أساس جديدة تجمع بين إزالة الانحياز على مستوى البيانات والنموذج
- تقييم تجريبي شامل: التحقق من فعالية الطريقة وقوتها على عدة مجموعات بيانات
يكسر DREB الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات من خلال استراتيجية استبدال الكيانات:
- استبدال الكيانات: الاستعلام عن كيانات من نفس النوع من Wikidata لإجراء الاستبدال
- تقييم الانحياز: استخدام شبكة عصبية لتقييم درجة الانحياز في العينات المستبدلة
- ضمان الطبيعية: ضمان طبيعية العينات المولدة من خلال مقيّم الارتباك
يصمم مقيّم الانحياز الارتباط الزائف لانحياز الكيانات:
- دالة استخراج الميزات φ(x) تستخرج ميزات انحياز الكيانات
- الشبكة العصبية F: φ(x) → y تصمم الارتباط مباشرة
- الناتج F(φ(x)) يعكس الانحياز الكامن للعينة x
استخدام GPT-2 لحساب الارتباك للعينة، مما يضمن طبيعية العينات المولدة:
logPPL(W)=−n1∑i=1nlogP(wi∣w1,...,wi−1)
يتم اختيار العينات ذات أقل ارتباك كعينات مولدة نهائية.
توليد عينات معززة من خلال استبدال الكيانات، باستخدام قيد تباعد Kullback-Leibler:
LRDA=21(DKL(P∣∣Paug)+DKL(Paug∣∣P))
حيث P و P_aug هما توزيعات الاحتمالية للعينات الأصلية والمعززة على التوالي.
استخدام تقدير التأثير السببي لتحديد وقياس انحياز الكيانات:
- تقدير احتمالية الانحياز: Pbias=P−λPcontext
- دالة الخسارة المركزة على إزالة الانحياز: LCDA=−(1−Pbiasj)logPj
LMixDebias=LCDA+βLRDA
=−(1−(Pj−λPcontextj))logPj+2β(DKL(P∣∣Paug)+DKL(Paug∣∣P))
- التحكم المزدوج بالجودة: الأخذ في الاعتبار درجة الانحياز والطبيعية في نفس الوقت
- الحفاظ على التوزيع: يحافظ DREB على نفس توزيع العلاقات كمجموعة البيانات الأصلية
- إزالة انحياز متعددة المستويات: الجمع العضوي بين طرق مستوى البيانات والنموذج
- التعزيز الديناميكي: توليد عينات معززة ديناميكياً أثناء التدريب
- TACRED: مجموعة بيانات استخراج العلاقات المستخدمة على نطاق واسع
- TACREV: نسخة منقحة من TACRED، تحل مشاكل التعليق والضوضاء
- Re-TACRED: مجموعة بيانات بأنواع علاقات معاد تصميمها
- درجة F1: المتوسط التوافقي للدقة والاستدعاء
- كفاءة تخفيف الانحياز (BME):
BME=α⋅F1~originF1origin+(1−α)⋅F1~DREBF1DREB
حيث α=0.5
النماذج الأساسية:
- LUKE: نموذج قائم على Transformer يدرك الكيانات
- IRE: خط أساس محسّن يقدم علامات كيانات مكتوبة
طرق إزالة الانحياز:
- Focal Loss: تقليل تأثير العينات البسيطة
- R-Drop: تحسين التعميم من خلال اتساق dropout
- DFL: تعديل دالة الخسارة بناءً على نموذج الانحياز
- PoE: نموذج منتج الخبراء
- CoRE: طريقة إزالة الانحياز بالرسم البياني السببي
- المعاملات الفائقة β∈0.0,1.0، λ∈-0.6,0.6
- الإعدادات المثلى: β=0.8، λ=0.2
- استخدام تدفق التدريب القياسي لاستخراج العلاقات
| النموذج | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| LUKE | 70.82 | 44.40 | 80.16 | 50.60 | 88.92 | 39.40 |
| +MixDebias | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| IRE | 71.27 | 50.94 | 79.36 | 57.20 | 87.43 | 46.25 |
| +MixDebias | 71.99 | 70.02 | 80.97 | 79.15 | 87.27 | 82.17 |
- تحسن الأداء الملحوظ: يحقق MixDebias أكبر تحسن في الأداء على DREB، مع ارتفاع درجة F1 بمقدار 15-40 نقطة مئوية
- الحفاظ على الأداء الأصلي: الحفاظ على الأداء أو تحسينها قليلاً على مجموعة البيانات الأصلية
- تفوق مؤشر BME: تفوق واضح على الطرق الأخرى في مؤشر التقييم الشامل BME
- الأداء المتسقة: أداء ممتازة على جميع مجموعات البيانات الثلاث
| المكون | TACRED | | TACREV | | Re-TACRED | |
|---|
| F1_origin | F1_DREB | F1_origin | F1_DREB | F1_origin | F1_DREB |
| MixDebias الكامل | 69.93 | 62.44 | 80.91 | 72.93 | 87.95 | 77.71 |
| بدون CDA | 69.66 | 62.06 | 80.63 | 71.99 | 88.45 | 78.26 |
| بدون RDA | 69.68 | 45.77 | 79.32 | 51.91 | 88.69 | 39.72 |
الرؤى الرئيسية:
- RDA هو المكون الأكثر حرجاً، حيث يؤدي حذفه إلى انخفاض كبير في الأداء
- يوفر CDA تأثيراً تكميلياً، مما يحسّن بشكل أكبر تأثير إزالة الانحياز
- يكمل المكونان بعضهما البعض، مما يحقق أفضل أداء معاً
- معامل β: يتحكم في وزن تباعد KL، وتكون النتائج الأفضل عند β=0.8
- معامل λ: يتحكم في تقدير التأثير السببي، ويتم تحقيق الأمثلية عند λ=0.2
- على مجموعات البيانات الضوضائية (TACRED و TACREV)، يمكن لقيم β المناسبة أيضاً تحسين أداء مجموعة البيانات الأصلية
تُظهر تصور توزيع احتمالية التسمية من خلال إعداد الإدخال للكيانات فقط:
- يركز توزيع احتمالية النموذج الأساسي بالقرب من القيمة 1
- بعد MixDebias، يصبح توزيع الاحتمالية أكثر توازناً
- ينخفض الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات بشكل كبير
- إعداد التقييم بالتصفية من قبل Wang وآخرين
- القيود المتعلقة بالنوع والاستبدال العشوائي للكيانات في ENTRED
- مشاكل انحياز التوزيع والقيود الدلالية غير الكافية
- تعديل دالة الخسارة في DFL
- اتساق توزيع الناتج في R-Drop
- طريقة الرسم البياني السببي في CoRE
- مشاكل المقايضة بين الحفاظ على الأداء الأصلية وتأثير إزالة الانحياز
- أول معيار متخصص لإزالة الانحياز
- طريقة شاملة على مستويات البيانات والنموذج
- آلية صارمة للتحكم بالجودة
- فعالية معيار DREB: ينجح في كسر الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات
- تفوق طريقة MixDebias: تحقق أفضل توازن بين تأثير إزالة الانحياز والحفاظ على الأداء الأصلية
- عمومية مشكلة انحياز الكيانات: تعاني نماذج SOTA الموجودة من مشكلة انحياز كيانات خطيرة
- التكلفة الحسابية: يزيد توليد العينات المعززة ديناميكياً من وقت التدريب
- الاعتماد على موارد الكيانات: يتطلب دعم مستودعات معرفة خارجية مثل Wikidata
- القيود اللغوية: تم التحقق بشكل أساسي على مجموعات بيانات اللغة الإنجليزية
- تغطية أنواع العلاقات: تم الاختبار فقط على استخراج العلاقات على مستوى الجملة
- التوسع عبر اللغات: توسيع الطريقة إلى لغات أخرى
- استخراج العلاقات على مستوى الوثيقة: التكيف مع سيناريوهات استخراج العلاقات الأكثر تعقيداً
- تحسين الكفاءة الحسابية: تقليل التكلفة الحسابية أثناء التدريب
- التحليل النظري: توفير ضمانات نظرية أعمق
- تحديد المشكلة الدقيق: تحديد وقياس دقيق لمشكلة انحياز الكيانات في استخراج العلاقات
- تصميم الطريقة المعقول: آلية التقييم المزدوجة تضمن جودة المعيار، واستراتيجية إزالة الانحياز متعددة المستويات فعالة وعلمية
- تصميم التجارب الصارم: تجارب مقارنة شاملة، دراسات استئصال، تحليل المعاملات الفائقة، وتحليلات التصور
- مساهمة المعيار: يملأ DREB الفراغ في التقييم المنحاز لاستخراج العلاقات
- ابتكار الطريقة: توفر MixDebias نموذجاً جديداً لإزالة الانحياز
- القيمة التجريبية: تكشف عن قيود الطرق الموجودة، وتوفر اتجاهات للأبحاث اللاحقة
- التحقق من مجموعات بيانات متعددة: التحقق على ثلاث مجموعات بيانات رئيسية
- تحليل متعدد الزوايا: مقارنة الأداء، دراسات الاستئصال، تحليل المعاملات الفائقة، وغيرها
- الدلالة الإحصائية: النتائج ذات دلالة إحصائية
- التعقيد الحسابي: يتطلب توليد عينات معززة ديناميكياً أثناء التدريب، مما يزيد من التكلفة الحسابية
- الاعتماد الخارجي: يعتمد على موارد خارجية مثل Wikidata، مما قد يؤثر على عمومية الطريقة
- حساسية المعاملات الفائقة: تتطلب معاملات β و λ ضبطاً دقيقاً
- وحدة اللغة: التحقق فقط على مجموعات بيانات اللغة الإنجليزية، يفتقد التحقق عبر اللغات
- نطاق المهام المحدود: يقتصر على استخراج العلاقات على مستوى الجملة
- اختيار الخطوط الأساسية: يمكن تضمين المزيد من طرق إزالة الانحياز الحديثة للمقارنة
- غياب الضمانات النظرية: يفتقد التحليل النظري لفعالية الطريقة
- تحليل التقارب: لم يتم توفير ضمانات التقارب لدالة الخسارة
- حدود التعميم: يفتقد تحليل الحدود النظرية لقدرة التعميم
- عمل رائد: له معنى رائد في مجال إزالة الانحياز في استخراج العلاقات
- قيمة المعيار: من المتوقع أن يصبح DREB معياراً تقييماً قياسياً في هذا المجال
- الإلهام الطريقة: توفر أفكاراً جديدة لأبحاث إزالة الانحياز اللاحقة
- التطبيق الصناعي: ذو أهمية كبيرة لتحسين تأثير نشر أنظمة استخراج العلاقات الفعلي
- تحسين الإنصاف: يساعد على تقليل مشاكل الانحياز في أنظمة معالجة اللغة الطبيعية
- إمكانية إعادة الإنتاج: التزم المؤلفون بنشر الكود والبيانات
- تقييم أنظمة استخراج العلاقات: توفير تقييماً أكثر موثوقية لنماذج استخراج العلاقات
- تطوير طرق إزالة الانحياز: توفير منصة اختبار لتطوير طرق إزالة انحياز جديدة
- أبحاث الذكاء الاصطناعي العادل: توفير حالات واقعية وأدوات لأبحاث الذكاء الاصطناعي العادل
تستشهد الورقة بأعمال مهمة في مجالات استخراج العلاقات وإزالة الانحياز، بما في ذلك:
- سلسلة مجموعات بيانات TACRED (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
- الأبحاث ذات الصلة بانحياز الكيانات (Wang et al., 2022, 2023; Peng et al., 2020)
- طرق إزالة الانحياز (Mahabadi et al., 2020; Liang et al., 2021)
- النماذج الأساسية (Yamada et al., 2020; Zhou & Chen, 2022)
التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد بدقة وتحل مشكلة مهمة في استخراج العلاقات. يتمتع معيار DREB وطريقة MixDebias بقوة ابتكارية وقيمة عملية كبيرة. على الرغم من وجود بعض القيود، فإن مساهماتها كبيرة وسيكون لها تأثير إيجابي على تطور أبحاث إزالة الانحياز في استخراج العلاقات.