2025-11-20T05:28:14.865591

Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark

He, Chu, Wu et al.

Benchmarks are crucial for evaluating machine learning algorithm performance, facilitating comparison and identifying superior solutions. However, biases within datasets can lead models to learn shortcut patterns, resulting in inaccurate assessments and hindering real-world applicability. This paper addresses the issue of entity bias in relation extraction tasks, where models tend to rely on entity mentions rather than context. We propose a debiased relation extraction benchmark DREB that breaks the pseudo-correlation between entity mentions and relation types through entity replacement. DREB utilizes Bias Evaluator and PPL Evaluator to ensure low bias and high naturalness, providing a reliable and accurate assessment of model generalization in entity bias scenarios. To establish a new baseline on DREB, we introduce MixDebias, a debiasing method combining data-level and model training-level techniques. MixDebias effectively improves model performance on DREB while maintaining performance on the original dataset. Extensive experiments demonstrate the effectiveness and robustness of MixDebias compared to existing methods, highlighting its potential for improving the generalization ability of relation extraction models. We will release DREB and MixDebias publicly.

academic

إعادة التفكير في استخراج العلاقات: تجاوز الاختصارات نحو التعميم مع معيار منحاز

المعلومات الأساسية

معرّف الورقة: 2501.01349
العنوان: Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark
المؤلفون: Liang He, Yougang Chu, Zhen Wu, Jianbing Zhang, Xinyu Dai, Jiajun Chen (جامعة نانجينج)
التصنيف: cs.AI
تاريخ النشر: 2 يناير 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2501.01349

الملخص

تعتبر مجموعات البيانات المرجعية حاسمة لتقييم أداء خوارزميات التعلم الآلي، لكن الانحيازات في مجموعات البيانات تؤدي إلى تعلم النماذج لأنماط اختصارات، مما يسبب تقييماً غير دقيق ويعيق التطبيقات العملية. تتناول هذه الورقة مشكلة الانحياز المتعلق بالكيانات في مهام استخراج العلاقات، حيث تميل النماذج إلى الاعتماد على ذكر الكيانات بدلاً من السياق. يقترح المؤلفون معيار استخراج العلاقات المنحاز DREB، الذي يكسر الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات من خلال استبدال الكيانات. يستخدم DREB مقيّماً للانحياز ومقيّماً للارتباك لضمان انحياز منخفض وطبيعية عالية. لإنشاء خطوط أساس جديدة على DREB، يقدم المؤلفون طريقة MixDebias التي تجمع بين تقنيات إزالة الانحياز على مستوى البيانات ومستوى تدريب النموذج.

خلفية البحث والدافع

تعريف المشكلة

توجد مشكلة انحياز الكيانات الخطيرة في مهام استخراج العلاقات:

الارتباطات الزائفة: وجود ارتباط إحصائي وهمي بين ذكر الكيانات وأنواع العلاقات
تعلم الاختصارات: الاعتماد المفرط للنموذج على أسماء الكيانات بدلاً من معلومات السياق للتنبؤ
ضعف القدرة على التعميم: انخفاض كبير في أداء النموذج عند استبدال أو حذف الكيانات

أهمية المشكلة

في مجموعة بيانات TACRED، يمكن التنبؤ بشكل صحيح بأكثر من نصف الحالات من خلال ذكر الكيانات وحده
تنخفض درجات F1 لنماذج متقدمة مثل LUKE و IRE بنسبة 30%-50% بعد استبدال الكيانات
تميل نماذج اللغة الكبيرة إلى تجاهل المعلومات السياقية المتناقضة أو الممثلة بشكل ناقص، مع الاعتماد المفرط على المعرفة المعاملية المنحازة

قيود الطرق الموجودة

على مستوى البيانات:

قد تقدم طرق إزالة الانحياز الموجودة انحيازات جديدة
تؤدي طريقة Wang وآخرين إلى انحياز التوزيع
يفتقر استبدال الكيانات في ENTRED إلى القيود الدلالية

على مستوى النموذج:

قد يضر DFL بالأداء داخل المجال
يفتقر R-Drop إلى التحكم الدقيق في انحياز الكيانات
الطبيعة اللاحقة لـ CoRE لا تستطيع القضاء تماماً على الانحياز المتعلم أثناء التدريب

المساهمات الأساسية

اقتراح معيار DREB: أول معيار متخصص لإزالة الانحياز في استخراج العلاقات يركز على انحياز الكيانات، مما يضمن عدم قدرة النموذج على الاعتماد على ذكر الكيانات وحده للتنبؤ
تصميم آلية تقييم مزدوجة: مقيّم الانحياز ومقيّم الارتباك يضمنان انحيازاً منخفضاً وطبيعية عالية
تطوير طريقة MixDebias: طريقة خط أساس جديدة تجمع بين إزالة الانحياز على مستوى البيانات والنموذج
تقييم تجريبي شامل: التحقق من فعالية الطريقة وقوتها على عدة مجموعات بيانات

شرح الطريقة

بناء معيار DREB

البنية العامة

يكسر DREB الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات من خلال استراتيجية استبدال الكيانات:

استبدال الكيانات: الاستعلام عن كيانات من نفس النوع من Wikidata لإجراء الاستبدال
تقييم الانحياز: استخدام شبكة عصبية لتقييم درجة الانحياز في العينات المستبدلة
ضمان الطبيعية: ضمان طبيعية العينات المولدة من خلال مقيّم الارتباك

مقيّم الانحياز

يصمم مقيّم الانحياز الارتباط الزائف لانحياز الكيانات:

دالة استخراج الميزات φ(x) تستخرج ميزات انحياز الكيانات
الشبكة العصبية F: φ(x) → y تصمم الارتباط مباشرة
الناتج F(φ(x)) يعكس الانحياز الكامن للعينة x

مقيّم الارتباك

استخدام GPT-2 لحساب الارتباك للعينة، مما يضمن طبيعية العينات المولدة:

$\log PPL(W) = -\frac{1}{n}\sum_{i=1}^{n}\log P(w_i|w_1,...,w_{i-1})$

يتم اختيار العينات ذات أقل ارتباك كعينات مولدة نهائية.

طريقة إزالة الانحياز MixDebias

إزالة الانحياز على مستوى البيانات (RDA)

توليد عينات معززة من خلال استبدال الكيانات، باستخدام قيد تباعد Kullback-Leibler:

$L_{RDA} = \frac{1}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

حيث P و P_aug هما توزيعات الاحتمالية للعينات الأصلية والمعززة على التوالي.

إزالة الانحياز على مستوى النموذج (CDA)

استخدام تقدير التأثير السببي لتحديد وقياس انحياز الكيانات:

تقدير احتمالية الانحياز: $P_{bias} = P - \lambda P_{context}$
دالة الخسارة المركزة على إزالة الانحياز: $L_{CDA} = -(1-P_{bias}^j)\log P^j$

دالة الخسارة المشتركة

$L_{MixDebias} = L_{CDA} + \beta L_{RDA}$

$= -(1-(P^j-\lambda P_{context}^j))\log P^j + \frac{\beta}{2}(D_{KL}(P||P_{aug}) + D_{KL}(P_{aug}||P))$

نقاط الابتكار التقني

التحكم المزدوج بالجودة: الأخذ في الاعتبار درجة الانحياز والطبيعية في نفس الوقت
الحفاظ على التوزيع: يحافظ DREB على نفس توزيع العلاقات كمجموعة البيانات الأصلية
إزالة انحياز متعددة المستويات: الجمع العضوي بين طرق مستوى البيانات والنموذج
التعزيز الديناميكي: توليد عينات معززة ديناميكياً أثناء التدريب

إعداد التجارب

مجموعات البيانات

TACRED: مجموعة بيانات استخراج العلاقات المستخدمة على نطاق واسع
TACREV: نسخة منقحة من TACRED، تحل مشاكل التعليق والضوضاء
Re-TACRED: مجموعة بيانات بأنواع علاقات معاد تصميمها

مؤشرات التقييم

درجة F1: المتوسط التوافقي للدقة والاستدعاء
كفاءة تخفيف الانحياز (BME): $BME = \alpha \cdot \frac{F1_{origin}}{\tilde{F1}_{origin}} + (1-\alpha) \cdot \frac{F1_{DREB}}{\tilde{F1}_{DREB}}$ حيث α=0.5

طرق المقارنة

النماذج الأساسية:

LUKE: نموذج قائم على Transformer يدرك الكيانات
IRE: خط أساس محسّن يقدم علامات كيانات مكتوبة

طرق إزالة الانحياز:

Focal Loss: تقليل تأثير العينات البسيطة
R-Drop: تحسين التعميم من خلال اتساق dropout
DFL: تعديل دالة الخسارة بناءً على نموذج الانحياز
PoE: نموذج منتج الخبراء
CoRE: طريقة إزالة الانحياز بالرسم البياني السببي

تفاصيل التنفيذ

المعاملات الفائقة β∈0.0,1.0، λ∈-0.6,0.6
الإعدادات المثلى: β=0.8، λ=0.2
استخدام تدفق التدريب القياسي لاستخراج العلاقات

نتائج التجارب

النتائج الرئيسية

النموذج	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
LUKE	70.82	44.40	80.16	50.60	88.92	39.40
+MixDebias	69.93	62.44	80.91	72.93	87.95	77.71
IRE	71.27	50.94	79.36	57.20	87.43	46.25
+MixDebias	71.99	70.02	80.97	79.15	87.27	82.17

النتائج الرئيسية

تحسن الأداء الملحوظ: يحقق MixDebias أكبر تحسن في الأداء على DREB، مع ارتفاع درجة F1 بمقدار 15-40 نقطة مئوية
الحفاظ على الأداء الأصلي: الحفاظ على الأداء أو تحسينها قليلاً على مجموعة البيانات الأصلية
تفوق مؤشر BME: تفوق واضح على الطرق الأخرى في مؤشر التقييم الشامل BME
الأداء المتسقة: أداء ممتازة على جميع مجموعات البيانات الثلاث

دراسة الاستئصال

المكون	TACRED		TACREV		Re-TACRED
	F1_origin	F1_DREB	F1_origin	F1_DREB	F1_origin	F1_DREB
MixDebias الكامل	69.93	62.44	80.91	72.93	87.95	77.71
بدون CDA	69.66	62.06	80.63	71.99	88.45	78.26
بدون RDA	69.68	45.77	79.32	51.91	88.69	39.72

الرؤى الرئيسية:

RDA هو المكون الأكثر حرجاً، حيث يؤدي حذفه إلى انخفاض كبير في الأداء
يوفر CDA تأثيراً تكميلياً، مما يحسّن بشكل أكبر تأثير إزالة الانحياز
يكمل المكونان بعضهما البعض، مما يحقق أفضل أداء معاً

تحليل المعاملات الفائقة

معامل β: يتحكم في وزن تباعد KL، وتكون النتائج الأفضل عند β=0.8
معامل λ: يتحكم في تقدير التأثير السببي، ويتم تحقيق الأمثلية عند λ=0.2
على مجموعات البيانات الضوضائية (TACRED و TACREV)، يمكن لقيم β المناسبة أيضاً تحسين أداء مجموعة البيانات الأصلية

تحليل القدرة على التعميم

تُظهر تصور توزيع احتمالية التسمية من خلال إعداد الإدخال للكيانات فقط:

يركز توزيع احتمالية النموذج الأساسي بالقرب من القيمة 1
بعد MixDebias، يصبح توزيع الاحتمالية أكثر توازناً
ينخفض الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات بشكل كبير

الأعمال ذات الصلة

إزالة الانحياز على مستوى البيانات

إعداد التقييم بالتصفية من قبل Wang وآخرين
القيود المتعلقة بالنوع والاستبدال العشوائي للكيانات في ENTRED
مشاكل انحياز التوزيع والقيود الدلالية غير الكافية

إزالة الانحياز على مستوى النموذج

تعديل دالة الخسارة في DFL
اتساق توزيع الناتج في R-Drop
طريقة الرسم البياني السببي في CoRE
مشاكل المقايضة بين الحفاظ على الأداء الأصلية وتأثير إزالة الانحياز

مزايا هذه الورقة

أول معيار متخصص لإزالة الانحياز
طريقة شاملة على مستويات البيانات والنموذج
آلية صارمة للتحكم بالجودة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية معيار DREB: ينجح في كسر الارتباط الزائف بين ذكر الكيانات وأنواع العلاقات
تفوق طريقة MixDebias: تحقق أفضل توازن بين تأثير إزالة الانحياز والحفاظ على الأداء الأصلية
عمومية مشكلة انحياز الكيانات: تعاني نماذج SOTA الموجودة من مشكلة انحياز كيانات خطيرة

القيود

التكلفة الحسابية: يزيد توليد العينات المعززة ديناميكياً من وقت التدريب
الاعتماد على موارد الكيانات: يتطلب دعم مستودعات معرفة خارجية مثل Wikidata
القيود اللغوية: تم التحقق بشكل أساسي على مجموعات بيانات اللغة الإنجليزية
تغطية أنواع العلاقات: تم الاختبار فقط على استخراج العلاقات على مستوى الجملة

الاتجاهات المستقبلية

التوسع عبر اللغات: توسيع الطريقة إلى لغات أخرى
استخراج العلاقات على مستوى الوثيقة: التكيف مع سيناريوهات استخراج العلاقات الأكثر تعقيداً
تحسين الكفاءة الحسابية: تقليل التكلفة الحسابية أثناء التدريب
التحليل النظري: توفير ضمانات نظرية أعمق

التقييم المتعمق

المزايا

الابتكار التقني

تحديد المشكلة الدقيق: تحديد وقياس دقيق لمشكلة انحياز الكيانات في استخراج العلاقات
تصميم الطريقة المعقول: آلية التقييم المزدوجة تضمن جودة المعيار، واستراتيجية إزالة الانحياز متعددة المستويات فعالة وعلمية
تصميم التجارب الصارم: تجارب مقارنة شاملة، دراسات استئصال، تحليل المعاملات الفائقة، وتحليلات التصور

المساهمة الأكاديمية

مساهمة المعيار: يملأ DREB الفراغ في التقييم المنحاز لاستخراج العلاقات
ابتكار الطريقة: توفر MixDebias نموذجاً جديداً لإزالة الانحياز
القيمة التجريبية: تكشف عن قيود الطرق الموجودة، وتوفر اتجاهات للأبحاث اللاحقة

كفاية التجارب

التحقق من مجموعات بيانات متعددة: التحقق على ثلاث مجموعات بيانات رئيسية
تحليل متعدد الزوايا: مقارنة الأداء، دراسات الاستئصال، تحليل المعاملات الفائقة، وغيرها
الدلالة الإحصائية: النتائج ذات دلالة إحصائية

أوجه القصور

قيود الطريقة

التعقيد الحسابي: يتطلب توليد عينات معززة ديناميكياً أثناء التدريب، مما يزيد من التكلفة الحسابية
الاعتماد الخارجي: يعتمد على موارد خارجية مثل Wikidata، مما قد يؤثر على عمومية الطريقة
حساسية المعاملات الفائقة: تتطلب معاملات β و λ ضبطاً دقيقاً

إعداد التجارب

وحدة اللغة: التحقق فقط على مجموعات بيانات اللغة الإنجليزية، يفتقد التحقق عبر اللغات
نطاق المهام المحدود: يقتصر على استخراج العلاقات على مستوى الجملة
اختيار الخطوط الأساسية: يمكن تضمين المزيد من طرق إزالة الانحياز الحديثة للمقارنة

عدم كفاية التحليل النظري

غياب الضمانات النظرية: يفتقد التحليل النظري لفعالية الطريقة
تحليل التقارب: لم يتم توفير ضمانات التقارب لدالة الخسارة
حدود التعميم: يفتقد تحليل الحدود النظرية لقدرة التعميم

تقييم التأثير

التأثير الأكاديمي

عمل رائد: له معنى رائد في مجال إزالة الانحياز في استخراج العلاقات
قيمة المعيار: من المتوقع أن يصبح DREB معياراً تقييماً قياسياً في هذا المجال
الإلهام الطريقة: توفر أفكاراً جديدة لأبحاث إزالة الانحياز اللاحقة

القيمة العملية

التطبيق الصناعي: ذو أهمية كبيرة لتحسين تأثير نشر أنظمة استخراج العلاقات الفعلي
تحسين الإنصاف: يساعد على تقليل مشاكل الانحياز في أنظمة معالجة اللغة الطبيعية
إمكانية إعادة الإنتاج: التزم المؤلفون بنشر الكود والبيانات

السيناريوهات المعمول بها

تقييم أنظمة استخراج العلاقات: توفير تقييماً أكثر موثوقية لنماذج استخراج العلاقات
تطوير طرق إزالة الانحياز: توفير منصة اختبار لتطوير طرق إزالة انحياز جديدة
أبحاث الذكاء الاصطناعي العادل: توفير حالات واقعية وأدوات لأبحاث الذكاء الاصطناعي العادل

المراجع

تستشهد الورقة بأعمال مهمة في مجالات استخراج العلاقات وإزالة الانحياز، بما في ذلك:

سلسلة مجموعات بيانات TACRED (Zhang et al., 2017; Alt et al., 2020; Stoica et al., 2021)
الأبحاث ذات الصلة بانحياز الكيانات (Wang et al., 2022, 2023; Peng et al., 2020)
طرق إزالة الانحياز (Mahabadi et al., 2020; Liang et al., 2021)
النماذج الأساسية (Yamada et al., 2020; Zhou & Chen, 2022)

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد بدقة وتحل مشكلة مهمة في استخراج العلاقات. يتمتع معيار DREB وطريقة MixDebias بقوة ابتكارية وقيمة عملية كبيرة. على الرغم من وجود بعض القيود، فإن مساهماتها كبيرة وسيكون لها تأثير إيجابي على تطور أبحاث إزالة الانحياز في استخراج العلاقات.