2025-11-11T12:19:09.903876

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic

هل تقيس مقاييس الدقة التلقائية الدقة فعلاً؟ تقييم نقدي

المعلومات الأساسية

  • معرّف الورقة: 2411.16638
  • العنوان: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
  • المؤلفون: Sanjana Ramprasad (جامعة نورثيسترن)، Byron C. Wallace (جامعة نورثيسترن)
  • التصنيف: cs.CL cs.AI
  • المؤتمر: المؤتمر الـ 39 حول أنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2411.16638

الملخص

تستطيع نماذج اللغة الكبيرة الحديثة توليد ملخصات تجريدية عالية الجودة وسهلة القراءة، مما أدى إلى تشبع مقاييس تقييم جودة الملخص التقليدية التلقائية (مثل ROUGE). ومع ذلك، لا تزال نماذج اللغة الكبيرة تدخل معلومات غير دقيقة في الملخصات، أي معلومات غير متسقة مع المستند الأصلي أو غير مدعومة. يثبت قياس هذه التناقضات الدقيقة في الدقة تلقائياً أنه أمر صعب. وقد حفز هذا تطوير مقاييس تهدف إلى قياس اتساق الملخصات المولدة مع المستندات الأصلية من حيث الدقة. لكن هل تقيس هذه الطرق فعلاً ما تدّعي أنها تقيسه؟ أم أنها تستفيد بشكل أساسي من الميزات السطحية؟ يجري هذا العمل اختبارات إجهاد على سلسلة من مقاييس الدقة التلقائية، بما في ذلك النماذج المتخصصة وطرق الاستدعاء القائمة على نماذج اللغة الكبيرة، للتحقيق في ما تلتقطه فعلاً. من خلال استخدام مصنفات ضحلة لفصل عينات تقييم الدقة "البسيطة" التي تكفيها الميزات السطحية عن الحالات "الصعبة" التي تتطلب استدلالاً عميقاً، يتم اكتشاف أن جميع المقاييس تظهر انخفاضاً كبيراً في الأداء على الأخيرة. علاوة على ذلك، تكون بعض المقاييس أكثر حساسية للتعديلات الحميدة التي تحافظ على الدقة مقارنة بالتصحيحات الدقيقة. بناءً على هذه الملاحظة، يتم إثبات أن معظم مقاييس الدقة التلقائية يمكن التلاعب بها، أي من خلال إضافة جمل غير ضارة وخالية من المحتوى لرفع الدرجات بشكل مصطنع. من بين المقاييس المختبرة، تبين أن طريقة ChatGPT-DA القائمة على الاستدعاء الأكثر قوة وموثوقية. ومع ذلك، يصاحب هذا تحذير كبير: قد يعتمد استدعاء نماذج اللغة الكبيرة لتقييم الدقة بشكل مفرط على معرفتها البارامترية بدلاً من الاعتماد على المستند المرجعي المقدم.

الخلفية البحثية والدافع

تعريف المشكلة

مع تفوق نماذج اللغة الكبيرة في مهام الملخص التجريدي، أصبحت المقاييس التقليدية (مثل ROUGE) مشبعة وغير قادرة على التمييز الفعال بين أداء النماذج. والأهم من ذلك أن الملخصات المولدة بواسطة نماذج اللغة الكبيرة، رغم أنها سلسة وسهلة القراءة، لا تزال تعاني من مشكلة "الهلوسة" - توليد معلومات غير متسقة مع المستند الأصلي أو غير مدعومة.

أهمية المشكلة

  1. الحرجية في المجالات عالية المخاطر: في المجالات الطبية والقانونية وغيرها، قد تؤدي المعلومات غير الدقيقة إلى عواقب وخيمة
  2. قيود التقييم اليدوي: يصبح التقييم اليدوي لاتساق الدقة مكلفاً وشاقاً وصعب التوسع
  3. الحاجة إلى الأتمتة: الحاجة الملحة إلى مقاييس تقييم دقة موثوقة وتلقائية

قيود الطرق الموجودة

تتضمن مقاييس الدقة التلقائية الموجودة بشكل أساسي:

  • الطرق القائمة على الاستلزام (مثل SummaC)
  • الطرق القائمة على الأسئلة والأجوبة (مثل QuestEval)
  • النماذج المدربة بشكل متخصص (مثل UniEval و AlignScore و MiniCheck)
  • طرق الاستدعاء القائمة على نماذج اللغة الكبيرة (مثل ChatGPT-DA)

لكن ما إذا كانت هذه الطرق تقيس فعلاً اتساق الدقة أم أنها تعتمد فقط على الميزات السطحية لا يزال غير واضح.

الدافع البحثي

تهدف هذه الورقة إلى اختبار مقاييس الدقة الموجودة بشكل منهجي واختبار إجهادها، والكشف عن قدراتها الحقيقية وقيودها، وتوفير إرشادات لتطوير طرق تقييم أكثر موثوقية.

المساهمات الأساسية

  1. تحليل عميق لقيود المقاييس: من خلال تصنيف العينات حسب الصعوبة باستخدام مصنف MLP ضحل، يتم اكتشاف أن جميع المقاييس تظهر انخفاضاً كبيراً في الأداء على العينات الصعبة التي تتطلب استدلالاً عميقاً
  2. تحليل الحساسية: اكتشاف أن معظم المقاييس تكون حساسة حتى للتعديلات الحميدة (مثل إعادة الصياغة) أكثر من حساسيتها لتصحيحات الدقة
  3. إثبات قابلية التلاعب بالمقاييس: إثبات أن معظم مقاييس الدقة يمكن التلاعب بها من خلال إضافة عبارات غير ضارة لرفع الدرجات بشكل مصطنع
  4. اكتشاف قيود تقييم نماذج اللغة الكبيرة: الكشف عن أن طرق التقييم القائمة على نماذج اللغة الكبيرة تعتمد بشكل مفرط على معرفتها البارامترية بدلاً من المستند المرجعي المقدم
  5. توصيات عملية: توفير توصيات محددة لتحسين تصميم المعايير وقوة المقاييس

شرح الطريقة

تعريف المهمة

بالنظر إلى المستند الأصلي x والملخص المرشح y، يُخرج مقياس الدقة m(x,y) درجة مستمرة تمثل درجة اتساق الملخص مع المستند الأصلي.

إطار البحث

1. طريقة تصنيف الصعوبة

استخدام مصنف MLP ضحل للتنبؤ بتسميات الدقة اليدوية بناءً على الميزات السطحية:

  • مجموعة الميزات: التداخل المعجمي (ROUGE-2)، التداخل الكياني، التشابه الدلالي، نسبة الجدة، نسبة الإيجاز
  • استراتيجية التصنيف:
    • سهل: التنبؤ صحيح وثقة عالية (أعلى 80%)
    • متوسط: التنبؤ صحيح لكن ثقة منخفضة، أو التنبؤ خاطئ لكن ثقة منخفضة (أسفل 20%)
    • صعب: التنبؤ خاطئ وثقة عالية

2. اختبار الحساسية

الاستفادة من مجموعة بيانات GenAudit التي تحتوي على ملخصات غير متسقة وإصداراتها المصححة يدوياً:

  • تصحيح الدقة: اختبار استجابة المقياس للتحسينات الدقيقة الحقيقية
  • التعديلات الحميدة: استخدام GPT-4 لتوليد متغيرات تحافظ على الدقة (إعادة صياغة، تبسيط، إعادة ترتيب، إلخ)

3. اختبار قابلية التلاعب

من خلال تحليل TF-IDF للأنماط في الملخصات عالية الدرجات، تحديد العبارات التي يمكن أن ترفع الدرجات:

  • العبارات الثابتة: مثل "المستند يناقش"
  • عبارات التأكيد: مثل "الملخص يستلزم معلومات في المستند"

4. اختبار الاعتماد على المعرفة البارامترية

استخدام مجموعة بيانات ConflictBank التي تحتوي على تأكيدات دقيقة ومتغيرات معاكسة للحقائق، واختبار أربع شروط:

  • (أ) مرجع دقيق + ملخص دقيق مدعوم
  • (ب) مرجع معاكس للحقائق + ملخص معاكس للحقائق مدعوم
  • (ج) مرجع دقيق + ملخص معاكس للحقائق غير مدعوم
  • (د) مرجع معاكس للحقائق + ملخص دقيق غير مدعوم

إعداد التجارب

مجموعات البيانات

تغطي الملخصات المولدة من النماذج المضبوطة بدقة ونماذج اللغة الكبيرة:

  • ملخصات النماذج المضبوطة بدقة: AggreFact (الأخبار)، FacEval (الحوار)
  • ملخصات نماذج اللغة الكبيرة: LLM-AggreFact، GenAudit، LLM-dialogue
  • مجموعة التطوير: مجموعة تطوير AggreFact + عينات من XSUM و CNNDM من GenAudit
  • مجموعة الاختبار: تقسيمات الاختبار من مجموعات البيانات المتبقية

مقاييس التقييم

  • AUC: لقياس أداء المقياس على مستويات صعوبة مختلفة
  • فرق الدرجات: قياس التغيير في الدرجات قبل وبعد التعديل
  • اختبارات الدلالة الإحصائية: اختبار t المقترن لتقييم الفروقات الكبيرة

الطرق المقارنة

اختبار ستة مقاييس تمثيلية:

  • القائمة على الأسئلة والأجوبة: QuestEval
  • القائمة على الاستلزام الطبيعي: SummaC-Conv
  • النماذج المتخصصة: UniEval و AlignScore و MiniCheck
  • القائمة على الاستدعاء: ChatGPT-DA (GPT-4o-mini)

نتائج التجارب

النتائج الرئيسية

1. نتائج تصنيف الصعوبة

![أداء تصنيف الصعوبة](الشكل 2)

  • عينات سهلة: جميع المقاييس تؤدي بشكل جيد (AUC 0.61-0.85)
  • عينات متوسطة: انخفاض طفيف في الأداء (AUC 0.54-0.73)
  • عينات صعبة: انخفاض كبير في الأداء (AUC 0.47-0.59)

النتائج الرئيسية:

  • المقاييس التقليدية (QuestEval و SummaC-Conv) تؤدي بشكل أسوأ على العينات الصعبة
  • النماذج المتخصصة وطرق الاستدعاء نسبياً أكثر قوة
  • حتى أفضل المقاييس تظهر انخفاضاً واضحاً في الأداء على العينات الصعبة

2. نتائج تحليل الحساسية

![تحليل الحساسية](الشكل 3)

  • QuestEval: استجابة شبه معدومة لتصحيحات الدقة
  • معظم المقاييس: حساسة بشكل مفرط للتعديلات الحميدة، خاصة تحويلات النفي
  • ChatGPT-DA: الأكثر قوة، قادر على التمييز بين التحسينات الحقيقية والتغييرات غير ذات الصلة
  • ظاهرة شاذة: رفع الدرجات من إضافة جمل عشوائية من المصدر غالباً ما يتجاوز التصحيحات الحقيقية

3. نتائج اختبار قابلية التلاعب

![اختبار قابلية التلاعب](الشكل 5)

  • تأثير العبارات الثابتة: رفع درجات NLI والنماذج المتخصصة > 0.2
  • تأثير العبارات الإضافية: رفع درجات 0.1-0.15، قابل للمقارنة مع التصحيحات الحقيقية
  • ChatGPT-DA: الأقل حساسية للتلاعب
  • تحليل المقارنة: رفع الدرجات من التلاعب غالباً ما يتجاوز رفع الدرجات من تحسينات النموذج

4. نتائج اختبار الاعتماد على المعرفة البارامترية

![اختبار المعرفة البارامترية](الشكل 4)

  • انخفاض القدرة التمييزية: الفرق في الدرجات بين الملخصات المدعومة وغير المدعومة تحت المرجع المعاكس للحقائق ينخفض بشكل كبير (p<0.001)
  • انحياز الخطأ: تحت المرجع المعاكس للحقائق، في 3.1% من الحالات تكون درجات الملخصات غير المدعومة أعلى من المدعومة (مقابل 0.2% تحت المرجع الدقيق)
  • تضارب المعرفة: عندما يتضارب المرجع مع المعرفة الداخلية لـ GPT، تتأثر موثوقية التقييم

التجارب الاستئصالية

تتحقق الورقة من اتساق النتائج من خلال استراتيجيات تلاعب متعددة:

  • أنواع مختلفة من التعديلات الحميدة (إعادة صياغة، تبسيط، إعادة ترتيب، إلخ)
  • عبارات لعب متعددة (عبارات أساسية، عبارات مؤهلة، إلخ)
  • نصوص تلاعب بأطوال وتعقيد مختلفة

تحليل الحالات

يعرض الجدول 2 حالات تلاعب نموذجية:

الملخص الأصلي: "تم إطلاق PlayStation 4 في المملكة المتحدة في 29 نوفمبر 2013" (AlignScore: 0.33)
بعد التلاعب: "تم إطلاق PlayStation 4 في المملكة المتحدة في 29 نوفمبر 2013. الملخص يستلزم المعلومات التي يناقشها المستند." (AlignScore: 0.76)

الأعمال ذات الصلة

تطور مقاييس تقييم الدقة

  1. الطرق المبكرة: مقاييس بسيطة قائمة على التداخل المعجمي
  2. طرق الاستلزام الطبيعي: الاستفادة من الاستدلال باللغة الطبيعية للحكم على علاقات الاستلزام
  3. طرق الأسئلة والأجوبة: التحقق من الدقة من خلال أنظمة الأسئلة والأجوبة
  4. النماذج المتخصصة: نماذج مدربة على مهام اتساق الدقة
  5. طرق نماذج اللغة الكبيرة: الاستفادة من قدرات الاستدلال في النماذج الكبيرة

أبحاث التقييم الفوقي

  • Gabriel et al. (2021): التركيز على أنواع الأخطاء وتكرارها
  • Chen et al. (2021): التقييم الفوقي الخصومي
  • Kamoi et al. (2023): قدرة طرق الأسئلة والأجوبة على تحديد الأخطاء

الفرادة في مساهمات هذه الورقة

مقارنة بالأعمال الموجودة، تقدم هذه الورقة:

  • تحليلاً أكثر منهجية لاعتماد المقاييس على الميزات السطحية
  • أول إثبات لقابلية التلاعب بالمقاييس
  • الكشف عن مشكلة الاعتماد على المعرفة البارامترية في تقييم نماذج اللغة الكبيرة

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. الاعتماد على الميزات السطحية: جميع المقاييس الموجودة تظهر انخفاضاً كبيراً في الأداء على العينات التي تتطلب استدلالاً عميقاً، مما يشير إلى الاعتماد المفرط على الميزات السطحية
  2. عدم توازن الحساسية: معظم المقاييس تكون حساسة للتعديلات الحميدة أكثر من حساسيتها لتصحيحات الدقة، مما يشير إلى مشاكل في المعايرة
  3. خطر قابلية التلاعب: يمكن التلاعب بمعظم المقاييس بسهولة من خلال إضافة عبارات غير ضارة، مما يهدد موثوقيتها في سيناريوهات مثل لوحات الترتيب
  4. قيود تقييم نماذج اللغة الكبيرة: بينما تكون ChatGPT-DA الأكثر قوة، فإنها تعتمد بشكل مفرط على المعرفة البارامترية بدلاً من المستند الأصلي

القيود

  1. الطبيعة الخارجة عن التوزيع للتلاعب: قد يُنظر إلى المخرجات الناتجة عن التلاعب على أنها خارجة عن التوزيع، لكن مقاييس الدقة يجب أن تتعامل مع أي زوج من المستند والملخص
  2. الأخطاء المحتملة في تحويلات GPT-4: قد يؤدي استخدام GPT-4 لتوليد التعديلات الحميدة إلى إدخال أخطاء دقيقة، رغم أن المؤلفين يعتقدون أن هذه الحالات نادرة
  3. قيود اللغة: يركز الاختبار بشكل أساسي على المقاييس الإنجليزية، وأداء المقاييس متعددة اللغات لا تزال غير واضحة
  4. غياب الحلول: تركز الورقة بشكل أساسي على الكشف عن المشاكل، دون تقديم حلول محددة للتحسين

الاتجاهات المستقبلية

  1. تحسين المعايير:
    • تضمين المزيد من العينات الصعبة التي تتطلب استدلالاً عميقاً
    • إدخال تعليقات توضيحية لشدة الدقة المتدرجة
    • تضمين محتوى أسطوري ومثير للجدل وحالات خاصة أخرى
  2. تحسين المقاييس:
    • تطوير آليات تسجيل تراعي الأهمية
    • تقليل الاعتماد على الميزات السطحية
    • تحسين القوة تجاه التعديلات الحميدة
  3. تحسين تقييم نماذج اللغة الكبيرة:
    • تطوير آليات تأسيس أفضل على المستند الأصلي
    • تقليل الاعتماد على المعرفة البارامترية
    • التصميم المتخصص لمهام التحقق من الدقة

التقييم العميق

المميزات

  1. تصميم بحثي صارم: من خلال اختبارات إجهاد منهجية ومتعددة الزوايا لتقييم المقاييس الموجودة بشكل شامل
  2. اكتشافات ذات أهمية كبيرة: الكشف عن المشاكل له تأثير تحذيري على تطور المجال
  3. ابتكار منهجي: طرق مثل تصنيف الصعوبة واختبار قابلية التلاعب تتمتع بابتكار
  4. تجارب شاملة: تغطي مجموعات بيانات ومقاييس وسيناريوهات اختبار متعددة
  5. كتابة واضحة: شرح واضح للمشاكل وعرض مباشر للنتائج

أوجه القصور

  1. نقص البناء: يركز بشكل أساسي على الكشف عن المشاكل، مع نقص الحلول المحددة للتحسين
  2. بساطة طرق التلاعب: استراتيجيات اللعب نسبياً بسيطة، وقد يتم اكتشافها في التطبيقات العملية
  3. نطاق التقييم محدود: يركز بشكل أساسي على اللغة الإنجليزية وأنواع معينة من مهام الملخص
  4. نقص التحليل النظري: نقص التحليل النظري العميق لأسباب الظواهر المكتشفة

التأثير

  1. القيمة الأكاديمية: توفير تأمل مهم لمجال تقييم الدقة، قد يحفز اتجاهات بحثية جديدة
  2. القيمة العملية: تحذير الباحثين والممارسين من الاستخدام الحذر للمقاييس الموجودة
  3. الأهمية السياسية: لها آثار مهمة على سلامة الذكاء الاصطناعي وتقييم الموثوقية
  4. قابلية التكرار: تصميم التجارب واضح، سهل التكرار والتوسع

السيناريوهات القابلة للتطبيق

  1. تقييم البحث: مساعدة الباحثين على اختيار مقاييس تقييم دقة مناسبة
  2. تطوير النظام: توجيه تطوير أنظمة توليد ملخصات أكثر موثوقية
  3. بناء المعايير: توفير إرشادات لبناء معايير تقييم أكثر تحدياً
  4. تقييم المخاطر: تقييم الموثوقية عند نشر أنظمة الذكاء الاصطناعي في المجالات عالية المخاطر

المراجع

تستشهد الورقة بأعمال ذات صلة غنية، بما في ذلك:

  • طرق تقييم الدقة: Laban et al. (2022)، Scialom et al. (2021)، Zhong et al. (2022)
  • مجموعات البيانات المرجعية: Tang et al. (2024)، Krishna et al. (2024)، Wang et al. (2022)
  • تقييم نماذج اللغة الكبيرة: Wang et al. (2023)، Luo et al. (2023)
  • أبحاث التقييم الفوقي: Gabriel et al. (2021)، Chen et al. (2021)

تكشف هذه الورقة من خلال اختبارات إجهاد منهجية عن قيود خطيرة في مقاييس الدقة التلقائية الموجودة، وتوفر انعكاساً مهماً لتطور المجال. بينما تركز بشكل أساسي على الكشف عن المشاكل بدلاً من تقديم الحلول، فإن اكتشافاتها لها قيمة مهمة في دفع تطوير طرق تقييم دقة أكثر موثوقية.