Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic
هل تقيس مقاييس الدقة التلقائية الدقة فعلاً؟ تقييم نقدي
تستطيع نماذج اللغة الكبيرة الحديثة توليد ملخصات تجريدية عالية الجودة وسهلة القراءة، مما أدى إلى تشبع مقاييس تقييم جودة الملخص التقليدية التلقائية (مثل ROUGE). ومع ذلك، لا تزال نماذج اللغة الكبيرة تدخل معلومات غير دقيقة في الملخصات، أي معلومات غير متسقة مع المستند الأصلي أو غير مدعومة. يثبت قياس هذه التناقضات الدقيقة في الدقة تلقائياً أنه أمر صعب. وقد حفز هذا تطوير مقاييس تهدف إلى قياس اتساق الملخصات المولدة مع المستندات الأصلية من حيث الدقة. لكن هل تقيس هذه الطرق فعلاً ما تدّعي أنها تقيسه؟ أم أنها تستفيد بشكل أساسي من الميزات السطحية؟ يجري هذا العمل اختبارات إجهاد على سلسلة من مقاييس الدقة التلقائية، بما في ذلك النماذج المتخصصة وطرق الاستدعاء القائمة على نماذج اللغة الكبيرة، للتحقيق في ما تلتقطه فعلاً. من خلال استخدام مصنفات ضحلة لفصل عينات تقييم الدقة "البسيطة" التي تكفيها الميزات السطحية عن الحالات "الصعبة" التي تتطلب استدلالاً عميقاً، يتم اكتشاف أن جميع المقاييس تظهر انخفاضاً كبيراً في الأداء على الأخيرة. علاوة على ذلك، تكون بعض المقاييس أكثر حساسية للتعديلات الحميدة التي تحافظ على الدقة مقارنة بالتصحيحات الدقيقة. بناءً على هذه الملاحظة، يتم إثبات أن معظم مقاييس الدقة التلقائية يمكن التلاعب بها، أي من خلال إضافة جمل غير ضارة وخالية من المحتوى لرفع الدرجات بشكل مصطنع. من بين المقاييس المختبرة، تبين أن طريقة ChatGPT-DA القائمة على الاستدعاء الأكثر قوة وموثوقية. ومع ذلك، يصاحب هذا تحذير كبير: قد يعتمد استدعاء نماذج اللغة الكبيرة لتقييم الدقة بشكل مفرط على معرفتها البارامترية بدلاً من الاعتماد على المستند المرجعي المقدم.
مع تفوق نماذج اللغة الكبيرة في مهام الملخص التجريدي، أصبحت المقاييس التقليدية (مثل ROUGE) مشبعة وغير قادرة على التمييز الفعال بين أداء النماذج. والأهم من ذلك أن الملخصات المولدة بواسطة نماذج اللغة الكبيرة، رغم أنها سلسة وسهلة القراءة، لا تزال تعاني من مشكلة "الهلوسة" - توليد معلومات غير متسقة مع المستند الأصلي أو غير مدعومة.
تهدف هذه الورقة إلى اختبار مقاييس الدقة الموجودة بشكل منهجي واختبار إجهادها، والكشف عن قدراتها الحقيقية وقيودها، وتوفير إرشادات لتطوير طرق تقييم أكثر موثوقية.
تحليل عميق لقيود المقاييس: من خلال تصنيف العينات حسب الصعوبة باستخدام مصنف MLP ضحل، يتم اكتشاف أن جميع المقاييس تظهر انخفاضاً كبيراً في الأداء على العينات الصعبة التي تتطلب استدلالاً عميقاً
تحليل الحساسية: اكتشاف أن معظم المقاييس تكون حساسة حتى للتعديلات الحميدة (مثل إعادة الصياغة) أكثر من حساسيتها لتصحيحات الدقة
إثبات قابلية التلاعب بالمقاييس: إثبات أن معظم مقاييس الدقة يمكن التلاعب بها من خلال إضافة عبارات غير ضارة لرفع الدرجات بشكل مصطنع
اكتشاف قيود تقييم نماذج اللغة الكبيرة: الكشف عن أن طرق التقييم القائمة على نماذج اللغة الكبيرة تعتمد بشكل مفرط على معرفتها البارامترية بدلاً من المستند المرجعي المقدم
توصيات عملية: توفير توصيات محددة لتحسين تصميم المعايير وقوة المقاييس
الملخص الأصلي: "تم إطلاق PlayStation 4 في المملكة المتحدة في 29 نوفمبر 2013" (AlignScore: 0.33)
بعد التلاعب: "تم إطلاق PlayStation 4 في المملكة المتحدة في 29 نوفمبر 2013. الملخص يستلزم المعلومات التي يناقشها المستند." (AlignScore: 0.76)
الاعتماد على الميزات السطحية: جميع المقاييس الموجودة تظهر انخفاضاً كبيراً في الأداء على العينات التي تتطلب استدلالاً عميقاً، مما يشير إلى الاعتماد المفرط على الميزات السطحية
عدم توازن الحساسية: معظم المقاييس تكون حساسة للتعديلات الحميدة أكثر من حساسيتها لتصحيحات الدقة، مما يشير إلى مشاكل في المعايرة
خطر قابلية التلاعب: يمكن التلاعب بمعظم المقاييس بسهولة من خلال إضافة عبارات غير ضارة، مما يهدد موثوقيتها في سيناريوهات مثل لوحات الترتيب
قيود تقييم نماذج اللغة الكبيرة: بينما تكون ChatGPT-DA الأكثر قوة، فإنها تعتمد بشكل مفرط على المعرفة البارامترية بدلاً من المستند الأصلي
الطبيعة الخارجة عن التوزيع للتلاعب: قد يُنظر إلى المخرجات الناتجة عن التلاعب على أنها خارجة عن التوزيع، لكن مقاييس الدقة يجب أن تتعامل مع أي زوج من المستند والملخص
الأخطاء المحتملة في تحويلات GPT-4: قد يؤدي استخدام GPT-4 لتوليد التعديلات الحميدة إلى إدخال أخطاء دقيقة، رغم أن المؤلفين يعتقدون أن هذه الحالات نادرة
قيود اللغة: يركز الاختبار بشكل أساسي على المقاييس الإنجليزية، وأداء المقاييس متعددة اللغات لا تزال غير واضحة
غياب الحلول: تركز الورقة بشكل أساسي على الكشف عن المشاكل، دون تقديم حلول محددة للتحسين
طرق تقييم الدقة: Laban et al. (2022)، Scialom et al. (2021)، Zhong et al. (2022)
مجموعات البيانات المرجعية: Tang et al. (2024)، Krishna et al. (2024)، Wang et al. (2022)
تقييم نماذج اللغة الكبيرة: Wang et al. (2023)، Luo et al. (2023)
أبحاث التقييم الفوقي: Gabriel et al. (2021)، Chen et al. (2021)
تكشف هذه الورقة من خلال اختبارات إجهاد منهجية عن قيود خطيرة في مقاييس الدقة التلقائية الموجودة، وتوفر انعكاساً مهماً لتطور المجال. بينما تركز بشكل أساسي على الكشف عن المشاكل بدلاً من تقديم الحلول، فإن اكتشافاتها لها قيمة مهمة في دفع تطوير طرق تقييم دقة أكثر موثوقية.