2025-11-11T12:19:09.903876

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

Ramprasad, Wallace

Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.

academic

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

基本信息

论文ID: 2411.16638
标题: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
作者: Sanjana Ramprasad (Northeastern University), Byron C. Wallace (Northeastern University)
分类: cs.CL cs.AI
发表会议: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
论文链接: https://arxiv.org/abs/2411.16638

摘要

现代大语言模型能够生成高度可读的抽象式摘要，传统的自动化摘要质量评估指标（如ROUGE）已经饱和。然而，LLM仍然会在摘要中引入不准确信息，即与源文档不一致或无支撑的信息。自动测量这些细微的事实不一致性证明具有挑战性。这促使了旨在测量生成摘要与源文档事实一致性的指标的发展。但这些方法真的在测量它们声称要测量的内容吗？还是主要在利用表面特征？本工作对一系列自动事实性指标进行压力测试，包括专门模型和基于LLM的提示方法，以探究它们实际捕获的内容。通过使用浅层分类器将表面特征足够的"简单"事实评估样例与需要深层推理的"困难"案例分离，发现所有指标在后者上都表现出显著的性能下降。此外，一些指标对良性的事实保持编辑比对事实纠正更敏感。基于这一观察，证明了大多数自动事实性指标可以被操纵，即通过附加无害的、无内容的句子来人为提升分数。在测试的指标中，基于提示的ChatGPT-DA方法最为稳健可靠。然而，这伴随着一个显著的警告：提示LLM评估事实性可能过度依赖其参数知识而非提供的参考文档。

高风险领域的关键性：在医学、法律等领域，不准确的信息可能导致严重后果
人工评估的局限性：手动评估事实一致性成本高昂、耗时且难以规模化
自动化需求：迫切需要可靠的自动事实性评估指标

现有方法局限性

现有的自动事实性指标主要包括：

基于蕴含关系的方法（如SummaC）
基于问答的方法（如QuestEval）
专门训练的模型（如UniEval, AlignScore, MiniCheck）
基于LLM提示的方法（如ChatGPT-DA）

但这些方法是否真正测量事实一致性，还是仅仅依赖表面特征，尚不明确。

研究动机

本文旨在系统性地压力测试现有事实性指标，揭示它们的真实能力和局限性，为开发更可靠的评估方法提供指导。

核心贡献

深度分析指标局限性：通过浅层MLP分类器将样例按难度分级，发现所有指标在需要深层推理的困难样例上性能显著下降
敏感性分析：发现多数指标对良性编辑（如释义）的敏感性甚至超过对事实纠正的敏感性
指标可操纵性证明：证明大多数事实性指标可以通过添加无害短语来人为提升分数
LLM评估局限性发现：揭示基于LLM的评估方法过度依赖参数知识而非源文档
实用建议：为改进基准设计和指标稳健性提供具体建议

特征集合：词汇重叠(ROUGE-2)、实体重叠、语义相似度、新颖性比率、简洁性比率
分级策略：
- Easy：预测正确且高置信度（前80%）
- Medium：预测正确但低置信度，或预测错误但低置信度（后20%）
- Hard：预测错误且高置信度

2. 敏感性测试

利用GenAudit数据集中的不一致摘要及其人工纠正版本：

事实纠正：测试指标对真实事实改进的响应
良性编辑：使用GPT-4生成事实保持的变体（释义、简化、重新排序等）

3. 可操纵性测试

通过TF-IDF分析高分摘要中的模式，识别出可提升分数的短语：

常量短语：如"the document discusses"
断言短语：如"The summary entails information in the document"

4. 参数知识依赖测试

使用ConflictBank数据集，包含事实声明和对应的反事实变体，测试四种条件：

(a) 事实参考+支持的事实摘要
(b) 反事实参考+支持的反事实摘要
(c) 事实参考+不支持的反事实摘要
(d) 反事实参考+不支持的事实摘要

实验设置

数据集

涵盖细调模型和LLM生成的摘要：

细调模型摘要：AggreFact（新闻）、FacEval（对话）
LLM生成摘要：LLM-AggreFact、GenAudit、LLM-dialogue
开发集：AggreFact开发集 + GenAudit中的XSUM和CNNDM样例
测试集：其余数据集的测试分割

评价指标

AUC：用于衡量指标在不同难度级别上的性能
分数差异：测量编辑前后的分数变化
统计显著性测试：配对t检验评估差异显著性

对比方法

测试六种代表性指标：

QA-based: QuestEval
NLI-based: SummaC-Conv
Specialized models: UniEval, AlignScore, MiniCheck
Prompt-based: ChatGPT-DA (GPT-4o-mini)

Easy样例：所有指标表现良好（AUC 0.61-0.85）
Medium样例：性能有所下降（AUC 0.54-0.73）
Hard样例：显著性能下降（AUC 0.47-0.59）

关键发现：

传统指标（QuestEval, SummaC-Conv）在困难样例上表现最差
专门模型和提示方法相对更稳健
即使最佳指标在困难样例上仍有明显性能下降

2. 敏感性分析结果

敏感性分析

QuestEval：对事实纠正几乎无响应
多数指标：对良性编辑过度敏感，特别是对否定变换
ChatGPT-DA：最稳健，能区分真实改进和无关变化
异常现象：添加随机源句子的分数提升常超过真实纠正

3. 可操纵性结果

可操纵性测试

常量短语效应：NLI和专门模型分数提升>0.2
附加短语效应：分数提升0.1-0.15，可比真实纠正
ChatGPT-DA：对操纵最不敏感
对比分析：操纵带来的分数提升常超过模型改进的提升

4. 参数知识依赖结果

参数知识测试

判别能力下降：反事实参考下支持vs不支持摘要的分数差异显著缩小（p<0.001）
错误偏向：反事实参考下，3.1%的情况不支持摘要分数高于支持摘要（vs事实参考的0.2%）
知识冲突：当参考与GPT内部知识冲突时，评估可靠性受损

消融实验

论文通过多种操纵策略验证了结果的一致性：

不同类型的良性编辑（释义、简化、重新排序等）
多种游戏化短语（基线短语、限定短语等）
不同长度和复杂度的操纵文本

案例分析

表2展示了典型的操纵案例：

原始摘要: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0.33)
操纵后: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0.76)