2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

Jarolím, Fajčík, Makaiová
Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
academic

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

基本信息

  • 论文ID: 2511.21401
  • 标题: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
  • 作者: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Brno University of Technology, Czech Republic)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2025年11月26日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2511.21401

摘要

本文研究大型语言模型(LLMs)在事实核查场景下提取细粒度证据的能力,特别关注捷克语和斯洛伐克语。研究构建了包含186个样本的双重标注数据集,每个样本由两位独立标注者标注细粒度证据。评估了17个不同规模的LLM(从4B到685B参数),发现:(1) LLM经常无法逐字复制源文本中的证据,导致无效输出;(2) llama3.1:8b模型尽管规模小但正确率高,而gpt-oss-120b尽管参数多却表现不佳;(3) qwen3:14b、deepseek-r1:32b和gpt-oss:20b在模型规模和人类标注对齐度之间实现了有效平衡。

研究背景与动机

1. 要解决的问题

在线新闻文章评论区是虚假信息传播的重要场所。为有效管理在线讨论并对抗虚假信息,需要自动化系统能够:

  • 从用户评论中提取可核查的声明(claims)
  • 检索相关的可信文档
  • 在文档中精确定位支持或反驳声明的文本片段(细粒度证据)

本文专注于最后一个任务——细粒度证据提取。

2. 问题的重要性

  • 用户需求:超过3/4的用户希望有专家回应评论区的讨论,但人工响应不切实际
  • 效率与说服力:提供整个文档作为证据过于粗糙,而细粒度的文本片段能让读者快速评估且不降低判断准确性
  • 平台实践:X平台(前Twitter)使用"社区笔记",Seznam.cz为选定评论补充事实核查信息

3. 现有方法的局限性

  • 粗粒度证据:现有自动事实核查系统(如FactLens、Loki)仅提供段落级证据
  • 数据集缺失:FEVER和SciFact提供句子级证据,但没有针对捷克语/斯洛伐克语的数据集,且现有数据集最细粒度仅到句子级,不是跨度(span)级
  • LLM能力未知:尽管LLM推理能力不断提升,但其在细粒度证据提取任务上与人类标注的对齐程度尚未系统评估

4. 研究动机

验证LLM是否能够像人类一样识别和提取细粒度证据,为构建自动化事实核查系统提供技术基础。

核心贡献

  1. 构建新数据集:创建包含186个捷克语/斯洛伐克语声明-文本对的数据集,每个样本由两位独立标注者标注细粒度证据,填补了该语言对和跨度级标注的空白
  2. 系统评估LLM:评估17个不同规模的LLM(包括685B DeepSeek-R1、120B gpt-oss等推理模型,以及Gemma-3、Phi4等开放权重模型)在细粒度证据提取任务上的表现
  3. 错误率与对齐度分析
    • 分析LLM生成无效输出的错误率
    • 使用匈牙利匹配算法和Token-F1评估与人类标注的对齐度
    • 发现模型规模与性能的非线性关系
  4. 识别最优模型:发现中等规模模型(14B-32B)在效率和准确性之间取得最佳平衡

方法详解

任务定义

问题陈述:给定一个声明和一个分词文本 t = (t₁, t₂, ..., tₙ),选择一组跨度集合 S = {s₁, s₂, ..., sₘ},其中每个跨度 sₘ = (tᵢ, ..., tⱼ)(i ≤ j)表示支持该声明的连续子序列。

关键约束

  • 跨度必须是文本中的连续子序列
  • 选择最小化的文本片段
  • 可以选择多个跨度
  • 跨度应直接支持声明的真实性

数据构建方法

双重标注流程

  1. 样本收集:186个声明-文本对
  2. 标注者池:8名非专家付费标注者
  3. 独立标注:每个样本由两位不同标注者独立标注
  4. 标注工具
    • 第一次标注:自定义标注工具
    • 第二次标注:Label Studio
  5. 标注指南

    "高亮支持或反驳声明的最小文本部分。高亮最能说服你该陈述为真的部分。"

标注特点

  • 人类标注者直接高亮文本,确保选择的是源文本中的连续跨度
  • LLM需要重新生成跨度文本,可能产生不在源文本中的输出

LLM证据提取方法

模型选择

评估了三类模型:

1. 标准LLM(9个):

  • qwen2.5 (72B, 32B)
  • llama3.3 (70B)
  • llama3.1 (8B)
  • gemma2 (27B)
  • gemma3 (27B, 12B, 4B)
  • phi4 (14B)
  • mixtral (8×7B)

2. 思维链(CoT)推理模型(8个):

  • deepseek-r1 (685B, 32B)
  • gpt-oss (120B, 20B)
  • qwen3 (32B, 14B)

提示工程

LLM接收的输入包括:

  • 原始评论(提供上下文)
  • 提取的声明
  • 待提取证据的文本

关键指令

  1. 识别直接支持声明的最小文本部分
  2. 选择最能证明声明真实性的短语
  3. 避免选择整句,除非绝对必要
  4. 可选择多个跨度
  5. 不修改、纠正或重写文本,保留所有语法和句法错误
  6. 以JSON格式输出:{"spans": [...]}
  7. 每个跨度必须是源文本的精确子串(逐字符完全相同)

基线方法

1. Claim基线

  • 将声明分词为 c = (c₁, c₂, ..., cₒ)
  • 在文本中匹配声明中的词序列
  • 构建跨度集合 Sᴄ

2. Query基线

  • 使用标注者搜索证据时的查询词
  • 与claim基线相同的匹配方式

3. Random基线

  • 随机采样连续跨度
  • 跨度数量和长度与随机选择的标注者匹配

评估方法

预处理

从所有证据集中移除停用词(见附录A,包含捷克语/斯洛伐克语常见停用词如"a"、"je"、"to"等)

Token-F1计算

  1. 跨度对F1:计算两个标注集合中所有可能跨度对的token级F1分数
  2. 匈牙利匹配:使用匈牙利算法找到最优分配,最大化总F1
  3. 最终分数:最优匹配的平均F1作为单个数据点的token级F1

理由:由于标注者和LLM可能选择不同数量的跨度(详尽程度不同),使用匈牙利算法避免惩罚这种差异。

评估指标

  • 错误率:无效输出的比例(生成的跨度不在源文本中)
  • Token-F1:与人类标注的对齐度
  • 人类间一致性:两位标注者之间的F1分数

实验设置

数据集

  • 规模:186个样本
  • 语言:捷克语和斯洛伐克语
  • 标注:每个样本2次独立标注
  • 来源:在线新闻评论中的可核查声明
  • 文档:标注者使用搜索引擎找到的高度相关文档

评价指标

  • Invalid %:无效输出百分比(生成的跨度不在源文本中)
  • Token-F1:基于匈牙利匹配的token级F1分数(0-100量表)
  • Max F1:与两位标注者中较高的F1分数(反映与至少一位标注者的对齐)

对比方法

  • 人类标注:ann 1 (LS) 和 ann 2
  • 17个LLM:不同规模和架构
  • 3个基线:random、claim、query

实现细节

  • 使用相同的提示模板(见附录B)
  • JSON格式输出
  • 未强制技术约束(允许生成不在源文本中的跨度以观察错误)
  • 移除停用词后计算F1

实验结果

主要结果

1. 错误率分析(图1)

最低错误率

  • qwen2.5:72b:4.3%(最佳,72B参数)
  • deepseek-r1:7.0%(685B参数)
  • llama3.1:8b:13.4%(仅8B参数,表现出色)

最高错误率

  • mixtral:8x7b:61.8%(最差,7B有效参数)
  • gemma3:4b:57.5%(4B参数)
  • qwen3:14b:40.3%

异常情况

  • gpt-oss-120b:32.8%(120B参数但错误率高,未达预期)
  • llama3.3:70b:27.4%(70B参数但错误率相对较高)

总体趋势:模型规模越大,错误率通常越低,但存在显著例外。

2. 提取性能分析(图2)

人类间一致性

  • ann 1 (LS) vs ann 2:F1 = 48

最佳LLM表现(与ann 1 (LS)):

  • qwen3:14b:F1 = 56(超过人类一致性)
  • deepseek-r1:32b:F1 = 55(超过人类一致性)
  • deepseek-r1 (685B):F1 = 38
  • qwen2.5:72b:F1 = 43

与ann 2的对齐

  • 所有LLM与ann 2的F1分数均低于与ann 1 (LS)的分数
  • 表明两种标注环境产生了不同的标注风格

基线表现

  • claim基线:F1 = 17(精确率约30,召回率很低)
  • query基线:F1 = 12
  • random基线:F1 = 10

所有非神经基线方法表现较弱(F1 < 18)。

3. 模型规模与性能关系(图3)

关键发现

  • 小到中等规模:性能随规模增长而提升
  • 超大规模:685B deepseek-r1和120B gpt-oss未带来进一步提升
  • 最佳平衡点
    • qwen3:14b:Max F1 ≈ 0.56
    • deepseek-r1:32b:Max F1 ≈ 0.55
    • gpt-oss:20b:Max F1 ≈ 0.45

结论:超过某个阈值后,仅增加参数量不再提升提取性能。

消融实验

虽然论文未进行传统的消融实验,但通过不同模型的对比隐含了以下分析:

模型架构的影响

  • 推理模型(CoT)并未一致性地优于标准模型
  • deepseek-r1:32b表现优异,但deepseek-r1 (685B)并未更好

模型规模的影响

  • 8B llama3.1表现优于许多更大的模型
  • 表明模型质量和训练数据比纯规模更重要

标注工具的影响

  • Label Studio标注(ann 1)与自定义工具标注(ann 2)存在系统性差异
  • 所有LLM更接近Label Studio标注

案例分析

论文未提供具体案例,但从方法描述可以推断:

人类标注示例

  • 直接在界面中高亮最小相关文本片段
  • 可能包含语法错误的原始文本

LLM输出示例(推断):

  • 正确情况:精确复制源文本片段
  • 错误情况:改写、纠正语法、或生成不存在的文本

实验发现

  1. 模型规模非单调关系:中等规模模型可能优于超大模型
  2. 指令遵循能力差异:许多LLM无法严格遵循"逐字复制"的指令
  3. 标注环境影响:不同标注工具产生不同粒度的标注
  4. 基线方法局限:简单的词匹配方法精确率尚可但召回率极低
  5. 跨语言能力:LLM在捷克语/斯洛伐克语上表现合理,证明其多语言能力
  6. 错误率与对齐度不完全相关:低错误率不一定意味着高F1(如qwen2.5:72b)

相关工作

1. 自动事实核查

FactLens

  • 将复杂声明分解为子声明
  • 独立评估每个子声明的真实性
  • 局限:仅提供段落级证据

Loki

  • 自动化流程:识别可核查声明 → 检索证据 → 验证
  • 局限:证据仍在段落级

AmbiFC

  • 引入歧义性,允许多个句子级标注
  • 显示句子级证据选择的重要性
  • 但实际标注仍在段落级

2. 事实核查数据集

FEVER

  • 通用声明,来源于维基百科
  • 句子级证据
  • 英语数据

SciFact

  • 科学论文摘要中的理由标注
  • 句子级证据
  • 英语数据

本文数据集的独特性

  • 捷克语/斯洛伐克语
  • 跨度级证据(比句子级更细粒度)
  • 双重标注

3. LLM推理能力

规模定律

  • 性能随模型规模、架构改进和推理能力提升而改进
  • 但本文发现存在收益递减

多语言能力

  • 先前工作表明LLM在捷克语和斯洛伐克语数据集上推理能力强
  • 本文验证了这一点在细粒度证据提取任务上的适用性

本文的定位

  • 首次系统评估LLM在跨度级细粒度证据提取上的表现
  • 首次提供捷克语/斯洛伐克语的细粒度证据数据集
  • 揭示了模型规模与性能的非线性关系

结论与讨论

主要结论

  1. 数据集贡献:构建了首个捷克语/斯洛伐克语跨度级细粒度证据数据集,人类间一致性F1为47
  2. 错误率与模型规模
    • 存在明显关系:小模型(4B gemma3、8B mixtral)错误率>50%
    • 需要采用约束解码机制
  3. 性能收益递减
    • 小到中等规模:性能提升
    • 超大规模(685B、120B):无进一步提升
    • 最优平衡:14B qwen3、32B deepseek-r1、20B gpt-oss
  4. 人类对齐超越:部分LLM(qwen3:14b、deepseek-r1:32b)的F1分数超过人类间一致性(但仅在有效样本上)

局限性

  1. 数据集规模
    • 仅186个样本
    • 部分模型产生高达116个错误输出
    • 可能引入评估偏差
  2. 评估偏差
    • 排除无效输出可能移除更困难的样本
    • 人为提高某些模型的性能指标
  3. 单一任务
    • 仅关注支持性证据
    • 未分析反驳性证据
  4. 语言限制
    • 仅涵盖捷克语和斯洛伐克语
    • 其他语言的泛化能力未知
  5. 标注差异
    • 两种标注工具产生系统性差异
    • 需要进一步分析原因
  6. 无约束生成
    • 未技术性强制跨度必须在源文本中
    • 导致高错误率

未来方向

  1. 约束解码
    • 实施约束解码或结构化输出生成
    • 强制生成语义和结构有效的证据
    • 显著减少错误输出
  2. 反驳证据
    • 对反驳性证据进行相同分析
    • 完善事实核查流程
  3. 数据集扩展
    • 增加样本数量
    • 提高统计显著性
  4. 标注差异分析
    • 深入分析两种标注环境的差异
    • 统一标注标准
  5. 端到端系统
    • 集成声明提取、文档检索和证据提取
    • 构建完整的自动事实核查系统
  6. 多语言扩展
    • 扩展到其他语言
    • 评估跨语言泛化能力

深度评价

优点

1. 方法创新性

  • 首创跨度级标注:比现有句子级更细粒度,更符合实际应用需求
  • 双重标注设计:能够计算人类间一致性,为LLM评估提供基准
  • 匈牙利匹配算法:巧妙解决了不同详尽程度的对齐问题,避免不公平惩罚

2. 实验充分性

  • 模型覆盖全面:17个LLM,参数从4B到685B,涵盖标准模型和推理模型
  • 多维度分析:错误率、对齐度、模型规模关系
  • 基线对比:包含非神经基线和人类标注基准

3. 结果洞察力

  • 反直觉发现:揭示了模型规模与性能的非线性关系
  • 实用价值:识别出性价比最高的模型(14B-32B)
  • 诚实报告:坦率报告高错误率和评估偏差

4. 写作清晰度

  • 问题定义明确(形式化定义)
  • 方法描述详细(包含完整提示)
  • 结果可视化清晰(图1-3)

不足

1. 方法局限性

  • 无约束生成:未强制跨度必须在源文本中,导致30%-60%的无效输出
  • 停用词处理:简单移除可能丢失重要信息
  • 单一提示:未探索不同提示策略的影响

2. 实验设置缺陷

  • 样本量小:186个样本可能不足以得出稳健结论
  • 评估偏差:排除无效样本可能扭曲性能比较
  • 缺少显著性检验:未报告统计显著性
  • 单次运行:未报告多次运行的方差

3. 分析不足

  • 缺少案例研究:未展示具体的成功/失败案例
  • 错误类型分析缺失:未细分错误类型(改写、幻觉、截断等)
  • 标注差异未解释:发现两种标注工具的系统性差异但未深入分析
  • 跨语言差异:未区分捷克语和斯洛伐克语的表现

4. 技术细节

  • 超参数未报告:LLM的温度、top-p等设置未说明
  • 推理成本未报告:不同规模模型的实际计算成本未比较
  • 鲁棒性未验证:未测试对提示变化、文本长度等的鲁棒性

影响力

1. 对领域的贡献

  • 填补空白:首个捷克语/斯洛伐克语细粒度证据数据集
  • 方法学贡献:匈牙利匹配用于跨度对齐的评估方法
  • 实证洞察:模型规模收益递减的实证证据

2. 实用价值

  • 模型选择指导:为实际部署提供性价比最优模型建议
  • 问题意识:提醒研究者关注LLM的指令遵循问题
  • 应用场景:为在线讨论管理提供技术路径

3. 可复现性

  • 优点
    • 提供完整提示(附录B)
    • 使用开源模型(大部分)
    • 方法描述详细
  • 不足
    • 数据集未公开(论文中未提及发布计划)
    • 代码未开源
    • 具体超参数缺失

适用场景

适合的场景

  1. 在线讨论管理:自动为评论提供事实核查证据
  2. 新闻平台:为用户评论补充上下文信息
  3. 教育应用:帮助学生学习如何识别证据
  4. 研究工具:辅助研究人员进行文献综述

不适合的场景

  1. 高风险决策:医疗、法律等需要100%准确性的场景(错误率仍较高)
  2. 实时应用:超大模型(685B)计算成本过高
  3. 低资源语言:方法在其他语言的有效性未验证
  4. 长文档:未测试对长文本的处理能力

部署建议

  • 推荐模型:qwen3:14b或deepseek-r1:32b(平衡性能和成本)
  • 必要改进:实施约束解码以降低错误率
  • 人工审核:在高风险应用中保留人工审核环节
  • 多语言扩展:需要针对目标语言重新评估

参考文献(关键文献)

  1. FEVER (Thorne et al., 2018): 大规模事实提取和验证数据集,句子级证据
  2. SciFact (Wadden et al., 2020): 科学声明验证,句子级理由标注
  3. AmbiFC (Glockner et al., 2024): 引入歧义的事实核查,强调细粒度证据重要性
  4. DeepSeek-R1 (Guo et al., 2025): 通过强化学习激励推理的LLM
  5. Llama 3 (Grattafiori et al., 2024): Meta的开源LLM系列
  6. Hungarian Algorithm (Kuhn, 1955): 分配问题的经典算法,用于跨度匹配

总结评价

本文针对事实核查中的细粒度证据提取这一重要但研究不足的任务,做出了有价值的贡献。最大亮点是构建了首个跨度级标注的捷克语/斯洛伐克语数据集,并揭示了LLM在此任务上的能力与局限——特别是模型规模收益递减和中等规模模型的优异性价比。

然而,主要局限在于样本量较小(186个)、高错误率(部分模型>50%)以及排除无效样本可能引入的评估偏差。未来工作急需实施约束解码机制和扩展数据集规模。

尽管存在不足,本文为自动化事实核查系统的构建提供了重要的实证基础和方法学贡献,特别是对于资源相对较少的语言。推荐指数:4/5 —— 有价值的探索性研究,但需要后续工作解决技术问题才能实际部署。