2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

基本信息

论文ID: 2511.21401
标题: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
作者: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Brno University of Technology, Czech Republic)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年11月26日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2511.21401

摘要

本文研究大型语言模型（LLMs）在事实核查场景下提取细粒度证据的能力，特别关注捷克语和斯洛伐克语。研究构建了包含186个样本的双重标注数据集，每个样本由两位独立标注者标注细粒度证据。评估了17个不同规模的LLM（从4B到685B参数），发现：(1) LLM经常无法逐字复制源文本中的证据，导致无效输出；(2) llama3.1:8b模型尽管规模小但正确率高，而gpt-oss-120b尽管参数多却表现不佳；(3) qwen3:14b、deepseek-r1:32b和gpt-oss:20b在模型规模和人类标注对齐度之间实现了有效平衡。

研究背景与动机

1. 要解决的问题

在线新闻文章评论区是虚假信息传播的重要场所。为有效管理在线讨论并对抗虚假信息，需要自动化系统能够：

从用户评论中提取可核查的声明（claims）
检索相关的可信文档
在文档中精确定位支持或反驳声明的文本片段（细粒度证据）

本文专注于最后一个任务——细粒度证据提取。

2. 问题的重要性

用户需求：超过3/4的用户希望有专家回应评论区的讨论，但人工响应不切实际
效率与说服力：提供整个文档作为证据过于粗糙，而细粒度的文本片段能让读者快速评估且不降低判断准确性
平台实践：X平台（前Twitter）使用"社区笔记"，Seznam.cz为选定评论补充事实核查信息

3. 现有方法的局限性

粗粒度证据：现有自动事实核查系统（如FactLens、Loki）仅提供段落级证据
数据集缺失：FEVER和SciFact提供句子级证据，但没有针对捷克语/斯洛伐克语的数据集，且现有数据集最细粒度仅到句子级，不是跨度（span）级
LLM能力未知：尽管LLM推理能力不断提升，但其在细粒度证据提取任务上与人类标注的对齐程度尚未系统评估

4. 研究动机

验证LLM是否能够像人类一样识别和提取细粒度证据，为构建自动化事实核查系统提供技术基础。

核心贡献

构建新数据集：创建包含186个捷克语/斯洛伐克语声明-文本对的数据集，每个样本由两位独立标注者标注细粒度证据，填补了该语言对和跨度级标注的空白
系统评估LLM：评估17个不同规模的LLM（包括685B DeepSeek-R1、120B gpt-oss等推理模型，以及Gemma-3、Phi4等开放权重模型）在细粒度证据提取任务上的表现
错误率与对齐度分析：
- 分析LLM生成无效输出的错误率
- 使用匈牙利匹配算法和Token-F1评估与人类标注的对齐度
- 发现模型规模与性能的非线性关系
识别最优模型：发现中等规模模型（14B-32B）在效率和准确性之间取得最佳平衡

方法详解

任务定义

问题陈述：给定一个声明和一个分词文本 t = (t₁, t₂, ..., tₙ)，选择一组跨度集合 S = {s₁, s₂, ..., sₘ}，其中每个跨度 sₘ = (tᵢ, ..., tⱼ)（i ≤ j）表示支持该声明的连续子序列。

关键约束：

跨度必须是文本中的连续子序列
选择最小化的文本片段
可以选择多个跨度
跨度应直接支持声明的真实性

数据构建方法

双重标注流程

样本收集：186个声明-文本对
标注者池：8名非专家付费标注者
独立标注：每个样本由两位不同标注者独立标注
标注工具：
- 第一次标注：自定义标注工具
- 第二次标注：Label Studio
标注指南：
"高亮支持或反驳声明的最小文本部分。高亮最能说服你该陈述为真的部分。"

标注特点

人类标注者直接高亮文本，确保选择的是源文本中的连续跨度
LLM需要重新生成跨度文本，可能产生不在源文本中的输出

LLM证据提取方法

模型选择

评估了三类模型：

1. 标准LLM（9个）：

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. 思维链（CoT）推理模型（8个）：

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

提示工程

LLM接收的输入包括：

原始评论（提供上下文）
提取的声明
待提取证据的文本

关键指令：

识别直接支持声明的最小文本部分
选择最能证明声明真实性的短语
避免选择整句，除非绝对必要
可选择多个跨度
不修改、纠正或重写文本，保留所有语法和句法错误
以JSON格式输出：{"spans": [...]}
每个跨度必须是源文本的精确子串（逐字符完全相同）

基线方法

1. Claim基线：

将声明分词为 c = (c₁, c₂, ..., cₒ)
在文本中匹配声明中的词序列
构建跨度集合 Sᴄ

2. Query基线：

使用标注者搜索证据时的查询词
与claim基线相同的匹配方式

3. Random基线：

随机采样连续跨度
跨度数量和长度与随机选择的标注者匹配

评估方法

预处理

从所有证据集中移除停用词（见附录A，包含捷克语/斯洛伐克语常见停用词如"a"、"je"、"to"等）

Token-F1计算

跨度对F1：计算两个标注集合中所有可能跨度对的token级F1分数
匈牙利匹配：使用匈牙利算法找到最优分配，最大化总F1
最终分数：最优匹配的平均F1作为单个数据点的token级F1

理由：由于标注者和LLM可能选择不同数量的跨度（详尽程度不同），使用匈牙利算法避免惩罚这种差异。

评估指标

错误率：无效输出的比例（生成的跨度不在源文本中）
Token-F1：与人类标注的对齐度
人类间一致性：两位标注者之间的F1分数

实验设置

数据集

规模：186个样本
语言：捷克语和斯洛伐克语
标注：每个样本2次独立标注
来源：在线新闻评论中的可核查声明
文档：标注者使用搜索引擎找到的高度相关文档

评价指标

Invalid %：无效输出百分比（生成的跨度不在源文本中）
Token-F1：基于匈牙利匹配的token级F1分数（0-100量表）
Max F1：与两位标注者中较高的F1分数（反映与至少一位标注者的对齐）

对比方法

人类标注：ann 1 (LS) 和 ann 2
17个LLM：不同规模和架构
3个基线：random、claim、query

实现细节

使用相同的提示模板（见附录B）
JSON格式输出
未强制技术约束（允许生成不在源文本中的跨度以观察错误）
移除停用词后计算F1

实验结果

主要结果

1. 错误率分析（图1）

最低错误率：

qwen2.5:72b：4.3%（最佳，72B参数）
deepseek-r1：7.0%（685B参数）
llama3.1:8b：13.4%（仅8B参数，表现出色）

最高错误率：

mixtral:8x7b：61.8%（最差，7B有效参数）
gemma3:4b：57.5%（4B参数）
qwen3:14b：40.3%

异常情况：

gpt-oss-120b：32.8%（120B参数但错误率高，未达预期）
llama3.3:70b：27.4%（70B参数但错误率相对较高）

总体趋势：模型规模越大，错误率通常越低，但存在显著例外。

2. 提取性能分析（图2）

人类间一致性：

ann 1 (LS) vs ann 2：F1 = 48

最佳LLM表现（与ann 1 (LS)）：

qwen3:14b：F1 = 56（超过人类一致性）
deepseek-r1:32b：F1 = 55（超过人类一致性）
deepseek-r1 (685B)：F1 = 38
qwen2.5:72b：F1 = 43

与ann 2的对齐：

所有LLM与ann 2的F1分数均低于与ann 1 (LS)的分数
表明两种标注环境产生了不同的标注风格

基线表现：

claim基线：F1 = 17（精确率约30，召回率很低）
query基线：F1 = 12
random基线：F1 = 10

所有非神经基线方法表现较弱（F1 < 18）。

3. 模型规模与性能关系（图3）

关键发现：

小到中等规模：性能随规模增长而提升
超大规模：685B deepseek-r1和120B gpt-oss未带来进一步提升
最佳平衡点：
- qwen3:14b：Max F1 ≈ 0.56
- deepseek-r1:32b：Max F1 ≈ 0.55
- gpt-oss:20b：Max F1 ≈ 0.45

结论：超过某个阈值后，仅增加参数量不再提升提取性能。

消融实验

虽然论文未进行传统的消融实验，但通过不同模型的对比隐含了以下分析：

模型架构的影响：

推理模型（CoT）并未一致性地优于标准模型
deepseek-r1:32b表现优异，但deepseek-r1 (685B)并未更好

模型规模的影响：

8B llama3.1表现优于许多更大的模型
表明模型质量和训练数据比纯规模更重要

标注工具的影响：

Label Studio标注（ann 1）与自定义工具标注（ann 2）存在系统性差异
所有LLM更接近Label Studio标注

案例分析

论文未提供具体案例，但从方法描述可以推断：

人类标注示例：

直接在界面中高亮最小相关文本片段
可能包含语法错误的原始文本

LLM输出示例（推断）：

正确情况：精确复制源文本片段
错误情况：改写、纠正语法、或生成不存在的文本

实验发现

模型规模非单调关系：中等规模模型可能优于超大模型
指令遵循能力差异：许多LLM无法严格遵循"逐字复制"的指令
标注环境影响：不同标注工具产生不同粒度的标注
基线方法局限：简单的词匹配方法精确率尚可但召回率极低
跨语言能力：LLM在捷克语/斯洛伐克语上表现合理，证明其多语言能力
错误率与对齐度不完全相关：低错误率不一定意味着高F1（如qwen2.5:72b）

结论与讨论

主要结论

数据集贡献：构建了首个捷克语/斯洛伐克语跨度级细粒度证据数据集，人类间一致性F1为47
错误率与模型规模：
- 存在明显关系：小模型（4B gemma3、8B mixtral）错误率>50%
- 需要采用约束解码机制
性能收益递减：
- 小到中等规模：性能提升
- 超大规模（685B、120B）：无进一步提升
- 最优平衡：14B qwen3、32B deepseek-r1、20B gpt-oss
人类对齐超越：部分LLM（qwen3:14b、deepseek-r1:32b）的F1分数超过人类间一致性（但仅在有效样本上）