2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

Могут ли LLM извлекать человекоподобные детальные доказательства для проверки фактов на основе доказательств?

Основная информация

ID статьи: 2511.21401
Название: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
Авторы: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Брненский технологический университет, Чешская Республика)
Категория: cs.CL (Компьютерная лингвистика)
Дата публикации: 26 ноября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.21401

Аннотация

В данной работе исследуется способность больших языковых моделей (LLM) извлекать детальные доказательства в сценариях проверки фактов, с особым акцентом на чешский и словацкий языки. Исследование построено на двойной аннотированной выборке из 186 образцов, где каждый образец аннотирован двумя независимыми аннотаторами. Оценены 17 LLM различных размеров (от 4B до 685B параметров), выявлено: (1) LLM часто не могут дословно копировать доказательства из исходного текста, что приводит к недействительным результатам; (2) модель llama3.1:8b, несмотря на небольшой размер, показывает высокую точность, тогда как gpt-oss-120b с большим количеством параметров работает плохо; (3) qwen3:14b, deepseek-r1:32b и gpt-oss:20b достигают эффективного баланса между размером модели и согласованностью с человеческой аннотацией.

Исследовательский контекст и мотивация

1. Проблема, которую необходимо решить

Разделы комментариев в интернет-новостях являются важным местом распространения дезинформации. Для эффективного управления онлайн-обсуждениями и борьбы с дезинформацией требуются автоматизированные системы, способные:

Извлекать проверяемые утверждения из пользовательских комментариев
Извлекать релевантные надежные документы
Точно определять в документах текстовые фрагменты, поддерживающие или опровергающие утверждение (детальные доказательства)

Данная работа сосредоточена на последней задаче — извлечении детальных доказательств.

2. Важность проблемы

Потребности пользователей: более 3/4 пользователей хотят получить ответы экспертов на обсуждения в разделах комментариев, но ручные ответы непрактичны
Эффективность и убедительность: предоставление целого документа в качестве доказательства слишком грубо, тогда как детальные текстовые фрагменты позволяют читателям быстро оценить информацию без снижения точности суждения
Практика платформ: платформа X (бывший Twitter) использует "Community Notes", а Seznam.cz дополняет отобранные комментарии информацией о проверке фактов

3. Ограничения существующих методов

Грубые доказательства: существующие системы автоматической проверки фактов (такие как FactLens, Loki) предоставляют только доказательства на уровне абзацев
Отсутствие наборов данных: FEVER и SciFact предоставляют доказательства на уровне предложений, но отсутствуют наборы данных для чешского/словацкого языков, и существующие наборы данных имеют максимальную детализацию только на уровне предложений, а не на уровне фрагментов (span)
Неизвестные возможности LLM: несмотря на постоянное улучшение способностей рассуждения LLM, степень их согласованности с человеческой аннотацией при извлечении детальных доказательств систематически не оценивалась

4. Исследовательская мотивация

Проверить, способны ли LLM идентифицировать и извлекать детальные доказательства так же, как люди, чтобы обеспечить технологическую основу для построения автоматизированных систем проверки фактов.

Основные вклады

Построение нового набора данных: создан набор данных, содержащий 186 пар утверждение-текст на чешском/словацком языках, где каждый образец аннотирован двумя независимыми аннотаторами с детальными доказательствами, заполняя пробел в этой языковой паре и аннотации на уровне фрагментов
Систематическая оценка LLM: оценены 17 LLM различных размеров (включая модели рассуждения 685B DeepSeek-R1, 120B gpt-oss, а также открытые модели Gemma-3, Phi4) на задаче извлечения детальных доказательств
Анализ коэффициентов ошибок и согласованности:
- Анализ коэффициентов ошибок, приводящих к недействительным результатам
- Использование венгерского алгоритма сопоставления и Token-F1 для оценки согласованности с человеческой аннотацией
- Обнаружение нелинейной связи между размером модели и производительностью
Идентификация оптимальных моделей: обнаружено, что модели среднего размера (14B-32B) достигают лучшего баланса между эффективностью и точностью

Подробное описание методологии

Определение задачи

Постановка задачи: дано утверждение и токенизированный текст t = (t₁, t₂, ..., tₙ), выбрать набор фрагментов S = {s₁, s₂, ..., sₘ}, где каждый фрагмент sₘ = (tᵢ, ..., tⱼ) (i ≤ j) представляет непрерывную подпоследовательность, поддерживающую утверждение.

Ключевые ограничения:

Фрагменты должны быть непрерывными подпоследовательностями в тексте
Выбираются минимизированные текстовые фрагменты
Можно выбрать несколько фрагментов
Фрагменты должны непосредственно поддерживать истинность утверждения

Метод построения данных

Процесс двойной аннотации

Сбор образцов: 186 пар утверждение-текст
Пул аннотаторов: 8 неспециализированных платных аннотаторов
Независимая аннотация: каждый образец аннотирован двумя разными аннотаторами
Инструменты аннотации:
- Первая аннотация: пользовательский инструмент аннотации
- Вторая аннотация: Label Studio
Руководство по аннотации:
"Выделите минимальную текстовую часть, поддерживающую или опровергающую утверждение. Выделите часть, которая наиболее убедит вас в истинности утверждения."

Особенности аннотации

Человеческие аннотаторы непосредственно выделяют текст, обеспечивая выбор непрерывных фрагментов из исходного текста
LLM должны переформулировать текст фрагментов, что может привести к выводам, отсутствующим в исходном тексте

Метод извлечения доказательств LLM

Выбор моделей

Оценены три класса моделей:

1. Стандартные LLM (9 моделей):

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. Модели рассуждения с цепочкой мыслей (CoT) (8 моделей):

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

Инженерия подсказок

LLM получают входные данные, включающие:

Исходный комментарий (предоставляет контекст)
Извлеченное утверждение
Текст, из которого необходимо извлечь доказательства

Ключевые инструкции:

Идентифицировать минимальную текстовую часть, непосредственно поддерживающую утверждение
Выбрать фразу, которая наиболее доказывает истинность утверждения
Избегать выбора целых предложений, если это не абсолютно необходимо
Можно выбрать несколько фрагментов
Не изменять, не исправлять и не переписывать текст, сохранять все грамматические и синтаксические ошибки
Вывести результат в формате JSON: {"spans": [...]}
Каждый фрагмент должен быть точной подстрокой исходного текста (полностью идентичен посимвольно)

Базовые методы

1. Базовый метод на основе утверждения:

Токенизировать утверждение как c = (c₁, c₂, ..., cₒ)
Сопоставить последовательность слов из утверждения в тексте
Построить набор фрагментов Sᴄ

2. Базовый метод на основе запроса:

Использовать поисковые запросы, которые использовали аннотаторы при поиске доказательств
Применить тот же метод сопоставления, что и в базовом методе на основе утверждения

3. Случайный базовый метод:

Случайно выбрать непрерывные фрагменты
Количество и длина фрагментов соответствуют случайно выбранному аннотатору

Метод оценки

Предварительная обработка

Удалить стоп-слова из всех наборов доказательств (см. приложение A, включающее общие стоп-слова чешского/словацкого языков, такие как "a", "je", "to" и т.д.)

Расчет Token-F1

F1 для пар фрагментов: рассчитать F1-оценку на уровне токенов для всех возможных пар фрагментов в двух наборах аннотаций
Венгерское сопоставление: использовать венгерский алгоритм для поиска оптимального распределения, максимизирующего общий F1
Финальная оценка: средний F1 оптимального сопоставления служит Token-F1 для одной точки данных

Обоснование: поскольку аннотаторы и LLM могут выбрать разное количество фрагментов (разная степень полноты), венгерский алгоритм избегает штрафования этого различия.

Метрики оценки

Коэффициент ошибок: доля недействительных результатов (сгенерированные фрагменты отсутствуют в исходном тексте)
Token-F1: степень согласованности с человеческой аннотацией
Согласованность между аннотаторами: F1-оценка между двумя аннотаторами

Экспериментальная установка

Набор данных

Размер: 186 образцов
Языки: чешский и словацкий
Аннотация: 2 независимые аннотации для каждого образца
Источник: проверяемые утверждения из комментариев интернет-новостей
Документы: высокорелевантные документы, найденные аннотаторами с помощью поисковых систем

Метрики оценки

Invalid %: процент недействительных результатов (сгенерированные фрагменты отсутствуют в исходном тексте)
Token-F1: F1-оценка на уровне токенов на основе венгерского сопоставления (шкала 0-100)
Max F1: F1-оценка с более высоким из двух аннотаторов (отражает согласованность с хотя бы одним аннотатором)

Методы сравнения

Человеческая аннотация: ann 1 (LS) и ann 2
17 LLM: различные размеры и архитектуры
3 базовых метода: random, claim, query

Детали реализации

Использование одного и того же шаблона подсказки (см. приложение B)
Вывод в формате JSON
Без технических ограничений (разрешено генерировать фрагменты, отсутствующие в исходном тексте, для наблюдения ошибок)
Расчет F1 после удаления стоп-слов

Результаты экспериментов

Основные результаты

1. Анализ коэффициентов ошибок (Рисунок 1)

Наименьшие коэффициенты ошибок:

qwen2.5:72b: 4,3% (лучший результат, 72B параметров)
deepseek-r1: 7,0% (685B параметров)
llama3.1:8b: 13,4% (только 8B параметров, отличный результат)

Наибольшие коэффициенты ошибок:

mixtral:8x7b: 61,8% (худший результат, 7B эффективных параметров)
gemma3:4b: 57,5% (4B параметров)
qwen3:14b: 40,3%

Исключительные случаи:

gpt-oss-120b: 32,8% (120B параметров, но высокий коэффициент ошибок, не соответствует ожиданиям)
llama3.3:70b: 27,4% (70B параметров, но относительно высокий коэффициент ошибок)

Общая тенденция: обычно чем больше размер модели, тем ниже коэффициент ошибок, но существуют значительные исключения.

2. Анализ производительности извлечения (Рисунок 2)

Согласованность между аннотаторами:

ann 1 (LS) vs ann 2: F1 = 48

Лучшая производительность LLM (с ann 1 (LS)):

qwen3:14b: F1 = 56 (превышает согласованность между аннотаторами)
deepseek-r1:32b: F1 = 55 (превышает согласованность между аннотаторами)
deepseek-r1 (685B): F1 = 38
qwen2.5:72b: F1 = 43

Согласованность с ann 2:

Все LLM показывают более низкие F1-оценки с ann 2 по сравнению с ann 1 (LS)
Указывает на то, что два разных окружения аннотации привели к разным стилям аннотации

Производительность базовых методов:

Базовый метод на основе утверждения: F1 = 17 (точность примерно 30, очень низкий recall)
Базовый метод на основе запроса: F1 = 12
Случайный базовый метод: F1 = 10

Все ненейронные базовые методы показывают слабую производительность (F1 < 18).

3. Связь между размером модели и производительностью (Рисунок 3)

Ключевые выводы:

Малый и средний размер: производительность улучшается с увеличением размера
Сверхбольшой размер: 685B deepseek-r1 и 120B gpt-oss не приносят дальнейшего улучшения
Оптимальная точка баланса:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45

Вывод: после определенного порога просто увеличение количества параметров больше не улучшает производительность извлечения.

Абляционные эксперименты

Хотя статья не проводит традиционные абляционные эксперименты, сравнение различных моделей неявно предполагает следующий анализ:

Влияние архитектуры модели:

Модели рассуждения (CoT) не последовательно превосходят стандартные модели
deepseek-r1:32b показывает отличные результаты, но deepseek-r1 (685B) не лучше

Влияние размера модели:

llama3.1 8B превосходит многие более крупные модели
Указывает на то, что качество модели и данные обучения важнее чистого размера

Влияние инструмента аннотации:

Аннотация Label Studio (ann 1) и пользовательского инструмента (ann 2) показывают систематические различия
Все LLM ближе к аннотации Label Studio

Анализ случаев

Статья не предоставляет конкретные примеры, но из описания методологии можно предположить:

Примеры человеческой аннотации:

Прямое выделение минимальных релевантных текстовых фрагментов в интерфейсе
Может включать исходный текст с грамматическими ошибками

Примеры результатов LLM (предположительно):

Правильные случаи: точное копирование фрагментов исходного текста
Ошибочные случаи: переформулировка, исправление грамматики или генерация несуществующего текста

Экспериментальные выводы

Немонотонная связь размера модели: модели среднего размера могут превосходить сверхбольшие модели
Различия в способности следовать инструкциям: многие LLM не могут строго следовать инструкции "дословно копировать"
Влияние окружения аннотации: разные инструменты аннотации производят разную степень детализации аннотации
Ограничения базовых методов: простые методы сопоставления слов имеют приемлемую точность, но очень низкий recall
Кроссязычные способности: LLM показывают разумную производительность на чешском/словацком языках, доказывая их многоязычные способности
Неполная корреляция между коэффициентом ошибок и согласованностью: низкий коэффициент ошибок не обязательно означает высокий F1 (например, qwen2.5:72b)

Связанные работы

1. Автоматическая проверка фактов

FactLens:

Разложение сложных утверждений на подутверждения
Независимая оценка истинности каждого подутверждения
Ограничение: предоставляет только доказательства на уровне абзацев

Loki:

Автоматизированный процесс: идентификация проверяемых утверждений → извлечение доказательств → верификация
Ограничение: доказательства остаются на уровне абзацев

AmbiFC:

Введение неоднозначности, позволяющее несколько аннотаций на уровне предложений
Демонстрирует важность выбора доказательств на уровне предложений
Но фактическая аннотация остается на уровне абзацев

2. Наборы данных для проверки фактов

FEVER:

Общие утверждения, источник — Википедия
Доказательства на уровне предложений
Данные на английском языке

SciFact:

Обоснования в аннотациях резюме научных статей
Доказательства на уровне предложений
Данные на английском языке

Уникальность набора данных данной работы:

Чешский/словацкий языки
Доказательства на уровне фрагментов (более детальные, чем на уровне предложений)
Двойная аннотация

3. Способности рассуждения LLM

Законы масштабирования:

Производительность улучшается с размером модели, улучшениями архитектуры и способностями рассуждения
Но данная работа обнаруживает убывающую отдачу

Многоязычные способности:

Предыдущие работы показали, что LLM имеют сильные способности рассуждения на наборах данных чешского и словацкого языков
Данная работа проверяет применимость этого к задаче извлечения детальных доказательств

Позиционирование данной работы

Первая систематическая оценка LLM на производительность извлечения детальных доказательств на уровне фрагментов
Первый набор данных для чешского/словацкого языков с детальными доказательствами на уровне фрагментов
Раскрывает нелинейную связь между размером модели и производительностью

Выводы и обсуждение

Основные выводы

Вклад набора данных: построен первый набор данных чешского/словацкого языков с детальными доказательствами на уровне фрагментов, согласованность между аннотаторами F1 = 47
Коэффициент ошибок и размер модели:
- Явная связь: малые модели (4B gemma3, 8B mixtral) имеют коэффициент ошибок > 50%
- Требуется применение механизмов ограниченного декодирования
Убывающая отдача производительности:
- Малый и средний размер: улучшение производительности
- Сверхбольшой размер (685B, 120B): без дальнейшего улучшения
- Оптимальный баланс: qwen3:14b, deepseek-r1:32b, gpt-oss:20b
Превышение согласованности между аннотаторами: некоторые LLM (qwen3:14b, deepseek-r1:32b) показывают F1-оценки, превышающие согласованность между аннотаторами (но только на действительных образцах)

Ограничения

Размер набора данных:
- Только 186 образцов
- Некоторые модели производят более 116 недействительных результатов
- Может привести к смещению оценки
Смещение оценки:
- Исключение недействительных результатов может удалить более сложные образцы
- Искусственно повышает показатели производительности некоторых моделей
Единая задача:
- Сосредоточение только на поддерживающих доказательствах
- Отсутствие анализа опровергающих доказательств
Языковые ограничения:
- Охватывает только чешский и словацкий языки
- Способность обобщения на другие языки неизвестна
Различия в аннотации:
- Два инструмента аннотации производят систематические различия
- Требуется дальнейший анализ причин
Неограниченная генерация:
- Отсутствие технического принуждения к тому, чтобы фрагменты находились в исходном тексте
- Приводит к высокому коэффициенту ошибок

Будущие направления

Ограниченное декодирование:
- Реализация ограниченного декодирования или генерации структурированного вывода
- Принуждение к генерации семантически и структурно действительных доказательств
- Значительное снижение коэффициента ошибок
Опровергающие доказательства:
- Проведение аналогичного анализа для опровергающих доказательств
- Совершенствование процесса проверки фактов
Расширение набора данных:
- Увеличение количества образцов
- Повышение статистической значимости
Анализ различий в аннотации:
- Глубокий анализ различий между двумя окружениями аннотации
- Унификация стандартов аннотации
Сквозная система:
- Интеграция извлечения утверждений, извлечения документов и извлечения доказательств
- Построение полной автоматизированной системы проверки фактов
Многоязычное расширение:
- Расширение на другие языки
- Оценка способности кроссязычного обобщения

Глубокая оценка

Преимущества

1. Инновационность методологии

Первая аннотация на уровне фрагментов: более детальная, чем существующие аннотации на уровне предложений, лучше соответствует практическим потребностям приложений
Дизайн двойной аннотации: позволяет рассчитать согласованность между аннотаторами, обеспечивая эталон для оценки LLM
Венгерский алгоритм сопоставления: умно решает проблему выравнивания с разной степенью полноты, избегая несправедливого штрафования

2. Полнота экспериментов

Полное охватывание моделей: 17 LLM, параметры от 4B до 685B, охватывающие стандартные модели и модели рассуждения
Многомерный анализ: коэффициент ошибок, согласованность, связь размера модели
Сравнение с базовыми методами: включение ненейронных базовых методов и эталона человеческой аннотации

3. Инсайты результатов

Контринтуитивные открытия: раскрывает нелинейную связь между размером модели и производительностью
Практическая ценность: идентификация моделей с лучшим соотношением цены и качества (14B-32B)
Честное сообщение: откровенное сообщение о высоких коэффициентах ошибок и смещениях оценки

4. Ясность написания

Четкое определение задачи (формальное определение)
Подробное описание методологии (включая полные подсказки)
Ясная визуализация результатов (Рисунки 1-3)

Недостатки

1. Методологические ограничения

Неограниченная генерация: отсутствие принуждения к тому, чтобы фрагменты находились в исходном тексте, приводит к 30%-60% недействительных результатов
Обработка стоп-слов: простое удаление может потерять важную информацию
Единая подсказка: отсутствие исследования влияния различных стратегий подсказок

2. Недостатки экспериментальной установки

Малый размер выборки: 186 образцов могут быть недостаточны для получения надежных выводов
Смещение оценки: исключение недействительных образцов может исказить сравнение производительности
Отсутствие проверки значимости: не сообщается о статистической значимости
Единый запуск: не сообщается о дисперсии нескольких запусков

3. Недостаточный анализ

Отсутствие анализа случаев: не показаны конкретные примеры успешных/неудачных случаев
Отсутствие анализа типов ошибок: не классифицированы типы ошибок (переформулировка, галлюцинация, усечение и т.д.)
Необъясненные различия в аннотации: обнаружены систематические различия между двумя инструментами аннотации, но не проведен глубокий анализ
Различия между языками: не различаются результаты для чешского и словацкого языков

4. Технические детали

Неопубликованные гиперпараметры: параметры LLM, такие как температура, top-p, не указаны
Неопубликованные затраты на вычисления: фактические вычислительные затраты различных моделей не сравниваются
Непроверенная робастность: не протестирована устойчивость к изменениям подсказок, длине текста и т.д.

Влияние

1. Вклад в область

Заполнение пробела: первый набор данных чешского/словацкого языков с детальными доказательствами на уровне фрагментов
Вклад методологии: метод оценки выравнивания фрагментов с использованием венгерского алгоритма
Эмпирические инсайты: эмпирические доказательства убывающей отдачи размера модели

2. Практическая ценность

Руководство по выбору модели: предоставляет рекомендации по выбору моделей с оптимальным соотношением цены и качества для практического развертывания
Осведомленность о проблеме: напоминает исследователям об обращении внимания на проблему следования инструкциям LLM
Сценарий приложения: предоставляет технологический путь для управления онлайн-обсуждениями

3. Воспроизводимость

Преимущества:
- Предоставляет полные подсказки (приложение B)
- Использует открытые модели (большинство)
- Подробное описание методологии
Недостатки:
- Набор данных не опубликован (в статье не упоминается план выпуска)
- Код не открыт
- Конкретные гиперпараметры отсутствуют

Применимые сценарии

Подходящие сценарии

Управление онлайн-обсуждениями: автоматическое предоставление доказательств проверки фактов для комментариев
Новостные платформы: дополнение пользовательских комментариев контекстной информацией
Образовательные приложения: помощь студентам в обучении идентификации доказательств
Исследовательские инструменты: помощь исследователям в проведении обзора литературы

Неподходящие сценарии

Высокорисковые решения: медицинские, юридические и другие сценарии, требующие 100% точности (коэффициент ошибок все еще высок)
Приложения в реальном времени: сверхбольшие модели (685B) имеют слишком высокие вычислительные затраты
Языки с низкими ресурсами: эффективность методологии на других языках не проверена
Длинные документы: способность обработки длинных текстов не протестирована

Ключевые ссылки

FEVER (Thorne et al., 2018): крупномасштабный набор данных для извлечения и верификации фактов, доказательства на уровне предложений
SciFact (Wadden et al., 2020): верификация научных утверждений, аннотация обоснований на уровне предложений
AmbiFC (Glockner et al., 2024): проверка фактов с введением неоднозначности, подчеркивает важность детальных доказательств
DeepSeek-R1 (Guo et al., 2025): LLM с усиленным рассуждением посредством обучения с подкреплением
Llama 3 (Grattafiori et al., 2024): открытая серия LLM от Meta
Венгерский алгоритм (Kuhn, 1955): классический алгоритм для задачи назначения, используется для сопоставления фрагментов

Итоговая оценка

Данная работа вносит ценный вклад в важную, но недостаточно изученную задачу извлечения детальных доказательств при проверке фактов. Главное преимущество — построение первого набора данных чешского/словацкого языков с аннотацией на уровне фрагментов и раскрытие способностей и ограничений LLM на этой задаче, особенно нелинейной связи между размером модели и производительностью, а также отличного соотношения цены и качества моделей среднего размера.

Однако основные ограничения заключаются в малом размере выборки (186 образцов), высоком коэффициенте ошибок (некоторые модели > 50%) и потенциальном смещении оценки из-за исключения недействительных образцов. Будущие работы срочно нуждаются в реализации механизмов ограниченного декодирования и расширении размера набора данных.

Несмотря на недостатки, данная работа предоставляет важную эмпирическую основу и методологический вклад для построения автоматизированных систем проверки фактов, особенно для языков с относительно ограниченными ресурсами. Рекомендуемая оценка: 4/5 — ценное исследовательское исследование, но требуется последующая работа для решения технических проблем перед практическим развертыванием.