Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
- ID статьи: 2511.21401
- Название: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- Авторы: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Брненский технологический университет, Чешская Республика)
- Категория: cs.CL (Компьютерная лингвистика)
- Дата публикации: 26 ноября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2511.21401
В данной работе исследуется способность больших языковых моделей (LLM) извлекать детальные доказательства в сценариях проверки фактов, с особым акцентом на чешский и словацкий языки. Исследование построено на двойной аннотированной выборке из 186 образцов, где каждый образец аннотирован двумя независимыми аннотаторами. Оценены 17 LLM различных размеров (от 4B до 685B параметров), выявлено: (1) LLM часто не могут дословно копировать доказательства из исходного текста, что приводит к недействительным результатам; (2) модель llama3.1:8b, несмотря на небольшой размер, показывает высокую точность, тогда как gpt-oss-120b с большим количеством параметров работает плохо; (3) qwen3:14b, deepseek-r1:32b и gpt-oss:20b достигают эффективного баланса между размером модели и согласованностью с человеческой аннотацией.
Разделы комментариев в интернет-новостях являются важным местом распространения дезинформации. Для эффективного управления онлайн-обсуждениями и борьбы с дезинформацией требуются автоматизированные системы, способные:
- Извлекать проверяемые утверждения из пользовательских комментариев
- Извлекать релевантные надежные документы
- Точно определять в документах текстовые фрагменты, поддерживающие или опровергающие утверждение (детальные доказательства)
Данная работа сосредоточена на последней задаче — извлечении детальных доказательств.
- Потребности пользователей: более 3/4 пользователей хотят получить ответы экспертов на обсуждения в разделах комментариев, но ручные ответы непрактичны
- Эффективность и убедительность: предоставление целого документа в качестве доказательства слишком грубо, тогда как детальные текстовые фрагменты позволяют читателям быстро оценить информацию без снижения точности суждения
- Практика платформ: платформа X (бывший Twitter) использует "Community Notes", а Seznam.cz дополняет отобранные комментарии информацией о проверке фактов
- Грубые доказательства: существующие системы автоматической проверки фактов (такие как FactLens, Loki) предоставляют только доказательства на уровне абзацев
- Отсутствие наборов данных: FEVER и SciFact предоставляют доказательства на уровне предложений, но отсутствуют наборы данных для чешского/словацкого языков, и существующие наборы данных имеют максимальную детализацию только на уровне предложений, а не на уровне фрагментов (span)
- Неизвестные возможности LLM: несмотря на постоянное улучшение способностей рассуждения LLM, степень их согласованности с человеческой аннотацией при извлечении детальных доказательств систематически не оценивалась
Проверить, способны ли LLM идентифицировать и извлекать детальные доказательства так же, как люди, чтобы обеспечить технологическую основу для построения автоматизированных систем проверки фактов.
- Построение нового набора данных: создан набор данных, содержащий 186 пар утверждение-текст на чешском/словацком языках, где каждый образец аннотирован двумя независимыми аннотаторами с детальными доказательствами, заполняя пробел в этой языковой паре и аннотации на уровне фрагментов
- Систематическая оценка LLM: оценены 17 LLM различных размеров (включая модели рассуждения 685B DeepSeek-R1, 120B gpt-oss, а также открытые модели Gemma-3, Phi4) на задаче извлечения детальных доказательств
- Анализ коэффициентов ошибок и согласованности:
- Анализ коэффициентов ошибок, приводящих к недействительным результатам
- Использование венгерского алгоритма сопоставления и Token-F1 для оценки согласованности с человеческой аннотацией
- Обнаружение нелинейной связи между размером модели и производительностью
- Идентификация оптимальных моделей: обнаружено, что модели среднего размера (14B-32B) достигают лучшего баланса между эффективностью и точностью
Постановка задачи: дано утверждение и токенизированный текст t = (t₁, t₂, ..., tₙ), выбрать набор фрагментов S = {s₁, s₂, ..., sₘ}, где каждый фрагмент sₘ = (tᵢ, ..., tⱼ) (i ≤ j) представляет непрерывную подпоследовательность, поддерживающую утверждение.
Ключевые ограничения:
- Фрагменты должны быть непрерывными подпоследовательностями в тексте
- Выбираются минимизированные текстовые фрагменты
- Можно выбрать несколько фрагментов
- Фрагменты должны непосредственно поддерживать истинность утверждения
- Сбор образцов: 186 пар утверждение-текст
- Пул аннотаторов: 8 неспециализированных платных аннотаторов
- Независимая аннотация: каждый образец аннотирован двумя разными аннотаторами
- Инструменты аннотации:
- Первая аннотация: пользовательский инструмент аннотации
- Вторая аннотация: Label Studio
- Руководство по аннотации:
"Выделите минимальную текстовую часть, поддерживающую или опровергающую утверждение. Выделите часть, которая наиболее убедит вас в истинности утверждения."
- Человеческие аннотаторы непосредственно выделяют текст, обеспечивая выбор непрерывных фрагментов из исходного текста
- LLM должны переформулировать текст фрагментов, что может привести к выводам, отсутствующим в исходном тексте
Оценены три класса моделей:
1. Стандартные LLM (9 моделей):
- qwen2.5 (72B, 32B)
- llama3.3 (70B)
- llama3.1 (8B)
- gemma2 (27B)
- gemma3 (27B, 12B, 4B)
- phi4 (14B)
- mixtral (8×7B)
2. Модели рассуждения с цепочкой мыслей (CoT) (8 моделей):
- deepseek-r1 (685B, 32B)
- gpt-oss (120B, 20B)
- qwen3 (32B, 14B)
LLM получают входные данные, включающие:
- Исходный комментарий (предоставляет контекст)
- Извлеченное утверждение
- Текст, из которого необходимо извлечь доказательства
Ключевые инструкции:
- Идентифицировать минимальную текстовую часть, непосредственно поддерживающую утверждение
- Выбрать фразу, которая наиболее доказывает истинность утверждения
- Избегать выбора целых предложений, если это не абсолютно необходимо
- Можно выбрать несколько фрагментов
- Не изменять, не исправлять и не переписывать текст, сохранять все грамматические и синтаксические ошибки
- Вывести результат в формате JSON:
{"spans": [...]} - Каждый фрагмент должен быть точной подстрокой исходного текста (полностью идентичен посимвольно)
1. Базовый метод на основе утверждения:
- Токенизировать утверждение как c = (c₁, c₂, ..., cₒ)
- Сопоставить последовательность слов из утверждения в тексте
- Построить набор фрагментов Sᴄ
2. Базовый метод на основе запроса:
- Использовать поисковые запросы, которые использовали аннотаторы при поиске доказательств
- Применить тот же метод сопоставления, что и в базовом методе на основе утверждения
3. Случайный базовый метод:
- Случайно выбрать непрерывные фрагменты
- Количество и длина фрагментов соответствуют случайно выбранному аннотатору
Удалить стоп-слова из всех наборов доказательств (см. приложение A, включающее общие стоп-слова чешского/словацкого языков, такие как "a", "je", "to" и т.д.)
- F1 для пар фрагментов: рассчитать F1-оценку на уровне токенов для всех возможных пар фрагментов в двух наборах аннотаций
- Венгерское сопоставление: использовать венгерский алгоритм для поиска оптимального распределения, максимизирующего общий F1
- Финальная оценка: средний F1 оптимального сопоставления служит Token-F1 для одной точки данных
Обоснование: поскольку аннотаторы и LLM могут выбрать разное количество фрагментов (разная степень полноты), венгерский алгоритм избегает штрафования этого различия.
- Коэффициент ошибок: доля недействительных результатов (сгенерированные фрагменты отсутствуют в исходном тексте)
- Token-F1: степень согласованности с человеческой аннотацией
- Согласованность между аннотаторами: F1-оценка между двумя аннотаторами
- Размер: 186 образцов
- Языки: чешский и словацкий
- Аннотация: 2 независимые аннотации для каждого образца
- Источник: проверяемые утверждения из комментариев интернет-новостей
- Документы: высокорелевантные документы, найденные аннотаторами с помощью поисковых систем
- Invalid %: процент недействительных результатов (сгенерированные фрагменты отсутствуют в исходном тексте)
- Token-F1: F1-оценка на уровне токенов на основе венгерского сопоставления (шкала 0-100)
- Max F1: F1-оценка с более высоким из двух аннотаторов (отражает согласованность с хотя бы одним аннотатором)
- Человеческая аннотация: ann 1 (LS) и ann 2
- 17 LLM: различные размеры и архитектуры
- 3 базовых метода: random, claim, query
- Использование одного и того же шаблона подсказки (см. приложение B)
- Вывод в формате JSON
- Без технических ограничений (разрешено генерировать фрагменты, отсутствующие в исходном тексте, для наблюдения ошибок)
- Расчет F1 после удаления стоп-слов
Наименьшие коэффициенты ошибок:
- qwen2.5:72b: 4,3% (лучший результат, 72B параметров)
- deepseek-r1: 7,0% (685B параметров)
- llama3.1:8b: 13,4% (только 8B параметров, отличный результат)
Наибольшие коэффициенты ошибок:
- mixtral:8x7b: 61,8% (худший результат, 7B эффективных параметров)
- gemma3:4b: 57,5% (4B параметров)
- qwen3:14b: 40,3%
Исключительные случаи:
- gpt-oss-120b: 32,8% (120B параметров, но высокий коэффициент ошибок, не соответствует ожиданиям)
- llama3.3:70b: 27,4% (70B параметров, но относительно высокий коэффициент ошибок)
Общая тенденция: обычно чем больше размер модели, тем ниже коэффициент ошибок, но существуют значительные исключения.
Согласованность между аннотаторами:
- ann 1 (LS) vs ann 2: F1 = 48
Лучшая производительность LLM (с ann 1 (LS)):
- qwen3:14b: F1 = 56 (превышает согласованность между аннотаторами)
- deepseek-r1:32b: F1 = 55 (превышает согласованность между аннотаторами)
- deepseek-r1 (685B): F1 = 38
- qwen2.5:72b: F1 = 43
Согласованность с ann 2:
- Все LLM показывают более низкие F1-оценки с ann 2 по сравнению с ann 1 (LS)
- Указывает на то, что два разных окружения аннотации привели к разным стилям аннотации
Производительность базовых методов:
- Базовый метод на основе утверждения: F1 = 17 (точность примерно 30, очень низкий recall)
- Базовый метод на основе запроса: F1 = 12
- Случайный базовый метод: F1 = 10
Все ненейронные базовые методы показывают слабую производительность (F1 < 18).
Ключевые выводы:
- Малый и средний размер: производительность улучшается с увеличением размера
- Сверхбольшой размер: 685B deepseek-r1 и 120B gpt-oss не приносят дальнейшего улучшения
- Оптимальная точка баланса:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45
Вывод: после определенного порога просто увеличение количества параметров больше не улучшает производительность извлечения.
Хотя статья не проводит традиционные абляционные эксперименты, сравнение различных моделей неявно предполагает следующий анализ:
Влияние архитектуры модели:
- Модели рассуждения (CoT) не последовательно превосходят стандартные модели
- deepseek-r1:32b показывает отличные результаты, но deepseek-r1 (685B) не лучше
Влияние размера модели:
- llama3.1 8B превосходит многие более крупные модели
- Указывает на то, что качество модели и данные обучения важнее чистого размера
Влияние инструмента аннотации:
- Аннотация Label Studio (ann 1) и пользовательского инструмента (ann 2) показывают систематические различия
- Все LLM ближе к аннотации Label Studio
Статья не предоставляет конкретные примеры, но из описания методологии можно предположить:
Примеры человеческой аннотации:
- Прямое выделение минимальных релевантных текстовых фрагментов в интерфейсе
- Может включать исходный текст с грамматическими ошибками
Примеры результатов LLM (предположительно):
- Правильные случаи: точное копирование фрагментов исходного текста
- Ошибочные случаи: переформулировка, исправление грамматики или генерация несуществующего текста
- Немонотонная связь размера модели: модели среднего размера могут превосходить сверхбольшие модели
- Различия в способности следовать инструкциям: многие LLM не могут строго следовать инструкции "дословно копировать"
- Влияние окружения аннотации: разные инструменты аннотации производят разную степень детализации аннотации
- Ограничения базовых методов: простые методы сопоставления слов имеют приемлемую точность, но очень низкий recall
- Кроссязычные способности: LLM показывают разумную производительность на чешском/словацком языках, доказывая их многоязычные способности
- Неполная корреляция между коэффициентом ошибок и согласованностью: низкий коэффициент ошибок не обязательно означает высокий F1 (например, qwen2.5:72b)
FactLens:
- Разложение сложных утверждений на подутверждения
- Независимая оценка истинности каждого подутверждения
- Ограничение: предоставляет только доказательства на уровне абзацев
Loki:
- Автоматизированный процесс: идентификация проверяемых утверждений → извлечение доказательств → верификация
- Ограничение: доказательства остаются на уровне абзацев
AmbiFC:
- Введение неоднозначности, позволяющее несколько аннотаций на уровне предложений
- Демонстрирует важность выбора доказательств на уровне предложений
- Но фактическая аннотация остается на уровне абзацев
FEVER:
- Общие утверждения, источник — Википедия
- Доказательства на уровне предложений
- Данные на английском языке
SciFact:
- Обоснования в аннотациях резюме научных статей
- Доказательства на уровне предложений
- Данные на английском языке
Уникальность набора данных данной работы:
- Чешский/словацкий языки
- Доказательства на уровне фрагментов (более детальные, чем на уровне предложений)
- Двойная аннотация
Законы масштабирования:
- Производительность улучшается с размером модели, улучшениями архитектуры и способностями рассуждения
- Но данная работа обнаруживает убывающую отдачу
Многоязычные способности:
- Предыдущие работы показали, что LLM имеют сильные способности рассуждения на наборах данных чешского и словацкого языков
- Данная работа проверяет применимость этого к задаче извлечения детальных доказательств
- Первая систематическая оценка LLM на производительность извлечения детальных доказательств на уровне фрагментов
- Первый набор данных для чешского/словацкого языков с детальными доказательствами на уровне фрагментов
- Раскрывает нелинейную связь между размером модели и производительностью
- Вклад набора данных: построен первый набор данных чешского/словацкого языков с детальными доказательствами на уровне фрагментов, согласованность между аннотаторами F1 = 47
- Коэффициент ошибок и размер модели:
- Явная связь: малые модели (4B gemma3, 8B mixtral) имеют коэффициент ошибок > 50%
- Требуется применение механизмов ограниченного декодирования
- Убывающая отдача производительности:
- Малый и средний размер: улучшение производительности
- Сверхбольшой размер (685B, 120B): без дальнейшего улучшения
- Оптимальный баланс: qwen3:14b, deepseek-r1:32b, gpt-oss:20b
- Превышение согласованности между аннотаторами: некоторые LLM (qwen3:14b, deepseek-r1:32b) показывают F1-оценки, превышающие согласованность между аннотаторами (но только на действительных образцах)
- Размер набора данных:
- Только 186 образцов
- Некоторые модели производят более 116 недействительных результатов
- Может привести к смещению оценки
- Смещение оценки:
- Исключение недействительных результатов может удалить более сложные образцы
- Искусственно повышает показатели производительности некоторых моделей
- Единая задача:
- Сосредоточение только на поддерживающих доказательствах
- Отсутствие анализа опровергающих доказательств
- Языковые ограничения:
- Охватывает только чешский и словацкий языки
- Способность обобщения на другие языки неизвестна
- Различия в аннотации:
- Два инструмента аннотации производят систематические различия
- Требуется дальнейший анализ причин
- Неограниченная генерация:
- Отсутствие технического принуждения к тому, чтобы фрагменты находились в исходном тексте
- Приводит к высокому коэффициенту ошибок
- Ограниченное декодирование:
- Реализация ограниченного декодирования или генерации структурированного вывода
- Принуждение к генерации семантически и структурно действительных доказательств
- Значительное снижение коэффициента ошибок
- Опровергающие доказательства:
- Проведение аналогичного анализа для опровергающих доказательств
- Совершенствование процесса проверки фактов
- Расширение набора данных:
- Увеличение количества образцов
- Повышение статистической значимости
- Анализ различий в аннотации:
- Глубокий анализ различий между двумя окружениями аннотации
- Унификация стандартов аннотации
- Сквозная система:
- Интеграция извлечения утверждений, извлечения документов и извлечения доказательств
- Построение полной автоматизированной системы проверки фактов
- Многоязычное расширение:
- Расширение на другие языки
- Оценка способности кроссязычного обобщения
- Первая аннотация на уровне фрагментов: более детальная, чем существующие аннотации на уровне предложений, лучше соответствует практическим потребностям приложений
- Дизайн двойной аннотации: позволяет рассчитать согласованность между аннотаторами, обеспечивая эталон для оценки LLM
- Венгерский алгоритм сопоставления: умно решает проблему выравнивания с разной степенью полноты, избегая несправедливого штрафования
- Полное охватывание моделей: 17 LLM, параметры от 4B до 685B, охватывающие стандартные модели и модели рассуждения
- Многомерный анализ: коэффициент ошибок, согласованность, связь размера модели
- Сравнение с базовыми методами: включение ненейронных базовых методов и эталона человеческой аннотации
- Контринтуитивные открытия: раскрывает нелинейную связь между размером модели и производительностью
- Практическая ценность: идентификация моделей с лучшим соотношением цены и качества (14B-32B)
- Честное сообщение: откровенное сообщение о высоких коэффициентах ошибок и смещениях оценки
- Четкое определение задачи (формальное определение)
- Подробное описание методологии (включая полные подсказки)
- Ясная визуализация результатов (Рисунки 1-3)
- Неограниченная генерация: отсутствие принуждения к тому, чтобы фрагменты находились в исходном тексте, приводит к 30%-60% недействительных результатов
- Обработка стоп-слов: простое удаление может потерять важную информацию
- Единая подсказка: отсутствие исследования влияния различных стратегий подсказок
- Малый размер выборки: 186 образцов могут быть недостаточны для получения надежных выводов
- Смещение оценки: исключение недействительных образцов может исказить сравнение производительности
- Отсутствие проверки значимости: не сообщается о статистической значимости
- Единый запуск: не сообщается о дисперсии нескольких запусков
- Отсутствие анализа случаев: не показаны конкретные примеры успешных/неудачных случаев
- Отсутствие анализа типов ошибок: не классифицированы типы ошибок (переформулировка, галлюцинация, усечение и т.д.)
- Необъясненные различия в аннотации: обнаружены систематические различия между двумя инструментами аннотации, но не проведен глубокий анализ
- Различия между языками: не различаются результаты для чешского и словацкого языков
- Неопубликованные гиперпараметры: параметры LLM, такие как температура, top-p, не указаны
- Неопубликованные затраты на вычисления: фактические вычислительные затраты различных моделей не сравниваются
- Непроверенная робастность: не протестирована устойчивость к изменениям подсказок, длине текста и т.д.
- Заполнение пробела: первый набор данных чешского/словацкого языков с детальными доказательствами на уровне фрагментов
- Вклад методологии: метод оценки выравнивания фрагментов с использованием венгерского алгоритма
- Эмпирические инсайты: эмпирические доказательства убывающей отдачи размера модели
- Руководство по выбору модели: предоставляет рекомендации по выбору моделей с оптимальным соотношением цены и качества для практического развертывания
- Осведомленность о проблеме: напоминает исследователям об обращении внимания на проблему следования инструкциям LLM
- Сценарий приложения: предоставляет технологический путь для управления онлайн-обсуждениями
- Преимущества:
- Предоставляет полные подсказки (приложение B)
- Использует открытые модели (большинство)
- Подробное описание методологии
- Недостатки:
- Набор данных не опубликован (в статье не упоминается план выпуска)
- Код не открыт
- Конкретные гиперпараметры отсутствуют
- Управление онлайн-обсуждениями: автоматическое предоставление доказательств проверки фактов для комментариев
- Новостные платформы: дополнение пользовательских комментариев контекстной информацией
- Образовательные приложения: помощь студентам в обучении идентификации доказательств
- Исследовательские инструменты: помощь исследователям в проведении обзора литературы
- Высокорисковые решения: медицинские, юридические и другие сценарии, требующие 100% точности (коэффициент ошибок все еще высок)
- Приложения в реальном времени: сверхбольшие модели (685B) имеют слишком высокие вычислительные затраты
- Языки с низкими ресурсами: эффективность методологии на других языках не проверена
- Длинные документы: способность обработки длинных текстов не протестирована
- Рекомендуемые модели: qwen3:14b или deepseek-r1:32b (баланс производительности и затрат)
- Необходимые улучшения: реализация ограниченного декодирования для снижения коэффициента ошибок
- Человеческий контроль: сохранение этапа человеческого контроля в высокорисковых приложениях
- Многоязычное расширение: требуется переоценка для целевых языков
- FEVER (Thorne et al., 2018): крупномасштабный набор данных для извлечения и верификации фактов, доказательства на уровне предложений
- SciFact (Wadden et al., 2020): верификация научных утверждений, аннотация обоснований на уровне предложений
- AmbiFC (Glockner et al., 2024): проверка фактов с введением неоднозначности, подчеркивает важность детальных доказательств
- DeepSeek-R1 (Guo et al., 2025): LLM с усиленным рассуждением посредством обучения с подкреплением
- Llama 3 (Grattafiori et al., 2024): открытая серия LLM от Meta
- Венгерский алгоритм (Kuhn, 1955): классический алгоритм для задачи назначения, используется для сопоставления фрагментов
Данная работа вносит ценный вклад в важную, но недостаточно изученную задачу извлечения детальных доказательств при проверке фактов. Главное преимущество — построение первого набора данных чешского/словацкого языков с аннотацией на уровне фрагментов и раскрытие способностей и ограничений LLM на этой задаче, особенно нелинейной связи между размером модели и производительностью, а также отличного соотношения цены и качества моделей среднего размера.
Однако основные ограничения заключаются в малом размере выборки (186 образцов), высоком коэффициенте ошибок (некоторые модели > 50%) и потенциальном смещении оценки из-за исключения недействительных образцов. Будущие работы срочно нуждаются в реализации механизмов ограниченного декодирования и расширении размера набора данных.
Несмотря на недостатки, данная работа предоставляет важную эмпирическую основу и методологический вклад для построения автоматизированных систем проверки фактов, особенно для языков с относительно ограниченными ресурсами. Рекомендуемая оценка: 4/5 — ценное исследовательское исследование, но требуется последующая работа для решения технических проблем перед практическим развертыванием.