2025-11-11T12:19:09.903876

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic

Измеряют ли автоматические метрики факт­ности факт­ность? Критическая оценка

Основная информация

  • ID статьи: 2411.16638
  • Название: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
  • Авторы: Sanjana Ramprasad (Northeastern University), Byron C. Wallace (Northeastern University)
  • Классификация: cs.CL cs.AI
  • Конференция: 39-я конференция по нейронным системам обработки информации (NeurIPS 2025)
  • Ссылка на статью: https://arxiv.org/abs/2411.16638

Аннотация

Современные большие языковые модели способны генерировать высокочитаемые абстрактные резюме, однако традиционные автоматические метрики оценки качества резюме (такие как ROUGE) достигли насыщения. Тем не менее, ЛЯМ по-прежнему вводят неточную информацию в резюме — информацию, которая несовместима с исходным документом или не поддерживается им. Автоматическое измерение этих тонких фактических несоответствий оказывается сложной задачей. Это привело к разработке метрик, предназначенных для измерения фактической согласованности сгенерированных резюме с исходными документами. Но действительно ли эти методы измеряют то, что они утверждают, что измеряют? Или они в основном используют поверхностные признаки? В данной работе проводится стресс-тестирование набора автоматических метрик факт­ности, включая специализированные модели и методы на основе подсказок ЛЯМ, чтобы выяснить, что они на самом деле захватывают. Путём использования неглубокого классификатора для разделения "простых" примеров оценки факт­ности, для которых достаточно поверхностных признаков, и "сложных" случаев, требующих глубокого рассуждения, мы обнаруживаем значительное снижение производительности всех метрик на последних. Кроме того, некоторые метрики более чувствительны к доброкачественным редакциям, сохраняющим факт­ность, чем к фактическим исправлениям. На основе этого наблюдения мы доказываем, что большинство автоматических метрик факт­ности можно манипулировать — искусственно повышая оценки путём добавления безвредных, бессодержательных предложений. Среди протестированных метрик метод на основе подсказок ChatGPT-DA оказался наиболее надёжным. Однако это сопровождается существенным предостережением: использование ЛЯМ для оценки факт­ности может чрезмерно полагаться на параметрические знания модели, а не на предоставленный справочный документ.

Исследовательский контекст и мотивация

Определение проблемы

С развитием больших языковых моделей в задачах абстрактного резюмирования традиционные метрики оценки (такие как ROUGE) достигли насыщения и не могут эффективно различать производительность моделей. Более того, резюме, генерируемые ЛЯМ, хотя и являются беглыми и читаемыми, по-прежнему страдают от проблемы "галлюцинаций" — генерирования информации, несовместимой с исходным документом или не поддерживаемой им.

Важность проблемы

  1. Критичность в высокорисковых областях: В медицине, праве и других областях неточная информация может привести к серьёзным последствиям
  2. Ограничения ручной оценки: Ручная оценка фактической согласованности дорогостояща, отнимает много времени и плохо масштабируется
  3. Потребность в автоматизации: Существует острая необходимость в надёжных автоматических метриках оценки факт­ности

Ограничения существующих методов

Существующие автоматические метрики факт­ности включают:

  • Методы на основе логического следования (например, SummaC)
  • Методы на основе вопросно-ответных систем (например, QuestEval)
  • Специально обученные модели (например, UniEval, AlignScore, MiniCheck)
  • Методы на основе подсказок ЛЯМ (например, ChatGPT-DA)

Однако остаётся неясным, действительно ли эти методы измеряют фактическую согласованность или просто полагаются на поверхностные признаки.

Исследовательская мотивация

Данная работа направлена на систематическое стресс-тестирование существующих метрик факт­ности, чтобы выявить их истинные возможности и ограничения, предоставляя руководство для разработки более надёжных методов оценки.

Основные вклады

  1. Глубокий анализ ограничений метрик: Путём классификации примеров по уровню сложности с использованием неглубокого классификатора MLP мы обнаруживаем значительное снижение производительности всех метрик на примерах, требующих глубокого рассуждения
  2. Анализ чувствительности: Обнаруживаем, что большинство метрик более чувствительны к доброкачественным редакциям (таким как перефразирование), чем к фактическим исправлениям
  3. Доказательство манипулируемости метрик: Демонстрируем, что большинство метрик факт­ности можно манипулировать путём добавления безвредных фраз для искусственного повышения оценок
  4. Выявление ограничений оценки на основе ЛЯМ: Раскрываем, что методы оценки на основе ЛЯМ чрезмерно полагаются на параметрические знания, а не на исходный документ
  5. Практические рекомендации: Предоставляем конкретные рекомендации по улучшению дизайна эталонов и надёжности метрик

Подробное описание методологии

Определение задачи

Учитывая исходный документ x и кандидата на резюме y, метрика факт­ности m(x,y) выдаёт непрерывную оценку, представляющую степень фактической согласованности резюме относительно исходного документа.

Исследовательская структура

1. Метод классификации по уровню сложности

Используем неглубокий классификатор MLP для прогнозирования ручных меток факт­ности на основе поверхностных признаков:

  • Набор признаков: Лексическое перекрытие (ROUGE-2), перекрытие сущностей, семантическое сходство, коэффициент новизны, коэффициент краткости
  • Стратегия классификации:
    • Easy (Лёгкие): Правильное предсказание с высокой уверенностью (первые 80%)
    • Medium (Средние): Правильное предсказание с низкой уверенностью или неправильное предсказание с низкой уверенностью (последние 20%)
    • Hard (Сложные): Неправильное предсказание с высокой уверенностью

2. Тестирование чувствительности

Используем набор данных GenAudit с несогласованными резюме и их ручными исправленными версиями:

  • Фактические исправления: Тестируем ответ метрик на истинные фактические улучшения
  • Доброкачественные редакции: Используем GPT-4 для генерирования вариантов, сохраняющих факт­ность (перефразирование, упрощение, переупорядочение и т.д.)

3. Тестирование манипулируемости

Путём анализа TF-IDF выявляем закономерности в высокооценённых резюме:

  • Постоянные фразы: Например, "the document discusses"
  • Утвердительные фразы: Например, "The summary entails information in the document"

4. Тестирование зависимости от параметрических знаний

Используем набор данных ConflictBank, содержащий фактические утверждения и соответствующие контрфактические варианты, тестируем четыре условия:

  • (a) Фактический справочник + поддерживаемое фактическое резюме
  • (b) Контрфактический справочник + поддерживаемое контрфактическое резюме
  • (c) Фактический справочник + неподдерживаемое контрфактическое резюме
  • (d) Контрфактический справочник + неподдерживаемое фактическое резюме

Экспериментальная установка

Наборы данных

Охватывают резюме, созданные тонко настроенными моделями и ЛЯМ:

  • Резюме тонко настроенных моделей: AggreFact (новости), FacEval (диалоги)
  • Резюме, созданные ЛЯМ: LLM-AggreFact, GenAudit, LLM-dialogue
  • Набор разработки: Набор разработки AggreFact + примеры из XSUM и CNNDM в GenAudit
  • Тестовый набор: Тестовые разделения остальных наборов данных

Метрики оценки

  • AUC: Для измерения производительности метрик на разных уровнях сложности
  • Разница оценок: Измерение изменения оценок до и после редакции
  • Тесты статистической значимости: Парный t-тест для оценки значимости различий

Сравниваемые методы

Тестируем шесть репрезентативных метрик:

  • На основе QA: QuestEval
  • На основе NLI: SummaC-Conv
  • Специализированные модели: UniEval, AlignScore, MiniCheck
  • На основе подсказок: ChatGPT-DA (GPT-4o-mini)

Результаты экспериментов

Основные результаты

1. Результаты классификации по уровню сложности

![Производительность по уровню сложности](рис. 2)

  • Лёгкие примеры: Все метрики показывают хорошую производительность (AUC 0.61-0.85)
  • Средние примеры: Производительность немного снижается (AUC 0.54-0.73)
  • Сложные примеры: Значительное снижение производительности (AUC 0.47-0.59)

Ключевые выводы:

  • Традиционные метрики (QuestEval, SummaC-Conv) показывают наихудшую производительность на сложных примерах
  • Специализированные модели и методы на основе подсказок относительно более надёжны
  • Даже лучшие метрики показывают явное снижение производительности на сложных примерах

2. Результаты анализа чувствительности

![Анализ чувствительности](рис. 3)

  • QuestEval: Практически не реагирует на фактические исправления
  • Большинство метрик: Чрезмерно чувствительны к доброкачественным редакциям, особенно к отрицательным трансформациям
  • ChatGPT-DA: Наиболее надёжен, может различать истинные улучшения и нерелевантные изменения
  • Аномальное явление: Добавление случайных исходных предложений часто приводит к большему повышению оценок, чем истинные исправления

3. Результаты тестирования манипулируемости

![Тестирование манипулируемости](рис. 5)

  • Эффект постоянных фраз: Повышение оценок NLI и специализированных моделей >0.2
  • Эффект добавления фраз: Повышение оценок на 0.1-0.15, сравнимое с истинными исправлениями
  • ChatGPT-DA: Наименее чувствителен к манипуляциям
  • Сравнительный анализ: Повышение оценок от манипуляций часто превышает повышение от улучшений модели

4. Результаты тестирования зависимости от параметрических знаний

![Тестирование параметрических знаний](рис. 4)

  • Снижение дискриминативной способности: Разница в оценках между поддерживаемыми и неподдерживаемыми резюме значительно сокращается при контрфактическом справочнике (p<0.001)
  • Систематическое смещение: При контрфактическом справочнике в 3.1% случаев неподдерживаемые резюме получают более высокие оценки, чем поддерживаемые (против 0.2% при фактическом справочнике)
  • Конфликт знаний: Когда справочник конфликтует с внутренними знаниями GPT, надёжность оценки снижается

Абляционные исследования

Статья проверяет согласованность результатов с использованием различных стратегий манипуляции:

  • Различные типы доброкачественных редакций (перефразирование, упрощение, переупорядочение и т.д.)
  • Различные игровые фразы (базовые фразы, квалифицирующие фразы и т.д.)
  • Манипулирующий текст различной длины и сложности

Анализ конкретных примеров

Таблица 2 демонстрирует типичные примеры манипуляции:

Исходное резюме: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0.33)
После манипуляции: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0.76)

Связанные работы

Развитие метрик оценки факт­ности

  1. Ранние методы: Простые метрики на основе лексического перекрытия
  2. Методы NLI: Использование естественного логического следования для определения логического следования
  3. Методы QA: Проверка фактов через системы вопросно-ответных пар
  4. Специализированные модели: Модели, обученные специально для задачи согласованности фактов
  5. Методы на основе ЛЯМ: Использование рассуждающих способностей больших моделей

Исследования метаоценки

  • Gabriel et al. (2021): Сосредоточение на типах и частоте ошибок
  • Chen et al. (2021): Состязательная метаоценка
  • Kamoi et al. (2023): Способность методов QA локализовать ошибки

Уникальность вклада данной работы

По сравнению с существующими работами, данная статья:

  • Более систематически анализирует зависимость метрик от поверхностных признаков
  • Впервые доказывает манипулируемость метрик
  • Раскрывает проблему зависимости оценки на основе ЛЯМ от параметрических знаний

Заключение и обсуждение

Основные выводы

  1. Зависимость от поверхностных признаков: Все существующие метрики показывают значительное снижение производительности на примерах, требующих глубокого рассуждения, что указывает на чрезмерную зависимость от поверхностных признаков
  2. Дисбаланс чувствительности: Большинство метрик более чувствительны к доброкачественным редакциям, чем к фактическим исправлениям, что указывает на проблемы калибровки
  3. Риск манипулируемости: Большинство метрик можно легко манипулировать путём добавления безвредных фраз, что угрожает их надёжности в сценариях, таких как рейтинговые таблицы
  4. Ограничения оценки на основе ЛЯМ: Хотя ChatGPT-DA является наиболее надёжным, он чрезмерно полагается на параметрические знания, а не на исходный документ

Ограничения

  1. Распределённая природа манипуляций: Манипулированные выходные данные могут рассматриваться как выходящие за пределы распределения, однако метрики факт­ности должны обрабатывать произвольные пары документ-резюме
  2. Потенциальные ошибки трансформации GPT-4: Использование GPT-4 для генерирования доброкачественных редакций может привести к введению фактических ошибок, хотя авторы считают такие случаи редкими
  3. Языковые ограничения: Основное внимание уделяется метрикам на английском языке, производительность многоязычных метрик остаётся неясной
  4. Отсутствие решений: Статья в основном выявляет проблемы, не предлагая конкретных решений по улучшению

Направления будущих исследований

  1. Улучшение эталонов:
    • Включение большего количества сложных примеров, требующих глубокого рассуждения
    • Введение аннотаций о градации серьёзности фактических ошибок
    • Включение мифов, спорных содержаний и других специальных случаев
  2. Улучшение метрик:
    • Разработка механизмов оценки, учитывающих значимость
    • Снижение зависимости от поверхностных признаков
    • Повышение надёжности при работе с доброкачественными редакциями
  3. Улучшение оценки на основе ЛЯМ:
    • Разработка лучших механизмов заземления на исходный документ
    • Снижение зависимости от параметрических знаний
    • Специальное проектирование для задач проверки фактов

Глубокая оценка

Преимущества

  1. Строгий дизайн исследования: Всесторонняя оценка существующих метрик путём многоаспектного и систематического стресс-тестирования
  2. Значимость выводов: Выявленные проблемы имеют важное значение для развития области
  3. Методологические инновации: Методы классификации по уровню сложности и тестирования манипулируемости являются инновационными
  4. Достаточные эксперименты: Охватывают множество наборов данных, метрик и сценариев тестирования
  5. Ясное изложение: Проблемы чётко сформулированы, результаты представлены наглядно

Недостатки

  1. Недостаточная конструктивность: Основное внимание уделяется выявлению проблем, отсутствуют конкретные решения по улучшению
  2. Простота методов манипуляции: Используемые стратегии манипуляции относительно просты и могут быть обнаружены в практических приложениях
  3. Ограниченный охват оценки: Основное внимание уделяется английскому языку и конкретным типам задач резюмирования
  4. Недостаточный теоретический анализ: Отсутствует глубокий теоретический анализ причин выявленных явлений

Влияние

  1. Академическая ценность: Предоставляет важное переосмысление для области оценки факт­ности, может стимулировать новые направления исследований
  2. Практическая ценность: Предупреждает исследователей и практиков об осторожном использовании существующих метрик
  3. Политическое значение: Имеет важное значение для безопасности ИИ и оценки надёжности
  4. Воспроизводимость: Дизайн экспериментов ясен, легко воспроизводится и расширяется

Применимые сценарии

  1. Оценка исследований: Помогает исследователям выбирать подходящие метрики оценки факт­ности
  2. Разработка систем: Направляет разработку более надёжных систем генерирования резюме
  3. Построение эталонов: Предоставляет руководство по построению более сложных оценочных эталонов
  4. Оценка рисков: Оценка надёжности при развёртывании систем ИИ в высокорисковых областях

Библиография

Статья цитирует богатый набор связанных работ, включая:

  • Методы оценки факт­ности: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
  • Наборы данных эталонов: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
  • Оценка ЛЯМ: Wang et al. (2023), Luo et al. (2023)
  • Исследования метаоценки: Gabriel et al. (2021), Chen et al. (2021)

Данная статья путём систематического стресс-тестирования выявляет серьёзные ограничения существующих автоматических метрик факт­ности, предоставляя важное переосмысление для развития области. Хотя работа в основном выявляет проблемы, а не предлагает решения, её выводы имеют важное значение для стимулирования разработки более надёжных методов оценки факт­ности.