Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic
Измеряют ли автоматические метрики фактности фактность? Критическая оценка
Современные большие языковые модели способны генерировать высокочитаемые абстрактные резюме, однако традиционные автоматические метрики оценки качества резюме (такие как ROUGE) достигли насыщения. Тем не менее, ЛЯМ по-прежнему вводят неточную информацию в резюме — информацию, которая несовместима с исходным документом или не поддерживается им. Автоматическое измерение этих тонких фактических несоответствий оказывается сложной задачей. Это привело к разработке метрик, предназначенных для измерения фактической согласованности сгенерированных резюме с исходными документами. Но действительно ли эти методы измеряют то, что они утверждают, что измеряют? Или они в основном используют поверхностные признаки? В данной работе проводится стресс-тестирование набора автоматических метрик фактности, включая специализированные модели и методы на основе подсказок ЛЯМ, чтобы выяснить, что они на самом деле захватывают. Путём использования неглубокого классификатора для разделения "простых" примеров оценки фактности, для которых достаточно поверхностных признаков, и "сложных" случаев, требующих глубокого рассуждения, мы обнаруживаем значительное снижение производительности всех метрик на последних. Кроме того, некоторые метрики более чувствительны к доброкачественным редакциям, сохраняющим фактность, чем к фактическим исправлениям. На основе этого наблюдения мы доказываем, что большинство автоматических метрик фактности можно манипулировать — искусственно повышая оценки путём добавления безвредных, бессодержательных предложений. Среди протестированных метрик метод на основе подсказок ChatGPT-DA оказался наиболее надёжным. Однако это сопровождается существенным предостережением: использование ЛЯМ для оценки фактности может чрезмерно полагаться на параметрические знания модели, а не на предоставленный справочный документ.
С развитием больших языковых моделей в задачах абстрактного резюмирования традиционные метрики оценки (такие как ROUGE) достигли насыщения и не могут эффективно различать производительность моделей. Более того, резюме, генерируемые ЛЯМ, хотя и являются беглыми и читаемыми, по-прежнему страдают от проблемы "галлюцинаций" — генерирования информации, несовместимой с исходным документом или не поддерживаемой им.
Данная работа направлена на систематическое стресс-тестирование существующих метрик фактности, чтобы выявить их истинные возможности и ограничения, предоставляя руководство для разработки более надёжных методов оценки.
Глубокий анализ ограничений метрик: Путём классификации примеров по уровню сложности с использованием неглубокого классификатора MLP мы обнаруживаем значительное снижение производительности всех метрик на примерах, требующих глубокого рассуждения
Анализ чувствительности: Обнаруживаем, что большинство метрик более чувствительны к доброкачественным редакциям (таким как перефразирование), чем к фактическим исправлениям
Доказательство манипулируемости метрик: Демонстрируем, что большинство метрик фактности можно манипулировать путём добавления безвредных фраз для искусственного повышения оценок
Выявление ограничений оценки на основе ЛЯМ: Раскрываем, что методы оценки на основе ЛЯМ чрезмерно полагаются на параметрические знания, а не на исходный документ
Практические рекомендации: Предоставляем конкретные рекомендации по улучшению дизайна эталонов и надёжности метрик
Учитывая исходный документ x и кандидата на резюме y, метрика фактности m(x,y) выдаёт непрерывную оценку, представляющую степень фактической согласованности резюме относительно исходного документа.
Снижение дискриминативной способности: Разница в оценках между поддерживаемыми и неподдерживаемыми резюме значительно сокращается при контрфактическом справочнике (p<0.001)
Систематическое смещение: При контрфактическом справочнике в 3.1% случаев неподдерживаемые резюме получают более высокие оценки, чем поддерживаемые (против 0.2% при фактическом справочнике)
Конфликт знаний: Когда справочник конфликтует с внутренними знаниями GPT, надёжность оценки снижается
Исходное резюме: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0.33)
После манипуляции: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0.76)
Зависимость от поверхностных признаков: Все существующие метрики показывают значительное снижение производительности на примерах, требующих глубокого рассуждения, что указывает на чрезмерную зависимость от поверхностных признаков
Дисбаланс чувствительности: Большинство метрик более чувствительны к доброкачественным редакциям, чем к фактическим исправлениям, что указывает на проблемы калибровки
Риск манипулируемости: Большинство метрик можно легко манипулировать путём добавления безвредных фраз, что угрожает их надёжности в сценариях, таких как рейтинговые таблицы
Ограничения оценки на основе ЛЯМ: Хотя ChatGPT-DA является наиболее надёжным, он чрезмерно полагается на параметрические знания, а не на исходный документ
Распределённая природа манипуляций: Манипулированные выходные данные могут рассматриваться как выходящие за пределы распределения, однако метрики фактности должны обрабатывать произвольные пары документ-резюме
Потенциальные ошибки трансформации GPT-4: Использование GPT-4 для генерирования доброкачественных редакций может привести к введению фактических ошибок, хотя авторы считают такие случаи редкими
Языковые ограничения: Основное внимание уделяется метрикам на английском языке, производительность многоязычных метрик остаётся неясной
Отсутствие решений: Статья в основном выявляет проблемы, не предлагая конкретных решений по улучшению
Статья цитирует богатый набор связанных работ, включая:
Методы оценки фактности: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
Наборы данных эталонов: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
Оценка ЛЯМ: Wang et al. (2023), Luo et al. (2023)
Исследования метаоценки: Gabriel et al. (2021), Chen et al. (2021)
Данная статья путём систематического стресс-тестирования выявляет серьёзные ограничения существующих автоматических метрик фактности, предоставляя важное переосмысление для развития области. Хотя работа в основном выявляет проблемы, а не предлагает решения, её выводы имеют важное значение для стимулирования разработки более надёжных методов оценки фактности.