Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic
¿Miden los Métricas Automáticas de Facticidad la Facticidad? Una Evaluación Crítica
Los modelos de lenguaje grandes modernos pueden generar resúmenes abstractivos altamente legibles, y las métricas tradicionales de evaluación automática de calidad de resúmenes (como ROUGE) se han saturado. Sin embargo, los LLM aún introducen información inexacta en los resúmenes, es decir, información inconsistente con el documento fuente o sin apoyo. La medición automática de estas inconsistencias factuales sutiles ha demostrado ser desafiante. Esto ha motivado el desarrollo de métricas destinadas a medir la consistencia factual entre resúmenes generados y documentos fuente. ¿Pero estas métricas realmente miden lo que afirman medir? ¿O principalmente explotan características superficiales? Este trabajo realiza pruebas de estrés en una serie de métricas automáticas de facticidad, incluyendo modelos especializados y métodos basados en prompts de LLM, para investigar qué capturan realmente. Mediante el uso de clasificadores superficiales para separar ejemplos de evaluación factual "fáciles" con características superficiales suficientes de casos "difíciles" que requieren razonamiento profundo, se encuentra que todas las métricas exhiben una disminución significativa de rendimiento en estos últimos. Además, algunas métricas son más sensibles a ediciones factuales benignas que a correcciones factuales. Basándose en esta observación, se demuestra que la mayoría de las métricas automáticas de facticidad pueden ser manipuladas, es decir, mediante la adición de oraciones inofensivas y sin contenido para elevar artificialmente las puntuaciones. Entre las métricas probadas, el método basado en prompts ChatGPT-DA es el más robusto y confiable. Sin embargo, esto viene acompañado de una advertencia significativa: solicitar a un LLM que evalúe la facticidad puede depender excesivamente de su conocimiento paramétrico en lugar del documento de referencia proporcionado.
Con el excelente desempeño de los modelos de lenguaje grandes en tareas de resúmenes abstractivos, las métricas de evaluación tradicionales (como ROUGE) se han saturado y no pueden diferenciar efectivamente el desempeño del modelo. Más importante aún, aunque los resúmenes generados por LLM son fluidos y legibles, aún sufren del problema de "alucinación" —generando información inconsistente con el documento fuente o sin apoyo.
Este trabajo tiene como objetivo realizar pruebas de estrés sistemáticas en métricas de facticidad existentes, revelando sus capacidades y limitaciones reales, proporcionando orientación para el desarrollo de métodos de evaluación más confiables.
Análisis Profundo de Limitaciones de Métricas: Mediante clasificadores MLP superficiales para clasificar ejemplos por dificultad, se encuentra que todas las métricas muestran una disminución significativa de rendimiento en ejemplos difíciles que requieren razonamiento profundo
Análisis de Sensibilidad: Se descubre que la mayoría de las métricas son más sensibles a ediciones benignas (como paráfrasis) que a correcciones factuales
Prueba de Manipulabilidad de Métricas: Se demuestra que la mayoría de las métricas de facticidad pueden ser manipuladas artificialmente elevando puntuaciones mediante la adición de frases inofensivas
Descubrimiento de Limitaciones de Evaluación por LLM: Se revela que los métodos de evaluación basados en LLM dependen excesivamente del conocimiento paramétrico en lugar del documento fuente
Recomendaciones Prácticas: Se proporcionan recomendaciones concretas para mejorar el diseño de benchmarks y la robustez de métricas
Dado un documento fuente x y un resumen candidato y, una métrica de facticidad m(x,y) produce una puntuación continua que representa el grado de consistencia factual del resumen con respecto al documento fuente.
Se utiliza un clasificador MLP superficial para predecir etiquetas de facticidad manual basadas en características superficiales:
Conjunto de Características: Superposición léxica (ROUGE-2), superposición de entidades, similitud semántica, proporción de novedad, proporción de concisión
Estrategia de Clasificación:
Fácil: Predicción correcta con alta confianza (primero 80%)
Medio: Predicción correcta con baja confianza, o predicción incorrecta con baja confianza (último 20%)
Se utiliza el conjunto de datos ConflictBank, que contiene declaraciones factuales y sus variantes contrafácticas correspondientes, probando cuatro condiciones:
(a) Referencia factual + resumen factual apoyado
(b) Referencia contrafáctica + resumen contrafáctico apoyado
(c) Referencia factual + resumen contrafáctico no apoyado
(d) Referencia contrafáctica + resumen factual no apoyado
Disminución de Capacidad Discriminativa: La diferencia de puntuación entre resúmenes apoyados vs. no apoyados bajo referencia contrafáctica se reduce significativamente (p<0.001)
Sesgo de Error: Bajo referencia contrafáctica, en 3.1% de casos los resúmenes no apoyados tienen puntuación más alta que los apoyados (vs. 0.2% bajo referencia factual)
Conflicto de Conocimiento: Cuando la referencia entra en conflicto con el conocimiento interno de GPT, la confiabilidad de la evaluación se ve comprometida
La Tabla 2 presenta casos típicos de manipulación:
Resumen Original: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0.33)
Resumen Manipulado: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0.76)
Dependencia de Características Superficiales: Todas las métricas existentes muestran una disminución significativa de rendimiento en ejemplos que requieren razonamiento profundo, indicando una dependencia excesiva de características superficiales
Desajuste de Sensibilidad: La mayoría de las métricas son más sensibles a ediciones benignas que a correcciones factuales, mostrando problemas de calibración
Riesgo de Manipulabilidad: La mayoría de las métricas pueden ser fácilmente manipuladas mediante la adición de frases inofensivas, amenazando su confiabilidad en escenarios como clasificaciones
Limitaciones de Evaluación por LLM: Aunque ChatGPT-DA es más robusto, depende excesivamente del conocimiento paramétrico en lugar del documento fuente
Naturaleza Fuera de Distribución de la Manipulación: Las salidas manipuladas pueden considerarse fuera de distribución, pero las métricas de facticidad deberían poder manejar pares arbitrarios de documento-resumen
Errores Potenciales en Transformaciones GPT-4: El uso de GPT-4 para generar ediciones benignas puede introducir errores factuales, aunque los autores consideran que esto es raro
Limitaciones de Idioma: Las pruebas se centran principalmente en métricas en inglés, y el desempeño de métricas multilingües aún no está claro
Ausencia de Soluciones: El artículo se enfoca principalmente en revelar problemas, sin proponer soluciones concretas de mejora
Valor Académico: Proporciona reflexión importante para el campo de evaluación de facticidad, potencialmente catalizar nuevas direcciones de investigación
Valor Práctico: Advierte a investigadores y profesionales que usen métricas existentes con cautela
Significado Político: Tiene implicaciones importantes para la seguridad de IA y evaluación de confiabilidad
Reproducibilidad: El diseño experimental es claro y fácil de reproducir y extender
El artículo cita trabajos relacionados abundantes, incluyendo:
Métodos de evaluación de facticidad: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
Conjuntos de datos de benchmark: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
Evaluación de LLM: Wang et al. (2023), Luo et al. (2023)
Investigación de meta-evaluación: Gabriel et al. (2021), Chen et al. (2021)
Este artículo revela limitaciones graves en las métricas automáticas de facticidad existentes mediante pruebas de estrés sistemáticas, proporcionando reflexión importante para el desarrollo del campo. Aunque se enfoca principalmente en señalar problemas en lugar de proporcionar soluciones, sus hallazgos tienen valor importante para impulsar el desarrollo de métodos de evaluación de facticidad más confiables.