2025-11-11T12:19:09.903876

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

Ramprasad, Wallace

Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.

academic

¿Miden los Métricas Automáticas de Facticidad la Facticidad? Una Evaluación Crítica

Información Básica

ID del Artículo: 2411.16638
Título: Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Autores: Sanjana Ramprasad (Northeastern University), Byron C. Wallace (Northeastern University)
Clasificación: cs.CL cs.AI
Conferencia de Publicación: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2411.16638

Resumen

Los modelos de lenguaje grandes modernos pueden generar resúmenes abstractivos altamente legibles, y las métricas tradicionales de evaluación automática de calidad de resúmenes (como ROUGE) se han saturado. Sin embargo, los LLM aún introducen información inexacta en los resúmenes, es decir, información inconsistente con el documento fuente o sin apoyo. La medición automática de estas inconsistencias factuales sutiles ha demostrado ser desafiante. Esto ha motivado el desarrollo de métricas destinadas a medir la consistencia factual entre resúmenes generados y documentos fuente. ¿Pero estas métricas realmente miden lo que afirman medir? ¿O principalmente explotan características superficiales? Este trabajo realiza pruebas de estrés en una serie de métricas automáticas de facticidad, incluyendo modelos especializados y métodos basados en prompts de LLM, para investigar qué capturan realmente. Mediante el uso de clasificadores superficiales para separar ejemplos de evaluación factual "fáciles" con características superficiales suficientes de casos "difíciles" que requieren razonamiento profundo, se encuentra que todas las métricas exhiben una disminución significativa de rendimiento en estos últimos. Además, algunas métricas son más sensibles a ediciones factuales benignas que a correcciones factuales. Basándose en esta observación, se demuestra que la mayoría de las métricas automáticas de facticidad pueden ser manipuladas, es decir, mediante la adición de oraciones inofensivas y sin contenido para elevar artificialmente las puntuaciones. Entre las métricas probadas, el método basado en prompts ChatGPT-DA es el más robusto y confiable. Sin embargo, esto viene acompañado de una advertencia significativa: solicitar a un LLM que evalúe la facticidad puede depender excesivamente de su conocimiento paramétrico en lugar del documento de referencia proporcionado.

Contexto de Investigación y Motivación

Definición del Problema

Con el excelente desempeño de los modelos de lenguaje grandes en tareas de resúmenes abstractivos, las métricas de evaluación tradicionales (como ROUGE) se han saturado y no pueden diferenciar efectivamente el desempeño del modelo. Más importante aún, aunque los resúmenes generados por LLM son fluidos y legibles, aún sufren del problema de "alucinación" —generando información inconsistente con el documento fuente o sin apoyo.

Importancia del Problema

Criticidad en Dominios de Alto Riesgo: En campos como medicina y derecho, la información inexacta puede tener consecuencias graves
Limitaciones de la Evaluación Manual: La evaluación manual de consistencia factual es costosa, consume tiempo y es difícil de escalar
Necesidad de Automatización: Existe una necesidad urgente de métricas confiables de evaluación automática de facticidad

Limitaciones de Métodos Existentes

Las métricas automáticas de facticidad existentes incluyen principalmente:

Métodos basados en relaciones de implicación (como SummaC)
Métodos basados en preguntas y respuestas (como QuestEval)
Modelos entrenados especializados (como UniEval, AlignScore, MiniCheck)
Métodos basados en prompts de LLM (como ChatGPT-DA)

Sin embargo, permanece sin claridad si estos métodos realmente miden consistencia factual o simplemente dependen de características superficiales.

Motivación de la Investigación

Este trabajo tiene como objetivo realizar pruebas de estrés sistemáticas en métricas de facticidad existentes, revelando sus capacidades y limitaciones reales, proporcionando orientación para el desarrollo de métodos de evaluación más confiables.

Contribuciones Principales

Análisis Profundo de Limitaciones de Métricas: Mediante clasificadores MLP superficiales para clasificar ejemplos por dificultad, se encuentra que todas las métricas muestran una disminución significativa de rendimiento en ejemplos difíciles que requieren razonamiento profundo
Análisis de Sensibilidad: Se descubre que la mayoría de las métricas son más sensibles a ediciones benignas (como paráfrasis) que a correcciones factuales
Prueba de Manipulabilidad de Métricas: Se demuestra que la mayoría de las métricas de facticidad pueden ser manipuladas artificialmente elevando puntuaciones mediante la adición de frases inofensivas
Descubrimiento de Limitaciones de Evaluación por LLM: Se revela que los métodos de evaluación basados en LLM dependen excesivamente del conocimiento paramétrico en lugar del documento fuente
Recomendaciones Prácticas: Se proporcionan recomendaciones concretas para mejorar el diseño de benchmarks y la robustez de métricas

Explicación Detallada de Métodos

Definición de Tarea

Dado un documento fuente x y un resumen candidato y, una métrica de facticidad m(x,y) produce una puntuación continua que representa el grado de consistencia factual del resumen con respecto al documento fuente.

Marco de Investigación

1. Método de Clasificación por Dificultad

Se utiliza un clasificador MLP superficial para predecir etiquetas de facticidad manual basadas en características superficiales:

Conjunto de Características: Superposición léxica (ROUGE-2), superposición de entidades, similitud semántica, proporción de novedad, proporción de concisión
Estrategia de Clasificación:
- Fácil: Predicción correcta con alta confianza (primero 80%)
- Medio: Predicción correcta con baja confianza, o predicción incorrecta con baja confianza (último 20%)
- Difícil: Predicción incorrecta con alta confianza

2. Pruebas de Sensibilidad

Se utiliza el conjunto de datos GenAudit que contiene resúmenes inconsistentes y sus versiones corregidas manualmente:

Corrección Factual: Prueba la respuesta de la métrica a mejoras factuales reales
Ediciones Benignas: Se utilizan variantes que preservan hechos generadas por GPT-4 (paráfrasis, simplificación, reordenamiento, etc.)

3. Pruebas de Manipulabilidad

Mediante análisis TF-IDF de patrones en resúmenes de alta puntuación, se identifican frases que pueden elevar puntuaciones:

Frases Constantes: Como "the document discusses"
Frases Asertivas: Como "The summary entails information in the document"

4. Pruebas de Dependencia del Conocimiento Paramétrico

Se utiliza el conjunto de datos ConflictBank, que contiene declaraciones factuales y sus variantes contrafácticas correspondientes, probando cuatro condiciones:

(a) Referencia factual + resumen factual apoyado
(b) Referencia contrafáctica + resumen contrafáctico apoyado
(c) Referencia factual + resumen contrafáctico no apoyado
(d) Referencia contrafáctica + resumen factual no apoyado

Configuración Experimental

Conjuntos de Datos

Abarca resúmenes de modelos ajustados y generados por LLM:

Resúmenes de Modelos Ajustados: AggreFact (noticias), FacEval (diálogo)
Resúmenes Generados por LLM: LLM-AggreFact, GenAudit, LLM-dialogue
Conjunto de Desarrollo: Conjunto de desarrollo AggreFact + ejemplos de XSUM y CNNDM de GenAudit
Conjunto de Prueba: Divisiones de prueba de conjuntos de datos restantes

Métricas de Evaluación

AUC: Para medir el rendimiento de la métrica en diferentes niveles de dificultad
Diferencia de Puntuación: Mide el cambio de puntuación antes y después de ediciones
Pruebas de Significancia Estadística: Prueba t pareada para evaluar significancia de diferencias

Métodos de Comparación

Se prueban seis métricas representativas:

Basadas en QA: QuestEval
Basadas en NLI: SummaC-Conv
Modelos Especializados: UniEval, AlignScore, MiniCheck
Basadas en Prompts: ChatGPT-DA (GPT-4o-mini)

Resultados Experimentales

Resultados Principales

1. Resultados de Clasificación por Dificultad

![Rendimiento de Clasificación por Dificultad](Figura 2)

Ejemplos Fáciles: Todas las métricas funcionan bien (AUC 0.61-0.85)
Ejemplos Medios: Rendimiento ligeramente reducido (AUC 0.54-0.73)
Ejemplos Difíciles: Disminución significativa de rendimiento (AUC 0.47-0.59)

Hallazgos Clave:

Las métricas tradicionales (QuestEval, SummaC-Conv) tienen el peor desempeño en ejemplos difíciles
Los modelos especializados y métodos basados en prompts son relativamente más robustos
Incluso las mejores métricas muestran una disminución clara de rendimiento en ejemplos difíciles

2. Resultados del Análisis de Sensibilidad

![Análisis de Sensibilidad](Figura 3)

QuestEval: Casi sin respuesta a correcciones factuales
Mayoría de Métricas: Excesivamente sensibles a ediciones benignas, particularmente a transformaciones de negación
ChatGPT-DA: Más robusto, puede distinguir mejoras reales de cambios irrelevantes
Anomalía: El aumento de puntuación por adición de oraciones fuente aleatoria frecuentemente supera el de correcciones reales

3. Resultados de Manipulabilidad

![Pruebas de Manipulabilidad](Figura 5)

Efecto de Frases Constantes: Aumento de puntuación en métricas NLI y especializadas >0.2
Efecto de Frases Adicionales: Aumento de puntuación 0.1-0.15, comparable a correcciones reales
ChatGPT-DA: Menos sensible a manipulación
Análisis Comparativo: El aumento de puntuación por manipulación frecuentemente supera el de mejoras de modelo

4. Resultados de Pruebas de Conocimiento Paramétrico

![Pruebas de Conocimiento Paramétrico](Figura 4)

Disminución de Capacidad Discriminativa: La diferencia de puntuación entre resúmenes apoyados vs. no apoyados bajo referencia contrafáctica se reduce significativamente (p<0.001)
Sesgo de Error: Bajo referencia contrafáctica, en 3.1% de casos los resúmenes no apoyados tienen puntuación más alta que los apoyados (vs. 0.2% bajo referencia factual)
Conflicto de Conocimiento: Cuando la referencia entra en conflicto con el conocimiento interno de GPT, la confiabilidad de la evaluación se ve comprometida

Experimentos de Ablación

El artículo valida la consistencia de resultados mediante múltiples estrategias de manipulación:

Diferentes tipos de ediciones benignas (paráfrasis, simplificación, reordenamiento, etc.)
Múltiples frases de gamificación (frases base, frases calificadas, etc.)
Texto manipulado de diferentes longitudes y complejidades

Análisis de Casos

La Tabla 2 presenta casos típicos de manipulación:

Resumen Original: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0.33)
Resumen Manipulado: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0.76)

Trabajo Relacionado

Desarrollo de Métricas de Evaluación de Facticidad

Métodos Tempranos: Métricas simples basadas en superposición léxica
Métodos NLI: Utilización de inferencia de lenguaje natural para juzgar relaciones de implicación
Métodos QA: Verificación de hechos mediante sistemas de preguntas y respuestas
Modelos Especializados: Modelos entrenados específicamente para tareas de consistencia factual
Métodos LLM: Utilización de la capacidad de razonamiento de modelos grandes

Investigación de Meta-Evaluación

Gabriel et al. (2021): Enfoque en tipos y frecuencia de errores
Chen et al. (2021): Meta-evaluación adversarial
Kamoi et al. (2023): Capacidad de localización de errores de métodos QA

Singularidad de la Contribución de Este Trabajo

En comparación con trabajos existentes, este artículo:

Analiza más sistemáticamente la dependencia de métricas en características superficiales
Demuestra por primera vez la manipulabilidad de métricas
Revela el problema de dependencia del conocimiento paramétrico en evaluación por LLM

Conclusiones y Discusión

Conclusiones Principales

Dependencia de Características Superficiales: Todas las métricas existentes muestran una disminución significativa de rendimiento en ejemplos que requieren razonamiento profundo, indicando una dependencia excesiva de características superficiales
Desajuste de Sensibilidad: La mayoría de las métricas son más sensibles a ediciones benignas que a correcciones factuales, mostrando problemas de calibración
Riesgo de Manipulabilidad: La mayoría de las métricas pueden ser fácilmente manipuladas mediante la adición de frases inofensivas, amenazando su confiabilidad en escenarios como clasificaciones
Limitaciones de Evaluación por LLM: Aunque ChatGPT-DA es más robusto, depende excesivamente del conocimiento paramétrico en lugar del documento fuente

Limitaciones

Naturaleza Fuera de Distribución de la Manipulación: Las salidas manipuladas pueden considerarse fuera de distribución, pero las métricas de facticidad deberían poder manejar pares arbitrarios de documento-resumen
Errores Potenciales en Transformaciones GPT-4: El uso de GPT-4 para generar ediciones benignas puede introducir errores factuales, aunque los autores consideran que esto es raro
Limitaciones de Idioma: Las pruebas se centran principalmente en métricas en inglés, y el desempeño de métricas multilingües aún no está claro
Ausencia de Soluciones: El artículo se enfoca principalmente en revelar problemas, sin proponer soluciones concretas de mejora

Direcciones Futuras

Mejora de Benchmarks:
- Incluir más ejemplos difíciles que requieran razonamiento profundo
- Introducir anotaciones de severidad factual graduada
- Incluir contenido mítico, controvertido y otros casos especiales
Mejora de Métricas:
- Desarrollar mecanismos de puntuación conscientes de la importancia
- Reducir la dependencia de características superficiales
- Mejorar la robustez ante ediciones benignas
Mejora de Evaluación por LLM:
- Desarrollar mecanismos de anclaje de documentos fuente más efectivos
- Reducir la dependencia del conocimiento paramétrico
- Diseñar específicamente para tareas de verificación de hechos

Evaluación Profunda

Fortalezas

Diseño de Investigación Riguroso: Mediante pruebas de estrés sistemáticas y multifacéticas, se evalúan exhaustivamente las métricas existentes
Hallazgos de Importancia Significativa: Los problemas revelados tienen valor de advertencia para el desarrollo del campo
Innovación Metodológica: Métodos como clasificación por dificultad y pruebas de manipulabilidad son innovadores
Experimentación Completa: Abarca múltiples conjuntos de datos, métricas y escenarios de prueba
Escritura Clara: La presentación del problema es clara y los resultados se muestran de manera intuitiva

Insuficiencias

Falta de Constructividad: Se enfoca principalmente en señalar problemas, careciendo de soluciones concretas de mejora
Métodos de Manipulación Simples: Las estrategias de gamificación son relativamente simples y podrían ser detectadas en aplicaciones prácticas
Alcance de Evaluación Limitado: Se enfoca principalmente en inglés y tipos específicos de tareas de resumen
Análisis Teórico Superficial: Carece de análisis teórico profundo sobre las causas subyacentes de los fenómenos

Impacto

Valor Académico: Proporciona reflexión importante para el campo de evaluación de facticidad, potencialmente catalizar nuevas direcciones de investigación
Valor Práctico: Advierte a investigadores y profesionales que usen métricas existentes con cautela
Significado Político: Tiene implicaciones importantes para la seguridad de IA y evaluación de confiabilidad
Reproducibilidad: El diseño experimental es claro y fácil de reproducir y extender

Escenarios Aplicables

Evaluación de Investigación: Ayuda a investigadores a seleccionar métricas apropiadas de evaluación de facticidad
Desarrollo de Sistemas: Guía el desarrollo de sistemas de generación de resúmenes más confiables
Construcción de Benchmarks: Proporciona orientación para construir benchmarks de evaluación más desafiantes
Evaluación de Riesgos: Evaluación de confiabilidad al desplegar sistemas de IA en dominios de alto riesgo

Referencias

El artículo cita trabajos relacionados abundantes, incluyendo:

Métodos de evaluación de facticidad: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
Conjuntos de datos de benchmark: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
Evaluación de LLM: Wang et al. (2023), Luo et al. (2023)
Investigación de meta-evaluación: Gabriel et al. (2021), Chen et al. (2021)

Este artículo revela limitaciones graves en las métricas automáticas de facticidad existentes mediante pruebas de estrés sistemáticas, proporcionando reflexión importante para el desarrollo del campo. Aunque se enfoca principalmente en señalar problemas en lugar de proporcionar soluciones, sus hallazgos tienen valor importante para impulsar el desarrollo de métodos de evaluación de facticidad más confiables.