2025-11-11T12:19:09.903876

Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation

Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic

Les métriques automatiques de factualité mesurent-elles réellement la factualité ? Une évaluation critique

Informations de base

  • ID de l'article : 2411.16638
  • Titre : Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
  • Auteurs : Sanjana Ramprasad (Northeastern University), Byron C. Wallace (Northeastern University)
  • Classification : cs.CL cs.AI
  • Conférence de publication : 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2411.16638

Résumé

Les modèles de langage de grande taille modernes peuvent générer des résumés abstraits hautement lisibles, ce qui a rendu les métriques traditionnelles d'évaluation automatique de la qualité des résumés (comme ROUGE) saturées. Cependant, les LLM introduisent toujours des informations inexactes dans les résumés, c'est-à-dire des informations incohérentes ou non soutenues par le document source. La mesure automatique de ces incohérences factuelles subtiles s'avère être un défi. Cela a motivé le développement de métriques visant à mesurer la cohérence factuelle entre les résumés générés et les documents sources. Mais ces méthodes mesurent-elles réellement ce qu'elles prétendent mesurer ? Ou exploitent-elles principalement des caractéristiques superficielles ? Ce travail soumet à des tests de stress une série de métriques de factualité automatiques, incluant des modèles spécialisés et des méthodes basées sur des invites LLM, pour explorer ce qu'elles capturent réellement. En utilisant des classificateurs peu profonds pour séparer les exemples d'évaluation factuelle « simples » disposant de caractéristiques superficielles suffisantes des cas « difficiles » nécessitant un raisonnement profond, nous constatons que toutes les métriques présentent une dégradation significative des performances sur ces derniers. De plus, certaines métriques sont plus sensibles aux modifications factuellement neutres qu'aux corrections factuelles. Sur la base de cette observation, nous démontrons que la plupart des métriques de factualité automatiques peuvent être manipulées, c'est-à-dire que les scores peuvent être artificiellement gonflés en ajoutant des phrases inoffensives et dénuées de contenu. Parmi les métriques testées, la méthode ChatGPT-DA basée sur les invites s'avère la plus robuste. Cependant, cela s'accompagne d'une mise en garde importante : inviter un LLM à évaluer la factualité peut dépendre excessivement de ses connaissances paramétriques plutôt que du document de référence fourni.

Contexte de recherche et motivation

Définition du problème

Avec les performances exceptionnelles des modèles de langage de grande taille dans les tâches de résumé abstrait, les métriques d'évaluation traditionnelles (comme ROUGE) sont devenues saturées et ne peuvent pas différencier efficacement les performances des modèles. Plus important encore, bien que les résumés générés par les LLM soient fluides et lisibles, ils souffrent toujours du problème des « hallucinations » — la génération d'informations incohérentes ou non soutenues par le document source.

Importance du problème

  1. Criticité dans les domaines à haut risque : Dans les domaines médical, juridique, etc., les informations inexactes peuvent avoir des conséquences graves
  2. Limitations de l'évaluation manuelle : L'évaluation manuelle de la cohérence factuelle est coûteuse, chronophage et difficile à mettre à l'échelle
  3. Besoin d'automatisation : Nécessité urgente de métriques d'évaluation de factualité automatiques fiables

Limitations des méthodes existantes

Les métriques de factualité automatiques existantes incluent principalement :

  • Les méthodes basées sur l'implication (comme SummaC)
  • Les méthodes basées sur les questions-réponses (comme QuestEval)
  • Les modèles spécialisés entraînés (comme UniEval, AlignScore, MiniCheck)
  • Les méthodes basées sur les invites LLM (comme ChatGPT-DA)

Cependant, il reste incertain si ces méthodes mesurent réellement la cohérence factuelle ou si elles ne dépendent que de caractéristiques superficielles.

Motivation de la recherche

Cet article vise à soumettre systématiquement à des tests de stress les métriques de factualité existantes, révélant leurs véritables capacités et limitations, et fournissant des orientations pour le développement de méthodes d'évaluation plus fiables.

Contributions principales

  1. Analyse approfondie des limitations des métriques : En utilisant des classificateurs MLP peu profonds pour classer les exemples par niveau de difficulté, nous constatons que toutes les métriques présentent une dégradation significative des performances sur les exemples difficiles nécessitant un raisonnement profond
  2. Analyse de sensibilité : Découverte que la plupart des métriques sont même plus sensibles aux modifications neutres (comme la paraphrase) qu'aux corrections factuelles
  3. Preuve de manipulabilité des métriques : Démonstration que la plupart des métriques de factualité peuvent être manipulées en ajoutant des phrases inoffensives pour gonfler artificiellement les scores
  4. Découverte des limitations de l'évaluation par LLM : Révélation que les méthodes d'évaluation basées sur les LLM dépendent excessivement des connaissances paramétriques plutôt que du document source
  5. Recommandations pratiques : Fourniture de recommandations concrètes pour améliorer la conception des repères et la robustesse des métriques

Détails de la méthode

Définition de la tâche

Étant donné un document source x et un résumé candidat y, une métrique de factualité m(x,y) produit un score continu représentant le degré de cohérence factuelle du résumé par rapport au document source.

Cadre de recherche

1. Méthode de classification par niveau de difficulté

Utilisation d'un classificateur MLP peu profond pour prédire les étiquettes de factualité humaines basées sur des caractéristiques superficielles :

  • Ensemble de caractéristiques : Chevauchement lexical (ROUGE-2), chevauchement d'entités, similarité sémantique, ratio de nouveauté, ratio de concision
  • Stratégie de classification :
    • Easy : Prédiction correcte avec haute confiance (premiers 80%)
    • Medium : Prédiction correcte avec faible confiance, ou prédiction incorrecte avec faible confiance (derniers 20%)
    • Hard : Prédiction incorrecte avec haute confiance

2. Tests de sensibilité

Utilisation du dataset GenAudit contenant des résumés incohérents et leurs versions corrigées manuellement :

  • Correction factuelle : Test de la réactivité des métriques aux améliorations factuelles réelles
  • Modifications neutres : Utilisation de GPT-4 pour générer des variantes préservant la factualité (paraphrase, simplification, réorganisation, etc.)

3. Tests de manipulabilité

Analyse TF-IDF des modèles dans les résumés hautement notés pour identifier les phrases susceptibles d'augmenter les scores :

  • Phrases constantes : Comme « the document discusses »
  • Phrases assertives : Comme « The summary entails information in the document »

4. Tests de dépendance aux connaissances paramétriques

Utilisation du dataset ConflictBank contenant des déclarations factuelles et leurs variantes contrefactuelles correspondantes, test de quatre conditions :

  • (a) Référence factuelle + résumé factuel soutenu
  • (b) Référence contrefactuelle + résumé contrefactuel soutenu
  • (c) Référence factuelle + résumé contrefactuel non soutenu
  • (d) Référence contrefactuelle + résumé factuel non soutenu

Configuration expérimentale

Datasets

Couvrant les résumés générés par des modèles affinés et des LLM :

  • Résumés de modèles affinés : AggreFact (actualités), FacEval (dialogue)
  • Résumés générés par LLM : LLM-AggreFact, GenAudit, LLM-dialogue
  • Ensemble de développement : Ensemble de développement AggreFact + exemples XSUM et CNNDM de GenAudit
  • Ensemble de test : Divisions de test des datasets restants

Métriques d'évaluation

  • AUC : Pour mesurer les performances des métriques à différents niveaux de difficulté
  • Différence de score : Mesure du changement de score avant et après modification
  • Tests de signification statistique : Test t apparié pour évaluer la signification des différences

Méthodes de comparaison

Test de six métriques représentatives :

  • Basée sur QA : QuestEval
  • Basée sur NLI : SummaC-Conv
  • Modèles spécialisés : UniEval, AlignScore, MiniCheck
  • Basée sur invites : ChatGPT-DA (GPT-4o-mini)

Résultats expérimentaux

Résultats principaux

1. Résultats de la classification par niveau de difficulté

  • Exemples Easy : Toutes les métriques performent bien (AUC 0.61-0.85)
  • Exemples Medium : Dégradation des performances (AUC 0.54-0.73)
  • Exemples Hard : Dégradation significative des performances (AUC 0.47-0.59)

Découvertes clés :

  • Les métriques traditionnelles (QuestEval, SummaC-Conv) performent le plus mal sur les exemples difficiles
  • Les modèles spécialisés et les méthodes basées sur invites sont relativement plus robustes
  • Même la meilleure métrique présente une dégradation évidente des performances sur les exemples difficiles

2. Résultats de l'analyse de sensibilité

  • QuestEval : Pratiquement pas de réactivité aux corrections factuelles
  • Plupart des métriques : Sensibilité excessive aux modifications neutres, particulièrement aux transformations de négation
  • ChatGPT-DA : La plus robuste, capable de distinguer les améliorations réelles des changements non pertinents
  • Phénomène anormal : L'ajout de phrases sources aléatoires entraîne souvent une augmentation de score supérieure aux corrections réelles

3. Résultats des tests de manipulabilité

  • Effet des phrases constantes : Augmentation du score NLI et des modèles spécialisés > 0.2
  • Effet des phrases ajoutées : Augmentation du score 0.1-0.15, comparable aux corrections réelles
  • ChatGPT-DA : Le moins sensible à la manipulation
  • Analyse comparative : L'augmentation de score due à la manipulation dépasse souvent l'augmentation due aux améliorations du modèle

4. Résultats des tests de dépendance aux connaissances paramétriques

  • Dégradation de la capacité discriminante : La différence de score entre résumés soutenus et non soutenus diminue significativement avec les références contrefactuelles (p<0.001)
  • Biais d'erreur : Avec les références contrefactuelles, 3.1% des cas présentent des scores plus élevés pour les résumés non soutenus que soutenus (vs 0.2% avec les références factuelles)
  • Conflit de connaissances : La fiabilité de l'évaluation est compromise lorsque la référence entre en conflit avec les connaissances internes du GPT

Expériences d'ablation

L'article valide la cohérence des résultats par plusieurs stratégies de manipulation :

  • Différents types de modifications neutres (paraphrase, simplification, réorganisation, etc.)
  • Diverses phrases de jeu (phrases de base, phrases qualifiées, etc.)
  • Textes manipulés de différentes longueurs et complexités

Études de cas

Le tableau 2 présente des cas typiques de manipulation :

Résumé original : « The PlayStation 4 was released in the UK on November 29, 2013 » (AlignScore : 0.33)
Après manipulation : « The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses. » (AlignScore : 0.76)

Travaux connexes

Développement des métriques d'évaluation de factualité

  1. Méthodes précoces : Métriques simples basées sur le chevauchement lexical
  2. Méthodes NLI : Utilisation de l'inférence en langage naturel pour juger les relations d'implication
  3. Méthodes QA : Vérification des faits par des systèmes de questions-réponses
  4. Modèles spécialisés : Modèles entraînés spécifiquement pour la tâche de cohérence factuelle
  5. Méthodes LLM : Exploitation des capacités de raisonnement des grands modèles

Recherche en méta-évaluation

  • Gabriel et al. (2021) : Focus sur les types et fréquences d'erreurs
  • Chen et al. (2021) : Méta-évaluation adversariale
  • Kamoi et al. (2023) : Capacité de localisation d'erreurs des méthodes QA

Unicité de la contribution de cet article

Par rapport aux travaux existants, cet article :

  • Analyse plus systématiquement la dépendance des métriques aux caractéristiques superficielles
  • Démontre pour la première fois la manipulabilité des métriques
  • Révèle le problème de dépendance aux connaissances paramétriques de l'évaluation par LLM

Conclusions et discussion

Conclusions principales

  1. Dépendance aux caractéristiques superficielles : Toutes les métriques existantes présentent une dégradation significative des performances sur les exemples nécessitant un raisonnement profond, indiquant une dépendance excessive aux caractéristiques superficielles
  2. Déséquilibre de sensibilité : La plupart des métriques sont plus sensibles aux modifications neutres qu'aux corrections factuelles, révélant des problèmes d'étalonnage
  3. Risque de manipulabilité : La plupart des métriques peuvent être facilement manipulées en ajoutant des phrases inoffensives, menaçant leur fiabilité dans des scénarios comme les classements
  4. Limitations de l'évaluation par LLM : Bien que ChatGPT-DA soit la plus robuste, elle dépend excessivement des connaissances paramétriques plutôt que du document source

Limitations

  1. Nature hors-distribution de la manipulation : Les sorties manipulées peuvent être considérées comme hors-distribution, mais les métriques de factualité devraient pouvoir traiter n'importe quelle paire document-résumé
  2. Erreurs potentielles des transformations GPT-4 : L'utilisation de GPT-4 pour générer des modifications neutres peut introduire des erreurs factuelles, bien que les auteurs considèrent cette situation comme rare
  3. Limitations linguistiques : Principalement des tests sur les métriques en anglais, les performances des métriques multilingues restent incertaines
  4. Absence de solutions : L'article révèle principalement les problèmes sans proposer de solutions concrètes d'amélioration

Directions futures

  1. Amélioration des repères :
    • Inclusion de plus d'exemples difficiles nécessitant un raisonnement profond
    • Introduction d'annotations de sévérité factuelle graduées
    • Inclusion de contenu mythique, controversé, etc.
  2. Amélioration des métriques :
    • Développement de mécanismes de notation sensibles à la pertinence
    • Réduction de la dépendance aux caractéristiques superficielles
    • Amélioration de la robustesse aux modifications neutres
  3. Amélioration de l'évaluation par LLM :
    • Développement de meilleurs mécanismes d'ancrage au document source
    • Réduction de la dépendance aux connaissances paramétriques
    • Conception spécialisée pour les tâches de vérification factuelle

Évaluation approfondie

Points forts

  1. Conception de recherche rigoureuse : Tests de stress systématiques et multifacettes évaluant complètement les métriques existantes
  2. Découvertes hautement significatives : Les problèmes révélés ont une valeur d'avertissement importante pour le développement du domaine
  3. Innovation méthodologique : Les méthodes telles que la classification par niveau de difficulté et les tests de manipulabilité sont innovantes
  4. Expériences complètes : Couverture de multiples datasets, métriques et scénarios de test
  5. Rédaction claire : Énoncé clair des problèmes et présentation intuitive des résultats

Insuffisances

  1. Manque de constructivité : Focus principal sur l'identification des problèmes, manque de solutions concrètes d'amélioration
  2. Méthodes de manipulation simples : Les stratégies de jeu sont relativement simples et pourraient être détectées dans les applications réelles
  3. Portée d'évaluation limitée : Focus principal sur l'anglais et certains types de tâches de résumé
  4. Analyse théorique insuffisante : Manque d'analyse théorique profonde des causes sous-jacentes aux phénomènes

Impact

  1. Valeur académique : Fournit une réflexion importante au domaine de l'évaluation de factualité, susceptible de catalyser de nouvelles directions de recherche
  2. Valeur pratique : Avertit les chercheurs et praticiens d'utiliser avec prudence les métriques existantes
  3. Signification politique : Implications importantes pour l'évaluation de la sécurité et de la fiabilité de l'IA
  4. Reproductibilité : Conception expérimentale claire, facile à reproduire et à étendre

Scénarios d'application

  1. Évaluation de recherche : Aide les chercheurs à sélectionner des métriques d'évaluation de factualité appropriées
  2. Développement de systèmes : Guide le développement de systèmes de génération de résumés plus fiables
  3. Construction de repères : Fournit des orientations pour construire des repères d'évaluation plus stimulants
  4. Évaluation des risques : Évaluation de fiabilité lors du déploiement de systèmes d'IA dans des domaines à haut risque

Références

L'article cite des travaux connexes abondants, incluant :

  • Méthodes d'évaluation de factualité : Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
  • Datasets de repères : Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
  • Évaluation par LLM : Wang et al. (2023), Luo et al. (2023)
  • Recherche en méta-évaluation : Gabriel et al. (2021), Chen et al. (2021)

Cet article révèle par des tests de stress systématiques les limitations graves des métriques de factualité automatiques existantes, fournissant une réflexion importante pour le développement du domaine. Bien que se concentrant principalement sur l'identification des problèmes plutôt que sur la fourniture de solutions, ses découvertes ont une valeur importante pour promouvoir le développement de méthodes d'évaluation de factualité plus fiables.