Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic
I Metriche Automatiche di Fattualità Misurano Davvero la Fattualità? Una Valutazione Critica
I modelli linguistici di grandi dimensioni moderni sono in grado di generare riassunti astratti altamente leggibili, rendendo i metriche tradizionali di valutazione automatica della qualità dei riassunti (come ROUGE) obsolete. Tuttavia, i modelli LLM introducono ancora informazioni imprecise nei riassunti, ovvero informazioni incoerenti con il documento di origine o non supportate da esso. La misurazione automatica di queste sottili incoerenze fattuali si rivela essere una sfida significativa. Ciò ha motivato lo sviluppo di metriche volte a misurare la coerenza fattuale tra i riassunti generati e i documenti di origine. Ma questi metodi misurano davvero ciò che affermano di misurare? O stanno principalmente sfruttando caratteristiche superficiali? Questo lavoro sottopone a stress test una serie di metriche di fattualità automatiche, inclusi modelli specializzati e metodi basati su prompt LLM, per indagare ciò che effettivamente catturano. Separando esempi di valutazione fattuale "semplici" con caratteristiche superficiali sufficienti da casi "difficili" che richiedono ragionamento profondo mediante classificatori superficiali, scopriamo che tutte le metriche mostrano un calo significativo delle prestazioni su questi ultimi. Inoltre, alcune metriche sono più sensibili agli editing fattualmente neutri rispetto alle correzioni fattuali. Basandoci su questa osservazione, dimostriamo che la maggior parte delle metriche di fattualità automatiche può essere manipolata, ovvero i punteggi possono essere artificialmente aumentati aggiungendo frasi innocue e prive di contenuto. Tra le metriche testate, il metodo ChatGPT-DA basato su prompt risulta essere il più robusto e affidabile. Tuttavia, ciò comporta un avvertimento significativo: l'utilizzo di LLM per valutare la fattualità potrebbe dipendere eccessivamente dalla loro conoscenza parametrica piuttosto che dal documento di riferimento fornito.
Con l'eccellente performance dei modelli linguistici di grandi dimensioni nei compiti di riassunto astratto, le metriche tradizionali di valutazione (come ROUGE) sono diventate sature e incapaci di differenziare efficacemente le prestazioni dei modelli. Più importante ancora, i riassunti generati da LLM, sebbene fluidi e leggibili, soffrono ancora del problema dell'"allucinazione" — la generazione di informazioni incoerenti con il documento di origine o non supportate da esso.
Criticità nei Settori ad Alto Rischio: Nei campi medico, legale e simili, le informazioni imprecise possono causare conseguenze gravi
Limitazioni della Valutazione Manuale: La valutazione manuale della coerenza fattuale è costosa, dispendiosa in termini di tempo e difficile da scalare
Necessità di Automazione: Esigenza urgente di metriche affidabili di valutazione automatica della fattualità
Tuttavia, rimane poco chiaro se questi metodi misurino effettivamente la coerenza fattuale o se si basino principalmente su caratteristiche superficiali.
Questo articolo mira a sottoporre sistematicamente a stress test le metriche di fattualità esistenti, rivelando le loro vere capacità e limitazioni, per fornire indicazioni nello sviluppo di metodi di valutazione più affidabili.
Analisi Profonda delle Limitazioni delle Metriche: Attraverso classificatori MLP superficiali che classificano gli esempi per difficoltà, scopriamo che tutte le metriche mostrano un calo significativo delle prestazioni su esempi difficili che richiedono ragionamento profondo
Analisi di Sensibilità: Scopriamo che la maggior parte delle metriche è più sensibile agli editing neutri (come la parafrasi) rispetto alle correzioni fattuali
Prova della Manipolabilità delle Metriche: Dimostriamo che la maggior parte delle metriche di fattualità può essere artificialmente migliorata aggiungendo frasi innocue
Scoperta delle Limitazioni della Valutazione Basata su LLM: Riveliamo che i metodi di valutazione basati su LLM dipendono eccessivamente dalla conoscenza parametrica piuttosto che dal documento di origine
Raccomandazioni Pratiche: Forniamo raccomandazioni concrete per migliorare la progettazione dei benchmark e la robustezza delle metriche
Dato un documento di origine x e un riassunto candidato y, una metrica di fattualità m(x,y) produce un punteggio continuo che rappresenta il grado di coerenza fattuale del riassunto rispetto al documento di origine.
Utilizziamo un classificatore MLP superficiale per prevedere etichette di fattualità umane basate su caratteristiche superficiali:
Insieme di Caratteristiche: Sovrapposizione lessicale (ROUGE-2), sovrapposizione di entità, somiglianza semantica, rapporto di novità, rapporto di concisione
Strategia di Classificazione:
Facile: Previsione corretta con alta confidenza (primi 80%)
Medio: Previsione corretta con bassa confidenza, o previsione errata con bassa confidenza (ultimi 20%)
Calo della Capacità Discriminativa: La differenza di punteggio tra riassunti supportati e non supportati si riduce significativamente con riferimenti controffattuali (p<0,001)
Bias di Errore: Con riferimenti controffattuali, nel 3,1% dei casi i riassunti non supportati hanno punteggi superiori ai riassunti supportati (vs 0,2% con riferimenti fattuali)
Conflitto di Conoscenza: Quando il riferimento entra in conflitto con la conoscenza interna di GPT, l'affidabilità della valutazione è compromessa
La Tabella 2 presenta casi tipici di manipolazione:
Riassunto Originale: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0,33)
Dopo Manipolazione: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0,76)
Dipendenza dalle Caratteristiche Superficiali: Tutte le metriche esistenti mostrano un calo significativo delle prestazioni su esempi che richiedono ragionamento profondo, indicando un'eccessiva dipendenza dalle caratteristiche superficiali
Squilibrio di Sensibilità: La maggior parte delle metriche è più sensibile agli editing neutri rispetto alle correzioni fattuali, indicando problemi di calibrazione
Rischio di Manipolabilità: La maggior parte delle metriche può essere facilmente manipolata aggiungendo frasi innocue, minacciando l'affidabilità in scenari come le classifiche
Limitazioni della Valutazione LLM: Sebbene ChatGPT-DA sia la più robusta, dipende eccessivamente dalla conoscenza parametrica piuttosto che dal documento di origine
Natura Distribuita Esternamente della Manipolazione: Gli output manipolati potrebbero essere considerati distribuiti esternamente, ma le metriche di fattualità dovrebbero gestire coppie documento-riassunto arbitrarie
Potenziali Errori nelle Trasformazioni GPT-4: L'utilizzo di GPT-4 per generare editing neutri potrebbe introdurre errori fattuali, sebbene gli autori ritengano che ciò sia raro
Limitazioni Linguistiche: I test si concentrano principalmente su metriche in inglese; le prestazioni su metriche multilingue rimangono poco chiare
Mancanza di Soluzioni: L'articolo rivela principalmente i problemi senza proporre soluzioni concrete
Valore Accademico: Fornisce una riflessione importante per il settore della valutazione della fattualità, potenzialmente catalizzando nuove direzioni di ricerca
Valore Pratico: Avverte ricercatori e professionisti di usare con cautela le metriche esistenti
Significato Politico: Ha importanti implicazioni per la valutazione della sicurezza e dell'affidabilità dell'IA
Riproducibilità: La progettazione sperimentale è chiara e facile da riprodurre ed estendere
L'articolo cita un'ampia letteratura correlata, inclusa:
Metodi di valutazione della fattualità: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
Dataset di benchmark: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
Valutazione LLM: Wang et al. (2023), Luo et al. (2023)
Ricerca sulla meta-valutazione: Gabriel et al. (2021), Chen et al. (2021)
Questo articolo rivela attraverso stress test sistematici le gravi limitazioni delle metriche di fattualità automatiche esistenti, fornendo un'importante riflessione per lo sviluppo del settore. Sebbene si concentri principalmente sull'identificazione dei problemi piuttosto che sulla fornitura di soluzioni, le sue scoperte hanno un valore importante nel promuovere lo sviluppo di metodi di valutazione della fattualità più affidabili.