Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation
Ramprasad, Wallace
Modern LLMs can now produce highly readable abstractive summaries, to the point that traditional automated metrics for evaluating summary quality, such as ROUGE, have saturated. However, LLMs still sometimes introduce inaccuracies into summaries, i.e., information inconsistent with or unsupported by the corresponding source. Measuring the occurrence of these often subtle factual inconsistencies automatically has proved challenging. This in turn has motivated development of metrics intended to measure the factual consistency of generated summaries against sources. But are these approaches measuring what they purport to? Or are they mostly exploiting artifacts? In this work, we stress test a range of automatic factuality metrics, including specialized models and LLM-based prompting methods, to probe what they actually capture. Using a shallow classifier to separate ``easy'' examples for factual evaluation where surface features suffice from ``hard'' cases requiring deeper reasoning, we find that all metrics show substantial performance drops on the latter. Furthermore, some metrics are more sensitive to benign, fact-preserving edits than to factual corrections. Building on this observation, we demonstrate that most automatic factuality metrics can be gamed, i.e., their scores can be artificially inflated by appending innocuous, content-free sentences to summaries. Among the metrics tested, the prompt based ChatGPT-DA approach is the most robust and reliable. However, this comes with a notable caveat: Prompting LLMs to assess factuality may overly rely on their parametric knowledge rather than the provided reference when making judgments. Taken together, our findings call into question the reliability of current factuality metrics and prompt a broader reflection on what these metrics are truly measuring.
academic
Messen automatische Faktualitätsmetriken tatsächlich Faktualität? Eine kritische Bewertung
Moderne große Sprachmodelle können hochgradig lesbare abstraktive Zusammenfassungen generieren, wobei traditionelle automatisierte Bewertungsmetriken für Zusammenfassungsqualität (wie ROUGE) gesättigt sind. Allerdings führen LLMs weiterhin ungenaue Informationen in Zusammenfassungen ein – Informationen, die mit dem Quelldokument inkonsistent oder nicht gestützt sind. Die automatische Messung dieser subtilen faktischen Inkonsistenzen erweist sich als herausfordernd. Dies hat zur Entwicklung von Metriken geführt, die darauf abzielen, die faktische Konsistenz zwischen generierten Zusammenfassungen und Quelldokumenten zu messen. Aber messen diese Methoden wirklich das, was sie zu messen behaupten? Oder nutzen sie hauptsächlich oberflächliche Merkmale? Diese Arbeit führt Stresstests an einer Reihe automatischer Faktualitätsmetriken durch, einschließlich spezialisierter Modelle und LLM-basierter Prompt-Methoden, um zu untersuchen, was sie tatsächlich erfassen. Durch die Verwendung von flachen Klassifikatoren zur Trennung von „einfachen" Faktualitätsbewertungsbeispielen mit ausreichenden oberflächlichen Merkmalen von „schwierigen" Fällen, die tieferes Schlussfolgern erfordern, zeigt sich, dass alle Metriken bei letzteren einen signifikanten Leistungsabfall aufweisen. Darüber hinaus sind einige Metriken empfindlicher gegenüber wohlwollenden faktischen Erhaltungsbearbeitungen als gegenüber faktischen Korrektionen. Basierend auf dieser Beobachtung wird nachgewiesen, dass die meisten automatischen Faktualitätsmetriken manipuliert werden können – durch das Hinzufügen harmloser, inhaltsleerer Sätze können Scores künstlich erhöht werden. Unter den getesteten Metriken erweist sich die prompt-basierte ChatGPT-DA-Methode als am robustesten. Dies geht jedoch mit einer erheblichen Einschränkung einher: Das Prompting von LLMs zur Bewertung von Faktualität könnte sich übermäßig auf ihr parametrisches Wissen stützen, anstatt sich auf das bereitgestellte Referenzdokument zu verlassen.
Mit der überlegenen Leistung großer Sprachmodelle bei abstraktiven Zusammenfassungsaufgaben sind traditionelle Bewertungsmetriken (wie ROUGE) gesättigt und können die Modellleistung nicht effektiv unterscheiden. Wichtiger noch: Zusammenfassungen, die von LLMs generiert werden, sind zwar fließend und lesbar, weisen aber weiterhin „Halluzinations"-Probleme auf – die Generierung von Informationen, die mit dem Quelldokument inkonsistent oder nicht gestützt sind.
Diese Arbeit zielt darauf ab, bestehende Faktualitätsmetriken systematisch zu testen, um ihre tatsächlichen Fähigkeiten und Einschränkungen zu offenbaren und Leitlinien für die Entwicklung zuverlässigerer Bewertungsmethoden bereitzustellen.
Tiefenanalyse von Metrik-Einschränkungen: Durch die Klassifizierung von Beispielen nach Schwierigkeitsgrad mit flachen MLP-Klassifikatoren wird festgestellt, dass alle Metriken bei Beispielen, die tieferes Schlussfolgern erfordern, einen signifikanten Leistungsabfall aufweisen
Sensitivitätsanalyse: Es wird festgestellt, dass die meisten Metriken empfindlicher gegenüber wohlwollenden Bearbeitungen (wie Umformulierungen) sind als gegenüber faktischen Korrektionen
Nachweis der Manipulierbarkeit von Metriken: Es wird nachgewiesen, dass die meisten Faktualitätsmetriken durch das Hinzufügen harmloser Phrasen künstlich verbessert werden können
Entdeckung von LLM-Bewertungsbeschränkungen: Es wird offenbart, dass LLM-basierte Bewertungsmethoden sich übermäßig auf parametrisches Wissen stützen, anstatt sich auf Quelldokumente zu verlassen
Praktische Empfehlungen: Konkrete Empfehlungen zur Verbesserung des Benchmark-Designs und der Metrik-Robustheit werden bereitgestellt
Gegeben ein Quelldokument x und eine Kandidatenzusammenfassung y gibt eine Faktualitätsmetrik m(x,y) einen kontinuierlichen Score aus, der den Grad der faktischen Konsistenz der Zusammenfassung relativ zum Quelldokument angibt.
Abnahme der Diskriminationsfähigkeit: Unterschiede in Scores zwischen unterstützten und nicht unterstützten Zusammenfassungen unter kontrafaktischen Referenzen verringern sich signifikant (p<0,001)
Fehlerverzerrung: Unter kontrafaktischen Referenzen zeigen nicht unterstützte Zusammenfassungen in 3,1% der Fälle höhere Scores als unterstützte (vs. 0,2% unter faktischen Referenzen)
Wissenkonflikt: Wenn Referenzen mit internem GPT-Wissen in Konflikt stehen, wird die Bewertungszuverlässigkeit beeinträchtigt
Ursprüngliche Zusammenfassung: "The PlayStation 4 was released in the UK on November 29, 2013" (AlignScore: 0,33)
Manipuliert: "The PlayStation 4 was released in the UK on November 29, 2013. The summary entails the information the document discusses." (AlignScore: 0,76)
Abhängigkeit von oberflächlichen Merkmalen: Alle bestehenden Metriken zeigen signifikante Leistungsabfälle bei Beispielen, die tieferes Schlussfolgern erfordern, was auf eine übermäßige Abhängigkeit von oberflächlichen Merkmalen hindeutet
Sensitivitätsmissabstimmung: Die meisten Metriken sind empfindlicher gegenüber wohlwollenden Bearbeitungen als gegenüber faktischen Korrektionen, was auf Kalibrierungsprobleme hindeutet
Manipulierbarkeitsgefahr: Die meisten Metriken können leicht durch das Hinzufügen harmloser Phrasen manipuliert werden, was ihre Zuverlässigkeit in Szenarien wie Leaderboards gefährdet
LLM-Bewertungsbeschränkungen: Obwohl ChatGPT-DA am robustesten ist, verlässt es sich übermäßig auf parametrisches Wissen statt auf Quelldokumente
Verteilungsabweichung der Manipulationen: Die durch Manipulation erzeugten Ausgaben könnten als außerhalb der Verteilung angesehen werden, aber Faktualitätsmetriken sollten beliebige Dokument-Zusammenfassungs-Paare verarbeiten können
Potenzielle Fehler bei GPT-4-Transformationen: Die Verwendung von GPT-4 zur Generierung wohlwollender Bearbeitungen könnte zu faktischen Fehlern führen, obwohl die Autoren der Ansicht sind, dass dies selten vorkommt
Sprachliche Einschränkungen: Hauptsächlich englische Metriken werden getestet, die Leistung mehrsprachiger Metriken bleibt unklar
Fehlende Lösungen: Das Paper offenbart hauptsächlich Probleme, bietet aber keine konkreten Verbesserungslösungen
Das Paper zitiert umfangreiche verwandte Arbeiten, einschließlich:
Faktualitätsbewertungsmethoden: Laban et al. (2022), Scialom et al. (2021), Zhong et al. (2022)
Benchmark-Datensätze: Tang et al. (2024), Krishna et al. (2024), Wang et al. (2022)
LLM-Bewertung: Wang et al. (2023), Luo et al. (2023)
Metabewertungsforschung: Gabriel et al. (2021), Chen et al. (2021)
Dieses Paper offenbart durch systematische Stresstests schwerwiegende Einschränkungen bestehender automatischer Faktualitätsmetriken und bietet wichtige Reflexion für die Feldentwicklung. Obwohl es hauptsächlich Probleme statt Lösungen aufzeigt, haben seine Erkenntnisse erheblichen Wert für die Förderung der Entwicklung zuverlässigerer Faktualitätsbewertungsmethoden.