2025-11-18T22:34:14.672296

FactAppeal: Identifying Epistemic Factual Appeals in News Media

Mor-Lan, Sheafer, Shenhav
How is a factual claim made credible? We propose the novel task of Epistemic Appeal Identification, which identifies whether and how factual statements have been anchored by external sources or evidence. To advance research on this task, we present FactAppeal, a manually annotated dataset of 3,226 English-language news sentences. Unlike prior resources that focus solely on claim detection and verification, FactAppeal identifies the nuanced epistemic structures and evidentiary basis underlying these claims and used to support them. FactAppeal contains span-level annotations which identify factual statements and mentions of sources on which they rely. Moreover, the annotations include fine-grained characteristics of factual appeals such as the type of source (e.g. Active Participant, Witness, Expert, Direct Evidence), whether it is mentioned by name, mentions of the source's role and epistemic credentials, attribution to the source via direct or indirect quotation, and other features. We model the task with a range of encoder models and generative decoder models in the 2B-9B parameter range. Our best performing model, based on Gemma 2 9B, achieves a macro-F1 score of 0.73.
academic

FactAppeal: Identifizierung epistemischer faktischer Appelle in Nachrichtenmedien

Grundinformationen

  • Papier-ID: 2510.10627
  • Titel: FactAppeal: Identifying Epistemic Factual Appeals in News Media
  • Autoren: Guy Mor-Lan, Tamir Sheafer, Shaul R. Shenhav (Hebräische Universität Jerusalem)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 12. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.10627

Zusammenfassung

Dieses Papier stellt eine neuartige Aufgabe vor – die Identifizierung epistemischer Appelle (Epistemic Appeal Identification) – mit dem Ziel, zu identifizieren, ob und wie faktische Aussagen durch externe Quellen oder Belege gestützt werden. Um diese Aufgabe voranzutreiben, konstruierten die Autoren den FactAppeal-Datensatz mit manuellen Annotationen von 3.226 englischen Nachrichtensätzen. Im Gegensatz zu bisherigen Ressourcen, die sich nur auf Aussagenerkennung und -verifikation konzentrierten, identifiziert FactAppeal die differenzierten epistemischen Strukturen und Evidenzgrundlagen, die diese Aussagen stützen. Der Datensatz enthält Span-Level-Annotationen, die faktische Aussagen und die Quellenerwähnungen, auf die sie angewiesen sind, identifizieren. Darüber hinaus umfassen die Annotationen feinkörnige Merkmale faktischer Appelle, wie Quellentyp (z. B. aktive Teilnehmer, Augenzeugen, Experten, direkte Belege), ob sie namentlich erwähnt werden, Quellenrolle und Erwähnungen epistemischer Qualifikationen, Zuschreibung an Quellen durch direkte oder indirekte Zitate usw. Die Autoren modellierten diese Aufgabe mit Encoder-Modellen und generativen Decoder-Modellen im Bereich von 2B-9B Parametern, wobei das beste Leistungsmodell auf Gemma 2 9B basiert und einen makro-durchschnittlichen F1-Score von 0,73 erreichte.

Forschungshintergrund und Motivation

Problemdefinition

In einer Zeit der Verbreitung von Fehlinformationen und weit verbreiteter Skepsis gegenüber Medienberichten ist es von beispielloser Bedeutung geworden, zu verstehen, wie faktische Aussagen präsentiert werden. Die Glaubwürdigkeit einer faktischen Aussage hängt nicht nur von ihrem Inhalt ab, sondern auch davon, wie sie sich auf externe Wissensquellen beruft – sei es durch Expertenzeugnisse, offizielle Erklärungen oder direkte Erfahrungsbelege.

Einschränkungen bestehender Methoden

Obwohl erhebliche Fortschritte in der Aussagenerkennung und -verifikation erzielt wurden, konzentrieren sich bestehende Methoden hauptsächlich auf isolierte Aussageinhalte und ignorieren die epistemischen Strukturen, die diesen Aussagen Glaubwürdigkeit und Überzeugungskraft verleihen. Traditionelle Faktizitätserkennungsrahmen ermangeln ein tiefes Verständnis dafür, wie Aussagen in Nachrichtenmedien konstruiert und gestützt werden.

Forschungsmotivation

  1. Bedarf an epistemischer Strukturanalyse: Verständnis dafür, wie faktische Aussagen durch externe Autoritätsquellen gestützt werden
  2. Medienglaubwürdigkeitsforschung: Analyse von Wissensflussmechanismen und Verifikationsmechanismen in Nachrichtenmedien
  3. Verbesserung automatischer Faktenchecks: Bereitstellung einer Grundlage für kontextsensitivere Faktenchecks
  4. Anwendungen in den Sozialwissenschaften: Bereitstellung von Werkzeugen für Forschung in Politischer Philosophie, Sozialer Erkenntnistheorie und Kommunikationswissenschaft

Kernbeiträge

  1. Neue Aufgabe vorgestellt: Erstmalige Definition der Aufgabe der epistemischen Appell-Identifizierung, die über traditionelle Faktizitätserkennung hinausgeht und eine reichhaltige epistemische Argumentationsebene einführt
  2. Annotierter Datensatz konstruiert: Erstellung des FactAppeal-Datensatzes mit feinkörnigen Span-Level-Annotationen von 3.226 Nachrichtensätzen
  3. Klassifizierungstaxonomie etabliert: Entwicklung einer strukturierten epistemischen Appell-Taxonomie basierend auf Quellen-Ereignis-Nähe (intern vs. extern) und Quellentyp (menschlich vs. nicht-menschlich)
  4. Baseline-Modelle implementiert: Etablierung von Aufgaben-Baselines mit Encoder- und generativen Decoder-Modellen, wobei das beste Modell einen makro-durchschnittlichen F1-Score von 0,73 erreichte
  5. Interdisziplinärer Wert: Bereitstellung eines wichtigen Werkzeugs für Computerlinguistik, Sozialwissenschaften und Medienforschung

Methodische Details

Aufgabendefinition

Die Aufgabe der epistemischen Appell-Identifizierung erfordert:

  1. Bestimmung, ob ein Satz eine faktische Aussage darstellt
  2. Falls ja, Identifizierung, wie er externe Quellen oder Belege zur Stützung dieser Aussage anruft
  3. Identifizierung der Quellen epistemischer Autorität
  4. Klassifizierung des Appell-Typs und der Methode

Annotationssystem

Hauptetikett-Typen

  1. Fact Without Appeal: Faktische Aussagen ohne epistemischen Appell
  2. Fact With Appeal: Faktische Aussagen mit epistemischem Appell
    • Modifizierer: Direct quote (direktes Zitat) / Indirect quote (indirektes Zitat)
  3. Source: Epistemische Quelle, der die Aussage zugeschrieben wird
    • Benannungsstatus: Named / Unnamed
    • Quellentyp: 7-Typ-Klassifizierung
  4. Source Attribute: Relevante epistemische Attribute der Quelle
  5. Recipient: Objekt, das die Information empfängt
  6. Appeal Time: Zeitpunkt, zu dem der Appell stattfindet
  7. Appeal Location: Ort, an dem der Appell stattfindet

Quellentyp-Klassifizierungstaxonomie

Taxonomie konstruiert basierend auf zwei Dimensionen:

  • Nähe zum Ereignis: Intern (direkter Kontakt) vs. Extern (allgemeines Fachwissen)
  • Quellencharakter: Menschlich vs. Nicht-menschlich

Interne Quellen (basierend auf direktem Kontakt):

  • Active Participant: Aktive Teilnehmer des Ereignisses
  • Witness: Beobachter, die Augenzeugenberichte liefern
  • Official: Teilnehmer mit rechtlicher, politischer oder bürokratischer Autorität
  • Direct Evidence: Direkte Belege, die vor Ort gefunden wurden

Externe Quellen (basierend auf Fachwissen):

  • Expert: Wissenschaftler oder Experten mit Fachwissen
  • Expert Document: Forschungsdokumente, wissenschaftliche und institutionelle Berichte
  • News Report: Zitate aus vorherigen Nachrichtenberichten

Technische Innovationen

  1. Span-Level-Annotationen: Ermöglichung der Unterscheidung zwischen epistemischen Appellen, Appellen ohne Fakten und nicht-faktischen Komponenten in einem einzelnen Text
  2. Unterstützung verschachtelter Etiketten: Verschiedene Etikett-Typen können verschachtelt werden, um komplexe epistemische Strukturen zu unterstützen
  3. Feinkörnige Merkmale: Erfassung mehrdimensionaler Informationen wie Quellentyp, Benannungsstatus, Zitierweise usw.
  4. Klassifizierung epistemischer Autorität: Systematisierte Quellenklassifizierung basierend auf erkenntnistheoretischer Theorie

Experimentelle Einrichtung

Datensatz

  • Umfang: 3.226 Sätze aus englischen Nachrichtenartikeln von 2020-2022
  • Annotatoren: Zwei Annotatoren (einer der Autoren und ein Forschungsassistent)
  • Datenteilung: Trainingssatz 70%, Entwicklungssatz 15%, Testsatz 15%
  • Annotator-Übereinstimmung: Gesamt-IoU von 0,74, Cohen's Kappa von 0,82

Bewertungsmetriken

  • Wort-Level makro-durchschnittliche Präzision, Recall und F1-Score
  • Multi-Label-Binärklassifizierungsbewertung für 18 Etikett-Kategorien

Vergleichsmethoden

Encoder-Modelle (Token-Level Multi-Label-Klassifizierung):

  • RoBERTa (base, 125M)
  • DeBERTa v3 (base, 184M)
  • ModernBERT (base, 150M)

Generative Decoder-Modelle (Sequenz-zu-Sequenz):

  • Gemma 2 (2B, 9B)
  • Llama 3.1 (8B)
  • Mistral v0.3 (7B)

Implementierungsdetails

  • Encoder-Modelle: Training mit Focal Loss für maximal 12 Epochen
  • Decoder-Modelle: 4-Bit-Quantisierungs-Feinabstimmung mit QLORA, Training für 3 Epochen
  • Hardware: Einzelne A100 GPU (40GB VRAM)
  • Lernrate: 1e-5

Experimentelle Ergebnisse

Hauptergebnisse

ModellPräzisionRecallF1
Gemma 2 9B0,760,730,73
RoBERTa (base)0,750,670,70
Mistral v0.3 7B0,730,680,70
DeBERTa v3 (base)0,730,670,69
Llama 3.1 8B0,750,650,68

Wichtigste Erkenntnisse

  1. Vorteile generativer Modelle: Das größte Decoder-Modell Gemma 2 9B erreichte die beste Leistung
  2. Einschränkungen von Encoder-Modellen: Encoder-Modelle zeigen größere Leistungsvariabilität zwischen verschiedenen Kategorien
  3. Auswirkung der Etikett-Häufigkeit: Encoder-Modell-Leistung korreliert stärker mit Etikett-Häufigkeit (ρs = 0,72 vs. 0,66)
  4. Quellentyp-Erkennung: Quellentyp-Annotationen zeigen geringere Korrelation mit Etikett-Popularität

Kategorieweise Leistungsanalyse

  • Faktizitätserkennung: Fact w/o Appeal (0,89), Fact with Appeal (0,85)
  • Quellenerkennung: Source (0,84), Source Attribute (0,79)
  • Zitiertypen: Indirect Quote (0,83), Direct Quote (0,80)
  • Quellentypen: Größere Leistungsvariabilität, Active Participant (0,54), News Report (0,68)

Datensatz-Statistiken

  • Anteil faktischer Sätze: Über 80% der Sätze wurden als faktisch annotiert
  • Appell-Typ-Verteilung: Appelle ohne Appelle sind etwa doppelt so häufig wie Appelle mit Appellen
  • Zitierweise: 66% verwenden Paraphrase, 34% verwenden direkte Zitate
  • Benannungsstatus: 64% der Quellen werden namentlich erwähnt

Verwandte Arbeiten

Aussagen-Verifikationsforschung

  • Frühe Arbeiten: Fokus auf Bestimmung verifizierbarer Ereignisse (Sauri and Pustejovsky, 2009)
  • Großflächige Benchmarks: FEVER, SciFact, FactRel und andere Datensätze
  • Einschränkungen: Hauptsächlich auf Aussagenerkennung und Aussagenbeziehungen konzentriert, fehlendes vollständiges epistemisches Muster-Verständnis

Epistemische Modalität und Argumentationsabbau

  • Epistemische Modalität: Erfassung von Sprachmarkern für Gewissheit und Überzeugung
  • Argumentationsabbau: Erforschung, wie Aussagen in Diskursen konstruiert und gestützt werden
  • Epistemische Haltungserkennung: Modellierung des Engagements von Quellen gegenüber Aussagen

Quellenattribution und Zitat-Analyse

  • Zitat-Erkennung: Erkennung von Zitaten und deren Zuschreibung an Entitäten
  • Einschränkungen: Typischerweise keine Klassifizierung von Quellen nach Typ oder Erfassung, ob Appelle durch direkte Rede oder Paraphrase angerufen werden

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Aufgabendurchführbarkeit: Die Aufgabe der epistemischen Appell-Identifizierung ist durchführbar, bleibt aber herausfordernd
  2. Vorteile generativer Modelle: Generative Modelle zeigen bessere Leistung bei der Verarbeitung komplexer epistemischer Strukturen
  3. Wert feinkörniger Analyse: Span-Level-Annotationen können komplexe epistemische Strukturen in Nachrichtenmedien offenbaren

Einschränkungen

  1. Satz-Level-Beschränkung: Nur Satz-Level-Annotationen, was die erfassbaren Kontextinformationen begrenzt
  2. Quellen-Aussagen-Verknüpfung: Aktuelle Annotationen verknüpfen nicht explizit jede Quelle mit ihrer entsprechenden Aussage
  3. Sprach- und Zeitbereich: Begrenzt auf englische Nachrichtenartikel von 2020-2022
  4. Annotationsgröße: Datensatz ist relativ klein, was die Modellverallgemeinerung beeinträchtigen könnte

Zukünftige Richtungen

  1. Erweiterung auf Absatz-/Artikelebene: Modellierung komplexer Diskursstrukturen in größeren Texteinheiten
  2. Mehrsprachige Erweiterung: Anwendung auf andere Sprachen und kulturelle Kontexte
  3. Quellen-Aussagen-Beziehungsmodellierung: Explizite Modellierung der Entsprechung zwischen Quellen und Aussagen
  4. Anwendung auf soziale Medien: Erweiterung auf andere Diskurstypen wie soziale Medien
  5. Zeitliche Dynamik-Analyse: Untersuchung zeitlicher Veränderungen in epistemischen Appell-Mustern

Tiefgreifende Bewertung

Stärken

  1. Aufgaben-Innovativität: Erstmalige systematische Definition und Untersuchung der Aufgabe der epistemischen Appell-Identifizierung, Schließung einer wichtigen Forschungslücke
  2. Solide theoretische Grundlage: Auf erkenntnistheoretischer und linguistischer Theorie basierende Taxonomie-Konstruktion mit solider theoretischer Grundlage
  3. Hohe Annotationsqualität: Feinkörnige Span-Level-Annotationen mit guter Annotator-Übereinstimmung (Kappa=0,82)
  4. Interdisziplinärer Wert: Bereitstellung wertvoller Ressourcen für Computerlinguistik, Politikwissenschaft, Kommunikationswissenschaft und andere Disziplinen
  5. Umfassende Experimente: Vergleich mehrerer Modellarchitekturen mit detaillierter Leistungsanalyse

Mängel

  1. Datengröße-Einschränkung: 3.226 Sätze sind relativ klein und könnten Modellleistung und Verallgemeinerungsfähigkeit begrenzen
  2. Annotationskomplexität: Einige Etikett-Kategorien haben geringe Stichprobengröße, was das Modelllernen beeinträchtigt
  3. Einzelne Bewertungsmetriken: Hauptsächlich F1-Score-Verwendung, fehlende aufgabenspezifische Bewertungsmetriken
  4. Unzureichende Fehleranalyse: Fehlende tiefgreifende Analyse von Modellfehlerttypen
  5. Validierung praktischer Anwendungen: Fehlende Validierung der Wirksamkeit in echten Faktenchecks oder Medienanalysaufgaben

Auswirkungen

  1. Akademischer Beitrag: Eröffnung einer neuen Forschungsrichtung im Bereich der Verarbeitung natürlicher Sprache
  2. Praktischer Wert: Anwendbar auf automatische Faktenchecks, Medienbias-Erkennung, Wissensgraph-Konstruktion und andere Aufgaben
  3. Gesellschaftliche Bedeutung: Hilft beim Verständnis und der Analyse von Informationsverbreitungs- und Verifikationsmechanismen in Medien
  4. Reproduzierbarkeit: Öffentliche Veröffentlichung von Daten und Code erleichtert nachfolgende Forschung

Anwendungsszenarien

  1. Nachrichtenmedien-Analyse: Analyse von Evidenznutzungsmustern in Nachrichtenberichten
  2. Faktenchecks-Unterstützung: Bereitstellung reichhaltigerer Kontextinformationen für automatische Faktenchecks-Systeme
  3. Medienkompetenz-Bildung: Unterstützung bei der Identifizierung und Analyse epistemischer Appell-Strategien in Medien
  4. Politische Diskurs-Analyse: Untersuchung von Autoritäts-Appell-Mustern in politischer Kommunikation
  5. Wissensgraph-Konstruktion: Bereitstellung einer Grundlage für die Konstruktion von Wissensgraphen mit Evidenzbeziehungen

Referenzen

  • Thorne et al. (2018): FEVER-Datensatz, großflächige Faktenextraktion und -verifikation
  • Sauri and Pustejovsky (2009): Frühe Faktizitätserkennungsarbeiten
  • Da San Martino et al. (2019): Feinkörnige Analyse von Propagandatechniken
  • Collins and Evans (2002): Die dritte Welle der Expertise- und Erfahrungsforschung
  • Anderson (2021): Erkenntnisblasen und autoritäre Politik

Dieses Papier leistet Pionierarbeit bei der neuen Aufgabe der epistemischen Appell-Identifizierung und bietet nicht nur einen hochqualitativen annotierten Datensatz, sondern etabliert auch einen systematischen theoretischen Rahmen und experimentelle Baselines. Obwohl es noch Raum für Verbesserungen bei der Datengröße und Modellleistung gibt, machen sein interdisziplinärer Forschungswert und sein praktisches Anwendungspotenzial es zu einer wichtigen Arbeit in diesem Bereich.