2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

Können LLMs menschenähnliche feinkörnige Evidenz zur evidenzgestützten Faktenüberprüfung extrahieren?

Grundinformationen

Paper-ID: 2511.21401
Titel: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
Autoren: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Technische Universität Brno, Tschechien)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 26. November 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2511.21401

Zusammenfassung

Diese Arbeit untersucht die Fähigkeit großer Sprachmodelle (LLMs) zur Extraktion feinkörniger Evidenz in Faktenüberprüfungsszenarios, mit besonderem Fokus auf Tschechisch und Slowakisch. Die Studie konstruiert einen doppelt annotierten Datensatz mit 186 Stichproben, wobei jede Stichprobe von zwei unabhängigen Annotatoren mit feinkörniger Evidenz versehen wurde. Die Bewertung von 17 LLMs unterschiedlicher Größe (von 4B bis 685B Parametern) zeigt: (1) LLMs können häufig Evidenz aus dem Quelltext nicht wörtlich kopieren, was zu ungültigen Ausgaben führt; (2) Das Modell llama3.1:8b erreicht trotz seiner geringen Größe hohe Genauigkeit, während gpt-oss-120b trotz mehr Parametern schlecht abschneidet; (3) qwen3:14b, deepseek-r1:32b und gpt-oss:20b erreichen ein effektives Gleichgewicht zwischen Modellgröße und Ausrichtung mit menschlichen Annotationen.

Forschungshintergrund und Motivation

1. Zu lösende Probleme

Kommentarbereiche von Online-Nachrichtenartikeln sind ein wichtiger Verbreitungsort für Desinformation. Um Online-Diskussionen effektiv zu verwalten und Desinformation zu bekämpfen, benötigen automatisierte Systeme die Fähigkeit:

Überprüfbare Aussagen (Claims) aus Benutzerkommentaren zu extrahieren
Relevante vertrauenswürdige Dokumente abzurufen
Textfragmente in Dokumenten präzise zu lokalisieren, die Aussagen unterstützen oder widerlegen (feinkörnige Evidenz)

Dieser Artikel konzentriert sich auf die letzte Aufgabe — die Extraktion feinkörniger Evidenz.

2. Bedeutung des Problems

Nutzerbedarf: Über 3/4 der Nutzer wünschen sich Expertenkommentare zu Diskussionen, aber manuelle Reaktionen sind unpraktisch
Effizienz und Überzeugungskraft: Die Bereitstellung ganzer Dokumente als Evidenz ist zu grob, während feinkörnige Textfragmente es Lesern ermöglichen, schnell zu bewerten, ohne die Beurteilungsgenauigkeit zu beeinträchtigen
Plattformpraktiken: Die X-Plattform (ehemals Twitter) nutzt „Community Notes", Seznam.cz ergänzt ausgewählte Kommentare mit Faktenüberprüfungsinformationen

3. Einschränkungen bestehender Methoden

Grobe Evidenz: Bestehende automatisierte Faktenüberprüfungssysteme (wie FactLens, Loki) bieten nur Evidenz auf Absatzebene
Fehlende Datensätze: FEVER und SciFact bieten Evidenz auf Satzebene, aber es gibt keine Datensätze für Tschechisch/Slowakisch, und bestehende Datensätze haben maximal Satzebene, nicht Span-Ebene
Unbekannte LLM-Fähigkeiten: Obwohl sich die Reasoning-Fähigkeiten von LLMs ständig verbessern, wurde ihre Ausrichtung mit menschlichen Annotationen bei der Aufgabe der feinkörnigen Evidenzextraktion noch nicht systematisch bewertet

4. Forschungsmotivation

Überprüfung, ob LLMs feinkörnige Evidenz wie Menschen identifizieren und extrahieren können, um eine technische Grundlage für die Konstruktion automatisierter Faktenüberprüfungssysteme zu schaffen.

Kernbeiträge

Neuer Datensatz: Erstellung eines Datensatzes mit 186 Tschechisch-/Slowakisch-Aussage-Text-Paaren, wobei jede Stichprobe von zwei unabhängigen Annotatoren mit feinkörniger Evidenz versehen wurde, was die Lücke in dieser Sprachkombination und Span-Level-Annotation schließt
Systematische LLM-Bewertung: Bewertung von 17 LLMs unterschiedlicher Größe (einschließlich 685B DeepSeek-R1, 120B gpt-oss und anderen Reasoning-Modellen sowie Open-Weight-Modellen wie Gemma-3 und Phi4) bei der Aufgabe der feinkörnigen Evidenzextraktion
Fehlerquoten- und Ausrichtungsanalyse:
- Analyse der Fehlerquoten bei ungültigen Ausgaben durch LLMs
- Verwendung des Ungarischen Matching-Algorithmus und Token-F1 zur Bewertung der Ausrichtung mit menschlichen Annotationen
- Entdeckung der nichtlinearen Beziehung zwischen Modellgröße und Leistung
Identifikation optimaler Modelle: Entdeckung, dass mittlere Modelle (14B-32B) das beste Gleichgewicht zwischen Effizienz und Genauigkeit erreichen

Methodische Details

Aufgabendefinition

Problemstellung: Gegeben eine Aussage und ein tokenisierter Text t = (t₁, t₂, ..., tₙ), wählen Sie einen Satz von Spans S = {s₁, s₂, ..., sₘ}, wobei jeder Span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) eine kontinuierliche Teilsequenz darstellt, die die Aussage unterstützt.

Schlüsselbeschränkungen:

Spans müssen kontinuierliche Teilsequenzen im Text sein
Wählen Sie minimierte Textfragmente
Mehrere Spans können ausgewählt werden
Spans sollten die Wahrheit der Aussage direkt unterstützen

Datenkonstruktionsmethode

Doppelter Annotationsprozess

Stichprobensammlung: 186 Aussage-Text-Paare
Annotator-Pool: 8 nicht-spezialisierte bezahlte Annotatoren
Unabhängige Annotation: Jede Stichprobe wird von zwei verschiedenen Annotatoren unabhängig annotiert
Annotationswerkzeuge:
- Erste Annotation: Benutzerdefiniertes Annotationswerkzeug
- Zweite Annotation: Label Studio
Annotationsrichtlinien:
"Markieren Sie die minimalen Textteile, die die Aussage unterstützen oder widerlegen. Markieren Sie die Teile, die Sie am meisten davon überzeugen, dass die Aussage wahr ist."

Annotationseigenschaften

Menschliche Annotatoren markieren Text direkt, um sicherzustellen, dass kontinuierliche Spans aus dem Quelltext ausgewählt werden
LLMs müssen Span-Text neu generieren, was zu Ausgaben führen kann, die nicht im Quelltext vorhanden sind

LLM-Evidenzextraktionsmethode

Modellauswahl

Drei Modellklassen wurden bewertet:

1. Standard-LLMs (9 Modelle):

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. Chain-of-Thought (CoT) Reasoning-Modelle (8 Modelle):

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

Prompt-Engineering

LLMs erhalten Eingaben bestehend aus:

Originalkommentar (für Kontext)
Extrahierte Aussage
Text, aus dem Evidenz extrahiert werden soll

Schlüsselanweisungen:

Identifizieren Sie die minimalen Textteile, die die Aussage direkt unterstützen
Wählen Sie Phrasen, die die Wahrheit der Aussage am besten beweisen
Vermeiden Sie die Auswahl ganzer Sätze, es sei denn, absolut notwendig
Mehrere Spans können ausgewählt werden
Ändern, korrigieren oder umschreiben Sie den Text nicht, behalten Sie alle Grammatik- und Syntaxfehler bei
Geben Sie die Ausgabe im JSON-Format aus: {"spans": [...]}
Jeder Span muss ein exakter Substring des Quelltexts sein (zeichenweise identisch)

Baseline-Methoden

1. Claim-Baseline:

Tokenisieren Sie die Aussage in c = (c₁, c₂, ..., cₒ)
Gleichen Sie Wortsequenzen aus der Aussage im Text ab
Konstruieren Sie den Span-Satz Sᴄ

2. Query-Baseline:

Verwenden Sie Abfragewörter, die Annotatoren bei der Suche nach Evidenz verwendeten
Gleiche Matching-Methode wie Claim-Baseline

3. Random-Baseline:

Stichprobenweise kontinuierliche Spans
Span-Anzahl und -Länge entsprechen zufällig ausgewählten Annotatoren

Bewertungsmethode

Vorverarbeitung

Entfernen Sie Stoppwörter aus allen Evidenzsätzen (siehe Anhang A, einschließlich häufiger tschechischer/slowakischer Stoppwörter wie „a", „je", „to" usw.)

Token-F1-Berechnung

Span-Paar-F1: Berechnen Sie Token-Level-F1-Scores für alle möglichen Span-Paare in zwei Annotationssätzen
Ungarisches Matching: Verwenden Sie den Ungarischen Algorithmus, um die optimale Zuordnung zu finden, die die Gesamt-F1 maximiert
Finaler Score: Die durchschnittliche F1 der optimalen Zuordnung dient als Token-Level-F1 für einen einzelnen Datenpunkt

Begründung: Da Annotatoren und LLMs möglicherweise unterschiedliche Anzahlen von Spans auswählen (unterschiedliche Ausführlichkeit), vermeidet der Ungarische Algorithmus eine unfaire Bestrafung dieser Unterschiede.

Bewertungsmetriken

Fehlerquote: Anteil ungültiger Ausgaben (generierte Spans nicht im Quelltext)
Token-F1: Ausrichtungsgrad mit menschlichen Annotationen
Inter-Annotator-Übereinstimmung: F1-Score zwischen zwei Annotatoren

Experimentelle Einrichtung

Datensatz

Umfang: 186 Stichproben
Sprachen: Tschechisch und Slowakisch
Annotation: 2 unabhängige Annotationen pro Stichprobe
Quelle: Überprüfbare Aussagen aus Online-Nachrichtenkommentaren
Dokumente: Von Annotatoren über Suchmaschinen gefundene hochrelevante Dokumente

Bewertungsmetriken

Invalid %: Prozentsatz ungültiger Ausgaben (generierte Spans nicht im Quelltext)
Token-F1: Token-Level-F1-Score basierend auf Ungarischem Matching (0-100 Skala)
Max F1: F1-Score mit dem höheren der beiden Annotatoren (spiegelt Ausrichtung mit mindestens einem Annotator wider)

Vergleichsmethoden

Menschliche Annotation: ann 1 (LS) und ann 2
17 LLMs: Unterschiedliche Größen und Architekturen
3 Baselines: random, claim, query

Implementierungsdetails

Verwendung derselben Prompt-Vorlage (siehe Anhang B)
JSON-Format-Ausgabe
Keine technischen Zwangsbeschränkungen (erlauben Sie Generierung von Spans außerhalb des Quelltexts, um Fehler zu beobachten)
F1-Berechnung nach Entfernung von Stoppwörtern

Experimentelle Ergebnisse

Hauptergebnisse

1. Fehlerquotenanalyse (Abbildung 1)

Niedrigste Fehlerquoten:

qwen2.5:72b: 4,3% (beste, 72B Parameter)
deepseek-r1: 7,0% (685B Parameter)
llama3.1:8b: 13,4% (nur 8B Parameter, ausgezeichnete Leistung)

Höchste Fehlerquoten:

mixtral:8x7b: 61,8% (schlechteste, 7B effektive Parameter)
gemma3:4b: 57,5% (4B Parameter)
qwen3:14b: 40,3%

Anomalien:

gpt-oss-120b: 32,8% (120B Parameter aber hohe Fehlerquote, nicht wie erwartet)
llama3.3:70b: 27,4% (70B Parameter aber relativ hohe Fehlerquote)

Gesamttrend: Größere Modelle haben normalerweise niedrigere Fehlerquoten, aber es gibt signifikante Ausnahmen.

2. Extraktionsleistungsanalyse (Abbildung 2)

Inter-Annotator-Übereinstimmung:

ann 1 (LS) vs ann 2: F1 = 48

Beste LLM-Leistung (mit ann 1 (LS)):

qwen3:14b: F1 = 56 (übertrifft menschliche Übereinstimmung)
deepseek-r1:32b: F1 = 55 (übertrifft menschliche Übereinstimmung)
deepseek-r1 (685B): F1 = 38
qwen2.5:72b: F1 = 43

Ausrichtung mit ann 2:

Alle LLM-F1-Scores mit ann 2 sind niedriger als mit ann 1 (LS)
Deutet darauf hin, dass zwei verschiedene Annotationsumgebungen unterschiedliche Annotationsstile erzeugten

Baseline-Leistung:

Claim-Baseline: F1 = 17 (Präzision etwa 30, sehr niedriger Recall)
Query-Baseline: F1 = 12
Random-Baseline: F1 = 10

Alle nicht-neuronalen Baseline-Methoden zeigen schwache Leistung (F1 < 18).

3. Beziehung zwischen Modellgröße und Leistung (Abbildung 3)

Schlüsselfunde:

Klein bis mittlere Größe: Leistung verbessert sich mit Größe
Übergroße Modelle: 685B deepseek-r1 und 120B gpt-oss bringen keine weitere Verbesserung
Optimale Ausgleichspunkte:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45

Schlussfolgerung: Über einen bestimmten Schwellenwert hinaus führt die bloße Erhöhung der Parameterzahl nicht zu einer Verbesserung der Extraktionsleistung.

Ablationsstudien

Obwohl der Artikel keine traditionellen Ablationsstudien durchführt, wird durch den Vergleich verschiedener Modelle eine implizite Analyse ermöglicht:

Auswirkungen der Modellarchitektur:

Reasoning-Modelle (CoT) sind nicht konsistent besser als Standard-Modelle
deepseek-r1:32b zeigt ausgezeichnete Leistung, aber deepseek-r1 (685B) nicht besser

Auswirkungen der Modellgröße:

8B llama3.1 übertrifft viele größere Modelle
Deutet darauf hin, dass Modellqualität und Trainingsdaten wichtiger sind als reine Größe

Auswirkungen des Annotationswerkzeugs:

Label Studio-Annotation (ann 1) und benutzerdefiniertes Werkzeug (ann 2) zeigen systematische Unterschiede
Alle LLMs sind näher an Label Studio-Annotation

Fallstudien

Der Artikel bietet keine spezifischen Fallstudien, aber aus der Methodenbeschreibung kann man folgende Schlüsse ziehen:

Beispiele menschlicher Annotation:

Direktes Markieren der minimalen relevanten Textfragmente in der Benutzeroberfläche
Kann Originaltext mit Grammatikfehlern enthalten

Beispiele für LLM-Ausgaben (abgeleitet):

Korrekte Fälle: Exakte Kopie von Quelltextfragmenten
Fehlerfälle: Umformulierung, Grammatikkorrektur oder Generierung nicht vorhandener Texte

Experimentelle Erkenntnisse

Nichtmonotone Beziehung der Modellgröße: Mittlere Modelle können Übermodelle übertreffen
Unterschiede in der Anweisungsbefolgung: Viele LLMs können die Anweisung „wörtlich kopieren" nicht streng befolgen
Auswirkungen der Annotationsumgebung: Verschiedene Annotationswerkzeuge erzeugen unterschiedliche Granularität der Annotation
Einschränkungen der Baseline-Methoden: Einfache Wort-Matching-Methoden haben annehmbare Präzision, aber sehr niedriger Recall
Mehrsprachige Fähigkeiten: LLMs zeigen angemessene Leistung bei Tschechisch/Slowakisch und beweisen ihre mehrsprachigen Fähigkeiten
Unvollständige Korrelation zwischen Fehlerquote und Ausrichtung: Niedrige Fehlerquote bedeutet nicht notwendigerweise hohes F1 (z. B. qwen2.5:72b)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Datensatz-Beitrag: Konstruktion des ersten Tschechisch-/Slowakisch-Span-Level-Evidenzdatensatzes mit menschlicher Inter-Annotator-Übereinstimmung F1 von 47
Fehlerquote und Modellgröße:
- Klare Beziehung: Kleine Modelle (4B gemma3, 8B mixtral) haben Fehlerquoten > 50%
- Erfordert Constrained Decoding-Mechanismen
Abnehmende Leistungserträge:
- Klein bis mittlere Größe: Leistungsverbesserung
- Übergroße (685B, 120B): Keine weitere Verbesserung
- Optimales Gleichgewicht: 14B qwen3, 32B deepseek-r1, 20B gpt-oss
Menschliche Ausrichtung übertroffen: Einige LLMs (qwen3:14b, deepseek-r1:32b) übertreffen die menschliche Inter-Annotator-Übereinstimmung (aber nur bei gültigen Stichproben)

Einschränkungen

Datensatzgröße:
- Nur 186 Stichproben
- Einige Modelle produzieren bis zu 116 ungültige Ausgaben
- Kann zu Bewertungsverzerrungen führen
Bewertungsverzerrung:
- Ausschluss ungültiger Ausgaben kann schwierigere Stichproben entfernen
- Kann die Leistungskennzahlen bestimmter Modelle künstlich erhöhen
Einzelne Aufgabe:
- Konzentriert sich nur auf unterstützende Evidenz
- Analysiert nicht widersprechende Evidenz
Sprachliche Einschränkungen:
- Deckt nur Tschechisch und Slowakisch ab
- Verallgemeinerungsfähigkeit auf andere Sprachen unbekannt
Annotationsunterschiede:
- Zwei Annotationswerkzeuge erzeugen systematische Unterschiede
- Erfordert weitere Analyse der Ursachen
Uneingeschränkte Generierung:
- Erzwingt nicht technisch, dass Spans im Quelltext vorhanden sein müssen
- Führt zu hoher Fehlerquote

Zukünftige Richtungen

Constrained Decoding:
- Implementierung von Constrained Decoding oder strukturierter Ausgabegenerierung
- Erzwingung semantisch und strukturell gültiger Evidenz
- Signifikante Reduktion ungültiger Ausgaben
Widersprechende Evidenz:
- Durchführung derselben Analyse für widersprechende Evidenz
- Verbesserung des Faktenüberprüfungsprozesses
Datensatz-Erweiterung:
- Erhöhung der Stichprobenzahl
- Verbesserung der statistischen Signifikanz
Analyse von Annotationsunterschieden:
- Tiefere Analyse der Unterschiede zwischen zwei Annotationsumgebungen
- Vereinheitlichung von Annotationsstandards
End-to-End-Systeme:
- Integration von Aussagenextraktion, Dokumentabruf und Evidenzextraktion
- Konstruktion eines vollständigen automatisierten Faktenüberprüfungssystems
Mehrsprachige Erweiterung:
- Erweiterung auf andere Sprachen
- Bewertung der sprachübergreifenden Verallgemeinerungsfähigkeit

Tiefgreifende Bewertung

Stärken

1. Methodische Innovation

Erstmalige Span-Level-Annotation: Feiner als bestehende Satzebene, besser geeignet für praktische Anwendungen
Doppeltes Annotationsdesign: Ermöglicht Berechnung der Inter-Annotator-Übereinstimmung als Benchmark für LLM-Bewertung
Ungarischer Matching-Algorithmus: Geschickte Lösung des Ausrichtungsproblems bei unterschiedlicher Ausführlichkeit, vermeidet unfaire Bestrafung

2. Experimentelle Vollständigkeit

Umfassende Modellabdeckung: 17 LLMs, Parameter von 4B bis 685B, abdeckend Standard- und Reasoning-Modelle
Mehrdimensionale Analyse: Fehlerquoten, Ausrichtungsgrad, Modellgrößenbeziehung
Baseline-Vergleiche: Einschließlich nicht-neuronaler Baselines und menschlicher Annotationsbenchmarks

3. Ergebnis-Einsichten

Kontraintuitive Erkenntnisse: Offenbaren nichtlineare Beziehung zwischen Modellgröße und Leistung
Praktischer Wert: Identifizieren Sie das beste Preis-Leistungs-Verhältnis-Modell (14B-32B)
Ehrliche Berichterstattung: Offen berichten über hohe Fehlerquoten und Bewertungsverzerrungen

4. Schreibklarheit

Klare Problemdefinition (formale Definition)
Detaillierte Methodenbeschreibung (einschließlich vollständiger Prompts)
Klare Ergebnis-Visualisierung (Abbildungen 1-3)

Mängel

1. Methodische Einschränkungen

Uneingeschränkte Generierung: Erzwingt nicht technisch, dass Spans im Quelltext vorhanden sein müssen, führt zu 30%-60% ungültigen Ausgaben
Stoppwort-Verarbeitung: Einfaches Entfernen kann wichtige Informationen verlieren
Einzelner Prompt: Erforscht nicht verschiedene Prompt-Strategien

2. Experimentelle Mängel

Kleine Stichprobengröße: 186 Stichproben möglicherweise unzureichend für robuste Schlussfolgerungen
Bewertungsverzerrung: Ausschluss ungültiger Stichproben kann Leistungsvergleiche verzerren
Fehlende Signifikanztests: Keine Berichte über statistische Signifikanz
Einzelne Ausführung: Keine Berichte über Varianz bei mehrfachen Ausführungen

3. Unzureichende Analyse

Fehlende Fallstudien: Keine Darstellung spezifischer Erfolgs-/Fehlerfälle
Fehlende Fehlertyp-Analyse: Keine Unterscheidung von Fehlertypen (Umformulierung, Halluzination, Abschneidung usw.)
Annotationsunterschiede unerklärlich: Entdeckung systematischer Unterschiede zwischen zwei Annotationswerkzeugen, aber keine tiefere Analyse
Sprachliche Unterschiede: Keine Unterscheidung zwischen Tschechisch- und Slowakisch-Leistung

4. Technische Details

Hyperparameter nicht berichtet: LLM-Temperatur, top-p usw. nicht angegeben
Inferenzkosten nicht berichtet: Tatsächliche Rechenkosten verschiedener Modellgrößen nicht verglichen
Robustheit nicht validiert: Nicht getestet auf Robustheit gegenüber Prompt-Variationen, Textlänge usw.

Auswirkungen

1. Beitrag zum Feld

Lückenfüllung: Erster Tschechisch-/Slowakisch-Span-Level-Evidenzdatensatz
Methodologischer Beitrag: Ungarisches Matching zur Span-Ausrichtungsbewertung
Empirische Einsichten: Empirischer Beweis für abnehmende Erträge der Modellgröße

2. Praktischer Wert

Modellauswahl-Anleitung: Bietet Empfehlungen für das beste Preis-Leistungs-Verhältnis-Modell für praktische Bereitstellung
Problembewusstsein: Warnt Forscher vor LLM-Anweisungsbefolgungsproblemen
Anwendungsszenarien: Bietet technischen Weg für Online-Diskussionsverwaltung

3. Reproduzierbarkeit

Stärken:
- Vollständige Prompts bereitgestellt (Anhang B)
- Verwendung von Open-Source-Modellen (größtenteils)
- Detaillierte Methodenbeschreibung
Mängel:
- Datensatz nicht veröffentlicht (im Artikel nicht erwähnt)
- Code nicht open-source
- Spezifische Hyperparameter fehlen

Anwendbare Szenarien

Geeignete Szenarien

Online-Diskussionsverwaltung: Automatische Bereitstellung von Faktenüberprüfungsevidenz für Kommentare
Nachrichtenplattformen: Ergänzung von Benutzerkommentaren mit Kontextinformationen
Bildungsanwendungen: Hilfe für Schüler beim Erlernen der Evidenzidentifikation
Forschungswerkzeuge: Unterstützung von Forschern bei Literaturübersichten

Ungeeignete Szenarien

Hochrisiko-Entscheidungen: Medizin, Recht usw., die 100% Genauigkeit erfordern (Fehlerquote immer noch hoch)
Echtzeit-Anwendungen: Übergroße Modelle (685B) haben zu hohe Rechenkosten
Ressourcenarm Sprachen: Wirksamkeit der Methode in anderen Sprachen nicht validiert
Lange Dokumente: Verarbeitung langer Texte nicht getestet

Bereitstellungsempfehlungen

Empfohlene Modelle: qwen3:14b oder deepseek-r1:32b (Balance zwischen Leistung und Kosten)
Notwendige Verbesserungen: Implementierung von Constrained Decoding zur Reduktion der Fehlerquote
Menschliche Überprüfung: Behalten Sie menschliche Überprüfung in hochriskanten Anwendungen bei
Mehrsprachige Erweiterung: Erfordert Neubewertung für Zielsprachen

Referenzen (Schlüsselreferenzen)

FEVER (Thorne et al., 2018): Großer Datensatz zur Faktextraktion und -verifizierung, Evidenz auf Satzebene
SciFact (Wadden et al., 2020): Wissenschaftliche Aussagenverifizierung, Begründungsannotationen auf Satzebene
AmbiFC (Glockner et al., 2024): Faktenüberprüfung mit Mehrdeutigkeit, betont Bedeutung feinkörniger Evidenz
DeepSeek-R1 (Guo et al., 2025): LLM mit durch verstärkendes Lernen angeregtem Reasoning
Llama 3 (Grattafiori et al., 2024): Metas Open-Source-LLM-Serie
Ungarischer Algorithmus (Kuhn, 1955): Klassischer Algorithmus für Zuordnungsprobleme, verwendet für Span-Matching

Zusammenfassende Bewertung

Dieser Artikel leistet einen wertvollen Beitrag zu einer wichtigen, aber wenig erforschten Aufgabe der feinkörnigen Evidenzextraktion in der Faktenüberprüfung. Die größten Stärken sind die Konstruktion des ersten Span-Level-annotierten Tschechisch-/Slowakisch-Datensatzes und die Offenbarung der Fähigkeiten und Grenzen von LLMs bei dieser Aufgabe — insbesondere die abnehmenden Erträge der Modellgröße und das ausgezeichnete Preis-Leistungs-Verhältnis mittlerer Modelle.

Jedoch sind die Haupteinschränkungen die kleine Stichprobengröße (186), hohe Fehlerquoten (einige Modelle > 50%) und mögliche Bewertungsverzerrungen durch Ausschluss ungültiger Stichproben. Zukünftige Arbeiten müssen dringend Constrained Decoding-Mechanismen implementieren und die Datensatzgröße erweitern.

Trotz dieser Mängel bietet dieser Artikel eine wichtige empirische Grundlage und methodologische Beiträge für die Konstruktion automatisierter Faktenüberprüfungssysteme, besonders für ressourcenärmere Sprachen. Empfohlene Bewertung: 4/5 — Wertvolle explorative Forschung, aber zukünftige Arbeiten sind erforderlich, um technische Probleme zu lösen, bevor praktische Bereitstellung möglich ist.