Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
- Paper-ID: 2511.21401
- Titel: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- Autoren: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Technische Universität Brno, Tschechien)
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: 26. November 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2511.21401
Diese Arbeit untersucht die Fähigkeit großer Sprachmodelle (LLMs) zur Extraktion feinkörniger Evidenz in Faktenüberprüfungsszenarios, mit besonderem Fokus auf Tschechisch und Slowakisch. Die Studie konstruiert einen doppelt annotierten Datensatz mit 186 Stichproben, wobei jede Stichprobe von zwei unabhängigen Annotatoren mit feinkörniger Evidenz versehen wurde. Die Bewertung von 17 LLMs unterschiedlicher Größe (von 4B bis 685B Parametern) zeigt: (1) LLMs können häufig Evidenz aus dem Quelltext nicht wörtlich kopieren, was zu ungültigen Ausgaben führt; (2) Das Modell llama3.1:8b erreicht trotz seiner geringen Größe hohe Genauigkeit, während gpt-oss-120b trotz mehr Parametern schlecht abschneidet; (3) qwen3:14b, deepseek-r1:32b und gpt-oss:20b erreichen ein effektives Gleichgewicht zwischen Modellgröße und Ausrichtung mit menschlichen Annotationen.
Kommentarbereiche von Online-Nachrichtenartikeln sind ein wichtiger Verbreitungsort für Desinformation. Um Online-Diskussionen effektiv zu verwalten und Desinformation zu bekämpfen, benötigen automatisierte Systeme die Fähigkeit:
- Überprüfbare Aussagen (Claims) aus Benutzerkommentaren zu extrahieren
- Relevante vertrauenswürdige Dokumente abzurufen
- Textfragmente in Dokumenten präzise zu lokalisieren, die Aussagen unterstützen oder widerlegen (feinkörnige Evidenz)
Dieser Artikel konzentriert sich auf die letzte Aufgabe — die Extraktion feinkörniger Evidenz.
- Nutzerbedarf: Über 3/4 der Nutzer wünschen sich Expertenkommentare zu Diskussionen, aber manuelle Reaktionen sind unpraktisch
- Effizienz und Überzeugungskraft: Die Bereitstellung ganzer Dokumente als Evidenz ist zu grob, während feinkörnige Textfragmente es Lesern ermöglichen, schnell zu bewerten, ohne die Beurteilungsgenauigkeit zu beeinträchtigen
- Plattformpraktiken: Die X-Plattform (ehemals Twitter) nutzt „Community Notes", Seznam.cz ergänzt ausgewählte Kommentare mit Faktenüberprüfungsinformationen
- Grobe Evidenz: Bestehende automatisierte Faktenüberprüfungssysteme (wie FactLens, Loki) bieten nur Evidenz auf Absatzebene
- Fehlende Datensätze: FEVER und SciFact bieten Evidenz auf Satzebene, aber es gibt keine Datensätze für Tschechisch/Slowakisch, und bestehende Datensätze haben maximal Satzebene, nicht Span-Ebene
- Unbekannte LLM-Fähigkeiten: Obwohl sich die Reasoning-Fähigkeiten von LLMs ständig verbessern, wurde ihre Ausrichtung mit menschlichen Annotationen bei der Aufgabe der feinkörnigen Evidenzextraktion noch nicht systematisch bewertet
Überprüfung, ob LLMs feinkörnige Evidenz wie Menschen identifizieren und extrahieren können, um eine technische Grundlage für die Konstruktion automatisierter Faktenüberprüfungssysteme zu schaffen.
- Neuer Datensatz: Erstellung eines Datensatzes mit 186 Tschechisch-/Slowakisch-Aussage-Text-Paaren, wobei jede Stichprobe von zwei unabhängigen Annotatoren mit feinkörniger Evidenz versehen wurde, was die Lücke in dieser Sprachkombination und Span-Level-Annotation schließt
- Systematische LLM-Bewertung: Bewertung von 17 LLMs unterschiedlicher Größe (einschließlich 685B DeepSeek-R1, 120B gpt-oss und anderen Reasoning-Modellen sowie Open-Weight-Modellen wie Gemma-3 und Phi4) bei der Aufgabe der feinkörnigen Evidenzextraktion
- Fehlerquoten- und Ausrichtungsanalyse:
- Analyse der Fehlerquoten bei ungültigen Ausgaben durch LLMs
- Verwendung des Ungarischen Matching-Algorithmus und Token-F1 zur Bewertung der Ausrichtung mit menschlichen Annotationen
- Entdeckung der nichtlinearen Beziehung zwischen Modellgröße und Leistung
- Identifikation optimaler Modelle: Entdeckung, dass mittlere Modelle (14B-32B) das beste Gleichgewicht zwischen Effizienz und Genauigkeit erreichen
Problemstellung: Gegeben eine Aussage und ein tokenisierter Text t = (t₁, t₂, ..., tₙ), wählen Sie einen Satz von Spans S = {s₁, s₂, ..., sₘ}, wobei jeder Span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) eine kontinuierliche Teilsequenz darstellt, die die Aussage unterstützt.
Schlüsselbeschränkungen:
- Spans müssen kontinuierliche Teilsequenzen im Text sein
- Wählen Sie minimierte Textfragmente
- Mehrere Spans können ausgewählt werden
- Spans sollten die Wahrheit der Aussage direkt unterstützen
- Stichprobensammlung: 186 Aussage-Text-Paare
- Annotator-Pool: 8 nicht-spezialisierte bezahlte Annotatoren
- Unabhängige Annotation: Jede Stichprobe wird von zwei verschiedenen Annotatoren unabhängig annotiert
- Annotationswerkzeuge:
- Erste Annotation: Benutzerdefiniertes Annotationswerkzeug
- Zweite Annotation: Label Studio
- Annotationsrichtlinien:
"Markieren Sie die minimalen Textteile, die die Aussage unterstützen oder widerlegen. Markieren Sie die Teile, die Sie am meisten davon überzeugen, dass die Aussage wahr ist."
- Menschliche Annotatoren markieren Text direkt, um sicherzustellen, dass kontinuierliche Spans aus dem Quelltext ausgewählt werden
- LLMs müssen Span-Text neu generieren, was zu Ausgaben führen kann, die nicht im Quelltext vorhanden sind
Drei Modellklassen wurden bewertet:
1. Standard-LLMs (9 Modelle):
- qwen2.5 (72B, 32B)
- llama3.3 (70B)
- llama3.1 (8B)
- gemma2 (27B)
- gemma3 (27B, 12B, 4B)
- phi4 (14B)
- mixtral (8×7B)
2. Chain-of-Thought (CoT) Reasoning-Modelle (8 Modelle):
- deepseek-r1 (685B, 32B)
- gpt-oss (120B, 20B)
- qwen3 (32B, 14B)
LLMs erhalten Eingaben bestehend aus:
- Originalkommentar (für Kontext)
- Extrahierte Aussage
- Text, aus dem Evidenz extrahiert werden soll
Schlüsselanweisungen:
- Identifizieren Sie die minimalen Textteile, die die Aussage direkt unterstützen
- Wählen Sie Phrasen, die die Wahrheit der Aussage am besten beweisen
- Vermeiden Sie die Auswahl ganzer Sätze, es sei denn, absolut notwendig
- Mehrere Spans können ausgewählt werden
- Ändern, korrigieren oder umschreiben Sie den Text nicht, behalten Sie alle Grammatik- und Syntaxfehler bei
- Geben Sie die Ausgabe im JSON-Format aus:
{"spans": [...]} - Jeder Span muss ein exakter Substring des Quelltexts sein (zeichenweise identisch)
1. Claim-Baseline:
- Tokenisieren Sie die Aussage in c = (c₁, c₂, ..., cₒ)
- Gleichen Sie Wortsequenzen aus der Aussage im Text ab
- Konstruieren Sie den Span-Satz Sᴄ
2. Query-Baseline:
- Verwenden Sie Abfragewörter, die Annotatoren bei der Suche nach Evidenz verwendeten
- Gleiche Matching-Methode wie Claim-Baseline
3. Random-Baseline:
- Stichprobenweise kontinuierliche Spans
- Span-Anzahl und -Länge entsprechen zufällig ausgewählten Annotatoren
Entfernen Sie Stoppwörter aus allen Evidenzsätzen (siehe Anhang A, einschließlich häufiger tschechischer/slowakischer Stoppwörter wie „a", „je", „to" usw.)
- Span-Paar-F1: Berechnen Sie Token-Level-F1-Scores für alle möglichen Span-Paare in zwei Annotationssätzen
- Ungarisches Matching: Verwenden Sie den Ungarischen Algorithmus, um die optimale Zuordnung zu finden, die die Gesamt-F1 maximiert
- Finaler Score: Die durchschnittliche F1 der optimalen Zuordnung dient als Token-Level-F1 für einen einzelnen Datenpunkt
Begründung: Da Annotatoren und LLMs möglicherweise unterschiedliche Anzahlen von Spans auswählen (unterschiedliche Ausführlichkeit), vermeidet der Ungarische Algorithmus eine unfaire Bestrafung dieser Unterschiede.
- Fehlerquote: Anteil ungültiger Ausgaben (generierte Spans nicht im Quelltext)
- Token-F1: Ausrichtungsgrad mit menschlichen Annotationen
- Inter-Annotator-Übereinstimmung: F1-Score zwischen zwei Annotatoren
- Umfang: 186 Stichproben
- Sprachen: Tschechisch und Slowakisch
- Annotation: 2 unabhängige Annotationen pro Stichprobe
- Quelle: Überprüfbare Aussagen aus Online-Nachrichtenkommentaren
- Dokumente: Von Annotatoren über Suchmaschinen gefundene hochrelevante Dokumente
- Invalid %: Prozentsatz ungültiger Ausgaben (generierte Spans nicht im Quelltext)
- Token-F1: Token-Level-F1-Score basierend auf Ungarischem Matching (0-100 Skala)
- Max F1: F1-Score mit dem höheren der beiden Annotatoren (spiegelt Ausrichtung mit mindestens einem Annotator wider)
- Menschliche Annotation: ann 1 (LS) und ann 2
- 17 LLMs: Unterschiedliche Größen und Architekturen
- 3 Baselines: random, claim, query
- Verwendung derselben Prompt-Vorlage (siehe Anhang B)
- JSON-Format-Ausgabe
- Keine technischen Zwangsbeschränkungen (erlauben Sie Generierung von Spans außerhalb des Quelltexts, um Fehler zu beobachten)
- F1-Berechnung nach Entfernung von Stoppwörtern
Niedrigste Fehlerquoten:
- qwen2.5:72b: 4,3% (beste, 72B Parameter)
- deepseek-r1: 7,0% (685B Parameter)
- llama3.1:8b: 13,4% (nur 8B Parameter, ausgezeichnete Leistung)
Höchste Fehlerquoten:
- mixtral:8x7b: 61,8% (schlechteste, 7B effektive Parameter)
- gemma3:4b: 57,5% (4B Parameter)
- qwen3:14b: 40,3%
Anomalien:
- gpt-oss-120b: 32,8% (120B Parameter aber hohe Fehlerquote, nicht wie erwartet)
- llama3.3:70b: 27,4% (70B Parameter aber relativ hohe Fehlerquote)
Gesamttrend: Größere Modelle haben normalerweise niedrigere Fehlerquoten, aber es gibt signifikante Ausnahmen.
Inter-Annotator-Übereinstimmung:
- ann 1 (LS) vs ann 2: F1 = 48
Beste LLM-Leistung (mit ann 1 (LS)):
- qwen3:14b: F1 = 56 (übertrifft menschliche Übereinstimmung)
- deepseek-r1:32b: F1 = 55 (übertrifft menschliche Übereinstimmung)
- deepseek-r1 (685B): F1 = 38
- qwen2.5:72b: F1 = 43
Ausrichtung mit ann 2:
- Alle LLM-F1-Scores mit ann 2 sind niedriger als mit ann 1 (LS)
- Deutet darauf hin, dass zwei verschiedene Annotationsumgebungen unterschiedliche Annotationsstile erzeugten
Baseline-Leistung:
- Claim-Baseline: F1 = 17 (Präzision etwa 30, sehr niedriger Recall)
- Query-Baseline: F1 = 12
- Random-Baseline: F1 = 10
Alle nicht-neuronalen Baseline-Methoden zeigen schwache Leistung (F1 < 18).
Schlüsselfunde:
- Klein bis mittlere Größe: Leistung verbessert sich mit Größe
- Übergroße Modelle: 685B deepseek-r1 und 120B gpt-oss bringen keine weitere Verbesserung
- Optimale Ausgleichspunkte:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45
Schlussfolgerung: Über einen bestimmten Schwellenwert hinaus führt die bloße Erhöhung der Parameterzahl nicht zu einer Verbesserung der Extraktionsleistung.
Obwohl der Artikel keine traditionellen Ablationsstudien durchführt, wird durch den Vergleich verschiedener Modelle eine implizite Analyse ermöglicht:
Auswirkungen der Modellarchitektur:
- Reasoning-Modelle (CoT) sind nicht konsistent besser als Standard-Modelle
- deepseek-r1:32b zeigt ausgezeichnete Leistung, aber deepseek-r1 (685B) nicht besser
Auswirkungen der Modellgröße:
- 8B llama3.1 übertrifft viele größere Modelle
- Deutet darauf hin, dass Modellqualität und Trainingsdaten wichtiger sind als reine Größe
Auswirkungen des Annotationswerkzeugs:
- Label Studio-Annotation (ann 1) und benutzerdefiniertes Werkzeug (ann 2) zeigen systematische Unterschiede
- Alle LLMs sind näher an Label Studio-Annotation
Der Artikel bietet keine spezifischen Fallstudien, aber aus der Methodenbeschreibung kann man folgende Schlüsse ziehen:
Beispiele menschlicher Annotation:
- Direktes Markieren der minimalen relevanten Textfragmente in der Benutzeroberfläche
- Kann Originaltext mit Grammatikfehlern enthalten
Beispiele für LLM-Ausgaben (abgeleitet):
- Korrekte Fälle: Exakte Kopie von Quelltextfragmenten
- Fehlerfälle: Umformulierung, Grammatikkorrektur oder Generierung nicht vorhandener Texte
- Nichtmonotone Beziehung der Modellgröße: Mittlere Modelle können Übermodelle übertreffen
- Unterschiede in der Anweisungsbefolgung: Viele LLMs können die Anweisung „wörtlich kopieren" nicht streng befolgen
- Auswirkungen der Annotationsumgebung: Verschiedene Annotationswerkzeuge erzeugen unterschiedliche Granularität der Annotation
- Einschränkungen der Baseline-Methoden: Einfache Wort-Matching-Methoden haben annehmbare Präzision, aber sehr niedriger Recall
- Mehrsprachige Fähigkeiten: LLMs zeigen angemessene Leistung bei Tschechisch/Slowakisch und beweisen ihre mehrsprachigen Fähigkeiten
- Unvollständige Korrelation zwischen Fehlerquote und Ausrichtung: Niedrige Fehlerquote bedeutet nicht notwendigerweise hohes F1 (z. B. qwen2.5:72b)
FactLens:
- Zerlegt komplexe Aussagen in Teilaussagen
- Bewertet jede Teilaussage unabhängig auf Wahrheit
- Einschränkung: Bietet nur Evidenz auf Absatzebene
Loki:
- Automatisierter Prozess: Überprüfbare Aussagen identifizieren → Evidenz abrufen → Verifizieren
- Einschränkung: Evidenz bleibt auf Absatzebene
AmbiFC:
- Führt Mehrdeutigkeit ein, erlaubt mehrere Satz-Level-Annotationen
- Zeigt die Bedeutung der Auswahl von Evidenz auf Satzebene
- Aber tatsächliche Annotation bleibt auf Absatzebene
FEVER:
- Allgemeine Aussagen aus Wikipedia
- Evidenz auf Satzebene
- Englische Daten
SciFact:
- Begründungsannotationen in wissenschaftlichen Papierabstrakten
- Evidenz auf Satzebene
- Englische Daten
Einzigartigkeit des Datensatzes dieses Artikels:
- Tschechisch/Slowakisch
- Span-Level-Evidenz (feiner als Satzebene)
- Doppelte Annotation
Skalierungsgesetze:
- Leistung verbessert sich mit Modellgröße, Architekturverbesserungen und Reasoning-Fähigkeiten
- Aber dieser Artikel zeigt abnehmende Erträge
Mehrsprachige Fähigkeiten:
- Frühere Arbeiten zeigen starke Reasoning-Fähigkeiten von LLMs auf tschechischen und slowakischen Datensätzen
- Dieser Artikel validiert die Anwendbarkeit auf die Aufgabe der feinkörnigen Evidenzextraktion
Positionierung dieses Artikels
- Erste systematische Bewertung von LLMs bei der Span-Level-Evidenzextraktion
- Erster Datensatz für Tschechisch/Slowakisch mit feinkörniger Evidenz
- Offenbart nichtlineare Beziehung zwischen Modellgröße und Leistung
- Datensatz-Beitrag: Konstruktion des ersten Tschechisch-/Slowakisch-Span-Level-Evidenzdatensatzes mit menschlicher Inter-Annotator-Übereinstimmung F1 von 47
- Fehlerquote und Modellgröße:
- Klare Beziehung: Kleine Modelle (4B gemma3, 8B mixtral) haben Fehlerquoten > 50%
- Erfordert Constrained Decoding-Mechanismen
- Abnehmende Leistungserträge:
- Klein bis mittlere Größe: Leistungsverbesserung
- Übergroße (685B, 120B): Keine weitere Verbesserung
- Optimales Gleichgewicht: 14B qwen3, 32B deepseek-r1, 20B gpt-oss
- Menschliche Ausrichtung übertroffen: Einige LLMs (qwen3:14b, deepseek-r1:32b) übertreffen die menschliche Inter-Annotator-Übereinstimmung (aber nur bei gültigen Stichproben)
- Datensatzgröße:
- Nur 186 Stichproben
- Einige Modelle produzieren bis zu 116 ungültige Ausgaben
- Kann zu Bewertungsverzerrungen führen
- Bewertungsverzerrung:
- Ausschluss ungültiger Ausgaben kann schwierigere Stichproben entfernen
- Kann die Leistungskennzahlen bestimmter Modelle künstlich erhöhen
- Einzelne Aufgabe:
- Konzentriert sich nur auf unterstützende Evidenz
- Analysiert nicht widersprechende Evidenz
- Sprachliche Einschränkungen:
- Deckt nur Tschechisch und Slowakisch ab
- Verallgemeinerungsfähigkeit auf andere Sprachen unbekannt
- Annotationsunterschiede:
- Zwei Annotationswerkzeuge erzeugen systematische Unterschiede
- Erfordert weitere Analyse der Ursachen
- Uneingeschränkte Generierung:
- Erzwingt nicht technisch, dass Spans im Quelltext vorhanden sein müssen
- Führt zu hoher Fehlerquote
- Constrained Decoding:
- Implementierung von Constrained Decoding oder strukturierter Ausgabegenerierung
- Erzwingung semantisch und strukturell gültiger Evidenz
- Signifikante Reduktion ungültiger Ausgaben
- Widersprechende Evidenz:
- Durchführung derselben Analyse für widersprechende Evidenz
- Verbesserung des Faktenüberprüfungsprozesses
- Datensatz-Erweiterung:
- Erhöhung der Stichprobenzahl
- Verbesserung der statistischen Signifikanz
- Analyse von Annotationsunterschieden:
- Tiefere Analyse der Unterschiede zwischen zwei Annotationsumgebungen
- Vereinheitlichung von Annotationsstandards
- End-to-End-Systeme:
- Integration von Aussagenextraktion, Dokumentabruf und Evidenzextraktion
- Konstruktion eines vollständigen automatisierten Faktenüberprüfungssystems
- Mehrsprachige Erweiterung:
- Erweiterung auf andere Sprachen
- Bewertung der sprachübergreifenden Verallgemeinerungsfähigkeit
- Erstmalige Span-Level-Annotation: Feiner als bestehende Satzebene, besser geeignet für praktische Anwendungen
- Doppeltes Annotationsdesign: Ermöglicht Berechnung der Inter-Annotator-Übereinstimmung als Benchmark für LLM-Bewertung
- Ungarischer Matching-Algorithmus: Geschickte Lösung des Ausrichtungsproblems bei unterschiedlicher Ausführlichkeit, vermeidet unfaire Bestrafung
- Umfassende Modellabdeckung: 17 LLMs, Parameter von 4B bis 685B, abdeckend Standard- und Reasoning-Modelle
- Mehrdimensionale Analyse: Fehlerquoten, Ausrichtungsgrad, Modellgrößenbeziehung
- Baseline-Vergleiche: Einschließlich nicht-neuronaler Baselines und menschlicher Annotationsbenchmarks
- Kontraintuitive Erkenntnisse: Offenbaren nichtlineare Beziehung zwischen Modellgröße und Leistung
- Praktischer Wert: Identifizieren Sie das beste Preis-Leistungs-Verhältnis-Modell (14B-32B)
- Ehrliche Berichterstattung: Offen berichten über hohe Fehlerquoten und Bewertungsverzerrungen
- Klare Problemdefinition (formale Definition)
- Detaillierte Methodenbeschreibung (einschließlich vollständiger Prompts)
- Klare Ergebnis-Visualisierung (Abbildungen 1-3)
- Uneingeschränkte Generierung: Erzwingt nicht technisch, dass Spans im Quelltext vorhanden sein müssen, führt zu 30%-60% ungültigen Ausgaben
- Stoppwort-Verarbeitung: Einfaches Entfernen kann wichtige Informationen verlieren
- Einzelner Prompt: Erforscht nicht verschiedene Prompt-Strategien
- Kleine Stichprobengröße: 186 Stichproben möglicherweise unzureichend für robuste Schlussfolgerungen
- Bewertungsverzerrung: Ausschluss ungültiger Stichproben kann Leistungsvergleiche verzerren
- Fehlende Signifikanztests: Keine Berichte über statistische Signifikanz
- Einzelne Ausführung: Keine Berichte über Varianz bei mehrfachen Ausführungen
- Fehlende Fallstudien: Keine Darstellung spezifischer Erfolgs-/Fehlerfälle
- Fehlende Fehlertyp-Analyse: Keine Unterscheidung von Fehlertypen (Umformulierung, Halluzination, Abschneidung usw.)
- Annotationsunterschiede unerklärlich: Entdeckung systematischer Unterschiede zwischen zwei Annotationswerkzeugen, aber keine tiefere Analyse
- Sprachliche Unterschiede: Keine Unterscheidung zwischen Tschechisch- und Slowakisch-Leistung
- Hyperparameter nicht berichtet: LLM-Temperatur, top-p usw. nicht angegeben
- Inferenzkosten nicht berichtet: Tatsächliche Rechenkosten verschiedener Modellgrößen nicht verglichen
- Robustheit nicht validiert: Nicht getestet auf Robustheit gegenüber Prompt-Variationen, Textlänge usw.
- Lückenfüllung: Erster Tschechisch-/Slowakisch-Span-Level-Evidenzdatensatz
- Methodologischer Beitrag: Ungarisches Matching zur Span-Ausrichtungsbewertung
- Empirische Einsichten: Empirischer Beweis für abnehmende Erträge der Modellgröße
- Modellauswahl-Anleitung: Bietet Empfehlungen für das beste Preis-Leistungs-Verhältnis-Modell für praktische Bereitstellung
- Problembewusstsein: Warnt Forscher vor LLM-Anweisungsbefolgungsproblemen
- Anwendungsszenarien: Bietet technischen Weg für Online-Diskussionsverwaltung
- Stärken:
- Vollständige Prompts bereitgestellt (Anhang B)
- Verwendung von Open-Source-Modellen (größtenteils)
- Detaillierte Methodenbeschreibung
- Mängel:
- Datensatz nicht veröffentlicht (im Artikel nicht erwähnt)
- Code nicht open-source
- Spezifische Hyperparameter fehlen
- Online-Diskussionsverwaltung: Automatische Bereitstellung von Faktenüberprüfungsevidenz für Kommentare
- Nachrichtenplattformen: Ergänzung von Benutzerkommentaren mit Kontextinformationen
- Bildungsanwendungen: Hilfe für Schüler beim Erlernen der Evidenzidentifikation
- Forschungswerkzeuge: Unterstützung von Forschern bei Literaturübersichten
- Hochrisiko-Entscheidungen: Medizin, Recht usw., die 100% Genauigkeit erfordern (Fehlerquote immer noch hoch)
- Echtzeit-Anwendungen: Übergroße Modelle (685B) haben zu hohe Rechenkosten
- Ressourcenarm Sprachen: Wirksamkeit der Methode in anderen Sprachen nicht validiert
- Lange Dokumente: Verarbeitung langer Texte nicht getestet
- Empfohlene Modelle: qwen3:14b oder deepseek-r1:32b (Balance zwischen Leistung und Kosten)
- Notwendige Verbesserungen: Implementierung von Constrained Decoding zur Reduktion der Fehlerquote
- Menschliche Überprüfung: Behalten Sie menschliche Überprüfung in hochriskanten Anwendungen bei
- Mehrsprachige Erweiterung: Erfordert Neubewertung für Zielsprachen
- FEVER (Thorne et al., 2018): Großer Datensatz zur Faktextraktion und -verifizierung, Evidenz auf Satzebene
- SciFact (Wadden et al., 2020): Wissenschaftliche Aussagenverifizierung, Begründungsannotationen auf Satzebene
- AmbiFC (Glockner et al., 2024): Faktenüberprüfung mit Mehrdeutigkeit, betont Bedeutung feinkörniger Evidenz
- DeepSeek-R1 (Guo et al., 2025): LLM mit durch verstärkendes Lernen angeregtem Reasoning
- Llama 3 (Grattafiori et al., 2024): Metas Open-Source-LLM-Serie
- Ungarischer Algorithmus (Kuhn, 1955): Klassischer Algorithmus für Zuordnungsprobleme, verwendet für Span-Matching
Dieser Artikel leistet einen wertvollen Beitrag zu einer wichtigen, aber wenig erforschten Aufgabe der feinkörnigen Evidenzextraktion in der Faktenüberprüfung. Die größten Stärken sind die Konstruktion des ersten Span-Level-annotierten Tschechisch-/Slowakisch-Datensatzes und die Offenbarung der Fähigkeiten und Grenzen von LLMs bei dieser Aufgabe — insbesondere die abnehmenden Erträge der Modellgröße und das ausgezeichnete Preis-Leistungs-Verhältnis mittlerer Modelle.
Jedoch sind die Haupteinschränkungen die kleine Stichprobengröße (186), hohe Fehlerquoten (einige Modelle > 50%) und mögliche Bewertungsverzerrungen durch Ausschluss ungültiger Stichproben. Zukünftige Arbeiten müssen dringend Constrained Decoding-Mechanismen implementieren und die Datensatzgröße erweitern.
Trotz dieser Mängel bietet dieser Artikel eine wichtige empirische Grundlage und methodologische Beiträge für die Konstruktion automatisierter Faktenüberprüfungssysteme, besonders für ressourcenärmere Sprachen. Empfohlene Bewertung: 4/5 — Wertvolle explorative Forschung, aber zukünftige Arbeiten sind erforderlich, um technische Probleme zu lösen, bevor praktische Bereitstellung möglich ist.