2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

I LLM possono estrarre prove a grana fine simili agli umani per il fact-checking basato su prove?

Informazioni Fondamentali

ID Articolo: 2511.21401
Titolo: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
Autori: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Brno University of Technology, Repubblica Ceca)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: 26 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.21401

Riassunto

Questo articolo indaga la capacità dei modelli linguistici di grandi dimensioni (LLM) di estrarre prove a grana fine in scenari di fact-checking, con particolare attenzione al ceco e allo slovacco. Lo studio costruisce un dataset con doppia annotazione contenente 186 campioni, ciascuno annotato da due annotatori indipendenti per le prove a grana fine. Valuta 17 LLM di diverse dimensioni (da 4B a 685B parametri), scoprendo che: (1) gli LLM spesso non riescono a copiare letteralmente le prove dal testo sorgente, producendo output non validi; (2) il modello llama3.1:8b, nonostante le dimensioni ridotte, ha un'elevata precisione, mentre gpt-oss-120b, nonostante i numerosi parametri, ha prestazioni scadenti; (3) qwen3:14b, deepseek-r1:32b e gpt-oss:20b raggiungono un equilibrio efficace tra dimensioni del modello e allineamento con le annotazioni umane.

Contesto di Ricerca e Motivazione

1. Problema da Risolvere

Le sezioni commenti degli articoli di notizie online sono un luogo importante per la diffusione di disinformazione. Per gestire efficacemente le discussioni online e contrastare la disinformazione, sono necessari sistemi automatizzati in grado di:

Estrarre affermazioni verificabili dai commenti degli utenti
Recuperare documenti affidabili pertinenti
Localizzare con precisione nel documento i frammenti di testo che supportano o confutano l'affermazione (prove a grana fine)

Questo articolo si concentra sull'ultimo compito — l'estrazione di prove a grana fine.

2. Importanza del Problema

Esigenze degli utenti: Più di 3/4 degli utenti desiderano risposte di esperti alle discussioni nei commenti, ma le risposte manuali non sono pratiche
Efficienza e Persuasività: Fornire l'intero documento come prova è troppo grossolano, mentre frammenti di testo a grana fine consentono ai lettori di valutare rapidamente senza compromettere l'accuratezza del giudizio
Pratiche Piattaforma: La piattaforma X (precedentemente Twitter) utilizza "Community Notes", mentre Seznam.cz integra informazioni di fact-checking per commenti selezionati

3. Limitazioni dei Metodi Esistenti

Prove a Grana Grossa: I sistemi automatici di fact-checking esistenti (come FactLens, Loki) forniscono solo prove a livello di paragrafo
Mancanza di Dataset: FEVER e SciFact forniscono prove a livello di frase, ma non esistono dataset per il ceco/slovacco, e i dataset esistenti hanno la massima granularità solo a livello di frase, non a livello di span
Capacità LLM Sconosciute: Sebbene le capacità di ragionamento degli LLM continuino a migliorare, il loro allineamento con le annotazioni umane nel compito di estrazione di prove a grana fine non è stato ancora valutato sistematicamente

4. Motivazione della Ricerca

Verificare se gli LLM possono identificare ed estrarre prove a grana fine come gli umani, fornendo una base tecnologica per la costruzione di sistemi automatici di fact-checking.

Contributi Principali

Costruzione di Nuovo Dataset: Creazione di un dataset contenente 186 coppie affermazione-testo in ceco/slovacco, con ogni campione annotato da due annotatori indipendenti per le prove a grana fine, colmando il vuoto per questa coppia linguistica e l'annotazione a livello di span
Valutazione Sistematica degli LLM: Valutazione di 17 LLM di diverse dimensioni (inclusi modelli di ragionamento come DeepSeek-R1 da 685B, gpt-oss da 120B, nonché modelli open-weight come Gemma-3 e Phi4) sulle prestazioni di estrazione di prove a grana fine
Analisi del Tasso di Errore e dell'Allineamento:
- Analisi del tasso di errore di output non validi generati dagli LLM
- Valutazione dell'allineamento con le annotazioni umane utilizzando l'algoritmo di matching ungherese e Token-F1
- Scoperta della relazione non lineare tra dimensioni del modello e prestazioni
Identificazione del Modello Ottimale: Scoperta che i modelli di dimensioni medie (14B-32B) raggiungono il miglior equilibrio tra efficienza e accuratezza

Dettagli del Metodo

Definizione del Compito

Dichiarazione del Problema: Dato un'affermazione e un testo tokenizzato t = (t₁, t₂, ..., tₙ), selezionare un insieme di span S = {s₁, s₂, ..., sₘ}, dove ogni span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) rappresenta una sottosequenza continua che supporta l'affermazione.

Vincoli Chiave:

Gli span devono essere sottosequenze continue nel testo
Selezionare frammenti di testo minimizzati
È possibile selezionare più span
Gli span dovrebbero supportare direttamente la veridicità dell'affermazione

Metodo di Costruzione dei Dati

Processo di Doppia Annotazione

Raccolta Campioni: 186 coppie affermazione-testo
Pool di Annotatori: 8 annotatori non esperti retribuiti
Annotazione Indipendente: Ogni campione annotato indipendentemente da due diversi annotatori
Strumenti di Annotazione:
- Prima annotazione: Strumento di annotazione personalizzato
- Seconda annotazione: Label Studio
Linee Guida di Annotazione:
"Evidenziare la parte di testo minima che supporta o confuta l'affermazione. Evidenziare la parte che vi convince maggiormente che l'affermazione sia vera."

Caratteristiche dell'Annotazione

Gli annotatori umani evidenziano direttamente il testo, assicurando che gli span selezionati siano sottosequenze continue nel testo sorgente
Gli LLM devono rigenerare il testo dello span, potendo produrre output non presenti nel testo sorgente

Metodo di Estrazione di Prove da LLM

Selezione dei Modelli

Sono stati valutati tre classi di modelli:

1. LLM Standard (9 modelli):

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. Modelli di Ragionamento Chain-of-Thought (CoT) (8 modelli):

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

Ingegneria dei Prompt

L'input ricevuto dagli LLM include:

Il commento originale (fornisce contesto)
L'affermazione estratta
Il testo da cui estrarre le prove

Istruzioni Chiave:

Identificare la parte di testo minima che supporta direttamente l'affermazione
Selezionare la frase che meglio prova la veridicità dell'affermazione
Evitare di selezionare intere frasi, a meno che non sia assolutamente necessario
È possibile selezionare più span
Non modificare, correggere o riscrivere il testo, conservare tutti gli errori grammaticali e sintattici
Output in formato JSON: {"spans": [...]}
Ogni span deve essere una sottostringa esatta del testo sorgente (identico carattere per carattere)

Metodi di Base

1. Baseline di Affermazione:

Tokenizzare l'affermazione in c = (c₁, c₂, ..., cₒ)
Abbinare la sequenza di parole dell'affermazione nel testo
Costruire l'insieme di span Sᴄ

2. Baseline di Query:

Utilizzare le parole di query utilizzate dagli annotatori durante la ricerca di prove
Stesso metodo di abbinamento del baseline di affermazione

3. Baseline Casuale:

Campionare casualmente span continui
Numero e lunghezza degli span corrispondono a un annotatore selezionato casualmente

Metodo di Valutazione

Pre-elaborazione

Rimuovere le parole vuote da tutti gli insiemi di prove (vedere Appendice A, contenente parole vuote comuni in ceco/slovacco come "a", "je", "to", ecc.)

Calcolo Token-F1

F1 di Coppie di Span: Calcolare il punteggio F1 a livello di token per tutte le possibili coppie di span nei due insiemi di annotazioni
Matching Ungherese: Utilizzare l'algoritmo ungherese per trovare l'assegnazione ottimale, massimizzando l'F1 totale
Punteggio Finale: L'F1 medio dell'assegnazione ottimale funge da Token-F1 a livello di token per un singolo punto dati

Razionale: Poiché gli annotatori e gli LLM potrebbero selezionare diversi numeri di span (diversi livelli di completezza), l'uso dell'algoritmo ungherese evita di penalizzare questa differenza.

Metriche di Valutazione

Tasso di Errore: Proporzione di output non validi (gli span generati non sono nel testo sorgente)
Token-F1: Grado di allineamento con le annotazioni umane
Concordanza Interannotatore: Punteggio F1 tra i due annotatori

Configurazione Sperimentale

Dataset

Dimensione: 186 campioni
Lingua: Ceco e Slovacco
Annotazione: 2 annotazioni indipendenti per campione
Fonte: Affermazioni verificabili da commenti di notizie online
Documenti: Documenti altamente rilevanti trovati dagli annotatori utilizzando motori di ricerca

Metriche di Valutazione

Invalid %: Percentuale di output non validi (gli span generati non sono nel testo sorgente)
Token-F1: Punteggio F1 a livello di token basato su matching ungherese (scala 0-100)
Max F1: Punteggio F1 più alto rispetto ai due annotatori (riflette l'allineamento con almeno un annotatore)

Metodi di Confronto

Annotazione Umana: ann 1 (LS) e ann 2
17 LLM: Diverse dimensioni e architetture
3 Baseline: random, claim, query

Dettagli di Implementazione

Utilizzo dello stesso template di prompt (vedere Appendice B)
Output in formato JSON
Nessun vincolo tecnico forzato (consentire la generazione di span non nel testo sorgente per osservare gli errori)
Calcolo F1 dopo la rimozione delle parole vuote

Risultati Sperimentali

Risultati Principali

1. Analisi del Tasso di Errore (Figura 1)

Tassi di Errore Più Bassi:

qwen2.5:72b: 4,3% (migliore, 72B parametri)
deepseek-r1: 7,0% (685B parametri)
llama3.1:8b: 13,4% (solo 8B parametri, prestazioni eccellenti)

Tassi di Errore Più Alti:

mixtral:8x7b: 61,8% (peggiore, 7B parametri effettivi)
gemma3:4b: 57,5% (4B parametri)
qwen3:14b: 40,3%

Casi Anomali:

gpt-oss-120b: 32,8% (120B parametri ma tasso di errore elevato, non come previsto)
llama3.3:70b: 27,4% (70B parametri ma tasso di errore relativamente elevato)

Tendenza Generale: Generalmente, maggiori sono le dimensioni del modello, minore è il tasso di errore, ma esistono eccezioni significative.

2. Analisi delle Prestazioni di Estrazione (Figura 2)

Concordanza Interannotatore:

ann 1 (LS) vs ann 2: F1 = 48

Migliori Prestazioni degli LLM (vs ann 1 (LS)):

qwen3:14b: F1 = 56 (supera la concordanza umana)
deepseek-r1:32b: F1 = 55 (supera la concordanza umana)
deepseek-r1 (685B): F1 = 38
qwen2.5:72b: F1 = 43

Allineamento con ann 2:

Tutti gli LLM hanno punteggi F1 con ann 2 inferiori rispetto a quelli con ann 1 (LS)
Indica che i due ambienti di annotazione hanno prodotto stili di annotazione diversi

Prestazioni dei Baseline:

Baseline di affermazione: F1 = 17 (precisione circa 30, richiamo molto basso)
Baseline di query: F1 = 12
Baseline casuale: F1 = 10

Tutti i metodi baseline non neurali hanno prestazioni deboli (F1 < 18).

3. Relazione tra Dimensioni del Modello e Prestazioni (Figura 3)

Scoperte Chiave:

Piccole a Medie Dimensioni: Le prestazioni migliorano con l'aumento delle dimensioni
Dimensioni Molto Grandi: DeepSeek-R1 da 685B e gpt-oss da 120B non portano ulteriori miglioramenti
Punto di Equilibrio Ottimale:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45

Conclusione: Oltre una certa soglia, l'aumento dei parametri non migliora ulteriormente le prestazioni di estrazione.

Esperimenti di Ablazione

Sebbene l'articolo non conduca esperimenti di ablazione tradizionali, il confronto tra diversi modelli implica le seguenti analisi:

Impatto dell'Architettura del Modello:

I modelli di ragionamento (CoT) non superano costantemente i modelli standard
DeepSeek-R1:32b ha prestazioni eccellenti, ma DeepSeek-R1 (685B) non è migliore

Impatto delle Dimensioni del Modello:

Llama3.1 da 8B supera molti modelli più grandi
Suggerisce che la qualità del modello e i dati di addestramento sono più importanti della pura dimensione

Impatto dello Strumento di Annotazione:

Esiste una differenza sistematica tra l'annotazione con Label Studio (ann 1) e lo strumento personalizzato (ann 2)
Tutti gli LLM sono più vicini all'annotazione con Label Studio

Analisi di Casi

L'articolo non fornisce casi specifici, ma dalla descrizione del metodo si può dedurre:

Esempio di Annotazione Umana:

Evidenziare direttamente nell'interfaccia il frammento di testo minimo pertinente
Potrebbe includere testo originale con errori grammaticali

Esempio di Output LLM (dedotto):

Caso Corretto: Copia esatta dello span del testo sorgente
Caso Errato: Riscrittura, correzione grammaticale, o generazione di testo inesistente

Scoperte Sperimentali

Relazione Non Monotona delle Dimensioni del Modello: I modelli di dimensioni medie potrebbero superare i modelli molto grandi
Differenze nella Capacità di Seguire Istruzioni: Molti LLM non riescono a seguire rigorosamente l'istruzione di "copia letterale"
Impatto dell'Ambiente di Annotazione: Diversi strumenti di annotazione producono annotazioni di granularità diversa
Limitazioni dei Metodi di Base: I semplici metodi di abbinamento di parole hanno una precisione ragionevole ma un richiamo molto basso
Capacità Multilingue: Gli LLM hanno prestazioni ragionevoli in ceco/slovacco, provando le loro capacità multilingui
Relazione Imperfetta tra Tasso di Errore e Allineamento: Un basso tasso di errore non significa necessariamente un alto F1 (ad es., qwen2.5:72b)

Lavori Correlati

1. Fact-Checking Automatico

FactLens:

Scompone affermazioni complesse in sotto-affermazioni
Valuta indipendentemente la veridicità di ogni sotto-affermazione
Limitazione: Fornisce solo prove a livello di paragrafo

Loki:

Processo automatizzato: Identificare affermazioni verificabili → Recuperare prove → Verificare
Limitazione: Le prove rimangono a livello di paragrafo

AmbiFC:

Introduce ambiguità, consentendo più annotazioni a livello di frase
Mostra l'importanza della selezione di prove a livello di frase
Ma l'annotazione effettiva rimane a livello di paragrafo

2. Dataset di Fact-Checking

FEVER:

Affermazioni generiche, provenienti da Wikipedia
Prove a livello di frase
Dati in inglese

SciFact:

Annotazione di motivazioni negli abstract di articoli scientifici
Prove a livello di frase
Dati in inglese

Unicità del Dataset di Questo Articolo:

Ceco/Slovacco
Prove a livello di span (più granulare del livello di frase)
Doppia annotazione

3. Capacità di Ragionamento degli LLM

Leggi di Scala:

Le prestazioni migliorano con le dimensioni del modello, i miglioramenti architettonici e le capacità di ragionamento
Ma questo articolo scopre rendimenti decrescenti

Capacità Multilingue:

Lavori precedenti mostrano che gli LLM hanno forti capacità di ragionamento su dataset in ceco e slovacco
Questo articolo verifica l'applicabilità a compiti di estrazione di prove a grana fine

Posizionamento di Questo Articolo

Prima valutazione sistematica degli LLM sulle prestazioni di estrazione di prove a grana fine a livello di span
Primo dataset di prove a grana fine per ceco/slovacco
Rivela la relazione non lineare tra dimensioni del modello e prestazioni

Conclusioni e Discussione

Conclusioni Principali

Contributo del Dataset: Costruzione del primo dataset ceco/slovacco di prove a grana fine a livello di span, con concordanza interannotatore F1 di 47
Tasso di Errore e Dimensioni del Modello:
- Esiste una relazione evidente: i modelli piccoli (gemma3 da 4B, mixtral da 8B) hanno tassi di errore > 50%
- È necessario adottare meccanismi di decodifica vincolata
Rendimenti Decrescenti delle Prestazioni:
- Piccole a medie dimensioni: Miglioramento delle prestazioni
- Dimensioni molto grandi (685B, 120B): Nessun ulteriore miglioramento
- Equilibrio Ottimale: qwen3 da 14B, deepseek-r1 da 32B, gpt-oss da 20B
Superamento dell'Allineamento Umano: Alcuni LLM (qwen3:14b, deepseek-r1:32b) hanno punteggi F1 che superano la concordanza interannotatore (ma solo su campioni validi)

Limitazioni

Dimensioni del Dataset:
- Solo 186 campioni
- Alcuni modelli producono fino a 116 output non validi
- Potrebbe introdurre distorsioni di valutazione
Distorsione di Valutazione:
- L'esclusione di output non validi potrebbe rimuovere campioni più difficili
- Artificialmente aumenta gli indicatori di prestazione di alcuni modelli
Compito Singolo:
- Focalizzato solo su prove di supporto
- Non analizza le prove di confutazione
Limitazione Linguistica:
- Copre solo ceco e slovacco
- La capacità di generalizzazione ad altre lingue è sconosciuta
Differenze di Annotazione:
- Due strumenti di annotazione producono differenze sistematiche
- Necessita ulteriore analisi delle cause
Generazione Senza Vincoli:
- Non forza tecnicamente che gli span debbano essere nel testo sorgente
- Risulta in alto tasso di errore

Direzioni Future

Decodifica Vincolata:
- Implementare decodifica vincolata o generazione di output strutturato
- Forzare la generazione di prove semanticamente e strutturalmente valide
- Ridurre significativamente gli output non validi
Prove di Confutazione:
- Condurre la stessa analisi su prove di confutazione
- Perfezionare il processo di fact-checking
Espansione del Dataset:
- Aumentare il numero di campioni
- Migliorare la significatività statistica
Analisi delle Differenze di Annotazione:
- Analizzare in profondità le differenze tra i due ambienti di annotazione
- Unificare gli standard di annotazione
Sistema End-to-End:
- Integrare estrazione di affermazioni, recupero di documenti ed estrazione di prove
- Costruire un sistema completo di fact-checking automatico
Espansione Multilingue:
- Estendere ad altre lingue
- Valutare la capacità di generalizzazione cross-linguistica

Valutazione Approfondita

Punti di Forza

1. Innovazione Metodologica

Annotazione a Livello di Span Innovativa: Più granulare del livello di frase esistente, più adatta alle esigenze di applicazione pratica
Design di Doppia Annotazione: Consente il calcolo della concordanza interannotatore, fornendo un benchmark per la valutazione degli LLM
Algoritmo di Matching Ungherese: Risolve elegantemente il problema dell'allineamento di diversi livelli di completezza, evitando penalizzazioni ingiuste

2. Completezza Sperimentale

Copertura Modello Completa: 17 LLM, parametri da 4B a 685B, coprendo modelli standard e modelli di ragionamento
Analisi Multidimensionale: Tasso di errore, grado di allineamento, relazione tra dimensioni del modello
Confronto di Base: Include baseline non neurali e benchmark di annotazione umana

3. Intuizione dei Risultati

Scoperta Controintuitiva: Rivela la relazione non lineare tra dimensioni del modello e prestazioni
Valore Pratico: Identifica i modelli con il miglior rapporto prezzo-prestazioni (14B-32B)
Rapporto Onesto: Riporta onestamente i tassi di errore elevati e le distorsioni di valutazione

4. Chiarezza della Scrittura

Definizione del problema chiara (definizione formale)
Descrizione del metodo dettagliata (incluso il prompt completo)
Visualizzazione dei risultati chiara (Figure 1-3)

Insufficienze

1. Limitazioni Metodologiche

Generazione Senza Vincoli: Non forza gli span ad essere nel testo sorgente, risultando in 30%-60% di output non validi
Trattamento delle Parole Vuote: La semplice rimozione potrebbe perdere informazioni importanti
Prompt Singolo: Non esplora l'impatto di diverse strategie di prompt

2. Difetti della Configurazione Sperimentale

Dimensione Campione Piccola: 186 campioni potrebbero essere insufficienti per conclusioni robuste
Distorsione di Valutazione: L'esclusione di campioni non validi potrebbe distorcere il confronto delle prestazioni
Mancanza di Test di Significatività: Non riporta la significatività statistica
Esecuzione Singola: Non riporta la varianza di più esecuzioni

3. Analisi Insufficiente

Mancanza di Studi di Caso: Non mostra casi specifici di successo/fallimento
Mancanza di Analisi dei Tipi di Errore: Non differenzia i tipi di errore (riscrittura, allucinazione, troncamento, ecc.)
Differenze di Annotazione Non Spiegate: Scopre differenze sistematiche tra i due strumenti di annotazione ma non le analizza in profondità
Differenze Cross-Linguistiche: Non distingue le prestazioni tra ceco e slovacco

4. Dettagli Tecnici

Iperparametri Non Riportati: Le impostazioni di temperatura, top-p, ecc. degli LLM non sono specificate
Costi di Inferenza Non Riportati: I costi computazionali effettivi di modelli di diverse dimensioni non sono confrontati
Robustezza Non Verificata: Non testa la robustezza ai cambiamenti di prompt, lunghezza del testo, ecc.

Impatto

1. Contributi al Campo

Colmare il Vuoto: Primo dataset ceco/slovacco di prove a grana fine a livello di span
Contributo Metodologico: Metodo di valutazione dell'allineamento di span utilizzando matching ungherese
Intuizione Empirica: Evidenza empirica dei rendimenti decrescenti delle dimensioni del modello

2. Valore Pratico

Guida alla Selezione del Modello: Fornisce raccomandazioni di modelli con il miglior rapporto prezzo-prestazioni per il deployment pratico
Consapevolezza del Problema: Ricorda ai ricercatori di prestare attenzione al problema del seguire istruzioni degli LLM
Percorso di Applicazione: Fornisce un percorso tecnologico per la gestione delle discussioni online

3. Riproducibilità

Punti di Forza:
- Fornisce prompt completi (Appendice B)
- Utilizza modelli open-source (la maggior parte)
- Descrizione del metodo dettagliata
Insufficienze:
- Il dataset non è reso pubblico (l'articolo non menziona piani di rilascio)
- Il codice non è open-source
- Iperparametri specifici mancanti

Scenari Applicabili

Scenari Appropriati

Gestione delle Discussioni Online: Fornire automaticamente prove di fact-checking per i commenti
Piattaforme di Notizie: Integrare informazioni di fact-checking per i commenti degli utenti
Applicazioni Educative: Aiutare gli studenti a imparare come identificare le prove
Strumenti di Ricerca: Assistere i ricercatori nella revisione della letteratura

Scenari Non Appropriati

Decisioni ad Alto Rischio: Scenari medici, legali, ecc. che richiedono accuratezza del 100% (il tasso di errore è ancora elevato)
Applicazioni in Tempo Reale: I modelli molto grandi (685B) hanno costi computazionali troppo elevati
Lingue a Basse Risorse: L'efficacia del metodo in altre lingue non è stata verificata
Documenti Lunghi: Non è stato testato il trattamento di testi lunghi

Raccomandazioni di Deployment

Modello Consigliato: qwen3:14b o deepseek-r1:32b (equilibrio tra prestazioni e costo)
Miglioramenti Necessari: Implementare decodifica vincolata per ridurre il tasso di errore
Revisione Umana: Mantenere la revisione umana in applicazioni ad alto rischio
Espansione Multilingue: Necessita di rivalutazione per le lingue target

Riferimenti Bibliografici (Riferimenti Chiave)

FEVER (Thorne et al., 2018): Dataset di estrazione e verifica di fatti su larga scala, prove a livello di frase
SciFact (Wadden et al., 2020): Verifica di affermazioni scientifiche, annotazione di motivazioni a livello di frase
AmbiFC (Glockner et al., 2024): Fact-checking con ambiguità, enfatizza l'importanza di prove a grana fine
DeepSeek-R1 (Guo et al., 2025): LLM che incentiva il ragionamento attraverso l'apprendimento per rinforzo
Llama 3 (Grattafiori et al., 2024): Serie di LLM open-source di Meta
Algoritmo Ungherese (Kuhn, 1955): Algoritmo classico per problemi di assegnazione, utilizzato per l'abbinamento di span

Valutazione Riassuntiva

Questo articolo affronta il compito importante ma poco studiato dell'estrazione di prove a grana fine nel fact-checking, fornendo contributi di valore. Il punto di forza principale è la costruzione del primo dataset ceco/slovacco con annotazione a livello di span, e la rivelazione delle capacità e limitazioni degli LLM in questo compito — in particolare la relazione non lineare tra dimensioni del modello e prestazioni e l'eccellente rapporto prezzo-prestazioni dei modelli di dimensioni medie.

Tuttavia, le limitazioni principali risiedono nella piccola dimensione del campione (186 campioni), nel tasso di errore elevato (alcuni modelli > 50%) e nella possibile distorsione di valutazione introdotta dall'esclusione di campioni non validi. I lavori futuri necessitano urgentemente di implementare meccanismi di decodifica vincolata e di espandere la dimensione del dataset.

Nonostante le insufficienze, questo articolo fornisce una base empirica importante e contributi metodologici per la costruzione di sistemi automatici di fact-checking, in particolare per le lingue con risorse relativamente limitate. Indice di Raccomandazione: 4/5 — Ricerca esplorativa di valore, ma richiede lavori successivi per risolvere i problemi tecnici prima del deployment pratico.