Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
- ID Articolo: 2511.21401
- Titolo: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
- Autori: Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Brno University of Technology, Repubblica Ceca)
- Classificazione: cs.CL (Linguistica Computazionale)
- Data di Pubblicazione: 26 novembre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2511.21401
Questo articolo indaga la capacità dei modelli linguistici di grandi dimensioni (LLM) di estrarre prove a grana fine in scenari di fact-checking, con particolare attenzione al ceco e allo slovacco. Lo studio costruisce un dataset con doppia annotazione contenente 186 campioni, ciascuno annotato da due annotatori indipendenti per le prove a grana fine. Valuta 17 LLM di diverse dimensioni (da 4B a 685B parametri), scoprendo che: (1) gli LLM spesso non riescono a copiare letteralmente le prove dal testo sorgente, producendo output non validi; (2) il modello llama3.1:8b, nonostante le dimensioni ridotte, ha un'elevata precisione, mentre gpt-oss-120b, nonostante i numerosi parametri, ha prestazioni scadenti; (3) qwen3:14b, deepseek-r1:32b e gpt-oss:20b raggiungono un equilibrio efficace tra dimensioni del modello e allineamento con le annotazioni umane.
Le sezioni commenti degli articoli di notizie online sono un luogo importante per la diffusione di disinformazione. Per gestire efficacemente le discussioni online e contrastare la disinformazione, sono necessari sistemi automatizzati in grado di:
- Estrarre affermazioni verificabili dai commenti degli utenti
- Recuperare documenti affidabili pertinenti
- Localizzare con precisione nel documento i frammenti di testo che supportano o confutano l'affermazione (prove a grana fine)
Questo articolo si concentra sull'ultimo compito — l'estrazione di prove a grana fine.
- Esigenze degli utenti: Più di 3/4 degli utenti desiderano risposte di esperti alle discussioni nei commenti, ma le risposte manuali non sono pratiche
- Efficienza e Persuasività: Fornire l'intero documento come prova è troppo grossolano, mentre frammenti di testo a grana fine consentono ai lettori di valutare rapidamente senza compromettere l'accuratezza del giudizio
- Pratiche Piattaforma: La piattaforma X (precedentemente Twitter) utilizza "Community Notes", mentre Seznam.cz integra informazioni di fact-checking per commenti selezionati
- Prove a Grana Grossa: I sistemi automatici di fact-checking esistenti (come FactLens, Loki) forniscono solo prove a livello di paragrafo
- Mancanza di Dataset: FEVER e SciFact forniscono prove a livello di frase, ma non esistono dataset per il ceco/slovacco, e i dataset esistenti hanno la massima granularità solo a livello di frase, non a livello di span
- Capacità LLM Sconosciute: Sebbene le capacità di ragionamento degli LLM continuino a migliorare, il loro allineamento con le annotazioni umane nel compito di estrazione di prove a grana fine non è stato ancora valutato sistematicamente
Verificare se gli LLM possono identificare ed estrarre prove a grana fine come gli umani, fornendo una base tecnologica per la costruzione di sistemi automatici di fact-checking.
- Costruzione di Nuovo Dataset: Creazione di un dataset contenente 186 coppie affermazione-testo in ceco/slovacco, con ogni campione annotato da due annotatori indipendenti per le prove a grana fine, colmando il vuoto per questa coppia linguistica e l'annotazione a livello di span
- Valutazione Sistematica degli LLM: Valutazione di 17 LLM di diverse dimensioni (inclusi modelli di ragionamento come DeepSeek-R1 da 685B, gpt-oss da 120B, nonché modelli open-weight come Gemma-3 e Phi4) sulle prestazioni di estrazione di prove a grana fine
- Analisi del Tasso di Errore e dell'Allineamento:
- Analisi del tasso di errore di output non validi generati dagli LLM
- Valutazione dell'allineamento con le annotazioni umane utilizzando l'algoritmo di matching ungherese e Token-F1
- Scoperta della relazione non lineare tra dimensioni del modello e prestazioni
- Identificazione del Modello Ottimale: Scoperta che i modelli di dimensioni medie (14B-32B) raggiungono il miglior equilibrio tra efficienza e accuratezza
Dichiarazione del Problema: Dato un'affermazione e un testo tokenizzato t = (t₁, t₂, ..., tₙ), selezionare un insieme di span S = {s₁, s₂, ..., sₘ}, dove ogni span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) rappresenta una sottosequenza continua che supporta l'affermazione.
Vincoli Chiave:
- Gli span devono essere sottosequenze continue nel testo
- Selezionare frammenti di testo minimizzati
- È possibile selezionare più span
- Gli span dovrebbero supportare direttamente la veridicità dell'affermazione
- Raccolta Campioni: 186 coppie affermazione-testo
- Pool di Annotatori: 8 annotatori non esperti retribuiti
- Annotazione Indipendente: Ogni campione annotato indipendentemente da due diversi annotatori
- Strumenti di Annotazione:
- Prima annotazione: Strumento di annotazione personalizzato
- Seconda annotazione: Label Studio
- Linee Guida di Annotazione:
"Evidenziare la parte di testo minima che supporta o confuta l'affermazione. Evidenziare la parte che vi convince maggiormente che l'affermazione sia vera."
- Gli annotatori umani evidenziano direttamente il testo, assicurando che gli span selezionati siano sottosequenze continue nel testo sorgente
- Gli LLM devono rigenerare il testo dello span, potendo produrre output non presenti nel testo sorgente
Sono stati valutati tre classi di modelli:
1. LLM Standard (9 modelli):
- qwen2.5 (72B, 32B)
- llama3.3 (70B)
- llama3.1 (8B)
- gemma2 (27B)
- gemma3 (27B, 12B, 4B)
- phi4 (14B)
- mixtral (8×7B)
2. Modelli di Ragionamento Chain-of-Thought (CoT) (8 modelli):
- deepseek-r1 (685B, 32B)
- gpt-oss (120B, 20B)
- qwen3 (32B, 14B)
L'input ricevuto dagli LLM include:
- Il commento originale (fornisce contesto)
- L'affermazione estratta
- Il testo da cui estrarre le prove
Istruzioni Chiave:
- Identificare la parte di testo minima che supporta direttamente l'affermazione
- Selezionare la frase che meglio prova la veridicità dell'affermazione
- Evitare di selezionare intere frasi, a meno che non sia assolutamente necessario
- È possibile selezionare più span
- Non modificare, correggere o riscrivere il testo, conservare tutti gli errori grammaticali e sintattici
- Output in formato JSON:
{"spans": [...]} - Ogni span deve essere una sottostringa esatta del testo sorgente (identico carattere per carattere)
1. Baseline di Affermazione:
- Tokenizzare l'affermazione in c = (c₁, c₂, ..., cₒ)
- Abbinare la sequenza di parole dell'affermazione nel testo
- Costruire l'insieme di span Sᴄ
2. Baseline di Query:
- Utilizzare le parole di query utilizzate dagli annotatori durante la ricerca di prove
- Stesso metodo di abbinamento del baseline di affermazione
3. Baseline Casuale:
- Campionare casualmente span continui
- Numero e lunghezza degli span corrispondono a un annotatore selezionato casualmente
Rimuovere le parole vuote da tutti gli insiemi di prove (vedere Appendice A, contenente parole vuote comuni in ceco/slovacco come "a", "je", "to", ecc.)
- F1 di Coppie di Span: Calcolare il punteggio F1 a livello di token per tutte le possibili coppie di span nei due insiemi di annotazioni
- Matching Ungherese: Utilizzare l'algoritmo ungherese per trovare l'assegnazione ottimale, massimizzando l'F1 totale
- Punteggio Finale: L'F1 medio dell'assegnazione ottimale funge da Token-F1 a livello di token per un singolo punto dati
Razionale: Poiché gli annotatori e gli LLM potrebbero selezionare diversi numeri di span (diversi livelli di completezza), l'uso dell'algoritmo ungherese evita di penalizzare questa differenza.
- Tasso di Errore: Proporzione di output non validi (gli span generati non sono nel testo sorgente)
- Token-F1: Grado di allineamento con le annotazioni umane
- Concordanza Interannotatore: Punteggio F1 tra i due annotatori
- Dimensione: 186 campioni
- Lingua: Ceco e Slovacco
- Annotazione: 2 annotazioni indipendenti per campione
- Fonte: Affermazioni verificabili da commenti di notizie online
- Documenti: Documenti altamente rilevanti trovati dagli annotatori utilizzando motori di ricerca
- Invalid %: Percentuale di output non validi (gli span generati non sono nel testo sorgente)
- Token-F1: Punteggio F1 a livello di token basato su matching ungherese (scala 0-100)
- Max F1: Punteggio F1 più alto rispetto ai due annotatori (riflette l'allineamento con almeno un annotatore)
- Annotazione Umana: ann 1 (LS) e ann 2
- 17 LLM: Diverse dimensioni e architetture
- 3 Baseline: random, claim, query
- Utilizzo dello stesso template di prompt (vedere Appendice B)
- Output in formato JSON
- Nessun vincolo tecnico forzato (consentire la generazione di span non nel testo sorgente per osservare gli errori)
- Calcolo F1 dopo la rimozione delle parole vuote
Tassi di Errore Più Bassi:
- qwen2.5:72b: 4,3% (migliore, 72B parametri)
- deepseek-r1: 7,0% (685B parametri)
- llama3.1:8b: 13,4% (solo 8B parametri, prestazioni eccellenti)
Tassi di Errore Più Alti:
- mixtral:8x7b: 61,8% (peggiore, 7B parametri effettivi)
- gemma3:4b: 57,5% (4B parametri)
- qwen3:14b: 40,3%
Casi Anomali:
- gpt-oss-120b: 32,8% (120B parametri ma tasso di errore elevato, non come previsto)
- llama3.3:70b: 27,4% (70B parametri ma tasso di errore relativamente elevato)
Tendenza Generale: Generalmente, maggiori sono le dimensioni del modello, minore è il tasso di errore, ma esistono eccezioni significative.
Concordanza Interannotatore:
- ann 1 (LS) vs ann 2: F1 = 48
Migliori Prestazioni degli LLM (vs ann 1 (LS)):
- qwen3:14b: F1 = 56 (supera la concordanza umana)
- deepseek-r1:32b: F1 = 55 (supera la concordanza umana)
- deepseek-r1 (685B): F1 = 38
- qwen2.5:72b: F1 = 43
Allineamento con ann 2:
- Tutti gli LLM hanno punteggi F1 con ann 2 inferiori rispetto a quelli con ann 1 (LS)
- Indica che i due ambienti di annotazione hanno prodotto stili di annotazione diversi
Prestazioni dei Baseline:
- Baseline di affermazione: F1 = 17 (precisione circa 30, richiamo molto basso)
- Baseline di query: F1 = 12
- Baseline casuale: F1 = 10
Tutti i metodi baseline non neurali hanno prestazioni deboli (F1 < 18).
Scoperte Chiave:
- Piccole a Medie Dimensioni: Le prestazioni migliorano con l'aumento delle dimensioni
- Dimensioni Molto Grandi: DeepSeek-R1 da 685B e gpt-oss da 120B non portano ulteriori miglioramenti
- Punto di Equilibrio Ottimale:
- qwen3:14b: Max F1 ≈ 0,56
- deepseek-r1:32b: Max F1 ≈ 0,55
- gpt-oss:20b: Max F1 ≈ 0,45
Conclusione: Oltre una certa soglia, l'aumento dei parametri non migliora ulteriormente le prestazioni di estrazione.
Sebbene l'articolo non conduca esperimenti di ablazione tradizionali, il confronto tra diversi modelli implica le seguenti analisi:
Impatto dell'Architettura del Modello:
- I modelli di ragionamento (CoT) non superano costantemente i modelli standard
- DeepSeek-R1:32b ha prestazioni eccellenti, ma DeepSeek-R1 (685B) non è migliore
Impatto delle Dimensioni del Modello:
- Llama3.1 da 8B supera molti modelli più grandi
- Suggerisce che la qualità del modello e i dati di addestramento sono più importanti della pura dimensione
Impatto dello Strumento di Annotazione:
- Esiste una differenza sistematica tra l'annotazione con Label Studio (ann 1) e lo strumento personalizzato (ann 2)
- Tutti gli LLM sono più vicini all'annotazione con Label Studio
L'articolo non fornisce casi specifici, ma dalla descrizione del metodo si può dedurre:
Esempio di Annotazione Umana:
- Evidenziare direttamente nell'interfaccia il frammento di testo minimo pertinente
- Potrebbe includere testo originale con errori grammaticali
Esempio di Output LLM (dedotto):
- Caso Corretto: Copia esatta dello span del testo sorgente
- Caso Errato: Riscrittura, correzione grammaticale, o generazione di testo inesistente
- Relazione Non Monotona delle Dimensioni del Modello: I modelli di dimensioni medie potrebbero superare i modelli molto grandi
- Differenze nella Capacità di Seguire Istruzioni: Molti LLM non riescono a seguire rigorosamente l'istruzione di "copia letterale"
- Impatto dell'Ambiente di Annotazione: Diversi strumenti di annotazione producono annotazioni di granularità diversa
- Limitazioni dei Metodi di Base: I semplici metodi di abbinamento di parole hanno una precisione ragionevole ma un richiamo molto basso
- Capacità Multilingue: Gli LLM hanno prestazioni ragionevoli in ceco/slovacco, provando le loro capacità multilingui
- Relazione Imperfetta tra Tasso di Errore e Allineamento: Un basso tasso di errore non significa necessariamente un alto F1 (ad es., qwen2.5:72b)
FactLens:
- Scompone affermazioni complesse in sotto-affermazioni
- Valuta indipendentemente la veridicità di ogni sotto-affermazione
- Limitazione: Fornisce solo prove a livello di paragrafo
Loki:
- Processo automatizzato: Identificare affermazioni verificabili → Recuperare prove → Verificare
- Limitazione: Le prove rimangono a livello di paragrafo
AmbiFC:
- Introduce ambiguità, consentendo più annotazioni a livello di frase
- Mostra l'importanza della selezione di prove a livello di frase
- Ma l'annotazione effettiva rimane a livello di paragrafo
FEVER:
- Affermazioni generiche, provenienti da Wikipedia
- Prove a livello di frase
- Dati in inglese
SciFact:
- Annotazione di motivazioni negli abstract di articoli scientifici
- Prove a livello di frase
- Dati in inglese
Unicità del Dataset di Questo Articolo:
- Ceco/Slovacco
- Prove a livello di span (più granulare del livello di frase)
- Doppia annotazione
Leggi di Scala:
- Le prestazioni migliorano con le dimensioni del modello, i miglioramenti architettonici e le capacità di ragionamento
- Ma questo articolo scopre rendimenti decrescenti
Capacità Multilingue:
- Lavori precedenti mostrano che gli LLM hanno forti capacità di ragionamento su dataset in ceco e slovacco
- Questo articolo verifica l'applicabilità a compiti di estrazione di prove a grana fine
- Prima valutazione sistematica degli LLM sulle prestazioni di estrazione di prove a grana fine a livello di span
- Primo dataset di prove a grana fine per ceco/slovacco
- Rivela la relazione non lineare tra dimensioni del modello e prestazioni
- Contributo del Dataset: Costruzione del primo dataset ceco/slovacco di prove a grana fine a livello di span, con concordanza interannotatore F1 di 47
- Tasso di Errore e Dimensioni del Modello:
- Esiste una relazione evidente: i modelli piccoli (gemma3 da 4B, mixtral da 8B) hanno tassi di errore > 50%
- È necessario adottare meccanismi di decodifica vincolata
- Rendimenti Decrescenti delle Prestazioni:
- Piccole a medie dimensioni: Miglioramento delle prestazioni
- Dimensioni molto grandi (685B, 120B): Nessun ulteriore miglioramento
- Equilibrio Ottimale: qwen3 da 14B, deepseek-r1 da 32B, gpt-oss da 20B
- Superamento dell'Allineamento Umano: Alcuni LLM (qwen3:14b, deepseek-r1:32b) hanno punteggi F1 che superano la concordanza interannotatore (ma solo su campioni validi)
- Dimensioni del Dataset:
- Solo 186 campioni
- Alcuni modelli producono fino a 116 output non validi
- Potrebbe introdurre distorsioni di valutazione
- Distorsione di Valutazione:
- L'esclusione di output non validi potrebbe rimuovere campioni più difficili
- Artificialmente aumenta gli indicatori di prestazione di alcuni modelli
- Compito Singolo:
- Focalizzato solo su prove di supporto
- Non analizza le prove di confutazione
- Limitazione Linguistica:
- Copre solo ceco e slovacco
- La capacità di generalizzazione ad altre lingue è sconosciuta
- Differenze di Annotazione:
- Due strumenti di annotazione producono differenze sistematiche
- Necessita ulteriore analisi delle cause
- Generazione Senza Vincoli:
- Non forza tecnicamente che gli span debbano essere nel testo sorgente
- Risulta in alto tasso di errore
- Decodifica Vincolata:
- Implementare decodifica vincolata o generazione di output strutturato
- Forzare la generazione di prove semanticamente e strutturalmente valide
- Ridurre significativamente gli output non validi
- Prove di Confutazione:
- Condurre la stessa analisi su prove di confutazione
- Perfezionare il processo di fact-checking
- Espansione del Dataset:
- Aumentare il numero di campioni
- Migliorare la significatività statistica
- Analisi delle Differenze di Annotazione:
- Analizzare in profondità le differenze tra i due ambienti di annotazione
- Unificare gli standard di annotazione
- Sistema End-to-End:
- Integrare estrazione di affermazioni, recupero di documenti ed estrazione di prove
- Costruire un sistema completo di fact-checking automatico
- Espansione Multilingue:
- Estendere ad altre lingue
- Valutare la capacità di generalizzazione cross-linguistica
- Annotazione a Livello di Span Innovativa: Più granulare del livello di frase esistente, più adatta alle esigenze di applicazione pratica
- Design di Doppia Annotazione: Consente il calcolo della concordanza interannotatore, fornendo un benchmark per la valutazione degli LLM
- Algoritmo di Matching Ungherese: Risolve elegantemente il problema dell'allineamento di diversi livelli di completezza, evitando penalizzazioni ingiuste
- Copertura Modello Completa: 17 LLM, parametri da 4B a 685B, coprendo modelli standard e modelli di ragionamento
- Analisi Multidimensionale: Tasso di errore, grado di allineamento, relazione tra dimensioni del modello
- Confronto di Base: Include baseline non neurali e benchmark di annotazione umana
- Scoperta Controintuitiva: Rivela la relazione non lineare tra dimensioni del modello e prestazioni
- Valore Pratico: Identifica i modelli con il miglior rapporto prezzo-prestazioni (14B-32B)
- Rapporto Onesto: Riporta onestamente i tassi di errore elevati e le distorsioni di valutazione
- Definizione del problema chiara (definizione formale)
- Descrizione del metodo dettagliata (incluso il prompt completo)
- Visualizzazione dei risultati chiara (Figure 1-3)
- Generazione Senza Vincoli: Non forza gli span ad essere nel testo sorgente, risultando in 30%-60% di output non validi
- Trattamento delle Parole Vuote: La semplice rimozione potrebbe perdere informazioni importanti
- Prompt Singolo: Non esplora l'impatto di diverse strategie di prompt
- Dimensione Campione Piccola: 186 campioni potrebbero essere insufficienti per conclusioni robuste
- Distorsione di Valutazione: L'esclusione di campioni non validi potrebbe distorcere il confronto delle prestazioni
- Mancanza di Test di Significatività: Non riporta la significatività statistica
- Esecuzione Singola: Non riporta la varianza di più esecuzioni
- Mancanza di Studi di Caso: Non mostra casi specifici di successo/fallimento
- Mancanza di Analisi dei Tipi di Errore: Non differenzia i tipi di errore (riscrittura, allucinazione, troncamento, ecc.)
- Differenze di Annotazione Non Spiegate: Scopre differenze sistematiche tra i due strumenti di annotazione ma non le analizza in profondità
- Differenze Cross-Linguistiche: Non distingue le prestazioni tra ceco e slovacco
- Iperparametri Non Riportati: Le impostazioni di temperatura, top-p, ecc. degli LLM non sono specificate
- Costi di Inferenza Non Riportati: I costi computazionali effettivi di modelli di diverse dimensioni non sono confrontati
- Robustezza Non Verificata: Non testa la robustezza ai cambiamenti di prompt, lunghezza del testo, ecc.
- Colmare il Vuoto: Primo dataset ceco/slovacco di prove a grana fine a livello di span
- Contributo Metodologico: Metodo di valutazione dell'allineamento di span utilizzando matching ungherese
- Intuizione Empirica: Evidenza empirica dei rendimenti decrescenti delle dimensioni del modello
- Guida alla Selezione del Modello: Fornisce raccomandazioni di modelli con il miglior rapporto prezzo-prestazioni per il deployment pratico
- Consapevolezza del Problema: Ricorda ai ricercatori di prestare attenzione al problema del seguire istruzioni degli LLM
- Percorso di Applicazione: Fornisce un percorso tecnologico per la gestione delle discussioni online
- Punti di Forza:
- Fornisce prompt completi (Appendice B)
- Utilizza modelli open-source (la maggior parte)
- Descrizione del metodo dettagliata
- Insufficienze:
- Il dataset non è reso pubblico (l'articolo non menziona piani di rilascio)
- Il codice non è open-source
- Iperparametri specifici mancanti
- Gestione delle Discussioni Online: Fornire automaticamente prove di fact-checking per i commenti
- Piattaforme di Notizie: Integrare informazioni di fact-checking per i commenti degli utenti
- Applicazioni Educative: Aiutare gli studenti a imparare come identificare le prove
- Strumenti di Ricerca: Assistere i ricercatori nella revisione della letteratura
- Decisioni ad Alto Rischio: Scenari medici, legali, ecc. che richiedono accuratezza del 100% (il tasso di errore è ancora elevato)
- Applicazioni in Tempo Reale: I modelli molto grandi (685B) hanno costi computazionali troppo elevati
- Lingue a Basse Risorse: L'efficacia del metodo in altre lingue non è stata verificata
- Documenti Lunghi: Non è stato testato il trattamento di testi lunghi
- Modello Consigliato: qwen3:14b o deepseek-r1:32b (equilibrio tra prestazioni e costo)
- Miglioramenti Necessari: Implementare decodifica vincolata per ridurre il tasso di errore
- Revisione Umana: Mantenere la revisione umana in applicazioni ad alto rischio
- Espansione Multilingue: Necessita di rivalutazione per le lingue target
- FEVER (Thorne et al., 2018): Dataset di estrazione e verifica di fatti su larga scala, prove a livello di frase
- SciFact (Wadden et al., 2020): Verifica di affermazioni scientifiche, annotazione di motivazioni a livello di frase
- AmbiFC (Glockner et al., 2024): Fact-checking con ambiguità, enfatizza l'importanza di prove a grana fine
- DeepSeek-R1 (Guo et al., 2025): LLM che incentiva il ragionamento attraverso l'apprendimento per rinforzo
- Llama 3 (Grattafiori et al., 2024): Serie di LLM open-source di Meta
- Algoritmo Ungherese (Kuhn, 1955): Algoritmo classico per problemi di assegnazione, utilizzato per l'abbinamento di span
Questo articolo affronta il compito importante ma poco studiato dell'estrazione di prove a grana fine nel fact-checking, fornendo contributi di valore. Il punto di forza principale è la costruzione del primo dataset ceco/slovacco con annotazione a livello di span, e la rivelazione delle capacità e limitazioni degli LLM in questo compito — in particolare la relazione non lineare tra dimensioni del modello e prestazioni e l'eccellente rapporto prezzo-prestazioni dei modelli di dimensioni medie.
Tuttavia, le limitazioni principali risiedono nella piccola dimensione del campione (186 campioni), nel tasso di errore elevato (alcuni modelli > 50%) e nella possibile distorsione di valutazione introdotta dall'esclusione di campioni non validi. I lavori futuri necessitano urgentemente di implementare meccanismi di decodifica vincolata e di espandere la dimensione del dataset.
Nonostante le insufficienze, questo articolo fornisce una base empirica importante e contributi metodologici per la costruzione di sistemi automatici di fact-checking, in particolare per le lingue con risorse relativamente limitate. Indice di Raccomandazione: 4/5 — Ricerca esplorativa di valore, ma richiede lavori successivi per risolvere i problemi tecnici prima del deployment pratico.