2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

JarolÃm, FajÄÃk, MakaiovÃ¡

Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.

academic

Les LLM peuvent-ils extraire des preuves fine-grained similaires aux humains pour la vérification des faits basée sur les preuves ?

Informations de base

ID de l'article : 2511.21401
Titre : Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
Auteurs : Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Université de technologie de Brno, République tchèque)
Classification : cs.CL (Linguistique computationnelle)
Date de publication : 26 novembre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2511.21401

Résumé

Cet article étudie la capacité des grands modèles de langage (LLM) à extraire des preuves fine-grained dans des scénarios de vérification des faits, en se concentrant particulièrement sur le tchèque et le slovaque. L'étude a construit un ensemble de données à double annotation contenant 186 échantillons, chaque échantillon étant annoté par deux annotateurs indépendants pour les preuves fine-grained. L'évaluation de 17 LLM de différentes tailles (de 4B à 685B paramètres) a révélé que : (1) les LLM échouent souvent à reproduire mot pour mot les preuves du texte source, produisant des résultats invalides ; (2) le modèle llama3.1:8b, malgré sa petite taille, affiche une précision élevée, tandis que gpt-oss-120b, malgré ses nombreux paramètres, fonctionne mal ; (3) qwen3:14b, deepseek-r1:32b et gpt-oss:20b réalisent un équilibre efficace entre la taille du modèle et l'alignement avec les annotations humaines.

Contexte et motivation de la recherche

1. Problème à résoudre

Les sections de commentaires des articles d'actualité en ligne constituent un lieu important de propagation de la désinformation. Pour gérer efficacement les discussions en ligne et lutter contre la désinformation, les systèmes automatisés doivent être capables de :

Extraire les déclarations vérifiables des commentaires des utilisateurs
Récupérer les documents pertinents et fiables
Localiser précisément dans les documents les fragments de texte qui soutiennent ou réfutent les déclarations (preuves fine-grained)

Cet article se concentre sur la dernière tâche — l'extraction de preuves fine-grained.

2. Importance du problème

Besoins des utilisateurs : Plus de 3/4 des utilisateurs souhaitent que des experts répondent aux discussions dans les sections de commentaires, mais les réponses manuelles ne sont pas pratiques
Efficacité et persuasion : Fournir l'intégralité du document comme preuve est trop grossier, tandis que les fragments de texte fine-grained permettent aux lecteurs d'évaluer rapidement sans réduire la précision du jugement
Pratiques des plateformes : La plateforme X (anciennement Twitter) utilise les « notes communautaires », et Seznam.cz complète les commentaires sélectionnés avec des informations de vérification des faits

3. Limitations des approches existantes

Preuves grossières : Les systèmes de vérification des faits automatisés existants (tels que FactLens, Loki) ne fournissent que des preuves au niveau des paragraphes
Absence de données : FEVER et SciFact fournissent des preuves au niveau des phrases, mais il n'existe pas d'ensemble de données pour le tchèque/slovaque, et les ensembles de données existants ne vont qu'au niveau des phrases, pas au niveau des spans
Capacités des LLM inconnues : Bien que les capacités de raisonnement des LLM s'améliorent continuellement, leur alignement avec les annotations humaines dans la tâche d'extraction de preuves fine-grained n'a pas été évalué systématiquement

4. Motivation de la recherche

Vérifier si les LLM peuvent identifier et extraire des preuves fine-grained comme les humains, fournissant une base technologique pour la construction de systèmes de vérification des faits automatisés.

Contributions principales

Construction d'un nouvel ensemble de données : Création d'un ensemble de données contenant 186 paires déclaration-texte en tchèque/slovaque, chaque échantillon étant annoté par deux annotateurs indépendants pour les preuves fine-grained, comblant le vide pour cette paire de langues et l'annotation au niveau des spans
Évaluation systématique des LLM : Évaluation de 17 LLM de différentes tailles (y compris DeepSeek-R1 685B, gpt-oss 120B et autres modèles de raisonnement, ainsi que Gemma-3, Phi4 et autres modèles à poids ouverts) sur la tâche d'extraction de preuves fine-grained
Analyse des taux d'erreur et de l'alignement :
- Analyse du taux d'erreur des LLM produisant des résultats invalides
- Évaluation de l'alignement avec les annotations humaines en utilisant l'algorithme d'appariement hongrois et Token-F1
- Découverte d'une relation non linéaire entre la taille du modèle et les performances
Identification des modèles optimaux : Découverte que les modèles de taille moyenne (14B-32B) réalisent le meilleur équilibre entre l'efficacité et la précision

Explication détaillée de la méthode

Définition de la tâche

Énoncé du problème : Étant donné une déclaration et un texte tokenisé t = (t₁, t₂, ..., tₙ), sélectionner un ensemble de spans S = {s₁, s₂, ..., sₘ}, où chaque span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) représente une sous-séquence continue qui soutient la déclaration.

Contraintes clés :

Les spans doivent être des sous-séquences continues du texte
Sélectionner les fragments de texte minimisés
Plusieurs spans peuvent être sélectionnés
Les spans doivent soutenir directement la véracité de la déclaration

Méthode de construction des données

Processus d'annotation double

Collecte d'échantillons : 186 paires déclaration-texte
Pool d'annotateurs : 8 annotateurs non experts rémunérés
Annotation indépendante : Chaque échantillon est annoté indépendamment par deux annotateurs différents
Outils d'annotation :
- Première annotation : Outil d'annotation personnalisé
- Deuxième annotation : Label Studio
Guide d'annotation :
« Surligner les parties de texte minimales qui soutiennent ou réfutent la déclaration. Surligner la partie qui vous convaincrait le plus que l'affirmation est vraie. »

Caractéristiques de l'annotation

Les annotateurs humains surlignent directement le texte, garantissant que les spans sélectionnés sont des sous-séquences continues du texte source
Les LLM doivent régénérer le texte des spans, ce qui peut produire des résultats qui ne figurent pas dans le texte source

Méthode d'extraction de preuves par LLM

Sélection des modèles

Trois catégories de modèles ont été évaluées :

1. LLM standard (9 modèles) :

qwen2.5 (72B, 32B)
llama3.3 (70B)
llama3.1 (8B)
gemma2 (27B)
gemma3 (27B, 12B, 4B)
phi4 (14B)
mixtral (8×7B)

2. Modèles de raisonnement par chaîne de pensée (CoT) (8 modèles) :

deepseek-r1 (685B, 32B)
gpt-oss (120B, 20B)
qwen3 (32B, 14B)

Ingénierie des invites

L'entrée reçue par le LLM comprend :

Le commentaire original (pour le contexte)
La déclaration extraite
Le texte à partir duquel extraire les preuves

Instructions clés :

Identifier la partie de texte minimale qui soutient directement la déclaration
Sélectionner la phrase qui prouve le mieux la véracité de la déclaration
Éviter de sélectionner des phrases entières, sauf si absolument nécessaire
Plusieurs spans peuvent être sélectionnés
Ne pas modifier, corriger ou réécrire le texte, conserver toutes les erreurs grammaticales et syntaxiques
Sortie au format JSON : {"spans": [...]}
Chaque span doit être une sous-chaîne exacte du texte source (identique caractère par caractère)

Méthodes de base

1. Base de référence Claim :

Tokeniser la déclaration en c = (c₁, c₂, ..., cₒ)
Faire correspondre la séquence de mots de la déclaration dans le texte
Construire l'ensemble de spans Sᴄ

2. Base de référence Query :

Utiliser les termes de requête utilisés par les annotateurs lors de la recherche de preuves
Même méthode d'appariement que la base de référence claim

3. Base de référence Random :

Échantillonner aléatoirement des spans continus
Le nombre et la longueur des spans correspondent à ceux d'un annotateur sélectionné aléatoirement

Méthode d'évaluation

Prétraitement

Supprimer les mots vides de tous les ensembles de preuves (voir l'annexe A, contenant les mots vides courants du tchèque/slovaque tels que « a », « je », « to », etc.)

Calcul de Token-F1

F1 des paires de spans : Calculer le score F1 au niveau des tokens pour toutes les paires de spans possibles dans les deux ensembles d'annotations
Appariement hongrois : Utiliser l'algorithme hongrois pour trouver l'affectation optimale, maximisant le F1 total
Score final : Le F1 moyen de l'appariement optimal sert de score Token-F1 pour un point de données unique

Justification : Puisque les annotateurs et les LLM peuvent sélectionner un nombre différent de spans (degré d'exhaustivité différent), l'utilisation de l'algorithme hongrois évite de pénaliser cette différence.

Indicateurs d'évaluation

Taux d'erreur : Proportion de résultats invalides (les spans générés ne figurent pas dans le texte source)
Token-F1 : Degré d'alignement avec les annotations humaines
Accord inter-annotateurs : Score F1 entre les deux annotateurs

Configuration expérimentale

Ensemble de données

Taille : 186 échantillons
Langues : Tchèque et slovaque
Annotation : 2 annotations indépendantes par échantillon
Source : Déclarations vérifiables dans les commentaires d'actualités en ligne
Documents : Documents hautement pertinents trouvés par les annotateurs à l'aide de moteurs de recherche

Indicateurs d'évaluation

Invalid % : Pourcentage de résultats invalides (les spans générés ne figurent pas dans le texte source)
Token-F1 : Score F1 au niveau des tokens basé sur l'appariement hongrois (échelle 0-100)
Max F1 : Score F1 avec le score le plus élevé des deux annotateurs (reflétant l'alignement avec au moins un annotateur)

Méthodes de comparaison

Annotations humaines : ann 1 (LS) et ann 2
17 LLM : Différentes tailles et architectures
3 bases de référence : random, claim, query

Détails d'implémentation

Utilisation du même modèle d'invite (voir l'annexe B)
Sortie au format JSON
Pas de contraintes techniques forcées (permettre la génération de spans ne figurant pas dans le texte source pour observer les erreurs)
Calcul du F1 après suppression des mots vides

Résultats expérimentaux

Résultats principaux

1. Analyse des taux d'erreur (Figure 1)

Taux d'erreur les plus bas :

qwen2.5:72b : 4,3% (meilleur, 72B paramètres)
deepseek-r1 : 7,0% (685B paramètres)
llama3.1:8b : 13,4% (seulement 8B paramètres, performance excellente)

Taux d'erreur les plus élevés :

mixtral:8x7b : 61,8% (pire, 7B paramètres effectifs)
gemma3:4b : 57,5% (4B paramètres)
qwen3:14b : 40,3%

Cas anormaux :

gpt-oss-120b : 32,8% (120B paramètres mais taux d'erreur élevé, ne répondant pas aux attentes)
llama3.3:70b : 27,4% (70B paramètres mais taux d'erreur relativement élevé)

Tendance générale : Plus la taille du modèle est grande, plus le taux d'erreur est généralement bas, mais il existe des exceptions significatives.

2. Analyse des performances d'extraction (Figure 2)

Accord inter-annotateurs :

ann 1 (LS) vs ann 2 : F1 = 48

Meilleures performances des LLM (avec ann 1 (LS)) :

qwen3:14b : F1 = 56 (dépassant l'accord inter-annotateurs)
deepseek-r1:32b : F1 = 55 (dépassant l'accord inter-annotateurs)
deepseek-r1 (685B) : F1 = 38
qwen2.5:72b : F1 = 43

Alignement avec ann 2 :

Tous les scores F1 des LLM avec ann 2 sont inférieurs à ceux avec ann 1 (LS)
Indiquant que les deux environnements d'annotation ont produit des styles d'annotation différents

Performance des bases de référence :

Base de référence claim : F1 = 17 (précision d'environ 30, rappel très faible)
Base de référence query : F1 = 12
Base de référence random : F1 = 10

Toutes les méthodes de base non-neuronales affichent des performances faibles (F1 < 18).

3. Relation entre la taille du modèle et les performances (Figure 3)

Découvertes clés :

Petite à taille moyenne : Les performances s'améliorent avec la taille
Très grande taille : DeepSeek-r1 685B et gpt-oss 120B n'apportent pas d'amélioration supplémentaire
Point d'équilibre optimal :
- qwen3:14b : Max F1 ≈ 0,56
- deepseek-r1:32b : Max F1 ≈ 0,55
- gpt-oss:20b : Max F1 ≈ 0,45

Conclusion : Au-delà d'un certain seuil, l'augmentation seule du nombre de paramètres n'améliore plus les performances d'extraction.

Expériences d'ablation

Bien que l'article ne mène pas d'expériences d'ablation traditionnelles, la comparaison entre différents modèles implique implicitement les analyses suivantes :

Impact de l'architecture du modèle :

Les modèles de raisonnement (CoT) ne surpassent pas systématiquement les modèles standard
deepseek-r1:32b affiche d'excellentes performances, mais deepseek-r1 (685B) ne s'améliore pas davantage

Impact de la taille du modèle :

llama3.1 8B surpasse de nombreux modèles plus grands
Indiquant que la qualité du modèle et les données d'entraînement sont plus importantes que la taille pure

Impact de l'outil d'annotation :

Les annotations Label Studio (ann 1) et les annotations d'outils personnalisés (ann 2) présentent des différences systématiques
Tous les LLM sont plus proches des annotations Label Studio

Analyse de cas

L'article ne fournit pas de cas spécifiques, mais à partir de la description de la méthode, on peut déduire :

Exemple d'annotation humaine :

Surligner directement dans l'interface les fragments de texte minimaux pertinents
Peut inclure du texte brut contenant des erreurs grammaticales

Exemple de résultat LLM (déduit) :

Cas correct : Reproduction exacte des fragments de texte source
Cas d'erreur : Reformulation, correction grammaticale, ou génération de texte inexistant

Découvertes expérimentales

Relation non-monotone de la taille du modèle : Les modèles de taille moyenne peuvent surpasser les modèles ultra-grands
Différences dans la capacité de suivi des instructions : De nombreux LLM ne peuvent pas suivre strictement l'instruction « copier mot pour mot »
Impact de l'environnement d'annotation : Différents outils d'annotation produisent des annotations de granularité différente
Limitations des méthodes de base : Les méthodes simples d'appariement de mots ont une précision raisonnable mais un rappel très faible
Capacité multilingue : Les LLM affichent des performances raisonnables en tchèque/slovaque, prouvant leurs capacités multilingues
Relation imparfaite entre taux d'erreur et alignement : Un taux d'erreur faible ne signifie pas nécessairement un F1 élevé (par exemple, qwen2.5:72b)

Travaux connexes

1. Vérification automatique des faits

FactLens :

Décomposer les déclarations complexes en sous-déclarations
Évaluer indépendamment la véracité de chaque sous-déclaration
Limitation : Fournit uniquement des preuves au niveau des paragraphes

Loki :

Processus automatisé : Identifier les déclarations vérifiables → Récupérer les preuves → Vérifier
Limitation : Les preuves restent au niveau des paragraphes

AmbiFC :

Introduire l'ambiguïté, permettant plusieurs annotations au niveau des phrases
Montrer l'importance de la sélection de preuves au niveau des phrases
Mais l'annotation réelle reste au niveau des paragraphes

2. Ensembles de données de vérification des faits

FEVER :

Déclarations générales, provenant de Wikipédia
Preuves au niveau des phrases
Données en anglais

SciFact :

Annotations de justifications dans les résumés d'articles scientifiques
Preuves au niveau des phrases
Données en anglais

Unicité de l'ensemble de données de cet article :

Tchèque/slovaque
Preuves au niveau des spans (plus fine-grained que le niveau des phrases)
Double annotation

3. Capacités de raisonnement des LLM

Lois d'échelle :

Les performances s'améliorent avec la taille du modèle, les améliorations architecturales et les capacités de raisonnement
Mais cet article découvre des rendements décroissants

Capacités multilingues :

Les travaux antérieurs montrent que les LLM ont de fortes capacités de raisonnement sur les ensembles de données en tchèque et slovaque
Cet article valide l'applicabilité de ceci à la tâche d'extraction de preuves fine-grained

Positionnement de cet article

Première évaluation systématique des LLM sur l'extraction de preuves fine-grained au niveau des spans
Premier ensemble de données de preuves fine-grained pour le tchèque/slovaque
Révélation de la relation non linéaire entre la taille du modèle et les performances

Conclusions et discussion

Conclusions principales

Contribution de l'ensemble de données : Construction du premier ensemble de données de preuves fine-grained au niveau des spans pour le tchèque/slovaque, avec un accord inter-annotateurs F1 de 47
Taux d'erreur et taille du modèle :
- Relation évidente : Les petits modèles (gemma3 4B, mixtral 8B) ont des taux d'erreur > 50%
- Nécessité d'adopter des mécanismes de décodage contraint
Rendements décroissants des performances :
- Petite à taille moyenne : Amélioration des performances
- Ultra-grande taille (685B, 120B) : Pas d'amélioration supplémentaire
- Équilibre optimal : qwen3 14B, deepseek-r1 32B, gpt-oss 20B
Dépassement de l'alignement humain : Certains LLM (qwen3:14b, deepseek-r1:32b) ont des scores F1 dépassant l'accord inter-annotateurs (mais seulement sur les échantillons valides)

Limitations

Taille de l'ensemble de données :
- Seulement 186 échantillons
- Certains modèles produisent jusqu'à 116 résultats invalides
- Peut introduire un biais d'évaluation
Biais d'évaluation :
- L'exclusion des résultats invalides peut éliminer les échantillons plus difficiles
- Amélioration artificielle des indicateurs de performance de certains modèles
Tâche unique :
- Se concentre uniquement sur les preuves de soutien
- Pas d'analyse des preuves de réfutation
Limitation linguistique :
- Couvre uniquement le tchèque et le slovaque
- La capacité de généralisation à d'autres langues est inconnue
Différences d'annotation :
- Deux outils d'annotation produisent des différences systématiques
- Nécessite une analyse plus approfondie des causes
Génération sans contrainte :
- Pas de forçage technique pour que les spans figurent dans le texte source
- Entraîne des taux d'erreur élevés

Directions futures

Décodage contraint :
- Implémenter le décodage contraint ou la génération de résultats structurés
- Forcer la génération de preuves sémantiquement et structurellement valides
- Réduire significativement les résultats invalides
Preuves de réfutation :
- Mener la même analyse sur les preuves de réfutation
- Perfectionner le processus de vérification des faits
Extension de l'ensemble de données :
- Augmenter le nombre d'échantillons
- Améliorer la signification statistique
Analyse des différences d'annotation :
- Analyser en profondeur les différences entre les deux environnements d'annotation
- Unifier les normes d'annotation
Système de bout en bout :
- Intégrer l'extraction de déclarations, la récupération de documents et l'extraction de preuves
- Construire un système complet de vérification des faits automatisé
Extension multilingue :
- Étendre à d'autres langues
- Évaluer la capacité de généralisation multilingue

Évaluation approfondie

Points forts

1. Innovativité de la méthode

Annotation au niveau des spans pour la première fois : Plus fine-grained que le niveau des phrases existantes, plus conforme aux besoins des applications réelles
Conception d'annotation double : Permet de calculer l'accord inter-annotateurs, fournissant un point de référence pour l'évaluation des LLM
Algorithme d'appariement hongrois : Solution ingénieuse au problème d'alignement avec des degrés d'exhaustivité différents, évitant une pénalisation injuste

2. Suffisance expérimentale

Couverture complète des modèles : 17 LLM, paramètres de 4B à 685B, couvrant les modèles standard et les modèles de raisonnement
Analyse multidimensionnelle : Taux d'erreur, degré d'alignement, relation entre la taille du modèle
Comparaison avec les bases de référence : Inclut les bases de référence non-neuronales et les annotations humaines

3. Perspicacité des résultats

Découvertes contre-intuitives : Révélation de la relation non linéaire entre la taille du modèle et les performances
Valeur pratique : Identification des modèles avec le meilleur rapport qualité-prix (14B-32B)
Rapport honnête : Rapport franc sur les taux d'erreur élevés et les biais d'évaluation

4. Clarté de la rédaction

Définition claire du problème (définition formelle)
Description détaillée de la méthode (y compris les invites complètes)
Visualisation claire des résultats (Figures 1-3)

Insuffisances

1. Limitations de la méthode

Génération sans contrainte : Pas de forçage pour que les spans figurent dans le texte source, entraînant 30%-60% de résultats invalides
Traitement des mots vides : La suppression simple peut perdre des informations importantes
Invite unique : Pas d'exploration de différentes stratégies d'invite

2. Défauts de la configuration expérimentale

Petit volume d'échantillons : 186 échantillons peuvent être insuffisants pour des conclusions robustes
Biais d'évaluation : L'exclusion des échantillons invalides peut fausser la comparaison des performances
Absence de test de signification : Pas de rapport sur la signification statistique
Exécution unique : Pas de rapport sur la variance de plusieurs exécutions

3. Analyse insuffisante

Absence d'étude de cas : Pas de présentation de cas spécifiques de succès/échec
Absence d'analyse des types d'erreurs : Pas de subdivision des types d'erreurs (reformulation, hallucination, troncature, etc.)
Différences d'annotation non expliquées : Découverte de différences systématiques entre les deux outils d'annotation mais pas d'analyse approfondie
Différences entre les langues : Pas de distinction entre les performances en tchèque et en slovaque

4. Détails techniques

Hyperparamètres non rapportés : Les paramètres de température, top-p, etc. des LLM ne sont pas spécifiés
Coûts d'inférence non rapportés : Les coûts de calcul réels des modèles de différentes tailles ne sont pas comparés
Robustesse non vérifiée : Pas de test de robustesse aux variations d'invite, longueur du texte, etc.

Impact

1. Contribution au domaine

Combler les lacunes : Premier ensemble de données de preuves fine-grained au niveau des spans pour le tchèque/slovaque
Contribution méthodologique : Méthode d'évaluation d'appariement hongrois pour l'alignement des spans
Preuve empirique : Preuve empirique des rendements décroissants de la taille du modèle

2. Valeur pratique

Orientation de la sélection de modèles : Fournir des recommandations de modèles optimaux en termes de rapport qualité-prix pour le déploiement réel
Sensibilisation aux problèmes : Rappeler aux chercheurs de prêter attention aux problèmes de suivi des instructions des LLM
Scénarios d'application : Fournir un chemin technologique pour la gestion des discussions en ligne

3. Reproductibilité

Points forts :
- Fournir des invites complètes (Annexe B)
- Utiliser des modèles open-source (la plupart)
- Description détaillée de la méthode
Insuffisances :
- L'ensemble de données n'est pas rendu public (pas de plan de publication mentionné dans l'article)
- Le code n'est pas open-source
- Les hyperparamètres spécifiques manquent

Scénarios d'application

Scénarios appropriés

Gestion des discussions en ligne : Fournir automatiquement des preuves de vérification des faits pour les commentaires
Plateformes d'actualités : Compléter les commentaires des utilisateurs avec des informations contextuelles
Applications éducatives : Aider les étudiants à apprendre comment identifier les preuves
Outils de recherche : Assister les chercheurs dans les revues de littérature

Scénarios inappropriés

Décisions à haut risque : Scénarios médicaux, juridiques, etc. nécessitant une précision de 100% (le taux d'erreur est encore élevé)
Applications en temps réel : Les modèles ultra-grands (685B) ont des coûts de calcul trop élevés
Langues à faibles ressources : L'efficacité de la méthode dans d'autres langues n'a pas été validée
Documents longs : La capacité de traitement des textes longs n'a pas été testée

Recommandations de déploiement

Modèles recommandés : qwen3:14b ou deepseek-r1:32b (équilibre entre performance et coût)
Améliorations nécessaires : Implémenter le décodage contraint pour réduire le taux d'erreur
Révision humaine : Conserver la révision humaine dans les applications à haut risque
Extension multilingue : Nécessite une réévaluation pour les langues cibles

Références (Références clés)

FEVER (Thorne et al., 2018) : Ensemble de données d'extraction et de vérification des faits à grande échelle, preuves au niveau des phrases
SciFact (Wadden et al., 2020) : Vérification des déclarations scientifiques, annotations de justifications au niveau des phrases
AmbiFC (Glockner et al., 2024) : Vérification des faits avec ambiguïté, soulignant l'importance des preuves fine-grained
DeepSeek-R1 (Guo et al., 2025) : LLM avec raisonnement incité par apprentissage par renforcement
Llama 3 (Grattafiori et al., 2024) : Série LLM open-source de Meta
Algorithme hongrois (Kuhn, 1955) : Algorithme classique pour les problèmes d'affectation, utilisé pour l'appariement des spans

Évaluation synthétique

Cet article apporte une contribution précieuse à la tâche importante mais insuffisamment étudiée de l'extraction de preuves fine-grained dans la vérification des faits. Le plus grand mérite est la construction du premier ensemble de données d'annotation au niveau des spans pour le tchèque/slovaque, et la révélation des capacités et limitations des LLM dans cette tâche — en particulier les rendements décroissants de la taille du modèle et le rapport qualité-prix supérieur des modèles de taille moyenne.

Cependant, les principales limitations résident dans la petite taille de l'ensemble de données (186 échantillons), le taux d'erreur élevé (certains modèles > 50%) et le biais d'évaluation potentiel introduit par l'exclusion des échantillons invalides. Les travaux futurs doivent d'urgence implémenter des mécanismes de décodage contraint et étendre la taille de l'ensemble de données.

Malgré ces insuffisances, cet article fournit une base empirique importante et une contribution méthodologique pour la construction de systèmes de vérification des faits automatisés, en particulier pour les langues disposant de ressources relativement limitées. Indice de recommandation : 4/5 — Recherche exploratoire précieuse, mais nécessitant des travaux ultérieurs pour résoudre les problèmes techniques avant un déploiement réel.