2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

Jarolím, Fajčík, Makaiová
Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
academic

Les LLM peuvent-ils extraire des preuves fine-grained similaires aux humains pour la vérification des faits basée sur les preuves ?

Informations de base

  • ID de l'article : 2511.21401
  • Titre : Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
  • Auteurs : Antonín Jarolím, Martin Fajčík, Lucia Makaiová (Université de technologie de Brno, République tchèque)
  • Classification : cs.CL (Linguistique computationnelle)
  • Date de publication : 26 novembre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2511.21401

Résumé

Cet article étudie la capacité des grands modèles de langage (LLM) à extraire des preuves fine-grained dans des scénarios de vérification des faits, en se concentrant particulièrement sur le tchèque et le slovaque. L'étude a construit un ensemble de données à double annotation contenant 186 échantillons, chaque échantillon étant annoté par deux annotateurs indépendants pour les preuves fine-grained. L'évaluation de 17 LLM de différentes tailles (de 4B à 685B paramètres) a révélé que : (1) les LLM échouent souvent à reproduire mot pour mot les preuves du texte source, produisant des résultats invalides ; (2) le modèle llama3.1:8b, malgré sa petite taille, affiche une précision élevée, tandis que gpt-oss-120b, malgré ses nombreux paramètres, fonctionne mal ; (3) qwen3:14b, deepseek-r1:32b et gpt-oss:20b réalisent un équilibre efficace entre la taille du modèle et l'alignement avec les annotations humaines.

Contexte et motivation de la recherche

1. Problème à résoudre

Les sections de commentaires des articles d'actualité en ligne constituent un lieu important de propagation de la désinformation. Pour gérer efficacement les discussions en ligne et lutter contre la désinformation, les systèmes automatisés doivent être capables de :

  • Extraire les déclarations vérifiables des commentaires des utilisateurs
  • Récupérer les documents pertinents et fiables
  • Localiser précisément dans les documents les fragments de texte qui soutiennent ou réfutent les déclarations (preuves fine-grained)

Cet article se concentre sur la dernière tâche — l'extraction de preuves fine-grained.

2. Importance du problème

  • Besoins des utilisateurs : Plus de 3/4 des utilisateurs souhaitent que des experts répondent aux discussions dans les sections de commentaires, mais les réponses manuelles ne sont pas pratiques
  • Efficacité et persuasion : Fournir l'intégralité du document comme preuve est trop grossier, tandis que les fragments de texte fine-grained permettent aux lecteurs d'évaluer rapidement sans réduire la précision du jugement
  • Pratiques des plateformes : La plateforme X (anciennement Twitter) utilise les « notes communautaires », et Seznam.cz complète les commentaires sélectionnés avec des informations de vérification des faits

3. Limitations des approches existantes

  • Preuves grossières : Les systèmes de vérification des faits automatisés existants (tels que FactLens, Loki) ne fournissent que des preuves au niveau des paragraphes
  • Absence de données : FEVER et SciFact fournissent des preuves au niveau des phrases, mais il n'existe pas d'ensemble de données pour le tchèque/slovaque, et les ensembles de données existants ne vont qu'au niveau des phrases, pas au niveau des spans
  • Capacités des LLM inconnues : Bien que les capacités de raisonnement des LLM s'améliorent continuellement, leur alignement avec les annotations humaines dans la tâche d'extraction de preuves fine-grained n'a pas été évalué systématiquement

4. Motivation de la recherche

Vérifier si les LLM peuvent identifier et extraire des preuves fine-grained comme les humains, fournissant une base technologique pour la construction de systèmes de vérification des faits automatisés.

Contributions principales

  1. Construction d'un nouvel ensemble de données : Création d'un ensemble de données contenant 186 paires déclaration-texte en tchèque/slovaque, chaque échantillon étant annoté par deux annotateurs indépendants pour les preuves fine-grained, comblant le vide pour cette paire de langues et l'annotation au niveau des spans
  2. Évaluation systématique des LLM : Évaluation de 17 LLM de différentes tailles (y compris DeepSeek-R1 685B, gpt-oss 120B et autres modèles de raisonnement, ainsi que Gemma-3, Phi4 et autres modèles à poids ouverts) sur la tâche d'extraction de preuves fine-grained
  3. Analyse des taux d'erreur et de l'alignement :
    • Analyse du taux d'erreur des LLM produisant des résultats invalides
    • Évaluation de l'alignement avec les annotations humaines en utilisant l'algorithme d'appariement hongrois et Token-F1
    • Découverte d'une relation non linéaire entre la taille du modèle et les performances
  4. Identification des modèles optimaux : Découverte que les modèles de taille moyenne (14B-32B) réalisent le meilleur équilibre entre l'efficacité et la précision

Explication détaillée de la méthode

Définition de la tâche

Énoncé du problème : Étant donné une déclaration et un texte tokenisé t = (t₁, t₂, ..., tₙ), sélectionner un ensemble de spans S = {s₁, s₂, ..., sₘ}, où chaque span sₘ = (tᵢ, ..., tⱼ) (i ≤ j) représente une sous-séquence continue qui soutient la déclaration.

Contraintes clés :

  • Les spans doivent être des sous-séquences continues du texte
  • Sélectionner les fragments de texte minimisés
  • Plusieurs spans peuvent être sélectionnés
  • Les spans doivent soutenir directement la véracité de la déclaration

Méthode de construction des données

Processus d'annotation double

  1. Collecte d'échantillons : 186 paires déclaration-texte
  2. Pool d'annotateurs : 8 annotateurs non experts rémunérés
  3. Annotation indépendante : Chaque échantillon est annoté indépendamment par deux annotateurs différents
  4. Outils d'annotation :
    • Première annotation : Outil d'annotation personnalisé
    • Deuxième annotation : Label Studio
  5. Guide d'annotation :

    « Surligner les parties de texte minimales qui soutiennent ou réfutent la déclaration. Surligner la partie qui vous convaincrait le plus que l'affirmation est vraie. »

Caractéristiques de l'annotation

  • Les annotateurs humains surlignent directement le texte, garantissant que les spans sélectionnés sont des sous-séquences continues du texte source
  • Les LLM doivent régénérer le texte des spans, ce qui peut produire des résultats qui ne figurent pas dans le texte source

Méthode d'extraction de preuves par LLM

Sélection des modèles

Trois catégories de modèles ont été évaluées :

1. LLM standard (9 modèles) :

  • qwen2.5 (72B, 32B)
  • llama3.3 (70B)
  • llama3.1 (8B)
  • gemma2 (27B)
  • gemma3 (27B, 12B, 4B)
  • phi4 (14B)
  • mixtral (8×7B)

2. Modèles de raisonnement par chaîne de pensée (CoT) (8 modèles) :

  • deepseek-r1 (685B, 32B)
  • gpt-oss (120B, 20B)
  • qwen3 (32B, 14B)

Ingénierie des invites

L'entrée reçue par le LLM comprend :

  • Le commentaire original (pour le contexte)
  • La déclaration extraite
  • Le texte à partir duquel extraire les preuves

Instructions clés :

  1. Identifier la partie de texte minimale qui soutient directement la déclaration
  2. Sélectionner la phrase qui prouve le mieux la véracité de la déclaration
  3. Éviter de sélectionner des phrases entières, sauf si absolument nécessaire
  4. Plusieurs spans peuvent être sélectionnés
  5. Ne pas modifier, corriger ou réécrire le texte, conserver toutes les erreurs grammaticales et syntaxiques
  6. Sortie au format JSON : {"spans": [...]}
  7. Chaque span doit être une sous-chaîne exacte du texte source (identique caractère par caractère)

Méthodes de base

1. Base de référence Claim :

  • Tokeniser la déclaration en c = (c₁, c₂, ..., cₒ)
  • Faire correspondre la séquence de mots de la déclaration dans le texte
  • Construire l'ensemble de spans Sᴄ

2. Base de référence Query :

  • Utiliser les termes de requête utilisés par les annotateurs lors de la recherche de preuves
  • Même méthode d'appariement que la base de référence claim

3. Base de référence Random :

  • Échantillonner aléatoirement des spans continus
  • Le nombre et la longueur des spans correspondent à ceux d'un annotateur sélectionné aléatoirement

Méthode d'évaluation

Prétraitement

Supprimer les mots vides de tous les ensembles de preuves (voir l'annexe A, contenant les mots vides courants du tchèque/slovaque tels que « a », « je », « to », etc.)

Calcul de Token-F1

  1. F1 des paires de spans : Calculer le score F1 au niveau des tokens pour toutes les paires de spans possibles dans les deux ensembles d'annotations
  2. Appariement hongrois : Utiliser l'algorithme hongrois pour trouver l'affectation optimale, maximisant le F1 total
  3. Score final : Le F1 moyen de l'appariement optimal sert de score Token-F1 pour un point de données unique

Justification : Puisque les annotateurs et les LLM peuvent sélectionner un nombre différent de spans (degré d'exhaustivité différent), l'utilisation de l'algorithme hongrois évite de pénaliser cette différence.

Indicateurs d'évaluation

  • Taux d'erreur : Proportion de résultats invalides (les spans générés ne figurent pas dans le texte source)
  • Token-F1 : Degré d'alignement avec les annotations humaines
  • Accord inter-annotateurs : Score F1 entre les deux annotateurs

Configuration expérimentale

Ensemble de données

  • Taille : 186 échantillons
  • Langues : Tchèque et slovaque
  • Annotation : 2 annotations indépendantes par échantillon
  • Source : Déclarations vérifiables dans les commentaires d'actualités en ligne
  • Documents : Documents hautement pertinents trouvés par les annotateurs à l'aide de moteurs de recherche

Indicateurs d'évaluation

  • Invalid % : Pourcentage de résultats invalides (les spans générés ne figurent pas dans le texte source)
  • Token-F1 : Score F1 au niveau des tokens basé sur l'appariement hongrois (échelle 0-100)
  • Max F1 : Score F1 avec le score le plus élevé des deux annotateurs (reflétant l'alignement avec au moins un annotateur)

Méthodes de comparaison

  • Annotations humaines : ann 1 (LS) et ann 2
  • 17 LLM : Différentes tailles et architectures
  • 3 bases de référence : random, claim, query

Détails d'implémentation

  • Utilisation du même modèle d'invite (voir l'annexe B)
  • Sortie au format JSON
  • Pas de contraintes techniques forcées (permettre la génération de spans ne figurant pas dans le texte source pour observer les erreurs)
  • Calcul du F1 après suppression des mots vides

Résultats expérimentaux

Résultats principaux

1. Analyse des taux d'erreur (Figure 1)

Taux d'erreur les plus bas :

  • qwen2.5:72b : 4,3% (meilleur, 72B paramètres)
  • deepseek-r1 : 7,0% (685B paramètres)
  • llama3.1:8b : 13,4% (seulement 8B paramètres, performance excellente)

Taux d'erreur les plus élevés :

  • mixtral:8x7b : 61,8% (pire, 7B paramètres effectifs)
  • gemma3:4b : 57,5% (4B paramètres)
  • qwen3:14b : 40,3%

Cas anormaux :

  • gpt-oss-120b : 32,8% (120B paramètres mais taux d'erreur élevé, ne répondant pas aux attentes)
  • llama3.3:70b : 27,4% (70B paramètres mais taux d'erreur relativement élevé)

Tendance générale : Plus la taille du modèle est grande, plus le taux d'erreur est généralement bas, mais il existe des exceptions significatives.

2. Analyse des performances d'extraction (Figure 2)

Accord inter-annotateurs :

  • ann 1 (LS) vs ann 2 : F1 = 48

Meilleures performances des LLM (avec ann 1 (LS)) :

  • qwen3:14b : F1 = 56 (dépassant l'accord inter-annotateurs)
  • deepseek-r1:32b : F1 = 55 (dépassant l'accord inter-annotateurs)
  • deepseek-r1 (685B) : F1 = 38
  • qwen2.5:72b : F1 = 43

Alignement avec ann 2 :

  • Tous les scores F1 des LLM avec ann 2 sont inférieurs à ceux avec ann 1 (LS)
  • Indiquant que les deux environnements d'annotation ont produit des styles d'annotation différents

Performance des bases de référence :

  • Base de référence claim : F1 = 17 (précision d'environ 30, rappel très faible)
  • Base de référence query : F1 = 12
  • Base de référence random : F1 = 10

Toutes les méthodes de base non-neuronales affichent des performances faibles (F1 < 18).

3. Relation entre la taille du modèle et les performances (Figure 3)

Découvertes clés :

  • Petite à taille moyenne : Les performances s'améliorent avec la taille
  • Très grande taille : DeepSeek-r1 685B et gpt-oss 120B n'apportent pas d'amélioration supplémentaire
  • Point d'équilibre optimal :
    • qwen3:14b : Max F1 ≈ 0,56
    • deepseek-r1:32b : Max F1 ≈ 0,55
    • gpt-oss:20b : Max F1 ≈ 0,45

Conclusion : Au-delà d'un certain seuil, l'augmentation seule du nombre de paramètres n'améliore plus les performances d'extraction.

Expériences d'ablation

Bien que l'article ne mène pas d'expériences d'ablation traditionnelles, la comparaison entre différents modèles implique implicitement les analyses suivantes :

Impact de l'architecture du modèle :

  • Les modèles de raisonnement (CoT) ne surpassent pas systématiquement les modèles standard
  • deepseek-r1:32b affiche d'excellentes performances, mais deepseek-r1 (685B) ne s'améliore pas davantage

Impact de la taille du modèle :

  • llama3.1 8B surpasse de nombreux modèles plus grands
  • Indiquant que la qualité du modèle et les données d'entraînement sont plus importantes que la taille pure

Impact de l'outil d'annotation :

  • Les annotations Label Studio (ann 1) et les annotations d'outils personnalisés (ann 2) présentent des différences systématiques
  • Tous les LLM sont plus proches des annotations Label Studio

Analyse de cas

L'article ne fournit pas de cas spécifiques, mais à partir de la description de la méthode, on peut déduire :

Exemple d'annotation humaine :

  • Surligner directement dans l'interface les fragments de texte minimaux pertinents
  • Peut inclure du texte brut contenant des erreurs grammaticales

Exemple de résultat LLM (déduit) :

  • Cas correct : Reproduction exacte des fragments de texte source
  • Cas d'erreur : Reformulation, correction grammaticale, ou génération de texte inexistant

Découvertes expérimentales

  1. Relation non-monotone de la taille du modèle : Les modèles de taille moyenne peuvent surpasser les modèles ultra-grands
  2. Différences dans la capacité de suivi des instructions : De nombreux LLM ne peuvent pas suivre strictement l'instruction « copier mot pour mot »
  3. Impact de l'environnement d'annotation : Différents outils d'annotation produisent des annotations de granularité différente
  4. Limitations des méthodes de base : Les méthodes simples d'appariement de mots ont une précision raisonnable mais un rappel très faible
  5. Capacité multilingue : Les LLM affichent des performances raisonnables en tchèque/slovaque, prouvant leurs capacités multilingues
  6. Relation imparfaite entre taux d'erreur et alignement : Un taux d'erreur faible ne signifie pas nécessairement un F1 élevé (par exemple, qwen2.5:72b)

Travaux connexes

1. Vérification automatique des faits

FactLens :

  • Décomposer les déclarations complexes en sous-déclarations
  • Évaluer indépendamment la véracité de chaque sous-déclaration
  • Limitation : Fournit uniquement des preuves au niveau des paragraphes

Loki :

  • Processus automatisé : Identifier les déclarations vérifiables → Récupérer les preuves → Vérifier
  • Limitation : Les preuves restent au niveau des paragraphes

AmbiFC :

  • Introduire l'ambiguïté, permettant plusieurs annotations au niveau des phrases
  • Montrer l'importance de la sélection de preuves au niveau des phrases
  • Mais l'annotation réelle reste au niveau des paragraphes

2. Ensembles de données de vérification des faits

FEVER :

  • Déclarations générales, provenant de Wikipédia
  • Preuves au niveau des phrases
  • Données en anglais

SciFact :

  • Annotations de justifications dans les résumés d'articles scientifiques
  • Preuves au niveau des phrases
  • Données en anglais

Unicité de l'ensemble de données de cet article :

  • Tchèque/slovaque
  • Preuves au niveau des spans (plus fine-grained que le niveau des phrases)
  • Double annotation

3. Capacités de raisonnement des LLM

Lois d'échelle :

  • Les performances s'améliorent avec la taille du modèle, les améliorations architecturales et les capacités de raisonnement
  • Mais cet article découvre des rendements décroissants

Capacités multilingues :

  • Les travaux antérieurs montrent que les LLM ont de fortes capacités de raisonnement sur les ensembles de données en tchèque et slovaque
  • Cet article valide l'applicabilité de ceci à la tâche d'extraction de preuves fine-grained

Positionnement de cet article

  • Première évaluation systématique des LLM sur l'extraction de preuves fine-grained au niveau des spans
  • Premier ensemble de données de preuves fine-grained pour le tchèque/slovaque
  • Révélation de la relation non linéaire entre la taille du modèle et les performances

Conclusions et discussion

Conclusions principales

  1. Contribution de l'ensemble de données : Construction du premier ensemble de données de preuves fine-grained au niveau des spans pour le tchèque/slovaque, avec un accord inter-annotateurs F1 de 47
  2. Taux d'erreur et taille du modèle :
    • Relation évidente : Les petits modèles (gemma3 4B, mixtral 8B) ont des taux d'erreur > 50%
    • Nécessité d'adopter des mécanismes de décodage contraint
  3. Rendements décroissants des performances :
    • Petite à taille moyenne : Amélioration des performances
    • Ultra-grande taille (685B, 120B) : Pas d'amélioration supplémentaire
    • Équilibre optimal : qwen3 14B, deepseek-r1 32B, gpt-oss 20B
  4. Dépassement de l'alignement humain : Certains LLM (qwen3:14b, deepseek-r1:32b) ont des scores F1 dépassant l'accord inter-annotateurs (mais seulement sur les échantillons valides)

Limitations

  1. Taille de l'ensemble de données :
    • Seulement 186 échantillons
    • Certains modèles produisent jusqu'à 116 résultats invalides
    • Peut introduire un biais d'évaluation
  2. Biais d'évaluation :
    • L'exclusion des résultats invalides peut éliminer les échantillons plus difficiles
    • Amélioration artificielle des indicateurs de performance de certains modèles
  3. Tâche unique :
    • Se concentre uniquement sur les preuves de soutien
    • Pas d'analyse des preuves de réfutation
  4. Limitation linguistique :
    • Couvre uniquement le tchèque et le slovaque
    • La capacité de généralisation à d'autres langues est inconnue
  5. Différences d'annotation :
    • Deux outils d'annotation produisent des différences systématiques
    • Nécessite une analyse plus approfondie des causes
  6. Génération sans contrainte :
    • Pas de forçage technique pour que les spans figurent dans le texte source
    • Entraîne des taux d'erreur élevés

Directions futures

  1. Décodage contraint :
    • Implémenter le décodage contraint ou la génération de résultats structurés
    • Forcer la génération de preuves sémantiquement et structurellement valides
    • Réduire significativement les résultats invalides
  2. Preuves de réfutation :
    • Mener la même analyse sur les preuves de réfutation
    • Perfectionner le processus de vérification des faits
  3. Extension de l'ensemble de données :
    • Augmenter le nombre d'échantillons
    • Améliorer la signification statistique
  4. Analyse des différences d'annotation :
    • Analyser en profondeur les différences entre les deux environnements d'annotation
    • Unifier les normes d'annotation
  5. Système de bout en bout :
    • Intégrer l'extraction de déclarations, la récupération de documents et l'extraction de preuves
    • Construire un système complet de vérification des faits automatisé
  6. Extension multilingue :
    • Étendre à d'autres langues
    • Évaluer la capacité de généralisation multilingue

Évaluation approfondie

Points forts

1. Innovativité de la méthode

  • Annotation au niveau des spans pour la première fois : Plus fine-grained que le niveau des phrases existantes, plus conforme aux besoins des applications réelles
  • Conception d'annotation double : Permet de calculer l'accord inter-annotateurs, fournissant un point de référence pour l'évaluation des LLM
  • Algorithme d'appariement hongrois : Solution ingénieuse au problème d'alignement avec des degrés d'exhaustivité différents, évitant une pénalisation injuste

2. Suffisance expérimentale

  • Couverture complète des modèles : 17 LLM, paramètres de 4B à 685B, couvrant les modèles standard et les modèles de raisonnement
  • Analyse multidimensionnelle : Taux d'erreur, degré d'alignement, relation entre la taille du modèle
  • Comparaison avec les bases de référence : Inclut les bases de référence non-neuronales et les annotations humaines

3. Perspicacité des résultats

  • Découvertes contre-intuitives : Révélation de la relation non linéaire entre la taille du modèle et les performances
  • Valeur pratique : Identification des modèles avec le meilleur rapport qualité-prix (14B-32B)
  • Rapport honnête : Rapport franc sur les taux d'erreur élevés et les biais d'évaluation

4. Clarté de la rédaction

  • Définition claire du problème (définition formelle)
  • Description détaillée de la méthode (y compris les invites complètes)
  • Visualisation claire des résultats (Figures 1-3)

Insuffisances

1. Limitations de la méthode

  • Génération sans contrainte : Pas de forçage pour que les spans figurent dans le texte source, entraînant 30%-60% de résultats invalides
  • Traitement des mots vides : La suppression simple peut perdre des informations importantes
  • Invite unique : Pas d'exploration de différentes stratégies d'invite

2. Défauts de la configuration expérimentale

  • Petit volume d'échantillons : 186 échantillons peuvent être insuffisants pour des conclusions robustes
  • Biais d'évaluation : L'exclusion des échantillons invalides peut fausser la comparaison des performances
  • Absence de test de signification : Pas de rapport sur la signification statistique
  • Exécution unique : Pas de rapport sur la variance de plusieurs exécutions

3. Analyse insuffisante

  • Absence d'étude de cas : Pas de présentation de cas spécifiques de succès/échec
  • Absence d'analyse des types d'erreurs : Pas de subdivision des types d'erreurs (reformulation, hallucination, troncature, etc.)
  • Différences d'annotation non expliquées : Découverte de différences systématiques entre les deux outils d'annotation mais pas d'analyse approfondie
  • Différences entre les langues : Pas de distinction entre les performances en tchèque et en slovaque

4. Détails techniques

  • Hyperparamètres non rapportés : Les paramètres de température, top-p, etc. des LLM ne sont pas spécifiés
  • Coûts d'inférence non rapportés : Les coûts de calcul réels des modèles de différentes tailles ne sont pas comparés
  • Robustesse non vérifiée : Pas de test de robustesse aux variations d'invite, longueur du texte, etc.

Impact

1. Contribution au domaine

  • Combler les lacunes : Premier ensemble de données de preuves fine-grained au niveau des spans pour le tchèque/slovaque
  • Contribution méthodologique : Méthode d'évaluation d'appariement hongrois pour l'alignement des spans
  • Preuve empirique : Preuve empirique des rendements décroissants de la taille du modèle

2. Valeur pratique

  • Orientation de la sélection de modèles : Fournir des recommandations de modèles optimaux en termes de rapport qualité-prix pour le déploiement réel
  • Sensibilisation aux problèmes : Rappeler aux chercheurs de prêter attention aux problèmes de suivi des instructions des LLM
  • Scénarios d'application : Fournir un chemin technologique pour la gestion des discussions en ligne

3. Reproductibilité

  • Points forts :
    • Fournir des invites complètes (Annexe B)
    • Utiliser des modèles open-source (la plupart)
    • Description détaillée de la méthode
  • Insuffisances :
    • L'ensemble de données n'est pas rendu public (pas de plan de publication mentionné dans l'article)
    • Le code n'est pas open-source
    • Les hyperparamètres spécifiques manquent

Scénarios d'application

Scénarios appropriés

  1. Gestion des discussions en ligne : Fournir automatiquement des preuves de vérification des faits pour les commentaires
  2. Plateformes d'actualités : Compléter les commentaires des utilisateurs avec des informations contextuelles
  3. Applications éducatives : Aider les étudiants à apprendre comment identifier les preuves
  4. Outils de recherche : Assister les chercheurs dans les revues de littérature

Scénarios inappropriés

  1. Décisions à haut risque : Scénarios médicaux, juridiques, etc. nécessitant une précision de 100% (le taux d'erreur est encore élevé)
  2. Applications en temps réel : Les modèles ultra-grands (685B) ont des coûts de calcul trop élevés
  3. Langues à faibles ressources : L'efficacité de la méthode dans d'autres langues n'a pas été validée
  4. Documents longs : La capacité de traitement des textes longs n'a pas été testée

Recommandations de déploiement

  • Modèles recommandés : qwen3:14b ou deepseek-r1:32b (équilibre entre performance et coût)
  • Améliorations nécessaires : Implémenter le décodage contraint pour réduire le taux d'erreur
  • Révision humaine : Conserver la révision humaine dans les applications à haut risque
  • Extension multilingue : Nécessite une réévaluation pour les langues cibles

Références (Références clés)

  1. FEVER (Thorne et al., 2018) : Ensemble de données d'extraction et de vérification des faits à grande échelle, preuves au niveau des phrases
  2. SciFact (Wadden et al., 2020) : Vérification des déclarations scientifiques, annotations de justifications au niveau des phrases
  3. AmbiFC (Glockner et al., 2024) : Vérification des faits avec ambiguïté, soulignant l'importance des preuves fine-grained
  4. DeepSeek-R1 (Guo et al., 2025) : LLM avec raisonnement incité par apprentissage par renforcement
  5. Llama 3 (Grattafiori et al., 2024) : Série LLM open-source de Meta
  6. Algorithme hongrois (Kuhn, 1955) : Algorithme classique pour les problèmes d'affectation, utilisé pour l'appariement des spans

Évaluation synthétique

Cet article apporte une contribution précieuse à la tâche importante mais insuffisamment étudiée de l'extraction de preuves fine-grained dans la vérification des faits. Le plus grand mérite est la construction du premier ensemble de données d'annotation au niveau des spans pour le tchèque/slovaque, et la révélation des capacités et limitations des LLM dans cette tâche — en particulier les rendements décroissants de la taille du modèle et le rapport qualité-prix supérieur des modèles de taille moyenne.

Cependant, les principales limitations résident dans la petite taille de l'ensemble de données (186 échantillons), le taux d'erreur élevé (certains modèles > 50%) et le biais d'évaluation potentiel introduit par l'exclusion des échantillons invalides. Les travaux futurs doivent d'urgence implémenter des mécanismes de décodage contraint et étendre la taille de l'ensemble de données.

Malgré ces insuffisances, cet article fournit une base empirique importante et une contribution méthodologique pour la construction de systèmes de vérification des faits automatisés, en particulier pour les langues disposant de ressources relativement limitées. Indice de recommandation : 4/5 — Recherche exploratoire précieuse, mais nécessitant des travaux ultérieurs pour résoudre les problèmes techniques avant un déploiement réel.