2025-11-30T06:22:19.418832

Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?

Jarolím, Fajčík, Makaiová
Misinformation frequently spreads in user comments under online news articles, highlighting the need for effective methods to detect factually incorrect information. To strongly support or refute claims extracted from such comments, it is necessary to identify relevant documents and pinpoint the exact text spans that justify or contradict each claim. This paper focuses on the latter task -- fine-grained evidence extraction for Czech and Slovak claims. We create new dataset, containing two-way annotated fine-grained evidence created by paid annotators. We evaluate large language models (LLMs) on this dataset to assess their alignment with human annotations. The results reveal that LLMs often fail to copy evidence verbatim from the source text, leading to invalid outputs. Error-rate analysis shows that the {llama3.1:8b model achieves a high proportion of correct outputs despite its relatively small size, while the gpt-oss-120b model underperforms despite having many more parameters. Furthermore, the models qwen3:14b, deepseek-r1:32b, and gpt-oss:20b demonstrate an effective balance between model size and alignment with human annotations.
academic

LLMは事実確認のための人間的な細粒度証拠を抽出できるか?

基本情報

  • 論文ID: 2511.21401
  • タイトル: Can LLMs extract human-like fine-grained evidence for evidence-based fact-checking?
  • 著者: Antonín Jarolím、Martin Fajčík、Lucia Makaiová(ブルノ工科大学、チェコ共和国)
  • 分類: cs.CL(計算言語学)
  • 発表日時: 2025年11月26日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2511.21401

要約

本論文は、事実確認シナリオにおける大規模言語モデル(LLM)の細粒度証拠抽出能力を調査し、特にチェコ語とスロバキア語に焦点を当てています。186個のサンプルを含む二重標注データセットを構築し、各サンプルは2人の独立した標注者によって細粒度証拠が標注されています。4Bから685Bパラメータまでの17個の異なる規模のLLMを評価した結果、以下が判明しました:(1) LLMはソーステキストから証拠を逐語的に複製できないことが多く、無効な出力が生じる;(2) llama3.1:8bモデルは規模が小さいにもかかわらず高い正確性を示す一方、gpt-oss-120bはパラメータが多いにもかかわらず性能が低い;(3) qwen3:14b、deepseek-r1:32b、gpt-oss:20bはモデル規模と人間標注との整合性の間で効果的なバランスを実現しています。

研究背景と動機

1. 解決すべき問題

オンラインニュース記事のコメント欄は、虚偽情報の拡散における重要な場所です。オンライン議論を効果的に管理し、虚偽情報に対抗するためには、自動化システムが以下を実行できる必要があります:

  • ユーザーコメントから検証可能なクレーム(主張)を抽出する
  • 関連する信頼できるドキュメントを検索する
  • ドキュメント内でクレームを支持または反論するテキスト片(細粒度証拠)を正確に特定する

本論文は最後のタスク——細粒度証拠抽出に焦点を当てています。

2. 問題の重要性

  • ユーザーニーズ:3/4以上のユーザーがコメント欄の議論に専門家による回答を望んでいますが、人工による対応は実用的ではありません
  • 効率性と説得力:ドキュメント全体を証拠として提供することは粗すぎますが、細粒度のテキスト片は読者が迅速に評価でき、判断精度を低下させません
  • プラットフォーム実践:Xプラットフォーム(旧Twitter)は「コミュニティノート」を使用し、Seznam.czは選定されたコメントに事実確認情報を補足しています

3. 既存方法の限界

  • 粗粒度証拠:既存の自動事実確認システム(FactLensやLokiなど)は段落レベルの証拠のみを提供します
  • データセット欠落:FEVERとSciFactは文レベルの証拠を提供していますが、チェコ語/スロバキア語用のデータセットがなく、既存のデータセットの最も細粒度は文レベルであり、スパン(span)レベルではありません
  • LLM能力の未知性:LLMの推論能力は継続的に向上していますが、細粒度証拠抽出タスクにおける人間標注との整合性の程度はまだ体系的に評価されていません

4. 研究動機

LLMが人間と同じように細粒度証拠を識別・抽出できるかどうかを検証し、自動化事実確認システムの構築に技術的基盤を提供することです。

中核的貢献

  1. 新規データセット構築:186個のチェコ語/スロバキア語クレーム-テキストペアを含むデータセットを作成し、各サンプルは2人の独立した標注者によって細粒度証拠が標注されており、この言語ペアとスパンレベル標注の空白を埋めています
  2. LLMの体系的評価:17個の異なる規模のLLM(685B DeepSeek-R1、120B gpt-ossなどの推理モデル、およびGemma-3、Phi4などのオープンウェイトモデルを含む)を細粒度証拠抽出タスクで評価
  3. エラー率と整合性分析
    • LLMが無効な出力を生成するエラー率を分析
    • ハンガリアンマッチングアルゴリズムとToken-F1を使用して人間標注との整合性を評価
    • モデル規模と性能の非線形関係を発見
  4. 最適モデルの特定:中程度の規模のモデル(14B-32B)が効率と精度の間で最良のバランスを達成することを発見

方法の詳細

タスク定義

問題陳述:クレームと分かち書きされたテキスト t = (t₁, t₂, ..., tₙ) が与えられたとき、スパンセット S = {s₁, s₂, ..., sₘ} を選択します。ここで各スパン sₘ = (tᵢ, ..., tⱼ)(i ≤ j)はそのクレームを支持する連続部分列を表します。

主要な制約

  • スパンはテキスト内の連続部分列である必要があります
  • 最小化されたテキスト片を選択します
  • 複数のスパンを選択できます
  • スパンはクレームの真実性を直接支持する必要があります

データ構築方法

二重標注プロセス

  1. サンプル収集:186個のクレーム-テキストペア
  2. 標注者プール:8人の非専門家有給標注者
  3. 独立標注:各サンプルは2人の異なる標注者によって独立して標注されます
  4. 標注ツール
    • 最初の標注:カスタム標注ツール
    • 2回目の標注:Label Studio
  5. 標注ガイドライン

    「クレームを支持または反論する最小限のテキスト部分をハイライトしてください。その陳述が真実であることをあなたに最も納得させる部分をハイライトしてください。」

標注の特徴

  • 人間の標注者はテキストを直接ハイライトし、ソーステキスト内の連続スパンが選択されることを保証します
  • LLMはスパンテキストを再生成する必要があり、ソーステキストに存在しない出力が生じる可能性があります

LLM証拠抽出方法

モデル選択

3つのカテゴリーのモデルを評価しました:

1. 標準LLM(9個):

  • qwen2.5 (72B, 32B)
  • llama3.3 (70B)
  • llama3.1 (8B)
  • gemma2 (27B)
  • gemma3 (27B, 12B, 4B)
  • phi4 (14B)
  • mixtral (8×7B)

2. 思考の連鎖(CoT)推理モデル(8個):

  • deepseek-r1 (685B, 32B)
  • gpt-oss (120B, 20B)
  • qwen3 (32B, 14B)

プロンプトエンジニアリング

LLMが受け取る入力には以下が含まれます:

  • 元のコメント(コンテキスト提供)
  • 抽出されたクレーム
  • 証拠を抽出するテキスト

主要な指示

  1. クレームを直接支持する最小限のテキスト部分を特定します
  2. クレームの真実性を最も証明する句を選択します
  3. 絶対に必要な場合を除き、文全体の選択を避けます
  4. 複数のスパンを選択できます
  5. テキストを修正、訂正、または改写しないでください。すべての文法および構文エラーを保持してください
  6. JSON形式で出力します:{"spans": [...]}
  7. 各スパンはソーステキストの正確な部分文字列である必要があります(文字単位で完全に同一)

ベースラインメソッド

1. クレームベースライン

  • クレームを c = (c₁, c₂, ..., cₒ) に分かち書きします
  • テキスト内でクレーム内の単語シーケンスをマッチングします
  • スパンセット Sᴄ を構築します

2. クエリベースライン

  • 標注者が証拠を検索するときに使用したクエリ単語を使用します
  • クレームベースラインと同じマッチング方法です

3. ランダムベースライン

  • 連続スパンをランダムにサンプリングします
  • スパン数と長さはランダムに選択された標注者とマッチングします

評価方法

前処理

すべての証拠セットからストップワードを削除します(付録A参照。チェコ語/スロバキア語の一般的なストップワード「a」、「je」、「to」などを含む)

Token-F1計算

  1. スパンペアF1:2つの標注セット内のすべての可能なスパンペアのトークンレベルF1スコアを計算します
  2. ハンガリアンマッチング:ハンガリアンアルゴリズムを使用して最適な割り当てを見つけ、総F1を最大化します
  3. 最終スコア:最適マッチングの平均F1が単一データポイントのトークンレベルF1となります

根拠:標注者とLLMが異なる数のスパンを選択する可能性があるため(詳細度が異なる)、ハンガリアンアルゴリズムを使用してこの差異に対するペナルティを回避します。

評価指標

  • エラー率:無効な出力の割合(生成されたスパンがソーステキストに存在しない)
  • Token-F1:人間標注との整合性
  • 人間間一致性:2人の標注者間のF1スコア

実験設定

データセット

  • 規模:186個のサンプル
  • 言語:チェコ語とスロバキア語
  • 標注:各サンプル2回の独立標注
  • ソース:オンラインニュースコメント内の検証可能なクレーム
  • ドキュメント:標注者が検索エンジンで見つけた高度に関連するドキュメント

評価指標

  • Invalid %:無効な出力の割合(生成されたスパンがソーステキストに存在しない)
  • Token-F1:ハンガリアンマッチングに基づくトークンレベルF1スコア(0-100スケール)
  • Max F1:2人の標注者のうち高い方のF1スコア(少なくとも1人の標注者との整合性を反映)

比較方法

  • 人間標注:ann 1 (LS) および ann 2
  • 17個のLLM:異なる規模とアーキテクチャ
  • 3つのベースライン:random、claim、query

実装詳細

  • 同じプロンプトテンプレートを使用(付録B参照)
  • JSON形式出力
  • 技術的制約を強制しない(ソーステキストに存在しないスパンの生成を許可してエラーを観察)
  • ストップワード削除後にF1を計算

実験結果

主要な結果

1. エラー率分析(図1)

最低エラー率

  • qwen2.5:72b:4.3%(最良、72Bパラメータ)
  • deepseek-r1:7.0%(685Bパラメータ)
  • llama3.1:8b:13.4%(わずか8Bパラメータながら優れた性能)

最高エラー率

  • mixtral:8x7b:61.8%(最悪、7B有効パラメータ)
  • gemma3:4b:57.5%(4Bパラメータ)
  • qwen3:14b:40.3%

異常なケース

  • gpt-oss-120b:32.8%(120Bパラメータながらエラー率が高く、予想を下回る)
  • llama3.3:70b:27.4%(70Bパラメータながらエラー率が相対的に高い)

全体的傾向:モデル規模が大きいほど、通常はエラー率が低くなりますが、顕著な例外が存在します。

2. 抽出性能分析(図2)

人間間一致性

  • ann 1 (LS) vs ann 2:F1 = 48

最良のLLM性能(ann 1 (LS)との比較):

  • qwen3:14b:F1 = 56(人間間一致性を超える)
  • deepseek-r1:32b:F1 = 55(人間間一致性を超える)
  • deepseek-r1 (685B):F1 = 38
  • qwen2.5:72b:F1 = 43

ann 2との整合性

  • すべてのLLMのann 2との比較におけるF1スコアは、ann 1 (LS)との比較よりも低い
  • 2つの標注環境が異なる標注スタイルを生成したことを示唆しています

ベースラインの性能

  • クレームベースライン:F1 = 17(精度約30、リコール非常に低い)
  • クエリベースライン:F1 = 12
  • ランダムベースライン:F1 = 10

すべての非ニューラルベースラインメソッドは弱い性能を示しています(F1 < 18)。

3. モデル規模と性能の関係(図3)

主要な発見

  • 小から中程度の規模:性能は規模の増加とともに向上します
  • 超大規模:685B deepseek-r1および120B gpt-ossはさらなる向上をもたらしていません
  • 最適なバランスポイント
    • qwen3:14b:Max F1 ≈ 0.56
    • deepseek-r1:32b:Max F1 ≈ 0.55
    • gpt-oss:20b:Max F1 ≈ 0.45

結論:特定のしきい値を超えると、パラメータ数の増加だけでは抽出性能の向上をもたらしません。

アブレーション実験

論文は従来のアブレーション実験を実施していませんが、異なるモデルの比較を通じて以下の分析が暗黙的に示されています:

モデルアーキテクチャの影響

  • 推理モデル(CoT)は標準モデルより一貫して優れていません
  • deepseek-r1:32bは優れた性能を示しますが、deepseek-r1 (685B)はより良くありません

モデル規模の影響

  • 8B llama3.1は多くのより大きなモデルより優れています
  • モデルの品質とトレーニングデータが純粋な規模より重要であることを示唆しています

標注ツールの影響

  • Label Studio標注(ann 1)とカスタムツール標注(ann 2)には体系的な違いが存在します
  • すべてのLLMはLabel Studio標注により近い傾向があります

ケース分析

論文は具体的なケースを提供していませんが、方法の説明から以下を推測できます:

人間標注の例

  • インターフェース内で最小限の関連テキスト片を直接ハイライト
  • 文法エラーを含む可能性のある元のテキストを含める

LLM出力の例(推測):

  • 正しいケース:ソーステキスト片を正確に複製
  • エラーケース:改写、文法修正、またはソーステキストに存在しないテキストの生成

実験の発見

  1. モデル規模の非単調関係:中程度の規模のモデルは超大規模モデルより優れている可能性があります
  2. 指示遵守能力の差異:多くのLLMは「逐語的に複製」という指示を厳密に遵守できません
  3. 標注環境の影響:異なる標注ツールは異なる粒度の標注を生成します
  4. ベースラインメソッドの限界:単純な単語マッチング方法は精度は許容できますがリコールは非常に低い
  5. 言語間能力:LLMはチェコ語/スロバキア語で合理的な性能を示し、その多言語能力を証明しています
  6. エラー率と整合性の不完全な相関:低いエラー率は必ずしも高いF1を意味しません(例:qwen2.5:72b)

関連研究

1. 自動事実確認

FactLens

  • 複雑なクレームを部分クレームに分解
  • 各部分クレームの真実性を独立して評価
  • 限界:段落レベルの証拠のみ提供

Loki

  • 自動化プロセス:検証可能なクレーム識別 → 証拠検索 → 検証
  • 限界:証拠は依然として段落レベル

AmbiFC

  • 曖昧性を導入し、複数の文レベル標注を許可
  • 文レベル証拠選択の重要性を示す
  • ただし、実際の標注は依然として段落レベル

2. 事実確認データセット

FEVER

  • 一般的なクレーム、ウィキペディアから出典
  • 文レベルの証拠
  • 英語データ

SciFact

  • 科学論文要約内の根拠標注
  • 文レベルの証拠
  • 英語データ

本論文のデータセットの独自性

  • チェコ語/スロバキア語
  • スパンレベルの証拠(文レベルより細粒度)
  • 二重標注

3. LLM推理能力

スケーリング則

  • 性能はモデル規模、アーキテクチャ改善、推理能力の向上とともに改善
  • ただし、本論文は収益逓減の存在を発見

多言語能力

  • 先行研究はLLMがチェコ語およびスロバキア語データセットで強い推理能力を示すことを示唆
  • 本論文はこれが細粒度証拠抽出タスクに適用可能であることを検証

本論文の位置付け

  • LLMのスパンレベル細粒度証拠抽出性能を初めて体系的に評価
  • チェコ語/スロバキア語の細粒度証拠データセットを初めて提供
  • モデル規模と性能の非線形関係を明らかに

結論と議論

主要な結論

  1. データセット貢献:初のチェコ語/スロバキア語スパンレベル細粒度証拠データセットを構築し、人間間一致性F1は47
  2. エラー率とモデル規模
    • 明確な関係が存在:小規模モデル(4B gemma3、8B mixtral)のエラー率>50%
    • 制約付きデコーディングメカニズムの採用が必要
  3. 性能の収益逓減
    • 小から中程度の規模:性能向上
    • 超大規模(685B、120B):さらなる向上なし
    • 最適なバランス:14B qwen3、32B deepseek-r1、20B gpt-oss
  4. 人間対齢の超越:一部のLLM(qwen3:14b、deepseek-r1:32b)のF1スコアは人間間一致性を超えています(ただし有効なサンプルのみ)

限界

  1. データセット規模
    • わずか186個のサンプル
    • 一部のモデルは116個のエラー出力を生成
    • 評価バイアスを導入する可能性
  2. 評価バイアス
    • 無効な出力を除外することはより困難なサンプルを削除する可能性
    • 一部のモデルのパフォーマンス指標を人為的に向上させる
  3. 単一タスク
    • 支持的証拠のみに焦点
    • 反論的証拠の分析なし
  4. 言語の制限
    • チェコ語とスロバキア語のみをカバー
    • 他の言語への一般化能力は未知
  5. 標注の違い
    • 2つの標注ツールは体系的な違いを生成
    • 原因のさらなる分析が必要
  6. 無制約生成
    • スパンがソーステキストに存在することを技術的に強制しない
    • 高いエラー率をもたらす

今後の方向

  1. 制約付きデコーディング
    • 制約付きデコーディングまたは構造化出力生成を実装
    • 意味的および構造的に有効な証拠の生成を強制
    • エラー出力を大幅に削減
  2. 反論的証拠
    • 反論的証拠に対して同じ分析を実施
    • 事実確認プロセスを完成させる
  3. データセット拡張
    • サンプル数を増加
    • 統計的有意性を向上
  4. 標注の違いの分析
    • 2つの標注環境の違いを深く分析
    • 標注基準を統一
  5. エンドツーエンドシステム
    • クレーム抽出、ドキュメント検索、証拠抽出を統合
    • 完全な自動事実確認システムを構築
  6. 多言語拡張
    • 他の言語に拡張
    • 言語間の一般化能力を評価

深い評価

利点

1. 方法の革新性

  • 初のスパンレベル標注:既存の文レベルより細粒度で、実際のアプリケーションニーズに適合
  • 二重標注設計:人間間一致性を計算でき、LLM評価のベンチマークを提供
  • ハンガリアンマッチングアルゴリズム:異なる詳細度の整合問題を巧妙に解決し、不公正なペナルティを回避

2. 実験の充分性

  • モデルカバレッジの包括性:17個のLLM、4Bから685Bのパラメータ、標準モデルと推理モデルをカバー
  • 多次元分析:エラー率、整合性、モデル規模の関係
  • ベースライン比較:非ニューラルベースラインと人間標注ベンチマークを含む

3. 結果の洞察力

  • 反直感的な発見:モデル規模と性能の非線形関係を明らかに
  • 実用的価値:性価比が最も高いモデル(14B-32B)を特定
  • 正直な報告:高いエラー率と評価バイアスを率直に報告

4. 執筆の明確性

  • 問題定義が明確(形式的定義)
  • 方法の説明が詳細(完全なプロンプトを含む)
  • 結果の可視化が明確(図1-3)

不足

1. 方法の限界

  • 無制約生成:スパンがソーステキストに存在することを強制しない、30%-60%の無効出力をもたらす
  • ストップワード処理:単純な削除は重要な情報を失う可能性
  • 単一プロンプト:異なるプロンプト戦略の影響を探索しない

2. 実験設定の欠陥

  • サンプル数が少ない:186個のサンプルは堅牢な結論を得るには不十分な可能性
  • 評価バイアス:無効なサンプルを除外することはパフォーマンス比較を歪める可能性
  • 統計的有意性検定の欠落:統計的有意性が報告されていない
  • 単一実行:複数実行の分散が報告されていない

3. 分析の不足

  • ケーススタディの欠落:成功/失敗の具体的なケースが示されていない
  • エラータイプ分析の欠落:エラータイプ(改写、幻覚、切り詰めなど)の細分化がない
  • 標注の違いの説明不足:2つの標注ツールの体系的な違いが発見されたが深く分析されていない
  • 言語間の違い:チェコ語とスロバキア語のパフォーマンスが区別されていない

4. 技術的詳細

  • ハイパーパラメータが報告されていない:LLMの温度、top-pなどの設定が明記されていない
  • 推論コストが報告されていない:異なる規模のモデルの実際の計算コストが比較されていない
  • ロバストネスが検証されていない:プロンプト変化、テキスト長などに対するロバストネスがテストされていない

影響力

1. 分野への貢献

  • 空白を埋める:初のチェコ語/スロバキア語細粒度証拠データセット
  • 方法論的貢献:スパン対齢評価のためのハンガリアンマッチング方法
  • 実証的洞察:モデル規模の収益逓減の実証的証拠

2. 実用的価値

  • モデル選択ガイダンス:実際のデプロイメントに性価比が最適なモデルの推奨
  • 問題認識:LLMの指示遵守問題に研究者の注意を促す
  • 応用シナリオ:オンライン議論管理に技術的パスを提供

3. 再現性

  • 利点
    • 完全なプロンプトを提供(付録B)
    • オープンソースモデルを使用(ほとんど)
    • 方法の説明が詳細
  • 不足
    • データセットが公開されていない(論文で発表計画が言及されていない)
    • コードがオープンソース化されていない
    • 具体的なハイパーパラメータが欠落

適用シナリオ

適切なシナリオ

  1. オンライン議論管理:コメントに自動的に事実確認証拠を提供
  2. ニュースプラットフォーム:ユーザーコメントに文脈情報を補足
  3. 教育アプリケーション:学生が証拠を識別する方法を学ぶのを支援
  4. 研究ツール:研究者が文献レビューを実施するのを補助

不適切なシナリオ

  1. 高リスク意思決定:医療、法律など100%の精度が必要なシナリオ(エラー率はまだ高い)
  2. リアルタイムアプリケーション:超大規模モデル(685B)の計算コストが高すぎる
  3. 低リソース言語:他の言語での方法の有効性が検証されていない
  4. 長いドキュメント:長いテキストの処理能力がテストされていない

デプロイメント推奨

  • 推奨モデル:qwen3:14bまたはdeepseek-r1:32b(パフォーマンスとコストのバランス)
  • 必要な改善:制約付きデコーディングを実装してエラー率を低下
  • 人間による審査:高リスクアプリケーションでは人間による審査段階を保持
  • 多言語拡張:対象言語に対して再評価が必要

参考文献(主要文献)

  1. FEVER (Thorne et al., 2018): 大規模事実抽出・検証データセット、文レベルの証拠
  2. SciFact (Wadden et al., 2020): 科学的クレーム検証、文レベルの根拠標注
  3. AmbiFC (Glockner et al., 2024): 曖昧性を導入した事実確認、細粒度証拠の重要性を強調
  4. DeepSeek-R1 (Guo et al., 2025): 強化学習で推理を促進するLLM
  5. Llama 3 (Grattafiori et al., 2024): Metaのオープンソースモデルシリーズ
  6. Hungarian Algorithm (Kuhn, 1955): 割り当て問題の古典的アルゴリズム、スパンマッチングに使用

総合評価

本論文は事実確認における細粒度証拠抽出という重要ながら研究が不足しているタスクに対して、価値のある貢献をしています。最大の強みは初のスパンレベル標注チェコ語/スロバキア語データセットを構築し、このタスクにおけるLLMの能力と限界を明らかにしたことです。特にモデル規模の収益逓減と中程度規模モデルの優れた性価比を発見したことが注目されます。

しかし、主な限界はサンプル数が少ない(186個)、エラー率が高い(一部のモデルで50%以上)、無効なサンプルを除外することによる評価バイアスの可能性です。今後の研究では制約付きデコーディングメカニズムの実装とデータセット規模の拡張が急務です。

不足があるにもかかわらず、本論文は自動化事実確認システムの構築に重要な実証的基盤と方法論的貢献を提供しており、特にリソースが比較的限定されている言語にとって価値があります。推奨指数:4/5 —— 価値のある探索的研究ですが、実際のデプロイメントのためには技術的問題を解決する後続研究が必要です。