2025-11-18T22:34:14.672296

FactAppeal: Identifying Epistemic Factual Appeals in News Media

Mor-Lan, Sheafer, Shenhav
How is a factual claim made credible? We propose the novel task of Epistemic Appeal Identification, which identifies whether and how factual statements have been anchored by external sources or evidence. To advance research on this task, we present FactAppeal, a manually annotated dataset of 3,226 English-language news sentences. Unlike prior resources that focus solely on claim detection and verification, FactAppeal identifies the nuanced epistemic structures and evidentiary basis underlying these claims and used to support them. FactAppeal contains span-level annotations which identify factual statements and mentions of sources on which they rely. Moreover, the annotations include fine-grained characteristics of factual appeals such as the type of source (e.g. Active Participant, Witness, Expert, Direct Evidence), whether it is mentioned by name, mentions of the source's role and epistemic credentials, attribution to the source via direct or indirect quotation, and other features. We model the task with a range of encoder models and generative decoder models in the 2B-9B parameter range. Our best performing model, based on Gemma 2 9B, achieves a macro-F1 score of 0.73.
academic

FactAppeal: ニュースメディアにおける認識論的事実訴求の識別

基本情報

  • 論文ID: 2510.10627
  • タイトル: FactAppeal: Identifying Epistemic Factual Appeals in News Media
  • 著者: Guy Mor-Lan, Tamir Sheafer, Shaul R. Shenhav(ヘブライ大学エルサレム校)
  • 分類: cs.CL(計算言語学)
  • 発表日: 2025年10月12日(arXivプレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.10627

要約

本論文は、認識論的訴求識別という新規タスクを提案しており、事実陳述が外部ソースまたは証拠によってどのように支持されているかを識別することを目的としている。このタスク研究を推進するため、著者らは3,226個の英語ニュース文の人手注釈を含むFactAppealデータセットを構築した。従来の声明検出と検証のみに焦点を当てたリソースとは異なり、FactAppealは、これらの声明を支持する細粒度の認識論的構造と証拠基盤を識別する。このデータセットは、事実陳述とそれが依存するソース言及を識別するスパンレベルの注釈を含む。さらに、注釈には、ソースタイプ(積極的参加者、目撃者、専門家、直接証拠など)、名前付き言及の有無、ソース役割と認識論的資格の言及、直接引用または間接引用を通じたソースへの帰属など、事実訴求の細粒度特性が含まれている。著者らは、2B~9Bパラメータ範囲のエンコーダモデルと生成型デコーダモデルを使用してこのタスクをモデル化し、最良性能モデルはGemma 2 9Bに基づいており、マクロ平均F1スコア0.73を達成した。

研究背景と動機

問題定義

情報の誤伝播と媒体報道に対する懐疑主義が蔓延する時代において、事実陳述がどのように提示されるかを理解することは、かつてないほど重要になっている。事実陳述の信頼性は、その内容だけでなく、専門家の証言、公式声明、または直接的な経験的証拠を通じて、外部知識ソースにどのように訴えかけるかにも依存している。

既存手法の限界

声明検出と検証研究において実質的な進展があったにもかかわらず、既存の手法は主に孤立した陳述内容に焦点を当てており、これらの声明に信頼性と説得力を与える認識論的構造を無視している。従来の事実性検出フレームワークは、ニュースメディアにおいて声明がどのように構築され支持されるかについての深い理解を欠いている。

研究動機

  1. 認識論的構造分析の必要性:事実陳述が外部権威ソースによってどのように支持されるかを理解する必要性
  2. メディア信頼性研究:ニュースメディアにおける知識フローと検証メカニズムの分析
  3. 自動事実検証の改善:より文脈を考慮した事実検証のための基盤提供
  4. 社会科学への応用:政治哲学、社会認識論、コミュニケーション研究への道具提供

核心的貢献

  1. 新規タスクの提案:認識論的訴求識別タスクを初めて定義し、従来の事実性検出を超え、豊かな認識論的推論層を導入
  2. 注釈付きデータセットの構築:3,226個のニュース文の細粒度スパンレベル注釈を含むFactAppealデータセットを作成
  3. 分類体系の確立:ソースと事象の接近性(内部対外部)およびソースタイプ(人間対非人間)に基づく構造化された認識論的訴求分類法を開発
  4. ベースラインモデルの実装:エンコーダおよび生成型デコーダモデルを使用してタスクベースラインを確立し、最良モデルはマクロ平均F1スコア0.73を達成
  5. 学際的価値:計算言語学、社会科学、メディア研究に重要な道具を提供

方法の詳細

タスク定義

認識論的訴求識別タスクは以下を要求する:

  1. 文が事実陳述を提示しているかどうかを判定する
  2. もしそうであれば、その陳述を支持するために外部ソースまたは証拠をどのように援用しているかを識別する
  3. 認識論的権威のソースを識別する
  4. 訴求のタイプと方法を分類する

注釈体系

主要なラベルタイプ

  1. Fact Without Appeal:認識論的訴求のない事実陳述
  2. Fact With Appeal:認識論的訴求のある事実陳述
    • 修飾子:直接引用(Direct quote)/間接引用(Indirect quote)
  3. Source:陳述が帰属される認識論的ソース
    • 命名状態:名前付き(Named)/無名(Unnamed)
    • ソースタイプ:7種類の分類
  4. Source Attribute:ソースの関連認識論的属性
  5. Recipient:情報を受け取る対象
  6. Appeal Time:訴求が発生した時間
  7. Appeal Location:訴求が発生した場所

ソースタイプ分類体系

2つの次元に基づいて構築された分類法:

  • 事象との接近性:内部(直接接触)対外部(一般的専門知識)
  • ソースの性質:人間対非人間

内部ソース(直接接触に基づく):

  • Active Participant:事象の積極的参加者
  • Witness:第一次証言を提供する観察者
  • Official:法的、政治的、または官僚的権威を有する参加者
  • Direct Evidence:現場で発見された直接証拠

外部ソース(専門知識に基づく):

  • Expert:専門知識を有する科学者または専門家
  • Expert Document:研究文書、科学および機関報告書
  • News Report:先行するニュース報道の引用

技術的革新点

  1. スパンレベル注釈:単一テキスト内で事実訴求、訴求なし事実、非事実成分を区別することを可能にする
  2. ネストされたラベルのサポート:異なるタイプのラベルをネストでき、複雑な認識論的構造をサポート
  3. 細粒度特性:ソースタイプ、命名状態、引用方法など複数次元の情報をキャプチャ
  4. 認識論的権威分類:認知学理論に基づいて構築された体系的なソース分類体系

実験設定

データセット

  • 規模:3,226個の文、2020~2022年の英語ニュース記事から
  • 注釈者:2名の注釈者(著者の1人と研究助手)
  • データ分割:訓練集合70%、開発集合15%、テスト集合15%
  • 注釈者間一致度:全体IoU 0.74、Cohen's Kappa 0.82

評価指標

  • 単語レベルのマクロ平均精度、再現率、F1スコア
  • 18個のラベルカテゴリに対する多ラベル二値分類評価

比較手法

エンコーダモデル(トークンレベル多ラベル分類):

  • RoBERTa(base、125M)
  • DeBERTa v3(base、184M)
  • ModernBERT(base、150M)

生成型デコーダモデル(シーケンス・ツー・シーケンス):

  • Gemma 2(2B、9B)
  • Llama 3.1(8B)
  • Mistral v0.3(7B)

実装詳細

  • エンコーダモデル:focal lossを使用して最大12エポック訓練
  • デコーダモデル:QLORAを使用した4ビット量子化ファインチューニング、3エポック訓練
  • ハードウェア:単一A100 GPU(40GB VRAM)
  • 学習率:1e-5

実験結果

主要結果

モデル精度再現率F1
Gemma 2 9B0.760.730.73
RoBERTa(base)0.750.670.70
Mistral v0.3 7B0.730.680.70
DeBERTa v3(base)0.730.670.69
Llama 3.1 8B0.750.650.68

主要な知見

  1. 生成型モデルの優位性:最大のデコーダモデルGemma 2 9Bが最良性能を達成
  2. エンコーダモデルの限界:エンコーダモデルはカテゴリ間でより大きな性能変動を示す
  3. ラベル頻度の影響:エンコーダモデルの性能はラベル数との相関がより強い(ρs = 0.72対0.66)
  4. ソースタイプ検出:ソースタイプ注釈の性能はラベル人気度との相関がより低い

カテゴリ別性能分析

  • 事実性検出:訴求なし事実(0.89)、訴求ありの事実(0.85)
  • ソース検出:ソース(0.84)、ソース属性(0.79)
  • 引用タイプ:間接引用(0.83)、直接引用(0.80)
  • ソースタイプ:性能変動が大きく、積極的参加者(0.54)、ニュース報道(0.68)

データセット統計

  • 事実文の割合:80%以上の文が事実性として注釈
  • 訴求タイプの分布:訴求なし事実が訴求ありの事実の約2倍
  • 引用方法:66%が言い換え、34%が直接引用
  • 命名状態:64%のソースが名前付きで言及

関連研究

声明検証研究

  • 初期の研究:検証可能な事象の確定に焦点(Sauri and Pustejovsky, 2009)
  • 大規模ベンチマーク:FEVER、SciFact、FactRelなどのデータセット
  • 限界:主に声明検出と声明間関係に焦点を当て、完全な認識論的パターンの記述を欠く

認識論的モダリティと論証マイニング

  • 認識論的モダリティ:確実性と信念の言語標記をキャプチャ
  • 論証マイニング:話題における声明の構築と支持方法を探索
  • 認識論的立場検出:ソースの声明への承諾度をモデル化

ソース帰属と引用分析

  • 引用検出:引用を検出し、エンティティに帰属
  • 限界:通常、ソースをタイプ別に分類したり、訴求が直接言語または言い換えを通じて援用されているかをキャプチャしない

結論と考察

主要な結論

  1. タスク実現可能性:認識論的訴求識別タスクは実現可能だが、依然として課題がある
  2. 生成型モデルの優位性:生成型モデルは複雑な認識論的構造の処理において優れた性能を示す
  3. 細粒度分析の価値:スパンレベル注釈はニュースメディアにおける複雑な認識論的構造を明らかにできる

限界

  1. 文レベルの制限:文レベルの注釈のみを使用し、キャプチャできる文脈情報を制限
  2. ソース-声明リンク:現在の注釈は各ソースとその対応する声明を明示的にリンクしていない
  3. 言語と時間範囲:2020~2022年の英語ニュース記事に限定
  4. 注釈規模:データセットは相対的に小規模で、モデルの汎化能力に影響する可能性がある

今後の方向性

  1. 段落/記事レベルへの拡張:より大きなテキスト単位における複雑な談話構造のモデル化
  2. 多言語への拡張:他の言語と文化的背景への適用
  3. ソース-声明関係のモデル化:ソースと声明間の対応関係を明示的にモデル化
  4. ソーシャルメディアへの応用:ソーシャルメディアなど他の談話タイプへの拡張
  5. 時間動態分析:認識論的訴求パターンの時間的変化の研究

深層評価

長所

  1. タスクの革新性:認識論的訴求識別タスクを初めて体系的に定義・研究し、重要な研究ギャップを埋める
  2. 理論的基礎の堅牢性:認知学と言語学理論に基づいて分類体系を構築し、堅実な理論的基礎を有する
  3. 注釈品質の高さ:スパンレベル注釈は細密で、注釈者間一致度が良好(Kappa=0.82)
  4. 学際的価値:計算言語学、政治学、コミュニケーション学など複数の分野に価値あるリソースを提供
  5. 実験の包括性:複数のモデルアーキテクチャを比較し、詳細な性能分析を提供

不足

  1. データ規模の制限:3,226個の文の規模は相対的に小規模で、モデル性能と汎化能力を制限する可能性がある
  2. 注釈複雑度:一部のラベルカテゴリはサンプルが稀少で、モデルの学習効果に影響する
  3. 評価指標の単一性:主にF1スコアを使用し、タスク固有の評価指標を欠く
  4. エラー分析の不足:モデルエラータイプの深入りした分析を欠く
  5. 実用的応用検証:実際の事実検証またはメディア分析タスクにおける効果の検証を欠く

影響力

  1. 学術的貢献:自然言語処理分野に新しい研究方向を開く
  2. 実用的価値:自動事実検証、メディアバイアス検出、知識グラフ構築などのタスクに応用可能
  3. 社会的意義:メディアにおける情報伝播と検証メカニズムの理解と分析に寄与
  4. 再現性:データとコードが公開され、後続研究を容易にする

適用シーン

  1. ニュースメディア分析:ニュース報道における証拠使用パターンの分析
  2. 事実検証支援:自動事実検証システムへのより豊かな文脈情報提供
  3. メディアリテラシー教育:メディアにおける認識論的訴求戦略の識別と分析を支援
  4. 政治談話分析:政治コミュニケーションにおける権威訴求パターンの研究
  5. 知識グラフ構築:証拠関係を含む知識グラフの構築のための基盤提供

参考文献

  • Thorne et al.(2018):FEVERデータセット、大規模事実抽出と検証
  • Sauri and Pustejovsky(2009):初期の事実性検出研究
  • Da San Martino et al.(2019):宣伝技巧の細粒度分析
  • Collins and Evans(2002):専門知識と経験研究の第三波
  • Anderson(2021):認識論的バブルと権威主義政治

本論文は、認識論的訴求識別という新興タスクにおいて開拓的な貢献をしており、高品質の注釈付きデータセットを提供するだけでなく、体系的な理論的枠組みと実験的ベースラインを確立している。データ規模とモデル性能の面でなお改善の余地があるが、その学際的研究価値と実用的応用可能性により、本分野の重要な研究となっている。