2025-11-13T13:25:11.216435

Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models

Ji, Song, Huang

Large Language Models (LLMs) hallucinate, generating factually incorrect yet confident assertions. We argue this stems from the Transformer's Softmax function, which creates "Artificial Certainty" by collapsing ambiguous attention scores into a single probability distribution, discarding uncertainty information at each layer. To fix this, we introduce the Credal Transformer, which replaces standard attention with a Credal Attention Mechanism (CAM) based on evidential theory. CAM produces a "credal set" (a set of distributions) instead of a single attention vector, with the set's size directly measuring model uncertainty. We implement this by re-conceptualizing attention scores as evidence masses for a Dirichlet distribution: sufficient evidence recovers standard attention, while insufficient evidence yields a diffuse distribution, representing ambiguity. Empirically, the Credal Transformer identifies out-of-distribution inputs, quantifies ambiguity, and significantly reduces confident errors on unanswerable questions by abstaining. Our contribution is a new architecture to mitigate hallucinations and a design paradigm that integrates uncertainty quantification directly into the model, providing a foundation for more reliable AI.

academic

Credal Transformer: 大規模言語モデルにおける幻覚の定量化と軽減のための原理的アプローチ

基本情報

論文ID: 2510.12137
タイトル: Credal Transformer: A Principled Approach for Quantifying and Mitigating Hallucinations in Large Language Models
著者: Shihao Ji (棗庄第28中学校)、Zihui Song (滕州第1高等学校)、Jiajie Huang (西安交通大学)
分類: cs.CL、cs.AI
発表時期/会議: 第39回ニューラル情報処理システム会議(NeurIPS 2025)ワークショップ: 信頼できないデータからの信頼できるML
論文リンク: https://arxiv.org/abs/2510.12137v1

要約

大規模言語モデル(LLM)は幻覚問題に悩まされており、事実的に誤った高信頼度の主張を生成します。本論文は、この問題がTransformerのSoftmax関数に由来すると主張しており、Softmax関数は曖昧な注意スコアを単一の確率分布に折りたたむことで「人工的確実性」を生成し、各層の不確定性情報を破棄しています。この問題を解決するため、本論文は標準的な注意メカニズムを証拠理論に基づくCredal注意メカニズム(CAM)に置き換えたCredal Transformerを導入しています。CAMは単一の注意ベクトルではなく「credal集合」(分布の集合)を生成し、集合のサイズはモデルの不確定性を直接測定します。注意スコアをDirichlet分布の証拠品質として再概念化することで実装されています。十分な証拠は標準的な注意を復元し、不十分な証拠は拡散分布を生成して曖昧性を表現します。実験により、Credal Transformerは分布外入力を識別し、曖昧性を定量化し、棄権を通じて回答不可能な質問に対する信頼度エラーを大幅に削減できることが示されています。

研究背景と動機

核心的問題

本研究は大規模言語モデルにおける幻覚問題を解決することを目的としています。これは、モデルが事実的に誤った内容を高い信頼度で生成する現象です。この現象は、高リスク領域におけるLLMの展開を深刻に制限しています。

問題の重要性

実用的障害: 幻覚問題は医療、法律、金融などの高リスク領域でのLLM応用を阻止しています
信頼危機: ユーザーはモデル出力の信頼性を判断することが困難であり、AIシステムの信頼性に影響を与えます
安全上の危険: 誤った高信頼度の出力は重大な意思決定エラーをもたらす可能性があります

既存手法の限界

従来の解決策は主に以下を含みます:

外部介入手法: 検索拡張生成(RAG)、外部知識ベースの事実確認、デコーディングプロセスの修正
限界: LLMをブラックボックスとして扱い、アーキテクチャレベルの内在的な過度な自信問題を解決していません

研究動機

著者は根本的な仮説を提示しています。幻覚問題はデータ問題だけでなく、Transformerアーキテクチャ自体、特に注意メカニズムにおけるSoftmax関数が生成する「人工的確実性」に由来しているという仮説です。

核心的貢献

理論的洞察: 注意メカニズムにおけるSoftmax関数が「人工的確実性」を生成することが幻覚の原因であるというアーキテクチャ的原因を特定しました
新規アーキテクチャ: 不確定性の定量化をモデルの内在的コンポーネントとして統合したCredal Transformerを提案しました
技術的革新: 認知的不確定性を表現および定量化できる証拠理論に基づくCredal注意メカニズム(CAM)を設計しました
実証的検証: 分布外検出、曖昧性定量化、質問応答タスクを含む複数のタスクで方法の有効性を検証しました
設計パラダイム: 不確定性認識をモデル設計の第一原則として推奨しています

方法の詳細

タスク定義

標準的なTransformerの決定論的注意メカニズムを、不確定性を表現および定量化できるメカニズムに置き換え、モデルが以下を実行できるようにします:

入力の曖昧性を識別する
自身の認知的不確定性を定量化する
十分な証拠がない場合に棄権を選択する

モデルアーキテクチャ

標準的な注意メカニズムの問題

標準的な注意計算式:

ai = Softmax(si) ここで aij = exp(sij) / Σ(k=1 to L) exp(sik)

問題: Softmaxはスコアが曖昧な場合でも、モデルに決定論的な選択を強制します。

Credal注意メカニズム(CAM)

核心的考え方: 注意スコアをDirichlet分布をパラメータ化するための証拠として再概念化します。

実装ステップ:

証拠変換:

eij = exp(sij)  // 元のスコアを非負の証拠に変換

Dirichletパラメータ化:

αij = eij + 1  // 濃度パラメータ

期待注意重み:
```
âij = E[pij] = αij / αi0
```
ここで αi0 = Σ(k=1 to L) αik

不確定性の定量化:

Ui = L / αi0  // 空虚性(vacuity)が認知的不確定性を測定

技術的革新点

証拠理論の統合: 証拠深層学習の原理を注意メカニズムの核に初めて適用しました
微分可能な不確定性: 直接的で微分可能な不確定性測度を提供します
適応的動作:
- 高い証拠 → 鋭い分布 → 標準的な注意を復元
- 低い証拠 → 拡散分布 → 曖昧性を明示的に表現
エンドツーエンドの訓練: アーキテクチャ全体は微分可能なままであり、標準的な最適化技術で訓練できます

実験設定

データセット

合成データセット(分布外検出用):

分布内(ID): 固定ノイズパターンで生成されたシーケンス
分布外(OOD): 均一ランダム分布で生成されたシーケンス
無意味データ: 純粋なノイズシーケンス

評価指標

不確定性スコア: モデルの最終層が生成する平均不確定性
計算効率指標: GFLOPs、推論時間、訓練時間

比較手法

標準的なTransformer(Softmax注意を使用)

実装の詳細

IDデータでCredal Transformerの分類器を訓練
テスト時に3種類のデータを入力し、不確定性出力を測定

実験結果

主要な結果

分布外検出実験

データタイプ	平均不確定性スコア
分布内(ID)	0.0415
分布外(OOD)	0.1378
無意味データ	0.1953

主要な発見: モデルは異なるタイプの入力を明確に区別でき、訓練分布から逸脱するほど高い不確定性を生成します。

計算効率の比較

指標	標準的な注意	Credal注意(CAM)
GFLOPs	25.77 G	25.77 G (+0%)
推論時間オーバーヘッド	ベースライン	+4.4%
訓練時間オーバーヘッド	ベースライン	+11.6%

重要な結論: CAMはほぼ計算コストを増加させることなく不確定性定量化能力を実現しています。

その他の能力検証

曖昧性定量化: 内在的に曖昧な入力に対して、モデルはより大きなcredal集合(高エントロピー)を生成します
回答不可能な質問の処理: 質問応答ベンチマークで、内部不確定性測度を使用して棄権を選択し、信頼度エラーを大幅に削減します

実験的発見

アーキテクチャレベルの解決策が有効: 外部介入と比較して、注意メカニズムの直接的な修正がより根本的に問題を解決します
不確定性とデータ品質の相関: モデルの不確定性は入力が訓練分布から逸脱する程度と高度に相関しています
許容可能な計算効率: 最小限のオーバーヘッドにより、方法は実用的価値を持ちます

結論と考察

主要な結論

根本原因の特定: Softmax関数の「人工的確実性」は幻覚問題のアーキテクチャ的根源です
効果的な解決策: Credal Transformerはcredal集合を通じて不確定性を効果的に表現および定量化します
実用性の検証: 方法は複数のタスクで優れたパフォーマンスを示し、計算オーバーヘッドは許容可能です

限界

生成タスク検証の不足: 主に判別タスクで検証され、オープンエンド生成タスクの効果は未探索です
不確定性利用の限定: 現在、主に出力層の決定指標として使用され、層級の不確定性情報は十分に活用されていません
大規模スケーラビリティ: 100B+パラメータモデルでのスケーラビリティはさらなる検証が必要です

将来の方向性

動的デコーディング指導: CAMの不確定性信号を使用して生成プロセスを動的に指導します
層級情報調整: 層級の不確定性に基づいてネットワーク内の情報フローを動的に調整します
大規模検証: 超大規模モデルと分散訓練設定での検証

深い評価

強み

理論的貢献が深い:
- 幻覚問題のアーキテクチャ的根因理論を提案しました
- 証拠理論を注意メカニズムに優雅に統合しました
方法設計が優雅:
- エンドツーエンドの微分可能性を維持します
- 標準的な注意に自然に退化します(高証拠時)
- 直接的な不確定性測度を提供します
実験検証が十分:
- 分布外検出、曖昧性定量化、質問応答タスクをカバーしています
- 計算効率分析が詳細です
- 結果は統計的説得力があります
実用的価値が高い:
- 計算オーバーヘッドが最小限です
- 既存のTransformerアーキテクチャを直接置き換えることができます
- 信頼できるAI構築のためのアーキテクチャ基礎を提供します

不足

理論分析が不十分:
- credal集合のサイズと実際の不確定性の関係に関する理論分析が欠けています
- 収束性または安定性の理論的保証がありません
実験範囲が限定的:
- 主に小規模で合成データで検証されています
- 実際の大規模LLMでの検証が欠けています
- 生成タスク検証が不足しています
比較実験が不十分:
- 他の不確定性定量化手法との比較がありません
- 既存の幻覚軽減手法との直接的な比較が欠けています
実装の詳細が不十分:
- 訓練戦略、ハイパーパラメータ選択などの詳細が不足しています
- 再現性が影響を受ける可能性があります

影響力

学術的影響:
- 新しい研究パラダイムを提供しています: アーキテクチャレベルの不確定性定量化
- 後続の関連研究の理論的基礎を確立しました
- 注意メカニズムの改善に関する今後の研究を刺激する可能性があります
実用的価値:
- 信頼できるAIシステム構築のための具体的な技術パスを提供しています
- 高リスク応用シナリオで重要な価値があります
- 計算効率により産業応用の可能性があります
方法論的貢献:
- 信頼性をモデル設計の第一原則として推奨しています
- 理論駆動型アーキテクチャ設計方法を示しています

適用シナリオ

高い信頼性要件のシナリオ: 医療診断、法律相談、金融分析など
不確定性定量化が必要なアプリケーション: 科学研究、意思決定支援システム
分布外検出の必要性: 安全関連システム、異常検出
対話型AIシステム: モデルが「わかりません」を表現する必要があるシステム

参考文献

論文の主要な参考文献には以下が含まれます:

Vaswani et al. 2017: Attention is All You Need (Transformer原始論文)
Sensoy et al. 2018: Evidential Deep Learning (証拠深層学習の理論的基礎)
Brown et al. 2020: GPT-3論文 (大規模言語モデルの基礎)
Lewis et al. 2020: RAG検索拡張生成
Huang et al. 2025: 幻覚問題サーベイ

総合評価: これは理論的洞察と技術的革新の両面で優れた論文です。著者はLLM幻覚問題のアーキテクチャ的根因を特定し、優雅な解決策を提案しています。大規模検証と理論分析の面で改善の余地がありますが、その核心的な考え方と方法は重要な学術的価値と実用的可能性を持ち、より信頼できるAIシステムの構築のための重要な技術基礎を提供しています。