2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

信頼度ベースの応答棄却：活性化ベースの不確実性推定によるLLMの信頼性向上

基本情報

論文ID: 2510.13750
タイトル: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
著者: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
分類: cs.CL (計算言語学)
発表日: 2025年10月16日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2510.13750v2

要約

本論文は、検索拡張生成(RAG)システムの信頼度推定手法を提案し、大規模言語モデル(LLM)の出力正確性と密接に関連している。信頼度推定は金融・医療などの高リスク領域で特に重要であり、これらの領域では誤った回答のコストが回答を控える場合のコストをはるかに上回る。本手法は、原始フィードフォワードネットワーク(FFN)活性化を自己回帰信号として利用することで既存の不確実性定量化手法を拡張し、トークンロジットと確率が投影とsoftmax正規化後に被る固有の情報損失を回避する。著者らは信頼度予測を系列分類タスクとしてモデル化し、Huber損失項を用いた正則化訓練により、ノイズのある監督に対する堅牢性を向上させている。複雑な知識ベースを持つ実際の金融業界カスタマーサポートシナリオにおいて、本手法は厳格な遅延制約下で強力なベースラインを上回り、高い精度を維持している。

研究背景と動機

問題定義

高リスク応用シナリオにおいて、RAGシステムは誤った応答を提供するよりも回答を拒否すべきである。これには、応答の正確性と強く相関する信頼度指標が必要であり、信頼度スコアが閾値を下回る場合に応答をマスクする。

問題の重要性

高リスク領域の要件: 金融、医療などの厳格に規制される領域では、誤った回答の評判と財務コストが回答を提供しないコストをはるかに上回る
リアルタイム展開の課題: 既存手法は長い叙述的回答と本番環境の遅延要件下で性能が低い
不確実性の源泉: 主にエピステミック不確実性(モデル知識の不足)であり、アレアトリック不確実性(データ固有のランダム性)ではない

既存手法の限界

サンプリングベースの手法: 複数回の生成が必要であり、本番環境で過度な計算コストと遅延を導入する
トークン確率手法: 長い回答で性能が低く、単一の低確率語が全体系列スコアを不釣り合いに低下させる可能性がある
情報損失: トークン確率は線形投影とsoftmax変換後に豊富な内部表現情報を失う

核心的貢献

活性化ベースの信頼度推定手法の提案: 原始FFN活性化を自己回帰信号として利用し、トークンロジットの情報損失を回避
系列分類フレームワーク: 信頼度予測を系列分類タスクとしてモデル化し、LSTMで活性化系列を処理
Huber損失正則化: Huber損失を導入し、検索段階のノイズのある監督に対する堅牢性を向上
本番環境での検証: 実際の金融カスタマーサポートシナリオで手法の有効性とスケーラビリティを検証
効率最適化: 第16層の活性化のみを使用することで、精度を維持しながら遅延を大幅に削減できることを実証

方法の詳細

タスク定義

入力xと生成系列sが与えられたとき、目標は応答の正確性と強く相関する信頼度スコアcを推定することである。cが閾値を下回る場合、システムは応答の表示を拒否する。

モデルアーキテクチャ

全体フレームワーク

入力系列は以下のように構成される:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

ここでxI(指示)、xQ(質問)、xC(コンテキスト)、s(回答)、xEOS(終了記号)

活性化抽出

Transformer第ℓ層から隠れ状態活性化を抽出:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

回答部分に対応する活性化のみを保持:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

系列分類器

系列分類器g(Sin)としてLSTMを使用し、2次元ロジットベクトルzを出力、信頼度スコアは:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

訓練戦略

損失関数

交差エントロピー損失とHuber損失正則化を組み合わせる:

LTotal = LCE + λLHuber

Huber損失は以下のように定義される:

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

バッチレベルのHuber損失:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

技術的革新点

原始活性化 vs トークン確率: 線形投影とsoftmaxによる情報圧縮と歪みを回避
自己回帰系列モデリング: LSTMを使用して生成プロセス中の時間的依存関係を捕捉
堅牢性正則化: Huber損失は検索エラーによって導入されるノイズラベルに対してより堅牢
層レベルの最適化: 実験を通じて最適な活性化抽出層数を決定

実験設定

データセット

出典: Capital One内部金融カスタマーサポート知識ベース
規模: 8.5k文書、約45kチャンク
特性: 半構造化文書、複雑な階層構造、表、リストを含む
アノテーション: リアルタイムフィードバックとSME専門家評価による2層検証メカニズム

評価指標

AUROC: 信頼度スコアの判別能力
精度(P): 表示応答の正確率
再現率(R): 正しい応答の再現率
ROUGE-L: 応答品質評価
マスク率: マスクされた応答の割合
遅延: 平均およびP99応答時間

比較手法

Vectara (HHEM2.1): 含意ベースのセマンティック一貫性モデル
VectaraFT: Vectaraの微調整版
ロジットベース: トークンロジットベースの不確実性モデル

実装詳細

モデル: Llama 3.1 8B
活性化層: 第16層および第32層
コンテキストサイズ: Top-1、Top-3、Top-5、Full (Top-7)
推論フレームワーク: Hugging Face、vLLM

実験結果

主要結果

手法	AUROC
Vectara	0.590
VectaraFT	0.634
ロジットベース	0.663
提案手法(キャリブレーションなし)	0.741
提案手法(キャリブレーション付き)	0.772