2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic

信頼度ベースの応答棄却:活性化ベースの不確実性推定によるLLMの信頼性向上

基本情報

  • 論文ID: 2510.13750
  • タイトル: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
  • 著者: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
  • 分類: cs.CL (計算言語学)
  • 発表日: 2025年10月16日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2510.13750v2

要約

本論文は、検索拡張生成(RAG)システムの信頼度推定手法を提案し、大規模言語モデル(LLM)の出力正確性と密接に関連している。信頼度推定は金融・医療などの高リスク領域で特に重要であり、これらの領域では誤った回答のコストが回答を控える場合のコストをはるかに上回る。本手法は、原始フィードフォワードネットワーク(FFN)活性化を自己回帰信号として利用することで既存の不確実性定量化手法を拡張し、トークンロジットと確率が投影とsoftmax正規化後に被る固有の情報損失を回避する。著者らは信頼度予測を系列分類タスクとしてモデル化し、Huber損失項を用いた正則化訓練により、ノイズのある監督に対する堅牢性を向上させている。複雑な知識ベースを持つ実際の金融業界カスタマーサポートシナリオにおいて、本手法は厳格な遅延制約下で強力なベースラインを上回り、高い精度を維持している。

研究背景と動機

問題定義

高リスク応用シナリオにおいて、RAGシステムは誤った応答を提供するよりも回答を拒否すべきである。これには、応答の正確性と強く相関する信頼度指標が必要であり、信頼度スコアが閾値を下回る場合に応答をマスクする。

問題の重要性

  1. 高リスク領域の要件: 金融、医療などの厳格に規制される領域では、誤った回答の評判と財務コストが回答を提供しないコストをはるかに上回る
  2. リアルタイム展開の課題: 既存手法は長い叙述的回答と本番環境の遅延要件下で性能が低い
  3. 不確実性の源泉: 主にエピステミック不確実性(モデル知識の不足)であり、アレアトリック不確実性(データ固有のランダム性)ではない

既存手法の限界

  1. サンプリングベースの手法: 複数回の生成が必要であり、本番環境で過度な計算コストと遅延を導入する
  2. トークン確率手法: 長い回答で性能が低く、単一の低確率語が全体系列スコアを不釣り合いに低下させる可能性がある
  3. 情報損失: トークン確率は線形投影とsoftmax変換後に豊富な内部表現情報を失う

核心的貢献

  1. 活性化ベースの信頼度推定手法の提案: 原始FFN活性化を自己回帰信号として利用し、トークンロジットの情報損失を回避
  2. 系列分類フレームワーク: 信頼度予測を系列分類タスクとしてモデル化し、LSTMで活性化系列を処理
  3. Huber損失正則化: Huber損失を導入し、検索段階のノイズのある監督に対する堅牢性を向上
  4. 本番環境での検証: 実際の金融カスタマーサポートシナリオで手法の有効性とスケーラビリティを検証
  5. 効率最適化: 第16層の活性化のみを使用することで、精度を維持しながら遅延を大幅に削減できることを実証

方法の詳細

タスク定義

入力xと生成系列sが与えられたとき、目標は応答の正確性と強く相関する信頼度スコアcを推定することである。cが閾値を下回る場合、システムは応答の表示を拒否する。

モデルアーキテクチャ

全体フレームワーク

入力系列は以下のように構成される:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

ここでxI(指示)、xQ(質問)、xC(コンテキスト)、s(回答)、xEOS(終了記号)

活性化抽出

Transformer第ℓ層から隠れ状態活性化を抽出:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

回答部分に対応する活性化のみを保持:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

系列分類器

系列分類器g(Sin)としてLSTMを使用し、2次元ロジットベクトルzを出力、信頼度スコアは:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

訓練戦略

損失関数

交差エントロピー損失とHuber損失正則化を組み合わせる:

LTotal = LCE + λLHuber

Huber損失は以下のように定義される:

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

バッチレベルのHuber損失:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

技術的革新点

  1. 原始活性化 vs トークン確率: 線形投影とsoftmaxによる情報圧縮と歪みを回避
  2. 自己回帰系列モデリング: LSTMを使用して生成プロセス中の時間的依存関係を捕捉
  3. 堅牢性正則化: Huber損失は検索エラーによって導入されるノイズラベルに対してより堅牢
  4. 層レベルの最適化: 実験を通じて最適な活性化抽出層数を決定

実験設定

データセット

  • 出典: Capital One内部金融カスタマーサポート知識ベース
  • 規模: 8.5k文書、約45kチャンク
  • 特性: 半構造化文書、複雑な階層構造、表、リストを含む
  • アノテーション: リアルタイムフィードバックとSME専門家評価による2層検証メカニズム

評価指標

  • AUROC: 信頼度スコアの判別能力
  • 精度(P): 表示応答の正確率
  • 再現率(R): 正しい応答の再現率
  • ROUGE-L: 応答品質評価
  • マスク率: マスクされた応答の割合
  • 遅延: 平均およびP99応答時間

比較手法

  • Vectara (HHEM2.1): 含意ベースのセマンティック一貫性モデル
  • VectaraFT: Vectaraの微調整版
  • ロジットベース: トークンロジットベースの不確実性モデル

実装詳細

  • モデル: Llama 3.1 8B
  • 活性化層: 第16層および第32層
  • コンテキストサイズ: Top-1、Top-3、Top-5、Full (Top-7)
  • 推論フレームワーク: Hugging Face、vLLM

実験結果

主要結果

手法AUROC
Vectara0.590
VectaraFT0.634
ロジットベース0.663
提案手法(キャリブレーションなし)0.741
提案手法(キャリブレーション付き)0.772

信頼度閾値分析

閾値精度再現率ROUGE-L (表示/マスク)マスク率
0.50.950.730.65/0.5729.9%
0.70.960.650.66/0.5738.6%
0.90.970.520.67/0.5852.0%

層とコンテキストの最適化

第16層 vs 第32層:

  • 第16層は同様の性能を維持しながら遅延を大幅に削減(約42.5%)
  • Fullコンテキスト設定では、第16層は0.97精度、31.3%マスク率を達成

遅延分析:

フレームワークコンテキスト平均遅延(ms)P99遅延(ms)
vLLM16Full127267
vLLM32Full206354

アブレーション実験

  1. Huber損失の効果: 0.741から0.772 AUROCへ向上
  2. 活性化層の選択: 第16層は第32層に近い性能だが遅延が低い
  3. コンテキストサイズの影響: より大きなコンテキストは精度を向上させるが遅延を増加させる

関連研究

不確実性定量化手法の分類

  1. サンプリングベースの手法: 複数回の生成を通じて一貫性を測定するが、計算コストが高い
  2. 確率ベースの手法: トークン確率とセマンティックエントロピーを利用するが、長いテキストでの効果は限定的
  3. 分類ベースの手法: HHEMなど、複数回の生成を回避するがブラックボックスアクセスに依存
  4. 活性化ベースの手法: 内部表現を利用、本論文の主要な貢献方向

本論文の利点

  • サンプリング手法と比較: 単一の前向きパス、遅延が低い
  • 確率ベース手法と比較: 完全な内部表現を保持、情報損失が少ない
  • ブラックボックス手法と比較: ホワイトボックスアクセスを利用してより豊富な信号を取得

結論と考察

主要な結論

  1. 有効性: 活性化ベースの手法は既存ベースラインを大幅に上回り、AUROCは0.772に達する
  2. 実用性: 本番環境で0.95精度と29.9%マスク率の良好なバランスを実現
  3. 効率: 第16層活性化は性能を維持しながら遅延を大幅に削減
  4. 堅牢性: Huber損失はノイズのある監督に対する堅牢性を効果的に向上

限界

  1. ホワイトボックス依存: モデル内部活性化へのアクセスが必要であり、汎用性を制限
  2. アーキテクチャ特異性: 手法は特定のモデルアーキテクチャに合わせてカスタマイズされ、転送には再構成が必要
  3. 2段階処理: 信頼度スコアを計算するために追加の前向きパスが必要
  4. データ制限: 実験データは公開不可であり、再現性に影響

今後の方向

  1. エンドツーエンド統合: 信頼度推定を生成プロセスに直接統合
  2. アーキテクチャ非依存: 複数のLLMアーキテクチャに適用可能な汎用手法の開発
  3. 計算最適化: 信頼度推定の計算オーバーヘッドをさらに削減
  4. 理論分析: 活性化パターンと信頼度の理論的関係を深く理解

深層評価

長所

  1. 技術的革新: FFN活性化をRAG信頼度推定に初めて体系的に利用し、トークン確率の情報損失を回避
  2. 実用的価値: 実際の金融シナリオで検証され、強い実用指向を持つ
  3. 包括的実験: 層、コンテキスト、遅延など複数の側面から充分なアブレーション実験を実施
  4. エンジニアリング考慮: 本番環境の遅延制約とスケーラビリティ要件を十分に考慮

不足

  1. 汎用性の制限: 手法はホワイトボックスアクセスと特定のアーキテクチャに依存し、推広が制限される
  2. 理論的基礎: FFN活性化がなぜ信頼度を予測できるかについての深い理論的分析が不足
  3. データの透明性: 専有データセットは公開不可であり、結果の検証可能性に影響
  4. 比較の限定: より多くの最新の不確実性定量化手法との比較が不十分

影響力

  1. 学術的貢献: RAGシステムの信頼性研究に新しい技術パスを提供
  2. 産業的価値: 高リスク領域のLLM展開に実用的なソリューションを提供
  3. 手法の示唆: 活性化ベース手法は内部表現利用の研究をさらに刺激する可能性がある

適用シナリオ

  1. 高リスク領域: 金融、医療、法律など精度要件が極めて高いシナリオ
  2. ホワイトボックス展開: モデル内部へのアクセス権限を持つエンタープライズアプリケーション
  3. リアルタイムシステム: 厳格な遅延制約下で信頼できる応答を提供する必要があるシナリオ
  4. 専門知識ベース: 構造化・専門化された知識ベースを持つRAGアプリケーション

参考文献

本論文は不確実性定量化、RAGシステム、活性化分析など複数の関連領域の重要な研究を引用しており、以下を含む:

  • Azaria and Mitchell (2023): LLM内部状態と「嘘」検出
  • Bakman et al. (2024): 意味ベースの応答スコアリング
  • Bao et al. (2024): HHEM含意モデル
  • Dai et al. (2022): 事前訓練Transformerの知識ニューロン

総合評価: これは技術的に堅実で実用的価値の高い論文であり、RAGシステムの信頼度推定という重要な問題に対して革新的なソリューションを提案している。汎用性と理論的深さにおいて一定の限界がある一方で、実際のシナリオでの成功した応用と充分な実験検証により、重要な学術的および産業的価値を持つ。