We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
論文ID : 2510.13750タイトル : Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation著者 : Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)分類 : cs.CL (計算言語学)発表日 : 2025年10月16日 (arXiv v2)論文リンク : https://arxiv.org/abs/2510.13750v2 本論文は、検索拡張生成(RAG)システムの信頼度推定手法を提案し、大規模言語モデル(LLM)の出力正確性と密接に関連している。信頼度推定は金融・医療などの高リスク領域で特に重要であり、これらの領域では誤った回答のコストが回答を控える場合のコストをはるかに上回る。本手法は、原始フィードフォワードネットワーク(FFN)活性化を自己回帰信号として利用することで既存の不確実性定量化手法を拡張し、トークンロジットと確率が投影とsoftmax正規化後に被る固有の情報損失を回避する。著者らは信頼度予測を系列分類タスクとしてモデル化し、Huber損失項を用いた正則化訓練により、ノイズのある監督に対する堅牢性を向上させている。複雑な知識ベースを持つ実際の金融業界カスタマーサポートシナリオにおいて、本手法は厳格な遅延制約下で強力なベースラインを上回り、高い精度を維持している。
高リスク応用シナリオにおいて、RAGシステムは誤った応答を提供するよりも回答を拒否すべきである。これには、応答の正確性と強く相関する信頼度指標が必要であり、信頼度スコアが閾値を下回る場合に応答をマスクする。
高リスク領域の要件 : 金融、医療などの厳格に規制される領域では、誤った回答の評判と財務コストが回答を提供しないコストをはるかに上回るリアルタイム展開の課題 : 既存手法は長い叙述的回答と本番環境の遅延要件下で性能が低い不確実性の源泉 : 主にエピステミック不確実性(モデル知識の不足)であり、アレアトリック不確実性(データ固有のランダム性)ではないサンプリングベースの手法 : 複数回の生成が必要であり、本番環境で過度な計算コストと遅延を導入するトークン確率手法 : 長い回答で性能が低く、単一の低確率語が全体系列スコアを不釣り合いに低下させる可能性がある情報損失 : トークン確率は線形投影とsoftmax変換後に豊富な内部表現情報を失う活性化ベースの信頼度推定手法の提案 : 原始FFN活性化を自己回帰信号として利用し、トークンロジットの情報損失を回避系列分類フレームワーク : 信頼度予測を系列分類タスクとしてモデル化し、LSTMで活性化系列を処理Huber損失正則化 : Huber損失を導入し、検索段階のノイズのある監督に対する堅牢性を向上本番環境での検証 : 実際の金融カスタマーサポートシナリオで手法の有効性とスケーラビリティを検証効率最適化 : 第16層の活性化のみを使用することで、精度を維持しながら遅延を大幅に削減できることを実証入力xと生成系列sが与えられたとき、目標は応答の正確性と強く相関する信頼度スコアcを推定することである。cが閾値を下回る場合、システムは応答の表示を拒否する。
入力系列は以下のように構成される:
x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS
ここでxI(指示)、xQ(質問)、xC(コンテキスト)、s(回答)、xEOS(終了記号)
Transformer第ℓ層から隠れ状態活性化を抽出:
Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)
回答部分に対応する活性化のみを保持:
Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)
系列分類器g(Sin)としてLSTMを使用し、2次元ロジットベクトルzを出力、信頼度スコアは:
c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)
交差エントロピー損失とHuber損失正則化を組み合わせる:
Huber損失は以下のように定義される:
Hδ(x) = {
½x² for |x| ≤ δ
δ(|x| - ½δ) otherwise
}
バッチレベルのHuber損失:
LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))
原始活性化 vs トークン確率 : 線形投影とsoftmaxによる情報圧縮と歪みを回避自己回帰系列モデリング : LSTMを使用して生成プロセス中の時間的依存関係を捕捉堅牢性正則化 : Huber損失は検索エラーによって導入されるノイズラベルに対してより堅牢層レベルの最適化 : 実験を通じて最適な活性化抽出層数を決定出典 : Capital One内部金融カスタマーサポート知識ベース規模 : 8.5k文書、約45kチャンク特性 : 半構造化文書、複雑な階層構造、表、リストを含むアノテーション : リアルタイムフィードバックとSME専門家評価による2層検証メカニズムAUROC : 信頼度スコアの判別能力精度(P) : 表示応答の正確率再現率(R) : 正しい応答の再現率ROUGE-L : 応答品質評価マスク率 : マスクされた応答の割合遅延 : 平均およびP99応答時間Vectara (HHEM2.1) : 含意ベースのセマンティック一貫性モデルVectaraFT : Vectaraの微調整版ロジットベース : トークンロジットベースの不確実性モデルモデル : Llama 3.1 8B活性化層 : 第16層および第32層コンテキストサイズ : Top-1、Top-3、Top-5、Full (Top-7)推論フレームワーク : Hugging Face、vLLM手法 AUROC Vectara 0.590 VectaraFT 0.634 ロジットベース 0.663 提案手法(キャリブレーションなし) 0.741 提案手法(キャリブレーション付き) 0.772
閾値 精度 再現率 ROUGE-L (表示/マスク) マスク率 0.5 0.95 0.73 0.65/0.57 29.9% 0.7 0.96 0.65 0.66/0.57 38.6% 0.9 0.97 0.52 0.67/0.58 52.0%
第16層 vs 第32層 :
第16層は同様の性能を維持しながら遅延を大幅に削減(約42.5%) Fullコンテキスト設定では、第16層は0.97精度、31.3%マスク率を達成 遅延分析 :
フレームワーク 層 コンテキスト 平均遅延(ms) P99遅延(ms) vLLM 16 Full 127 267 vLLM 32 Full 206 354
Huber損失の効果 : 0.741から0.772 AUROCへ向上活性化層の選択 : 第16層は第32層に近い性能だが遅延が低いコンテキストサイズの影響 : より大きなコンテキストは精度を向上させるが遅延を増加させるサンプリングベースの手法 : 複数回の生成を通じて一貫性を測定するが、計算コストが高い確率ベースの手法 : トークン確率とセマンティックエントロピーを利用するが、長いテキストでの効果は限定的分類ベースの手法 : HHEMなど、複数回の生成を回避するがブラックボックスアクセスに依存活性化ベースの手法 : 内部表現を利用、本論文の主要な貢献方向サンプリング手法と比較: 単一の前向きパス、遅延が低い 確率ベース手法と比較: 完全な内部表現を保持、情報損失が少ない ブラックボックス手法と比較: ホワイトボックスアクセスを利用してより豊富な信号を取得 有効性 : 活性化ベースの手法は既存ベースラインを大幅に上回り、AUROCは0.772に達する実用性 : 本番環境で0.95精度と29.9%マスク率の良好なバランスを実現効率 : 第16層活性化は性能を維持しながら遅延を大幅に削減堅牢性 : Huber損失はノイズのある監督に対する堅牢性を効果的に向上ホワイトボックス依存 : モデル内部活性化へのアクセスが必要であり、汎用性を制限アーキテクチャ特異性 : 手法は特定のモデルアーキテクチャに合わせてカスタマイズされ、転送には再構成が必要2段階処理 : 信頼度スコアを計算するために追加の前向きパスが必要データ制限 : 実験データは公開不可であり、再現性に影響エンドツーエンド統合 : 信頼度推定を生成プロセスに直接統合アーキテクチャ非依存 : 複数のLLMアーキテクチャに適用可能な汎用手法の開発計算最適化 : 信頼度推定の計算オーバーヘッドをさらに削減理論分析 : 活性化パターンと信頼度の理論的関係を深く理解技術的革新 : FFN活性化をRAG信頼度推定に初めて体系的に利用し、トークン確率の情報損失を回避実用的価値 : 実際の金融シナリオで検証され、強い実用指向を持つ包括的実験 : 層、コンテキスト、遅延など複数の側面から充分なアブレーション実験を実施エンジニアリング考慮 : 本番環境の遅延制約とスケーラビリティ要件を十分に考慮汎用性の制限 : 手法はホワイトボックスアクセスと特定のアーキテクチャに依存し、推広が制限される理論的基礎 : FFN活性化がなぜ信頼度を予測できるかについての深い理論的分析が不足データの透明性 : 専有データセットは公開不可であり、結果の検証可能性に影響比較の限定 : より多くの最新の不確実性定量化手法との比較が不十分学術的貢献 : RAGシステムの信頼性研究に新しい技術パスを提供産業的価値 : 高リスク領域のLLM展開に実用的なソリューションを提供手法の示唆 : 活性化ベース手法は内部表現利用の研究をさらに刺激する可能性がある高リスク領域 : 金融、医療、法律など精度要件が極めて高いシナリオホワイトボックス展開 : モデル内部へのアクセス権限を持つエンタープライズアプリケーションリアルタイムシステム : 厳格な遅延制約下で信頼できる応答を提供する必要があるシナリオ専門知識ベース : 構造化・専門化された知識ベースを持つRAGアプリケーション本論文は不確実性定量化、RAGシステム、活性化分析など複数の関連領域の重要な研究を引用しており、以下を含む:
Azaria and Mitchell (2023): LLM内部状態と「嘘」検出 Bakman et al. (2024): 意味ベースの応答スコアリング Bao et al. (2024): HHEM含意モデル Dai et al. (2022): 事前訓練Transformerの知識ニューロン 総合評価 : これは技術的に堅実で実用的価値の高い論文であり、RAGシステムの信頼度推定という重要な問題に対して革新的なソリューションを提案している。汎用性と理論的深さにおいて一定の限界がある一方で、実際のシナリオでの成功した応用と充分な実験検証により、重要な学術的および産業的価値を持つ。