2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

基本信息

论文ID: 2510.13750
标题: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
作者: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年10月16日 (arXiv v2)
论文链接: https://arxiv.org/abs/2510.13750v2

摘要

本文提出了一种用于检索增强生成(RAG)系统的置信度估计方法，该方法与大语言模型(LLM)输出的正确性密切相关。置信度估计在金融和医疗等高风险领域尤为重要，在这些领域中，错误答案的代价远超过不回答问题的代价。该方法通过利用原始前馈网络(FFN)激活作为自回归信号，扩展了现有的不确定性量化方法，避免了token logits和概率在投影和softmax归一化后固有的信息损失。作者将置信度预测建模为序列分类任务，并使用Huber损失项正则化训练以提高对噪声监督的鲁棒性。在具有复杂知识库的真实金融行业客户支持场景中，该方法在严格的延迟约束下超越了强基线并保持了高准确性。

研究背景与动机

问题定义

在高风险应用场景中，RAG系统宁可拒绝回答也不应提供错误响应。这需要一个能够与响应正确性强相关的置信度度量，当置信度分数低于阈值时屏蔽响应。

问题重要性

高风险领域需求: 在金融、医疗等受严格监管的领域，提供错误答案的声誉和财务成本远高于不提供答案的成本
实时部署挑战: 现有方法在长篇叙述性回答和生产环境的延迟要求下表现不佳
不确定性来源: 主要来源是认识论不确定性(模型知识不足)，而非偶然性不确定性(数据固有随机性)

现有方法局限性

基于采样的方法: 需要多次生成，在生产环境中引入过高的计算成本和延迟
Token概率方法: 在长回答中表现不佳，单个低概率词可能不成比例地降低整体序列分数
信息损失: Token概率经过线性投影和softmax变换后丢失了丰富的内部表示信息

核心贡献

提出基于激活的置信度估计方法: 利用原始FFN激活作为自回归信号，避免token logits的信息损失
序列分类框架: 将置信度预测建模为序列分类任务，使用LSTM处理激活序列
Huber损失正则化: 引入Huber损失提高对检索阶段噪声监督的鲁棒性
生产环境验证: 在真实金融客户支持场景中验证方法的有效性和可扩展性
效率优化: 证明仅使用第16层激活可在保持准确性的同时显著降低延迟

方法详解

任务定义

给定输入x和生成序列s，目标是估计一个置信度分数c，使其与响应正确性强相关。当c低于阈值时，系统拒绝显示响应。

模型架构

整体框架

输入序列构造为：

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

其中xI(指令)、xQ(问题)、xC(上下文)、s(答案)、xEOS(结束符)

激活提取

从Transformer第ℓ层提取隐藏状态激活：

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

仅保留对应答案部分的激活：

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

序列分类器

使用LSTM作为序列分类器g(Sin)，输出2维logit向量z，置信度分数为：

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

训练策略

损失函数

结合交叉熵损失和Huber损失正则化：

LTotal = LCE + λLHuber

Huber损失定义为：

Hδ(x) = {
  ½x² for |x| ≤ δ
  δ(|x| - ½δ) otherwise
}

批次级Huber损失：

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

技术创新点

原始激活vs Token概率: 避免线性投影和softmax造成的信息压缩和失真
自回归序列建模: 使用LSTM捕获生成过程中的时序依赖关系
鲁棒性正则化: Huber损失对检索错误引入的噪声标签更加鲁棒
层级优化: 通过实验确定最优的激活提取层数

实验设置

数据集

来源: Capital One内部金融客户支持知识库
规模: 8.5k文档，约45k chunks
特点: 半结构化文档，包含复杂层次结构、表格、列表等
标注: 通过实时反馈和SME专家评估的两层验证机制

评价指标

AUROC: 置信度分数的区分能力
Precision (P): 显示响应的准确率
Recall (R): 正确响应的召回率
ROUGE-L: 响应质量评估
Mask Rate: 被屏蔽响应的比例
延迟: 平均和P99响应时间

对比方法

Vectara (HHEM2.1): 基于蕴含的语义一致性模型
VectaraFT: Vectara的微调版本
Logits-based: 基于token logits的不确定性模型

实现细节

模型: Llama 3.1 8B
激活层: 第16层和第32层
上下文大小: Top-1, Top-3, Top-5, Full (Top-7)
推理框架: Hugging Face, vLLM

实验结果

主要结果

方法	AUROC
Vectara	0.590
VectaraFT	0.634
Logits-based	0.663
Our Model (no calib.)	0.741
Our Model (with calib.)	0.772

置信度阈值分析

阈值	精确度	召回率	ROUGE-L (显示/屏蔽)	屏蔽率
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

层级和上下文优化

第16层 vs 第32层:

第16层在保持相似性能的同时显著降低延迟(约42.5%)
在Full上下文设置下，第16层达到0.97精确度，31.3%屏蔽率

延迟分析:

框架	层级	上下文	平均延迟(ms)	P99延迟(ms)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

消融实验

Huber损失的作用: 从0.741提升到0.772 AUROC
激活层选择: 第16层性能接近第32层但延迟更低
上下文大小影响: 更大上下文提高准确性但增加延迟

结论与讨论

主要结论

有效性: 基于激活的方法显著优于现有基线，AUROC达到0.772
实用性: 在生产环境中实现0.95精确度和29.9%屏蔽率的良好平衡
效率: 第16层激活在保持性能的同时大幅降低延迟
鲁棒性: Huber损失有效提高对噪声监督的鲁棒性

局限性

白盒依赖: 需要访问模型内部激活，限制了通用性
架构特定: 方法针对特定模型架构定制，迁移需要重新配置
两阶段处理: 需要额外的前向传播计算置信度分数
数据限制: 实验数据无法公开，影响可复现性

未来方向

端到端集成: 将置信度估计直接集成到生成过程中
架构无关: 开发适用于多种LLM架构的通用方法
计算优化: 进一步降低置信度估计的计算开销
理论分析: 深入理解激活模式与置信度的理论关系

深度评价

优点

技术创新: 首次系统性地利用FFN激活进行RAG置信度估计，避免了token概率的信息损失
实际价值: 在真实金融场景中验证，具有强烈的实用导向
全面实验: 从多个维度(层级、上下文、延迟)进行了充分的消融实验
工程考量: 充分考虑了生产环境的延迟约束和可扩展性要求

不足

通用性限制: 方法依赖白盒访问和特定架构，推广受限
理论基础: 缺乏对为什么FFN激活能够预测置信度的深入理论分析
数据透明度: 专有数据集无法公开，影响结果的可验证性
对比有限: 与更多最新的不确定性量化方法对比不够充分

影响力

学术贡献: 为RAG系统的可信度研究提供了新的技术路径
产业价值: 为高风险领域的LLM部署提供了实用的解决方案
方法启发: 激活-based方法可能启发更多内部表示利用的研究

适用场景

高风险领域: 金融、医疗、法律等对准确性要求极高的场景
白盒部署: 有模型内部访问权限的企业级应用
实时系统: 需要在严格延迟约束下提供可信响应的场景
专业知识库: 具有结构化、专业化知识库的RAG应用

参考文献

本文引用了不确定性量化、RAG系统、激活分析等多个相关领域的重要工作，包括：

Azaria and Mitchell (2023): LLM内部状态与"说谎"检测
Bakman et al. (2024): 基于意义的响应评分
Bao et al. (2024): HHEM蕴含模型
Dai et al. (2022): 预训练Transformer中的知识神经元

总体评价: 这是一篇技术扎实、实用价值高的论文，在RAG系统置信度估计这一重要问题上提出了创新性解决方案。虽然在通用性和理论深度上存在一定局限，但其在真实场景中的成功应用和充分的实验验证使其具有重要的学术和产业价值。