Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
论文ID : 2510.10913标题 : ADVICE: Answer-Dependent Verbalized Confidence Estimation作者 : Ki Jung Seo, Sehun Lim, Taeuk Kim (Hanyang University)分类 : cs.CL (Computational Linguistics)发表时间 : 2025年10月13日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.10913 大型语言模型(LLMs)在用自然语言表达置信度方面取得了显著进展,提高了透明度和可靠性。然而,它们的置信度往往表现出过度自信的问题,其根本原因尚未得到充分理解。本研究对语言化置信度的内在动态进行了详细分析,识别出"答案无关性"是关键因素,即模型未能基于自身答案来调节置信度。为解决这一问题,作者提出了ADVICE(Answer-Dependent Verbalized Confidence Estimation),一个促进基于答案的置信度估计的微调框架。大量实验表明,ADVICE在保持任务性能的同时显著改善了置信度校准。进一步分析证实ADVICE增强了答案依赖性,产生了更平衡和校准良好的置信度分布。
核心问题 : 大型语言模型在生成语言化置信度时存在严重的过度自信问题,即无论答案正确与否都倾向于表达高置信度重要性 : 在法律、医疗等高风险领域部署LLMs时,可靠的置信度估计对于管理模型的固有不完整性至关重要现有方法局限 :
现有研究主要关注"如何"缓解过度自信,而非"为什么"会产生过度自信 缺乏对语言化置信度内在机制的深入理解 提示方法、采样方法和微调方法虽有改进,但根本原因未明 作者从神经科学中的置信度估计理论获得灵感,将置信度估计框架为决策后的证据积累过程,发现LLMs在估计置信度时往往忽略自身生成的答案信息,这与置信度的定义相矛盾。
理论发现 : 首次系统性地识别并分析了"答案无关性"作为LLMs过度自信的根本原因分析方法 : 提出了基于概率分布比较和归因分析的双重验证方法来量化答案依赖性解决方案 : 设计了ADVICE微调框架,显式地鼓励模型在报告置信度时关注其生成的答案实证验证 : 在多个数据集和模型上验证了方法的有效性,证明了答案信息在置信度估计中的重要性泛化能力 : 展示了方法在分布外任务上的强泛化能力和平衡的置信度分布特性给定问题q和对应答案a,语言化置信度应该近似答案正确的概率P(correct|q,a)。理想的置信度估计应该:
在答案正确时表达高置信度 在答案错误时表达低置信度 根据答案内容调整置信度水平 通过比较以下两个分布来验证答案无关性:
P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q
其中右侧通过全概率公式展开为:
P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)
使用Jensen-Shannon散度(JSD)量化两个分布的差异,JSD值接近0表明模型对答案信息不敏感。
注意力展开(Attention Rollout) : 分析置信度生成对答案tokens的注意力权重积分梯度(Integrated Gradients) : 计算答案tokens对置信度预测的贡献度从TriviaQA采样2000个实例 为每个问题q构建三元组(q, a_correct, a_wrong) 构建三种语言化格式变体以提高泛化能力 定义三个损失函数:
语言建模损失 :L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)
保持模型的原始QA能力
对比分布损失 :L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))
驱动模型学习区分正确和错误答案的置信度分布
边际损失 :L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))
确保正确答案获得更高的期望置信度
总损失函数:
L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin
根因分析 : 首次从答案依赖性角度分析过度自信问题双重验证 : 结合概率分析和神经网络归因方法验证假设对比学习 : 利用正确/错误答案对进行对比训练多目标优化 : 平衡任务性能保持和置信度校准改进训练 : TriviaQA (2000个实例)评估 : TriviaQA, MMLU, SciQ, LogiQA (测试跨域泛化)LLAMA-3.1-8B-INSTRUCT MISTRAL-7B-INSTRUCT-V0.3 GEMMA-2-9B-IT ScoreText: {low, medium, high} ScoreLetter: {E, D, C, B, A} ScoreNumber: {0, 1, ..., 9} ScoreFloat: 0.0, 1.0 ScorePercent: {0%, 1%, ..., 100%} ECE (Expected Calibration Error): 预测置信度与实际准确率的平均绝对差NCE (Net Calibration Error): 带符号的校准误差,反映偏向性BS (Brier Score): 概率预测的均方误差AUROC : 置信度排序能力Default : 基础提示方法Self-Consistency : 基于采样的方法ConfTuner : 当前最佳的微调方法在TriviaQA上的性能对比(GEMMA-2-9B-IT):
ECE : Default (21.9%) → ADVICE (6.5%)NCE : Default (-21.8%) → ADVICE (1.6%)AUROC : Default (52.7%) → ADVICE (78.5%)跨域泛化结果显示ADVICE在MMLU、SciQ、LogiQA上均取得显著改进,证明了方法的鲁棒性。
各损失函数贡献分析:
L_JSD单独使用:ECE从19.7%降至4.9% L_Margin单独使用:ECE从19.7%降至3.9% 完整ADVICE:最佳的跨数据集泛化能力 答案无关性验证 : JSD分布呈现幂律模式,大部分值接近0,证实了答案无关性假设注意力模式 : 置信度→答案的注意力权重显著低于其他方向校准改进 : 可靠性图表明ADVICE产生更细粒度、更准确的置信度分布答案意识增强 : 掩码实验显示ADVICE在答案缺失时适当表达不确定性δ_JSD的增加持续降低ECE,验证了对比学习目标的有效性。
Lin等(2022)首次引入语言化置信度估计 后续研究主要分为提示方法、采样方法和微调方法三类 本研究填补了机制分析的空白 注意力机制分析:Attention Rollout, Attention Flow等 梯度归因方法:Integrated Gradients等 本研究创新性地将这些方法应用于置信度分析 LLMs的过度自信主要源于答案无关性问题 ADVICE通过增强答案依赖性有效改善置信度校准 该方法具有良好的泛化能力和实用价值 主要关注短文本QA任务,长文本理解任务的适用性有待验证 需要额外的数据构建成本来生成对比答案对 复杂推理任务的效果需要进一步探索 扩展到需要长上下文理解和复杂推理的任务 探索更高效的训练数据构建方法 研究在其他模态(如视觉-语言模型)中的应用 理论贡献突出 : 首次系统性地分析了过度自信的根本原因,提供了重要的理论洞察方法论严谨 : 采用多角度验证(概率分析+归因分析),结论可信度高实验设计完善 : 跨模型、跨数据集的全面评估,消融实验充分实用价值显著 : 在保持任务性能的同时显著改善置信度校准泛化能力强 : 在分布外数据上表现良好,显示了方法的鲁棒性任务范围有限 : 主要验证了QA任务,其他NLP任务的适用性未充分探索计算开销 : 需要额外的微调过程和对比数据构建理论分析深度 : 虽然识别了答案无关性问题,但对其产生的深层原因分析不够充分长期效果 : 未评估微调后模型在长期使用中的稳定性学术价值 : 为置信度估计领域提供了新的研究视角和分析框架实用意义 : 对提高LLMs在高风险应用中的可靠性具有重要价值可复现性 : 提供了详细的实现细节和开源代码,便于复现和扩展需要可靠置信度估计的问答系统 高风险决策支持系统 人机协作场景中的不确定性表达 模型校准和可信AI应用 论文引用了68篇相关文献,涵盖了语言化置信度、LLM探测方法、校准理论等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 : 这是一篇高质量的研究论文,在理论分析和实用方法两方面都有重要贡献。作者不仅识别了LLMs过度自信的根本原因,还提出了有效的解决方案。方法简单而有效,实验设计严谨,结果令人信服。对于推进可信AI和提高LLMs在实际应用中的可靠性具有重要意义。