2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

基本信息

  • 论文ID: 2511.02197
  • 标题: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • 作者: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • 分类: cs.SE (Software Engineering), cs.AI (Artificial Intelligence)
  • 发表时间: 2025年11月4日
  • 论文链接: https://arxiv.org/abs/2511.02197

摘要

随着大语言模型(LLMs)在代码智能领域的广泛应用,其在代码推理任务中输出的可靠性和可控性日益受到关注。置信度估计作为评估这些方面的有效且便捷的方法,具有重要意义。本文提出了一个针对代码推理任务的LLM置信度分析和增强框架。研究对主流LLMs在不同任务上的置信度可靠性进行了全面的实证研究,并进一步评估了提示策略优化和数学校准(如Platt Scaling)等技术在提高置信度可靠性方面的有效性。

研究背景与动机

问题定义

本研究主要解决LLMs在代码推理任务中的置信度可靠性问题。具体包括:

  1. 置信度校准问题:当前LLMs在代码推理中可能表现出过度自信或自信不足的行为
  2. 可信度评估困难:开发者难以判断模型输出的可信程度,影响决策制定
  3. 系统性偏差:不同模型在不同任务上的置信度表现存在显著差异

研究重要性

  1. 实用价值:在软件工程实践中,开发者需要了解模型输出的可信度来做出明智决策
  2. 安全考虑:错误的高置信度预测可能导致严重的软件缺陷
  3. 效率提升:可靠的置信度估计可以帮助开发者优化验证流程

现有方法局限性

  1. 研究稀缺:针对代码推理任务的置信度可靠性系统性研究相对稀少
  2. 评估不足:大多数现有工作依赖准确率等客观指标,忽略了模型自我感知的量化
  3. 改进技术有限:缺乏有效的技术手段来提升LLM在代码推理中的置信度可靠性

核心贡献

  1. 提出系统性分析框架:构建了针对代码推理任务的LLM置信度可靠性分析框架,并进行了全面的定量实证研究
  2. 评估改进技术:系统评估了提示策略优化和数学校准方法的有效性,揭示了其在不同模型和任务上的适用性和局限性
  3. 深入分析影响因素:提供了置信度可靠性对实际软件工程应用影响的深入分析,并为LLM置信度机制的优化和工程部署提供了可行建议
  4. 实证发现:发现具有推理能力的模型在置信度可靠性方面表现更优,混合策略在提升各种模型置信度可靠性方面最为有效

方法详解

任务定义

代码推理任务要求模型在不执行程序的情况下,通过语法、语义和逻辑层面的分析来推断代码的行为,包括输入输出、运行时行为、分支路径或变量值等。

置信度定义为模型对其输出正确性的主观概率评估。对于模型M,给定输入x和所有正确输出集合Y,模型产生输出y并分配置信度p(y|x) ∈ 0,1

模型架构

四步骤方法框架

  1. 实证研究:提示LLMs生成测试用例答案及相应置信度分数
  2. 提示策略调整:采用不同提示策略重新生成置信度分数
  3. 数学校准:应用数学方法处理LLMs生成的置信度分数
  4. 指标计算:计算各种指标评估不同类型置信度分数的可靠性

置信度生成策略

  1. 内在置信度(Intrinsic Confidence):模型直接生成的置信度分数
  2. 重评估策略(Reassess Strategy):通过自我怀疑提示模型重新评估置信度
  3. 反思策略(Reflective Strategy):使用独立的反思模型评估主模型答案的置信度

数学校准方法

采用Platt Scaling进行校准:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

其中A和B是通过最小化校准数据负对数似然优化的参数。

技术创新点

  1. 多维度评估体系:结合ECE、Brier Score和Performance Score三个指标全面评估置信度可靠性
  2. 混合优化策略:将提示策略优化与数学校准相结合,实现协同改进
  3. 任务特异性分析:针对不同复杂度的代码推理任务进行细粒度分析
  4. 交叉验证校准:采用5折交叉验证防止过拟合,确保统计有效性

实验设置

数据集

  1. REval:包含3,152个测试点,涵盖4个子任务
    • 代码覆盖预测(CCP)
    • 程序状态预测(PSP)
    • 执行路径预测(EPP)
    • 输出预测(OP)
  2. CRUXEval:包含800个独立Python函数,涵盖2个子任务
    • 输入预测(CRUXEval-I)
    • 输出预测(CRUXEval-O)

评价指标

  1. 期望校准误差(ECE)
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Brier分数(BS)
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. 性能分数(PS)
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

对比方法

选择了具有代表性的主流LLMs:

  • 推理vs非推理:DeepSeek-V3 vs DeepSeek-R1
  • 不同规模:Qwen3系列(1.7B, 14B, 32B)
  • 开源vs闭源:DeepSeek/Qwen3 vs GPT-3.5-Turbo

实现细节

  • 温度参数设置为0以确保结果稳定性
  • 采用统一标准化的提示模板
  • 使用5折交叉验证进行Platt Scaling校准

实验结果

主要结果

模型间比较

  • DeepSeek-Reasoner表现最优:在CCP任务上ECE仅为0.066,显著优于DeepSeek-Chat(0.143)、Qwen3-1.7B(0.231)和GPT-3.5-Turbo(0.338)
  • 推理能力优势明显:DeepSeek-Reasoner在所有指标上均优于DeepSeek-Chat,特别是在CRUXEval任务上
  • 开源模型超越闭源:主流开源模型在置信度可靠性方面已超越GPT-3.5-Turbo

任务复杂度影响

  • 简单任务表现更好:CCP和OP任务的置信度可靠性普遍优于PSP和EPP
  • 输入预测更具挑战性:CRUXEval-I通常比CRUXEval-O更困难

消融实验

提示策略优化效果

  • 有限改进:对大多数模型和任务,重评估和反思策略未带来系统性改进
  • 高性能模型受益更多:DeepSeek-Reasoner和Qwen3-32B在特定任务上显示明显改进
  • 过度自信缓解:重评估策略在某些情况下有助于缓解模型过度自信

数学校准效果

  • 显著普遍改进:Platt Scaling在所有模型和任务上均带来显著改进
  • 系统偏差消除:有效消除不同置信度生成方法产生的分布差异
  • 负向正向转换:多个模型的Performance Score从负值转为正值

案例分析

以GPT-3.5-Turbo在OP任务上的表现为例:

  • 校准前:置信度分布严重偏差,校准曲线偏离理想线
  • 重评估策略后:校准曲线接近理想参考线
  • Platt Scaling后:概率分布和校准曲线与理想曲线高度吻合

实验发现

  1. 推理能力是关键:具有显式推理能力的模型在置信度可靠性方面具有明显优势
  2. 混合策略最有效:结合重评估提示策略和Platt Scaling的混合策略实现最佳改进
  3. 规模效应有限:模型规模增大带来的置信度可靠性改进在达到一定规模后趋于平缓
  4. 任务特异性明显:不同任务复杂度对置信度性能有显著影响

相关工作

置信度校准研究

  • 传统方法:早期研究集中在小型神经模型的置信度校准
  • LLM应用:近年来扩展到自然语言理解、事实问答、算术推理等领域
  • 代码领域:Spiess等人研究了代码生成任务中的LLM置信度可靠性

软件工程中的LLMs

  • 代码生成与修复:大量研究集中在代码生成或修复任务
  • 代码推理:相对较新的研究方向,现有研究主要关注操作机制和性能评估
  • 基准测试:出现了多个代码推理基准,如CRUXEval、REval、CodeMind等

结论与讨论

主要结论

  1. 显著性能差异:当前主流LLMs在代码推理任务上的置信度可靠性存在显著差异
  2. 推理能力优势:具有推理能力的模型(如DeepSeek-Reasoner)表现最佳
  3. 数学校准有效:Platt Scaling等数学校准方法能系统性地改善置信度可靠性
  4. 改进空间巨大:当前LLMs的置信度尚未达到理想可靠性水平,特别是在复杂推理任务中

局限性

  1. 基准与实际差异:基准数据集与真实世界环境存在不可避免的差异
  2. 模型选择限制:未包含快速发展的代码专用LLMs
  3. 提示设计固定:使用统一标准化的提示设计,可能影响结果的普遍性
  4. 温度参数固定:将温度参数固定为0,可能忽略了其对性能的潜在影响

未来方向

  1. 置信度生成机制:深入研究LLMs在代码推理任务中的置信度生成机制
  2. 动态校准策略:开发适应性校准方法和区间划分技术
  3. 主动学习集成:将置信度与主动学习和风险控制技术深度集成
  4. 实用性平衡:在提高整体可靠性的同时保持置信度分布的判别力和可解释性

深度评价

优点

  1. 研究意义重大:填补了代码推理领域置信度可靠性研究的空白
  2. 方法系统完整:提出了四步骤的系统性分析框架,方法论严谨
  3. 实验设计充分:覆盖多个模型、任务和改进策略,实验设置全面
  4. 结果具有说服力:通过多个指标和统计方法验证了结论的可靠性
  5. 实用价值高:为软件工程实践提供了直接可用的技术指导

不足

  1. 校准方法单一:主要采用Platt Scaling,未探索其他校准方法的效果
  2. 判别力损失:数学校准虽然改善整体校准,但可能降低置信度的判别能力
  3. 代码专用模型缺失:未包含CodeLlama、StarCoder等代码专用模型
  4. 动态适应性不足:提出的方法主要是静态的,缺乏对不同场景的动态适应能力

影响力

  1. 学术贡献:为LLM置信度研究开辟了新的应用领域
  2. 工程实践:为AI辅助软件开发提供了可信度评估的技术基础
  3. 标准制定:可能推动代码推理任务置信度评估标准的建立
  4. 后续研究:为相关领域的深入研究提供了重要参考

适用场景

  1. 代码审查:帮助开发者评估AI生成代码的可信度
  2. 自动化测试:在测试用例生成中提供置信度指导
  3. 代码重构:为重构建议提供可信度评估
  4. 教育培训:在编程教学中帮助学习者理解代码逻辑

参考文献

论文引用了相关领域的重要工作,包括:

  • Brier (1950): 概率预测验证的经典工作
  • Guo et al. (2017): 现代神经网络校准的重要研究
  • Jiang et al. (2021): LLM置信度校准的开创性工作
  • Spiess et al. (2024): 代码任务中LLM置信度的相关研究

总结:这是一篇高质量的实证研究论文,系统性地探讨了LLMs在代码推理任务中的置信度可靠性问题。论文方法严谨,实验全面,结论具有重要的理论价值和实践意义,为AI辅助软件工程的发展提供了重要贡献。