2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

カキの殻を開く：LLMにおけるコード推論信頼度の実証的評価と改善

基本情報

論文ID: 2511.02197
タイトル: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
著者: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
分類: cs.SE（ソフトウェアエンジニアリング）、cs.AI（人工知能）
発表日時: 2025年11月4日
論文リンク: https://arxiv.org/abs/2511.02197

概要

大規模言語モデル（LLM）がコード知能領域で広く応用されるにつれて、コード推論タスクにおける出力の信頼性と制御可能性への関心が高まっています。信頼度推定は、これらの側面を評価するための効果的で便利な方法として重要な意義を持ちます。本論文は、コード推論タスク向けのLLM信頼度分析および強化フレームワークを提案しています。本研究は、異なるタスクにおける主流LLMの信頼度信頼性に関する包括的な実証研究を実施し、さらにプロンプト戦略最適化およびPlatt Scalingなどの数学的キャリブレーション技術が信頼度信頼性向上における有効性を評価しています。

研究背景と動機

問題定義

本研究は、主にLLMのコード推論タスクにおける信頼度信頼性の問題に対処しています。具体的には以下を含みます：

信頼度キャリブレーション問題：現在のLLMはコード推論において過度な自信または不十分な自信を示す可能性があります
信頼性評価の困難さ：開発者がモデル出力の信頼度を判断することが難しく、意思決定に影響します
体系的偏差：異なるモデルが異なるタスク上で大きく異なる信頼度パフォーマンスを示します

研究の重要性

実用的価値：ソフトウェアエンジニアリング実践において、開発者はモデル出力の信頼度を理解して賢明な決定を下す必要があります
安全性の考慮：誤った高信頼度予測は深刻なソフトウェア欠陥につながる可能性があります
効率向上：信頼できる信頼度推定は、開発者が検証プロセスを最適化するのに役立ちます

既存方法の限界

研究の希少性：コード推論タスクの信頼度信頼性に関する体系的研究は比較的少ないです
評価不足：ほとんどの既存研究は精度などの客観的指標に依存し、モデルの自己認識の定量化を無視しています
改善技術の限定：LLMのコード推論における信頼度信頼性を向上させるための効果的な技術手段が不足しています

核心的貢献

体系的分析フレームワークの提案：コード推論タスク向けのLLM信頼度信頼性分析フレームワークを構築し、包括的な定量的実証研究を実施しました
改善技術の評価：プロンプト戦略最適化および数学的キャリブレーション方法の有効性を体系的に評価し、異なるモデルおよびタスク間での適用可能性と限界を明らかにしました
影響要因の深入分析：信頼度信頼性が実際のソフトウェアエンジニアリング応用に与える影響の深入分析を提供し、LLM信頼度メカニズムの最適化とエンジニアリング展開のための実行可能な提案を提供しました
実証的発見：推論能力を持つモデルが信頼度信頼性においてより優れたパフォーマンスを示し、混合戦略がさまざまなモデルの信頼度信頼性向上に最も効果的であることを発見しました

方法の詳細

タスク定義

コード推論タスクは、プログラムを実行することなく、構文、意味論、論理レベルの分析を通じてコードの動作を推論することをモデルに要求します。これには、入出力、実行時動作、分岐パス、または変数値などが含まれます。

信頼度は、モデルがその出力の正確性に対して割り当てる主観的確率推定として定義されます。モデルMに対して、入力xおよびすべての正しい出力集合Yが与えられた場合、モデルは出力yを生成し、信頼度p(y|x) ∈ 0,1を割り当てます。

モデルアーキテクチャ

4段階方法フレームワーク

実証研究：LLMにテストケース回答と対応する信頼度スコアを生成するよう促します
プロンプト戦略調整：異なるプロンプト戦略を採用して信頼度スコアを再生成します
数学的キャリブレーション：数学的方法を適用してLLMが生成した信頼度スコアを処理します
指標計算：異なるタイプの信頼度スコアの信頼性を評価するためにさまざまな指標を計算します

信頼度生成戦略

内在信頼度（Intrinsic Confidence）：モデルが直接生成する信頼度スコア
再評価戦略（Reassess Strategy）：自己懐疑プロンプトを通じてモデルに信頼度を再評価させます
反省戦略（Reflective Strategy）：独立した反省モデルを使用して主モデルの回答の信頼度を評価します

数学的キャリブレーション方法

Platt Scalingを採用したキャリブレーション：

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

ここで、AおよびBはキャリブレーションデータの負対数尤度を最小化することで最適化されるパラメータです。

技術的革新点

多次元評価体系：ECE、Brier Score、Performance Scoreの3つの指標を組み合わせて信頼度信頼性を包括的に評価します
混合最適化戦略：プロンプト戦略最適化と数学的キャリブレーションを組み合わせて協調的改善を実現します
タスク特異性分析：異なる複雑度のコード推論タスクに対して細粒度分析を実施します
交差検証キャリブレーション：5折交差検証を採用して過学習を防ぎ、統計的有効性を確保します

実験設定

データセット

REval：3,152個のテストポイントを含み、4つのサブタスクをカバーしています
- コードカバレッジ予測（CCP）
- プログラム状態予測（PSP）
- 実行パス予測（EPP）
- 出力予測（OP）
CRUXEval：800個の独立したPython関数を含み、2つのサブタスクをカバーしています
- 入力予測（CRUXEval-I）
- 出力予測（CRUXEval-O）

評価指標

期待キャリブレーション誤差（ECE）：
```
Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
```

Brierスコア（BS）：

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

パフォーマンススコア（PS）：
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

比較方法

代表的な主流LLMを選択しました：

推論対非推論：DeepSeek-V3対DeepSeek-R1
異なるスケール：Qwen3シリーズ（1.7B、14B、32B）
オープンソース対クローズドソース：DeepSeek/Qwen3対GPT-3.5-Turbo

実装詳細

温度パラメータを0に設定して結果の安定性を確保します
統一された標準化されたプロンプトテンプレートを採用します
Platt Scalingキャリブレーションのために5折交差検証を使用します

実験結果

主要な結果

モデル間比較

DeepSeek-Reasonerが最適なパフォーマンス：CCPタスクでECEはわずか0.066で、DeepSeek-Chat（0.143）、Qwen3-1.7B（0.231）、GPT-3.5-Turbo（0.338）を大きく上回ります
推論能力の明らかな利点：DeepSeek-Reasonerはすべての指標でDeepSeek-Chatを上回り、特にCRUXEvalタスクで顕著です
オープンソースモデルがクローズドソースを超える：主流のオープンソースモデルは信頼度信頼性の面でGPT-3.5-Turboを既に超えています