2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

カキの殻を開く:LLMにおけるコード推論信頼度の実証的評価と改善

基本情報

  • 論文ID: 2511.02197
  • タイトル: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • 著者: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • 分類: cs.SE(ソフトウェアエンジニアリング)、cs.AI(人工知能)
  • 発表日時: 2025年11月4日
  • 論文リンク: https://arxiv.org/abs/2511.02197

概要

大規模言語モデル(LLM)がコード知能領域で広く応用されるにつれて、コード推論タスクにおける出力の信頼性と制御可能性への関心が高まっています。信頼度推定は、これらの側面を評価するための効果的で便利な方法として重要な意義を持ちます。本論文は、コード推論タスク向けのLLM信頼度分析および強化フレームワークを提案しています。本研究は、異なるタスクにおける主流LLMの信頼度信頼性に関する包括的な実証研究を実施し、さらにプロンプト戦略最適化およびPlatt Scalingなどの数学的キャリブレーション技術が信頼度信頼性向上における有効性を評価しています。

研究背景と動機

問題定義

本研究は、主にLLMのコード推論タスクにおける信頼度信頼性の問題に対処しています。具体的には以下を含みます:

  1. 信頼度キャリブレーション問題:現在のLLMはコード推論において過度な自信または不十分な自信を示す可能性があります
  2. 信頼性評価の困難さ:開発者がモデル出力の信頼度を判断することが難しく、意思決定に影響します
  3. 体系的偏差:異なるモデルが異なるタスク上で大きく異なる信頼度パフォーマンスを示します

研究の重要性

  1. 実用的価値:ソフトウェアエンジニアリング実践において、開発者はモデル出力の信頼度を理解して賢明な決定を下す必要があります
  2. 安全性の考慮:誤った高信頼度予測は深刻なソフトウェア欠陥につながる可能性があります
  3. 効率向上:信頼できる信頼度推定は、開発者が検証プロセスを最適化するのに役立ちます

既存方法の限界

  1. 研究の希少性:コード推論タスクの信頼度信頼性に関する体系的研究は比較的少ないです
  2. 評価不足:ほとんどの既存研究は精度などの客観的指標に依存し、モデルの自己認識の定量化を無視しています
  3. 改善技術の限定:LLMのコード推論における信頼度信頼性を向上させるための効果的な技術手段が不足しています

核心的貢献

  1. 体系的分析フレームワークの提案:コード推論タスク向けのLLM信頼度信頼性分析フレームワークを構築し、包括的な定量的実証研究を実施しました
  2. 改善技術の評価:プロンプト戦略最適化および数学的キャリブレーション方法の有効性を体系的に評価し、異なるモデルおよびタスク間での適用可能性と限界を明らかにしました
  3. 影響要因の深入分析:信頼度信頼性が実際のソフトウェアエンジニアリング応用に与える影響の深入分析を提供し、LLM信頼度メカニズムの最適化とエンジニアリング展開のための実行可能な提案を提供しました
  4. 実証的発見:推論能力を持つモデルが信頼度信頼性においてより優れたパフォーマンスを示し、混合戦略がさまざまなモデルの信頼度信頼性向上に最も効果的であることを発見しました

方法の詳細

タスク定義

コード推論タスクは、プログラムを実行することなく、構文、意味論、論理レベルの分析を通じてコードの動作を推論することをモデルに要求します。これには、入出力、実行時動作、分岐パス、または変数値などが含まれます。

信頼度は、モデルがその出力の正確性に対して割り当てる主観的確率推定として定義されます。モデルMに対して、入力xおよびすべての正しい出力集合Yが与えられた場合、モデルは出力yを生成し、信頼度p(y|x) ∈ 0,1を割り当てます。

モデルアーキテクチャ

4段階方法フレームワーク

  1. 実証研究:LLMにテストケース回答と対応する信頼度スコアを生成するよう促します
  2. プロンプト戦略調整:異なるプロンプト戦略を採用して信頼度スコアを再生成します
  3. 数学的キャリブレーション:数学的方法を適用してLLMが生成した信頼度スコアを処理します
  4. 指標計算:異なるタイプの信頼度スコアの信頼性を評価するためにさまざまな指標を計算します

信頼度生成戦略

  1. 内在信頼度(Intrinsic Confidence):モデルが直接生成する信頼度スコア
  2. 再評価戦略(Reassess Strategy):自己懐疑プロンプトを通じてモデルに信頼度を再評価させます
  3. 反省戦略(Reflective Strategy):独立した反省モデルを使用して主モデルの回答の信頼度を評価します

数学的キャリブレーション方法

Platt Scalingを採用したキャリブレーション:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

ここで、AおよびBはキャリブレーションデータの負対数尤度を最小化することで最適化されるパラメータです。

技術的革新点

  1. 多次元評価体系:ECE、Brier Score、Performance Scoreの3つの指標を組み合わせて信頼度信頼性を包括的に評価します
  2. 混合最適化戦略:プロンプト戦略最適化と数学的キャリブレーションを組み合わせて協調的改善を実現します
  3. タスク特異性分析:異なる複雑度のコード推論タスクに対して細粒度分析を実施します
  4. 交差検証キャリブレーション:5折交差検証を採用して過学習を防ぎ、統計的有効性を確保します

実験設定

データセット

  1. REval:3,152個のテストポイントを含み、4つのサブタスクをカバーしています
    • コードカバレッジ予測(CCP)
    • プログラム状態予測(PSP)
    • 実行パス予測(EPP)
    • 出力予測(OP)
  2. CRUXEval:800個の独立したPython関数を含み、2つのサブタスクをカバーしています
    • 入力予測(CRUXEval-I)
    • 出力予測(CRUXEval-O)

評価指標

  1. 期待キャリブレーション誤差(ECE)
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Brierスコア(BS)
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. パフォーマンススコア(PS)
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

比較方法

代表的な主流LLMを選択しました:

  • 推論対非推論:DeepSeek-V3対DeepSeek-R1
  • 異なるスケール:Qwen3シリーズ(1.7B、14B、32B)
  • オープンソース対クローズドソース:DeepSeek/Qwen3対GPT-3.5-Turbo

実装詳細

  • 温度パラメータを0に設定して結果の安定性を確保します
  • 統一された標準化されたプロンプトテンプレートを採用します
  • Platt Scalingキャリブレーションのために5折交差検証を使用します

実験結果

主要な結果

モデル間比較

  • DeepSeek-Reasonerが最適なパフォーマンス:CCPタスクでECEはわずか0.066で、DeepSeek-Chat(0.143)、Qwen3-1.7B(0.231)、GPT-3.5-Turbo(0.338)を大きく上回ります
  • 推論能力の明らかな利点:DeepSeek-Reasonerはすべての指標でDeepSeek-Chatを上回り、特にCRUXEvalタスクで顕著です
  • オープンソースモデルがクローズドソースを超える:主流のオープンソースモデルは信頼度信頼性の面でGPT-3.5-Turboを既に超えています

タスク複雑度の影響

  • 単純なタスクのパフォーマンスが優れている:CCPおよびOPタスクの信頼度信頼性は一般的にPSPおよびEPPより優れています
  • 入力予測がより挑戦的:CRUXEval-Iは通常CRUXEval-Oより困難です

アブレーション実験

プロンプト戦略最適化の効果

  • 限定的な改善:ほとんどのモデルとタスクについて、再評価および反省戦略は体系的な改善をもたらしていません
  • 高性能モデルがより多くの利益を得る:DeepSeek-ReasonerおよびQwen3-32Bは特定のタスクで明らかな改善を示しています
  • 過度な自信の緩和:再評価戦略は場合によってはモデルの過度な自信を緩和するのに役立ちます

数学的キャリブレーションの効果

  • 顕著で普遍的な改善:Platt Scalingはすべてのモデルとタスクで顕著な改善をもたらします
  • 体系的偏差の除去:異なる信頼度生成方法によって生じる分布の差異を効果的に除去します
  • 負から正への変換:複数のモデルのPerformance Scoreが負の値から正の値に変わります

ケース分析

GPT-3.5-TurboのOPタスクでのパフォーマンスの例:

  • キャリブレーション前:信頼度分布が深刻に偏差し、キャリブレーション曲線が理想線から逸脱しています
  • 再評価戦略後:キャリブレーション曲線が理想参照線に近づきます
  • Platt Scaling後:確率分布とキャリブレーション曲線が理想曲線と高度に一致しています

実験的発見

  1. 推論能力が鍵:明示的な推論能力を持つモデルは信頼度信頼性において明らかな利点があります
  2. 混合戦略が最も効果的:再評価プロンプト戦略とPlatt Scalingを組み合わせた混合戦略が最良の改善を実現します
  3. スケール効果は限定的:モデルサイズの増加がもたらす信頼度信頼性の改善は、一定のスケールに達した後は平坦化する傾向があります
  4. タスク特異性が明らか:異なるタスク複雑度は信頼度パフォーマンスに顕著な影響を与えます

関連研究

信頼度キャリブレーション研究

  • 従来の方法:初期研究は小規模ニューラルモデルの信頼度キャリブレーションに集中していました
  • LLM応用:近年、自然言語理解、ファクトQA、算術推論などの領域に拡張されています
  • コード領域:Spiessら等がコード生成タスクにおけるLLM信頼度信頼性を研究しました

ソフトウェアエンジニアリングにおけるLLM

  • コード生成と修復:多くの研究がコード生成または修復タスクに集中しています
  • コード推論:比較的新しい研究方向で、既存研究は主に動作メカニズムとパフォーマンス評価に焦点を当てています
  • ベンチマーク:CRUXEval、REval、CodeMindなど複数のコード推論ベンチマークが出現しています

結論と考察

主要な結論

  1. 顕著なパフォーマンス差異:現在の主流LLMはコード推論タスクの信頼度信頼性において顕著な差異を示しています
  2. 推論能力の利点:推論能力を持つモデル(DeepSeek-Reasonerなど)が最良のパフォーマンスを示します
  3. 数学的キャリブレーションの有効性:Platt Scalingなどの数学的キャリブレーション方法は信頼度信頼性を体系的に改善できます
  4. 改善の大きな余地:現在のLLMの信頼度はまだ理想的な信頼性レベルに達しておらず、特に複雑な推論タスクにおいてそうです

限界

  1. ベンチマークと実際の差異:ベンチマークデータセットと実世界環境の間には避けられない差異があります
  2. モデル選択の制限:急速に発展しているコード専用LLMを含めていません
  3. プロンプト設計の固定:統一された標準化されたプロンプト設計を使用しており、結果の普遍性に影響する可能性があります
  4. 温度パラメータの固定:温度パラメータを0に固定しており、パフォーマンスへの潜在的な影響を見落とす可能性があります

今後の方向

  1. 信頼度生成メカニズム:LLMのコード推論タスクにおける信頼度生成メカニズムの深入研究
  2. 動的キャリブレーション戦略:適応的キャリブレーション方法と区間分割技術の開発
  3. 能動学習の統合:信頼度と能動学習およびリスク制御技術の深い統合
  4. 実用性のバランス:全体的な信頼性向上と信頼度分布の判別力および解釈可能性の維持のバランス

深い評価

利点

  1. 研究意義の重大性:コード推論領域の信頼度信頼性研究の空白を埋めています
  2. 方法の体系性と完全性:4段階の体系的分析フレームワークを提案し、方法論が厳密です
  3. 実験設計の充分性:複数のモデル、タスク、改善戦略をカバーし、実験設定が包括的です
  4. 結果の説得力:複数の指標と統計方法を通じて結論の信頼性を検証しています
  5. 実用的価値の高さ:ソフトウェアエンジニアリング実践に直接利用可能な技術指導を提供しています

不足

  1. キャリブレーション方法の単一性:主にPlatt Scalingを採用し、他のキャリブレーション方法の効果を探索していません
  2. 判別力の喪失:数学的キャリブレーションは全体的なキャリブレーションを改善しますが、信頼度の判別力を低下させる可能性があります
  3. コード専用モデルの欠落:CodeLlama、StarCoderなどのコード専用モデルを含めていません
  4. 動的適応性の不足:提案された方法は主に静的で、異なるシナリオへの動的適応能力が不足しています

影響力

  1. 学術的貢献:LLM信頼度研究に新しい応用領域を開拓しています
  2. エンジニアリング実践:AI支援ソフトウェア開発に信頼度評価の技術的基礎を提供しています
  3. 標準制定:コード推論タスク信頼度評価標準の確立を推進する可能性があります
  4. 後続研究:関連領域の深入研究に重要な参考を提供しています

適用シナリオ

  1. コードレビュー:開発者がAI生成コードの信頼度を評価するのに役立ちます
  2. 自動化テスト:テストケース生成における信頼度指導を提供します
  3. コードリファクタリング:リファクタリング提案に信頼度評価を提供します
  4. 教育訓練:プログラミング教育においてコードロジック理解を支援します

参考文献

論文は関連領域の重要な研究を引用しており、以下を含みます:

  • Brier (1950):確率予測検証の古典的研究
  • Guo et al. (2017):現代ニューラルネットワークキャリブレーションの重要研究
  • Jiang et al. (2021):LLM信頼度キャリブレーションの開拓的研究
  • Spiess et al. (2024):コードタスクにおけるLLM信頼度の関連研究

要約:これは高品質の実証研究論文であり、LLMのコード推論タスクにおける信頼度信頼性の問題を体系的に探討しています。論文の方法は厳密で、実験は包括的で、結論は重要な理論的価値と実践的意義を持ち、AI支援ソフトウェアエンジニアリングの発展に重要な貢献を提供しています。