2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

Ouvrir l'Huître : Évaluation Empirique et Amélioration de la Fiabilité du Raisonnement de Code dans les LLMs

Informations Fondamentales

ID de l'article : 2511.02197
Titre : Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Auteurs : Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
Classification : cs.SE (Ingénierie Logicielle), cs.AI (Intelligence Artificielle)
Date de publication : 4 novembre 2025
Lien de l'article : https://arxiv.org/abs/2511.02197

Résumé

Avec l'application généralisée des grands modèles de langage (LLMs) dans le domaine de l'intelligence du code, la fiabilité et la contrôlabilité de leurs résultats dans les tâches de raisonnement de code suscitent une attention croissante. L'estimation de la confiance, en tant que méthode efficace et pratique pour évaluer ces aspects, revêt une importance significative. Cet article propose un cadre d'analyse et d'amélioration de la confiance des LLMs pour les tâches de raisonnement de code. L'étude mène une recherche empirique complète sur la fiabilité de la confiance des LLMs principaux sur différentes tâches, et évalue en outre l'efficacité de techniques telles que l'optimisation des stratégies d'invite et l'étalonnage mathématique (comme le Platt Scaling) pour améliorer la fiabilité de la confiance.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde principalement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. Elle comprend spécifiquement :

Problème d'étalonnage de la confiance : Les LLMs actuels peuvent présenter un comportement de surconfiance ou de sous-confiance dans le raisonnement de code
Difficulté d'évaluation de la fiabilité : Les développeurs ont du mal à juger le degré de fiabilité des résultats du modèle, ce qui affecte la prise de décision
Biais systématiques : Les performances de confiance de différents modèles sur différentes tâches présentent des variations significatives

Importance de la Recherche

Valeur pratique : Dans la pratique de l'ingénierie logicielle, les développeurs doivent comprendre la fiabilité des résultats du modèle pour prendre des décisions éclairées
Considérations de sécurité : Les prédictions incorrectes avec une confiance élevée peuvent entraîner des défauts logiciels graves
Amélioration de l'efficacité : L'estimation fiable de la confiance peut aider les développeurs à optimiser les processus de vérification

Limitations des Méthodes Existantes

Recherche rare : Les études systématiques sur la fiabilité de la confiance pour les tâches de raisonnement de code sont relativement rares
Évaluation insuffisante : La plupart des travaux existants s'appuient sur des métriques objectives telles que la précision, en ignorant la quantification de l'auto-perception du modèle
Techniques d'amélioration limitées : Absence de moyens techniques efficaces pour améliorer la fiabilité de la confiance des LLMs dans le raisonnement de code

Contributions Principales

Proposition d'un cadre d'analyse systématique : Construction d'un cadre d'analyse de la fiabilité de la confiance des LLMs pour les tâches de raisonnement de code, avec une étude empirique quantitative complète
Évaluation des techniques d'amélioration : Évaluation systématique de l'efficacité de l'optimisation des stratégies d'invite et des méthodes d'étalonnage mathématique, révélant leur applicabilité et leurs limitations sur différents modèles et tâches
Analyse approfondie des facteurs d'influence : Fourniture d'une analyse approfondie de l'impact de la fiabilité de la confiance sur les applications pratiques de l'ingénierie logicielle, avec des recommandations viables pour l'optimisation des mécanismes de confiance des LLMs et le déploiement en ingénierie
Découvertes empiriques : Constatation que les modèles dotés de capacités de raisonnement présentent de meilleures performances en matière de fiabilité de la confiance, et que les stratégies mixtes sont les plus efficaces pour améliorer la fiabilité de la confiance de divers modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Les tâches de raisonnement de code exigent que le modèle déduise le comportement du code sans exécuter le programme, par le biais d'analyses aux niveaux syntaxique, sémantique et logique, y compris les entrées/sorties, le comportement à l'exécution, les chemins de branchement ou les valeurs de variables.

La confiance est définie comme l'évaluation de probabilité subjective du modèle concernant l'exactitude de sa sortie. Pour un modèle M, étant donné une entrée x et l'ensemble de toutes les sorties correctes Y, le modèle produit une sortie y et attribue une confiance p(y|x) ∈ 0,1.

Architecture du Modèle

Cadre Méthodologique en Quatre Étapes

Étude empirique : Inviter les LLMs à générer des réponses aux cas de test et les scores de confiance correspondants
Ajustement des stratégies d'invite : Régénérer les scores de confiance en utilisant différentes stratégies d'invite
Étalonnage mathématique : Appliquer des méthodes mathématiques pour traiter les scores de confiance générés par les LLMs
Calcul des métriques : Calculer diverses métriques pour évaluer la fiabilité de différents types de scores de confiance

Stratégies de Génération de Confiance

Confiance Intrinsèque (Intrinsic Confidence) : Score de confiance généré directement par le modèle
Stratégie de Réévaluation (Reassess Strategy) : Réévaluer la confiance en invitant le modèle à s'auto-interroger
Stratégie Réflexive (Reflective Strategy) : Utiliser un modèle de réflexion indépendant pour évaluer la confiance dans les réponses du modèle principal

Méthodes d'Étalonnage Mathématique

Utilisation du Platt Scaling pour l'étalonnage :

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

où A et B sont des paramètres optimisés en minimisant la vraisemblance logarithmique négative sur les données d'étalonnage.

Points d'Innovation Technique

Système d'évaluation multidimensionnel : Combinaison de trois métriques (ECE, Brier Score et Performance Score) pour une évaluation complète de la fiabilité de la confiance
Stratégie d'optimisation mixte : Combinaison de l'optimisation des stratégies d'invite et de l'étalonnage mathématique pour une amélioration synergique
Analyse spécifique aux tâches : Analyse granulaire pour différentes tâches de raisonnement de code de complexités variées
Validation croisée d'étalonnage : Utilisation de la validation croisée à 5 plis pour prévenir le surapprentissage et assurer la validité statistique

Configuration Expérimentale

Ensembles de Données

REval : Contient 3 152 points de test, couvrant 4 sous-tâches
- Prédiction de couverture de code (CCP)
- Prédiction d'état du programme (PSP)
- Prédiction de chemin d'exécution (EPP)
- Prédiction de sortie (OP)
CRUXEval : Contient 800 fonctions Python indépendantes, couvrant 2 sous-tâches
- Prédiction d'entrée (CRUXEval-I)
- Prédiction de sortie (CRUXEval-O)

Métriques d'Évaluation

Erreur d'Étalonnage Attendue (ECE) :

Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|

Score de Brier (BS) :

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

Score de Performance (PS) :
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

Méthodes de Comparaison

Sélection de LLMs principaux représentatifs :

Raisonnement vs Non-raisonnement : DeepSeek-V3 vs DeepSeek-R1
Différentes tailles : Série Qwen3 (1,7B, 14B, 32B)
Open-source vs Propriétaire : DeepSeek/Qwen3 vs GPT-3.5-Turbo

Détails d'Implémentation

Paramètre de température défini à 0 pour assurer la stabilité des résultats
Utilisation de modèles d'invite standardisés et uniformes
Validation croisée à 5 plis pour l'étalonnage Platt Scaling

Résultats Expérimentaux

Résultats Principaux

Comparaison Entre Modèles

DeepSeek-Reasoner affiche les meilleures performances : ECE de seulement 0,066 sur la tâche CCP, significativement meilleur que DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) et GPT-3.5-Turbo (0,338)
Avantage évident des capacités de raisonnement : DeepSeek-Reasoner surpasse DeepSeek-Chat sur tous les indicateurs, particulièrement sur les tâches CRUXEval
Les modèles open-source surpassent les modèles propriétaires : Les modèles open-source principaux ont dépassé GPT-3.5-Turbo en matière de fiabilité de la confiance

Impact de la Complexité des Tâches

Meilleures performances sur les tâches simples : La fiabilité de la confiance pour les tâches CCP et OP est généralement supérieure à celle des tâches PSP et EPP
Prédiction d'entrée plus difficile : CRUXEval-I est généralement plus difficile que CRUXEval-O

Études d'Ablation

Efficacité de l'Optimisation des Stratégies d'Invite

Améliorations limitées : Pour la plupart des modèles et tâches, les stratégies de réévaluation et réflexive n'ont pas apporté d'améliorations systématiques
Modèles haute performance bénéficient davantage : DeepSeek-Reasoner et Qwen3-32B montrent des améliorations évidentes sur des tâches spécifiques
Atténuation de la surconfiance : La stratégie de réévaluation aide à atténuer la surconfiance du modèle dans certains cas

Efficacité de l'Étalonnage Mathématique

Amélioration significative et universelle : Le Platt Scaling apporte des améliorations significatives sur tous les modèles et tâches
Élimination des biais systématiques : Élimine efficacement les différences de distribution produites par différentes méthodes de génération de confiance
Conversion négatif-positif : Le Performance Score de plusieurs modèles passe de valeurs négatives à positives

Analyse de Cas

Prenant l'exemple de GPT-3.5-Turbo sur la tâche OP :

Avant étalonnage : Distribution de confiance gravement biaisée, courbe d'étalonnage s'écartant de la ligne idéale
Après stratégie de réévaluation : Courbe d'étalonnage proche de la ligne de référence idéale
Après Platt Scaling : Distribution de probabilité et courbe d'étalonnage hautement conformes à la courbe idéale

Découvertes Expérimentales

La capacité de raisonnement est clé : Les modèles dotés de capacités de raisonnement explicites présentent un avantage évident en matière de fiabilité de la confiance
La stratégie mixte est la plus efficace : La stratégie mixte combinant la stratégie d'invite de réévaluation et le Platt Scaling réalise la meilleure amélioration
Effet de taille limité : L'amélioration de la fiabilité de la confiance apportée par l'augmentation de la taille du modèle tend à plafonner après une certaine taille
Spécificité des tâches évidente : La complexité différente des tâches a un impact significatif sur les performances de confiance

Travaux Connexes

Recherche sur l'Étalonnage de la Confiance

Méthodes traditionnelles : Les premières recherches se concentraient sur l'étalonnage de la confiance dans les petits modèles de réseaux de neurones
Applications aux LLMs : Récemment étendu à la compréhension du langage naturel, aux questions factuelles, au raisonnement arithmétique et autres domaines
Domaine du code : Spiess et al. ont étudié la fiabilité de la confiance des LLMs dans les tâches de génération de code

LLMs en Ingénierie Logicielle

Génération et réparation de code : De nombreuses recherches se concentrent sur les tâches de génération ou de réparation de code
Raisonnement de code : Direction de recherche relativement nouvelle, les recherches existantes se concentrant principalement sur les mécanismes opérationnels et l'évaluation des performances
Benchmarks : Émergence de plusieurs benchmarks de raisonnement de code, tels que CRUXEval, REval, CodeMind, etc.

Conclusions et Discussion

Conclusions Principales

Différences de performance significatives : Les LLMs principaux actuels présentent des différences significatives en matière de fiabilité de la confiance dans les tâches de raisonnement de code
Avantage des capacités de raisonnement : Les modèles dotés de capacités de raisonnement (comme DeepSeek-Reasoner) affichent les meilleures performances
Efficacité de l'étalonnage mathématique : Les méthodes d'étalonnage mathématique telles que le Platt Scaling peuvent améliorer systématiquement la fiabilité de la confiance
Espace d'amélioration considérable : La confiance des LLMs actuels n'a pas encore atteint un niveau de fiabilité idéal, particulièrement dans les tâches de raisonnement complexe

Limitations

Différences entre benchmark et réalité : Les ensembles de données de benchmark et les environnements du monde réel présentent des différences inévitables
Limitations dans la sélection des modèles : N'inclut pas les LLMs spécialisés en code en rapide développement
Conception d'invite fixe : Utilisation de modèles d'invite standardisés uniformes, ce qui peut affecter la généralité des résultats
Paramètre de température fixe : Fixation du paramètre de température à 0, ce qui peut ignorer son impact potentiel sur les performances

Directions Futures

Mécanismes de génération de confiance : Recherche approfondie sur les mécanismes de génération de confiance des LLMs dans les tâches de raisonnement de code
Stratégies d'étalonnage dynamique : Développement de méthodes d'étalonnage adaptatives et de techniques de partitionnement d'intervalles
Intégration d'apprentissage actif : Intégration profonde de la confiance avec les techniques d'apprentissage actif et de contrôle des risques
Équilibre de praticité : Amélioration de la fiabilité globale tout en maintenant le pouvoir discriminant et l'interprétabilité de la distribution de confiance

Évaluation Approfondie

Points Forts

Importance de la recherche significative : Comble le vide dans la recherche sur la fiabilité de la confiance dans le domaine du raisonnement de code
Méthode systématique et complète : Proposition d'un cadre d'analyse systématique en quatre étapes avec une méthodologie rigoureuse
Conception expérimentale suffisante : Couverture de plusieurs modèles, tâches et stratégies d'amélioration, avec une configuration expérimentale complète
Résultats convaincants : Conclusions validées par plusieurs métriques et méthodes statistiques
Valeur pratique élevée : Fourniture de conseils techniques directement applicables à la pratique de l'ingénierie logicielle

Insuffisances

Méthodes d'étalonnage limitées : Adoption principalement du Platt Scaling, sans exploration de l'efficacité d'autres méthodes d'étalonnage
Perte de pouvoir discriminant : Bien que l'étalonnage mathématique améliore l'étalonnage global, il peut réduire le pouvoir discriminant de la confiance
Absence de modèles spécialisés en code : N'inclut pas les modèles CodeLlama, StarCoder et autres modèles spécialisés en code
Adaptabilité dynamique insuffisante : Les méthodes proposées sont principalement statiques, manquant d'adaptabilité dynamique à différents scénarios

Impact

Contribution académique : Ouverture d'un nouveau domaine d'application pour la recherche sur la confiance des LLMs
Pratique en ingénierie : Fourniture de fondations techniques pour l'évaluation de la fiabilité dans le développement logiciel assisté par IA
Établissement de normes : Peut promouvoir l'établissement de normes d'évaluation de la confiance pour les tâches de raisonnement de code
Recherches ultérieures : Fourniture de références importantes pour les recherches approfondies dans les domaines connexes

Scénarios d'Application

Révision de code : Aide les développeurs à évaluer la fiabilité du code généré par l'IA
Tests automatisés : Fourniture de conseils de confiance dans la génération de cas de test
Refactorisation de code : Évaluation de la fiabilité des recommandations de refactorisation
Formation éducative : Aide les apprenants à comprendre la logique du code dans l'enseignement de la programmation

Références

L'article cite les travaux importants du domaine connexe, notamment :

Brier (1950) : Travail classique sur la vérification des prédictions probabilistes
Guo et al. (2017) : Recherche importante sur l'étalonnage des réseaux de neurones modernes
Jiang et al. (2021) : Travail fondateur sur l'étalonnage de la confiance des LLMs
Spiess et al. (2024) : Recherche connexe sur la confiance des LLMs dans les tâches de code

Résumé : Cet article est une recherche empirique de haute qualité qui explore systématiquement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. La méthodologie est rigoureuse, les expériences sont complètes, et les conclusions présentent une valeur théorique et pratique importante, apportant une contribution significative au développement de l'ingénierie logicielle assistée par IA.