2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Ouvrir l'Huître : Évaluation Empirique et Amélioration de la Fiabilité du Raisonnement de Code dans les LLMs

Informations Fondamentales

  • ID de l'article : 2511.02197
  • Titre : Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • Auteurs : Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • Classification : cs.SE (Ingénierie Logicielle), cs.AI (Intelligence Artificielle)
  • Date de publication : 4 novembre 2025
  • Lien de l'article : https://arxiv.org/abs/2511.02197

Résumé

Avec l'application généralisée des grands modèles de langage (LLMs) dans le domaine de l'intelligence du code, la fiabilité et la contrôlabilité de leurs résultats dans les tâches de raisonnement de code suscitent une attention croissante. L'estimation de la confiance, en tant que méthode efficace et pratique pour évaluer ces aspects, revêt une importance significative. Cet article propose un cadre d'analyse et d'amélioration de la confiance des LLMs pour les tâches de raisonnement de code. L'étude mène une recherche empirique complète sur la fiabilité de la confiance des LLMs principaux sur différentes tâches, et évalue en outre l'efficacité de techniques telles que l'optimisation des stratégies d'invite et l'étalonnage mathématique (comme le Platt Scaling) pour améliorer la fiabilité de la confiance.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde principalement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. Elle comprend spécifiquement :

  1. Problème d'étalonnage de la confiance : Les LLMs actuels peuvent présenter un comportement de surconfiance ou de sous-confiance dans le raisonnement de code
  2. Difficulté d'évaluation de la fiabilité : Les développeurs ont du mal à juger le degré de fiabilité des résultats du modèle, ce qui affecte la prise de décision
  3. Biais systématiques : Les performances de confiance de différents modèles sur différentes tâches présentent des variations significatives

Importance de la Recherche

  1. Valeur pratique : Dans la pratique de l'ingénierie logicielle, les développeurs doivent comprendre la fiabilité des résultats du modèle pour prendre des décisions éclairées
  2. Considérations de sécurité : Les prédictions incorrectes avec une confiance élevée peuvent entraîner des défauts logiciels graves
  3. Amélioration de l'efficacité : L'estimation fiable de la confiance peut aider les développeurs à optimiser les processus de vérification

Limitations des Méthodes Existantes

  1. Recherche rare : Les études systématiques sur la fiabilité de la confiance pour les tâches de raisonnement de code sont relativement rares
  2. Évaluation insuffisante : La plupart des travaux existants s'appuient sur des métriques objectives telles que la précision, en ignorant la quantification de l'auto-perception du modèle
  3. Techniques d'amélioration limitées : Absence de moyens techniques efficaces pour améliorer la fiabilité de la confiance des LLMs dans le raisonnement de code

Contributions Principales

  1. Proposition d'un cadre d'analyse systématique : Construction d'un cadre d'analyse de la fiabilité de la confiance des LLMs pour les tâches de raisonnement de code, avec une étude empirique quantitative complète
  2. Évaluation des techniques d'amélioration : Évaluation systématique de l'efficacité de l'optimisation des stratégies d'invite et des méthodes d'étalonnage mathématique, révélant leur applicabilité et leurs limitations sur différents modèles et tâches
  3. Analyse approfondie des facteurs d'influence : Fourniture d'une analyse approfondie de l'impact de la fiabilité de la confiance sur les applications pratiques de l'ingénierie logicielle, avec des recommandations viables pour l'optimisation des mécanismes de confiance des LLMs et le déploiement en ingénierie
  4. Découvertes empiriques : Constatation que les modèles dotés de capacités de raisonnement présentent de meilleures performances en matière de fiabilité de la confiance, et que les stratégies mixtes sont les plus efficaces pour améliorer la fiabilité de la confiance de divers modèles

Explication Détaillée de la Méthode

Définition de la Tâche

Les tâches de raisonnement de code exigent que le modèle déduise le comportement du code sans exécuter le programme, par le biais d'analyses aux niveaux syntaxique, sémantique et logique, y compris les entrées/sorties, le comportement à l'exécution, les chemins de branchement ou les valeurs de variables.

La confiance est définie comme l'évaluation de probabilité subjective du modèle concernant l'exactitude de sa sortie. Pour un modèle M, étant donné une entrée x et l'ensemble de toutes les sorties correctes Y, le modèle produit une sortie y et attribue une confiance p(y|x) ∈ 0,1.

Architecture du Modèle

Cadre Méthodologique en Quatre Étapes

  1. Étude empirique : Inviter les LLMs à générer des réponses aux cas de test et les scores de confiance correspondants
  2. Ajustement des stratégies d'invite : Régénérer les scores de confiance en utilisant différentes stratégies d'invite
  3. Étalonnage mathématique : Appliquer des méthodes mathématiques pour traiter les scores de confiance générés par les LLMs
  4. Calcul des métriques : Calculer diverses métriques pour évaluer la fiabilité de différents types de scores de confiance

Stratégies de Génération de Confiance

  1. Confiance Intrinsèque (Intrinsic Confidence) : Score de confiance généré directement par le modèle
  2. Stratégie de Réévaluation (Reassess Strategy) : Réévaluer la confiance en invitant le modèle à s'auto-interroger
  3. Stratégie Réflexive (Reflective Strategy) : Utiliser un modèle de réflexion indépendant pour évaluer la confiance dans les réponses du modèle principal

Méthodes d'Étalonnage Mathématique

Utilisation du Platt Scaling pour l'étalonnage :

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

où A et B sont des paramètres optimisés en minimisant la vraisemblance logarithmique négative sur les données d'étalonnage.

Points d'Innovation Technique

  1. Système d'évaluation multidimensionnel : Combinaison de trois métriques (ECE, Brier Score et Performance Score) pour une évaluation complète de la fiabilité de la confiance
  2. Stratégie d'optimisation mixte : Combinaison de l'optimisation des stratégies d'invite et de l'étalonnage mathématique pour une amélioration synergique
  3. Analyse spécifique aux tâches : Analyse granulaire pour différentes tâches de raisonnement de code de complexités variées
  4. Validation croisée d'étalonnage : Utilisation de la validation croisée à 5 plis pour prévenir le surapprentissage et assurer la validité statistique

Configuration Expérimentale

Ensembles de Données

  1. REval : Contient 3 152 points de test, couvrant 4 sous-tâches
    • Prédiction de couverture de code (CCP)
    • Prédiction d'état du programme (PSP)
    • Prédiction de chemin d'exécution (EPP)
    • Prédiction de sortie (OP)
  2. CRUXEval : Contient 800 fonctions Python indépendantes, couvrant 2 sous-tâches
    • Prédiction d'entrée (CRUXEval-I)
    • Prédiction de sortie (CRUXEval-O)

Métriques d'Évaluation

  1. Erreur d'Étalonnage Attendue (ECE) :
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Score de Brier (BS) :
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. Score de Performance (PS) :
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

Méthodes de Comparaison

Sélection de LLMs principaux représentatifs :

  • Raisonnement vs Non-raisonnement : DeepSeek-V3 vs DeepSeek-R1
  • Différentes tailles : Série Qwen3 (1,7B, 14B, 32B)
  • Open-source vs Propriétaire : DeepSeek/Qwen3 vs GPT-3.5-Turbo

Détails d'Implémentation

  • Paramètre de température défini à 0 pour assurer la stabilité des résultats
  • Utilisation de modèles d'invite standardisés et uniformes
  • Validation croisée à 5 plis pour l'étalonnage Platt Scaling

Résultats Expérimentaux

Résultats Principaux

Comparaison Entre Modèles

  • DeepSeek-Reasoner affiche les meilleures performances : ECE de seulement 0,066 sur la tâche CCP, significativement meilleur que DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) et GPT-3.5-Turbo (0,338)
  • Avantage évident des capacités de raisonnement : DeepSeek-Reasoner surpasse DeepSeek-Chat sur tous les indicateurs, particulièrement sur les tâches CRUXEval
  • Les modèles open-source surpassent les modèles propriétaires : Les modèles open-source principaux ont dépassé GPT-3.5-Turbo en matière de fiabilité de la confiance

Impact de la Complexité des Tâches

  • Meilleures performances sur les tâches simples : La fiabilité de la confiance pour les tâches CCP et OP est généralement supérieure à celle des tâches PSP et EPP
  • Prédiction d'entrée plus difficile : CRUXEval-I est généralement plus difficile que CRUXEval-O

Études d'Ablation

Efficacité de l'Optimisation des Stratégies d'Invite

  • Améliorations limitées : Pour la plupart des modèles et tâches, les stratégies de réévaluation et réflexive n'ont pas apporté d'améliorations systématiques
  • Modèles haute performance bénéficient davantage : DeepSeek-Reasoner et Qwen3-32B montrent des améliorations évidentes sur des tâches spécifiques
  • Atténuation de la surconfiance : La stratégie de réévaluation aide à atténuer la surconfiance du modèle dans certains cas

Efficacité de l'Étalonnage Mathématique

  • Amélioration significative et universelle : Le Platt Scaling apporte des améliorations significatives sur tous les modèles et tâches
  • Élimination des biais systématiques : Élimine efficacement les différences de distribution produites par différentes méthodes de génération de confiance
  • Conversion négatif-positif : Le Performance Score de plusieurs modèles passe de valeurs négatives à positives

Analyse de Cas

Prenant l'exemple de GPT-3.5-Turbo sur la tâche OP :

  • Avant étalonnage : Distribution de confiance gravement biaisée, courbe d'étalonnage s'écartant de la ligne idéale
  • Après stratégie de réévaluation : Courbe d'étalonnage proche de la ligne de référence idéale
  • Après Platt Scaling : Distribution de probabilité et courbe d'étalonnage hautement conformes à la courbe idéale

Découvertes Expérimentales

  1. La capacité de raisonnement est clé : Les modèles dotés de capacités de raisonnement explicites présentent un avantage évident en matière de fiabilité de la confiance
  2. La stratégie mixte est la plus efficace : La stratégie mixte combinant la stratégie d'invite de réévaluation et le Platt Scaling réalise la meilleure amélioration
  3. Effet de taille limité : L'amélioration de la fiabilité de la confiance apportée par l'augmentation de la taille du modèle tend à plafonner après une certaine taille
  4. Spécificité des tâches évidente : La complexité différente des tâches a un impact significatif sur les performances de confiance

Travaux Connexes

Recherche sur l'Étalonnage de la Confiance

  • Méthodes traditionnelles : Les premières recherches se concentraient sur l'étalonnage de la confiance dans les petits modèles de réseaux de neurones
  • Applications aux LLMs : Récemment étendu à la compréhension du langage naturel, aux questions factuelles, au raisonnement arithmétique et autres domaines
  • Domaine du code : Spiess et al. ont étudié la fiabilité de la confiance des LLMs dans les tâches de génération de code

LLMs en Ingénierie Logicielle

  • Génération et réparation de code : De nombreuses recherches se concentrent sur les tâches de génération ou de réparation de code
  • Raisonnement de code : Direction de recherche relativement nouvelle, les recherches existantes se concentrant principalement sur les mécanismes opérationnels et l'évaluation des performances
  • Benchmarks : Émergence de plusieurs benchmarks de raisonnement de code, tels que CRUXEval, REval, CodeMind, etc.

Conclusions et Discussion

Conclusions Principales

  1. Différences de performance significatives : Les LLMs principaux actuels présentent des différences significatives en matière de fiabilité de la confiance dans les tâches de raisonnement de code
  2. Avantage des capacités de raisonnement : Les modèles dotés de capacités de raisonnement (comme DeepSeek-Reasoner) affichent les meilleures performances
  3. Efficacité de l'étalonnage mathématique : Les méthodes d'étalonnage mathématique telles que le Platt Scaling peuvent améliorer systématiquement la fiabilité de la confiance
  4. Espace d'amélioration considérable : La confiance des LLMs actuels n'a pas encore atteint un niveau de fiabilité idéal, particulièrement dans les tâches de raisonnement complexe

Limitations

  1. Différences entre benchmark et réalité : Les ensembles de données de benchmark et les environnements du monde réel présentent des différences inévitables
  2. Limitations dans la sélection des modèles : N'inclut pas les LLMs spécialisés en code en rapide développement
  3. Conception d'invite fixe : Utilisation de modèles d'invite standardisés uniformes, ce qui peut affecter la généralité des résultats
  4. Paramètre de température fixe : Fixation du paramètre de température à 0, ce qui peut ignorer son impact potentiel sur les performances

Directions Futures

  1. Mécanismes de génération de confiance : Recherche approfondie sur les mécanismes de génération de confiance des LLMs dans les tâches de raisonnement de code
  2. Stratégies d'étalonnage dynamique : Développement de méthodes d'étalonnage adaptatives et de techniques de partitionnement d'intervalles
  3. Intégration d'apprentissage actif : Intégration profonde de la confiance avec les techniques d'apprentissage actif et de contrôle des risques
  4. Équilibre de praticité : Amélioration de la fiabilité globale tout en maintenant le pouvoir discriminant et l'interprétabilité de la distribution de confiance

Évaluation Approfondie

Points Forts

  1. Importance de la recherche significative : Comble le vide dans la recherche sur la fiabilité de la confiance dans le domaine du raisonnement de code
  2. Méthode systématique et complète : Proposition d'un cadre d'analyse systématique en quatre étapes avec une méthodologie rigoureuse
  3. Conception expérimentale suffisante : Couverture de plusieurs modèles, tâches et stratégies d'amélioration, avec une configuration expérimentale complète
  4. Résultats convaincants : Conclusions validées par plusieurs métriques et méthodes statistiques
  5. Valeur pratique élevée : Fourniture de conseils techniques directement applicables à la pratique de l'ingénierie logicielle

Insuffisances

  1. Méthodes d'étalonnage limitées : Adoption principalement du Platt Scaling, sans exploration de l'efficacité d'autres méthodes d'étalonnage
  2. Perte de pouvoir discriminant : Bien que l'étalonnage mathématique améliore l'étalonnage global, il peut réduire le pouvoir discriminant de la confiance
  3. Absence de modèles spécialisés en code : N'inclut pas les modèles CodeLlama, StarCoder et autres modèles spécialisés en code
  4. Adaptabilité dynamique insuffisante : Les méthodes proposées sont principalement statiques, manquant d'adaptabilité dynamique à différents scénarios

Impact

  1. Contribution académique : Ouverture d'un nouveau domaine d'application pour la recherche sur la confiance des LLMs
  2. Pratique en ingénierie : Fourniture de fondations techniques pour l'évaluation de la fiabilité dans le développement logiciel assisté par IA
  3. Établissement de normes : Peut promouvoir l'établissement de normes d'évaluation de la confiance pour les tâches de raisonnement de code
  4. Recherches ultérieures : Fourniture de références importantes pour les recherches approfondies dans les domaines connexes

Scénarios d'Application

  1. Révision de code : Aide les développeurs à évaluer la fiabilité du code généré par l'IA
  2. Tests automatisés : Fourniture de conseils de confiance dans la génération de cas de test
  3. Refactorisation de code : Évaluation de la fiabilité des recommandations de refactorisation
  4. Formation éducative : Aide les apprenants à comprendre la logique du code dans l'enseignement de la programmation

Références

L'article cite les travaux importants du domaine connexe, notamment :

  • Brier (1950) : Travail classique sur la vérification des prédictions probabilistes
  • Guo et al. (2017) : Recherche importante sur l'étalonnage des réseaux de neurones modernes
  • Jiang et al. (2021) : Travail fondateur sur l'étalonnage de la confiance des LLMs
  • Spiess et al. (2024) : Recherche connexe sur la confiance des LLMs dans les tâches de code

Résumé : Cet article est une recherche empirique de haute qualité qui explore systématiquement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. La méthodologie est rigoureuse, les expériences sont complètes, et les conclusions présentent une valeur théorique et pratique importante, apportant une contribution significative au développement de l'ingénierie logicielle assistée par IA.