Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
Ouvrir l'Huître : Évaluation Empirique et Amélioration de la Fiabilité du Raisonnement de Code dans les LLMs
Avec l'application généralisée des grands modèles de langage (LLMs) dans le domaine de l'intelligence du code, la fiabilité et la contrôlabilité de leurs résultats dans les tâches de raisonnement de code suscitent une attention croissante. L'estimation de la confiance, en tant que méthode efficace et pratique pour évaluer ces aspects, revêt une importance significative. Cet article propose un cadre d'analyse et d'amélioration de la confiance des LLMs pour les tâches de raisonnement de code. L'étude mène une recherche empirique complète sur la fiabilité de la confiance des LLMs principaux sur différentes tâches, et évalue en outre l'efficacité de techniques telles que l'optimisation des stratégies d'invite et l'étalonnage mathématique (comme le Platt Scaling) pour améliorer la fiabilité de la confiance.
Cette recherche aborde principalement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. Elle comprend spécifiquement :
Problème d'étalonnage de la confiance : Les LLMs actuels peuvent présenter un comportement de surconfiance ou de sous-confiance dans le raisonnement de code
Difficulté d'évaluation de la fiabilité : Les développeurs ont du mal à juger le degré de fiabilité des résultats du modèle, ce qui affecte la prise de décision
Biais systématiques : Les performances de confiance de différents modèles sur différentes tâches présentent des variations significatives
Valeur pratique : Dans la pratique de l'ingénierie logicielle, les développeurs doivent comprendre la fiabilité des résultats du modèle pour prendre des décisions éclairées
Considérations de sécurité : Les prédictions incorrectes avec une confiance élevée peuvent entraîner des défauts logiciels graves
Amélioration de l'efficacité : L'estimation fiable de la confiance peut aider les développeurs à optimiser les processus de vérification
Recherche rare : Les études systématiques sur la fiabilité de la confiance pour les tâches de raisonnement de code sont relativement rares
Évaluation insuffisante : La plupart des travaux existants s'appuient sur des métriques objectives telles que la précision, en ignorant la quantification de l'auto-perception du modèle
Techniques d'amélioration limitées : Absence de moyens techniques efficaces pour améliorer la fiabilité de la confiance des LLMs dans le raisonnement de code
Proposition d'un cadre d'analyse systématique : Construction d'un cadre d'analyse de la fiabilité de la confiance des LLMs pour les tâches de raisonnement de code, avec une étude empirique quantitative complète
Évaluation des techniques d'amélioration : Évaluation systématique de l'efficacité de l'optimisation des stratégies d'invite et des méthodes d'étalonnage mathématique, révélant leur applicabilité et leurs limitations sur différents modèles et tâches
Analyse approfondie des facteurs d'influence : Fourniture d'une analyse approfondie de l'impact de la fiabilité de la confiance sur les applications pratiques de l'ingénierie logicielle, avec des recommandations viables pour l'optimisation des mécanismes de confiance des LLMs et le déploiement en ingénierie
Découvertes empiriques : Constatation que les modèles dotés de capacités de raisonnement présentent de meilleures performances en matière de fiabilité de la confiance, et que les stratégies mixtes sont les plus efficaces pour améliorer la fiabilité de la confiance de divers modèles
Les tâches de raisonnement de code exigent que le modèle déduise le comportement du code sans exécuter le programme, par le biais d'analyses aux niveaux syntaxique, sémantique et logique, y compris les entrées/sorties, le comportement à l'exécution, les chemins de branchement ou les valeurs de variables.
La confiance est définie comme l'évaluation de probabilité subjective du modèle concernant l'exactitude de sa sortie. Pour un modèle M, étant donné une entrée x et l'ensemble de toutes les sorties correctes Y, le modèle produit une sortie y et attribue une confiance p(y|x) ∈ 0,1.
Confiance Intrinsèque (Intrinsic Confidence) : Score de confiance généré directement par le modèle
Stratégie de Réévaluation (Reassess Strategy) : Réévaluer la confiance en invitant le modèle à s'auto-interroger
Stratégie Réflexive (Reflective Strategy) : Utiliser un modèle de réflexion indépendant pour évaluer la confiance dans les réponses du modèle principal
Système d'évaluation multidimensionnel : Combinaison de trois métriques (ECE, Brier Score et Performance Score) pour une évaluation complète de la fiabilité de la confiance
Stratégie d'optimisation mixte : Combinaison de l'optimisation des stratégies d'invite et de l'étalonnage mathématique pour une amélioration synergique
Analyse spécifique aux tâches : Analyse granulaire pour différentes tâches de raisonnement de code de complexités variées
Validation croisée d'étalonnage : Utilisation de la validation croisée à 5 plis pour prévenir le surapprentissage et assurer la validité statistique
DeepSeek-Reasoner affiche les meilleures performances : ECE de seulement 0,066 sur la tâche CCP, significativement meilleur que DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) et GPT-3.5-Turbo (0,338)
Avantage évident des capacités de raisonnement : DeepSeek-Reasoner surpasse DeepSeek-Chat sur tous les indicateurs, particulièrement sur les tâches CRUXEval
Les modèles open-source surpassent les modèles propriétaires : Les modèles open-source principaux ont dépassé GPT-3.5-Turbo en matière de fiabilité de la confiance
Meilleures performances sur les tâches simples : La fiabilité de la confiance pour les tâches CCP et OP est généralement supérieure à celle des tâches PSP et EPP
Prédiction d'entrée plus difficile : CRUXEval-I est généralement plus difficile que CRUXEval-O
Améliorations limitées : Pour la plupart des modèles et tâches, les stratégies de réévaluation et réflexive n'ont pas apporté d'améliorations systématiques
Modèles haute performance bénéficient davantage : DeepSeek-Reasoner et Qwen3-32B montrent des améliorations évidentes sur des tâches spécifiques
Atténuation de la surconfiance : La stratégie de réévaluation aide à atténuer la surconfiance du modèle dans certains cas
Amélioration significative et universelle : Le Platt Scaling apporte des améliorations significatives sur tous les modèles et tâches
Élimination des biais systématiques : Élimine efficacement les différences de distribution produites par différentes méthodes de génération de confiance
Conversion négatif-positif : Le Performance Score de plusieurs modèles passe de valeurs négatives à positives
La capacité de raisonnement est clé : Les modèles dotés de capacités de raisonnement explicites présentent un avantage évident en matière de fiabilité de la confiance
La stratégie mixte est la plus efficace : La stratégie mixte combinant la stratégie d'invite de réévaluation et le Platt Scaling réalise la meilleure amélioration
Effet de taille limité : L'amélioration de la fiabilité de la confiance apportée par l'augmentation de la taille du modèle tend à plafonner après une certaine taille
Spécificité des tâches évidente : La complexité différente des tâches a un impact significatif sur les performances de confiance
Méthodes traditionnelles : Les premières recherches se concentraient sur l'étalonnage de la confiance dans les petits modèles de réseaux de neurones
Applications aux LLMs : Récemment étendu à la compréhension du langage naturel, aux questions factuelles, au raisonnement arithmétique et autres domaines
Domaine du code : Spiess et al. ont étudié la fiabilité de la confiance des LLMs dans les tâches de génération de code
Génération et réparation de code : De nombreuses recherches se concentrent sur les tâches de génération ou de réparation de code
Raisonnement de code : Direction de recherche relativement nouvelle, les recherches existantes se concentrant principalement sur les mécanismes opérationnels et l'évaluation des performances
Benchmarks : Émergence de plusieurs benchmarks de raisonnement de code, tels que CRUXEval, REval, CodeMind, etc.
Différences de performance significatives : Les LLMs principaux actuels présentent des différences significatives en matière de fiabilité de la confiance dans les tâches de raisonnement de code
Avantage des capacités de raisonnement : Les modèles dotés de capacités de raisonnement (comme DeepSeek-Reasoner) affichent les meilleures performances
Efficacité de l'étalonnage mathématique : Les méthodes d'étalonnage mathématique telles que le Platt Scaling peuvent améliorer systématiquement la fiabilité de la confiance
Espace d'amélioration considérable : La confiance des LLMs actuels n'a pas encore atteint un niveau de fiabilité idéal, particulièrement dans les tâches de raisonnement complexe
Différences entre benchmark et réalité : Les ensembles de données de benchmark et les environnements du monde réel présentent des différences inévitables
Limitations dans la sélection des modèles : N'inclut pas les LLMs spécialisés en code en rapide développement
Conception d'invite fixe : Utilisation de modèles d'invite standardisés uniformes, ce qui peut affecter la généralité des résultats
Paramètre de température fixe : Fixation du paramètre de température à 0, ce qui peut ignorer son impact potentiel sur les performances
Mécanismes de génération de confiance : Recherche approfondie sur les mécanismes de génération de confiance des LLMs dans les tâches de raisonnement de code
Stratégies d'étalonnage dynamique : Développement de méthodes d'étalonnage adaptatives et de techniques de partitionnement d'intervalles
Intégration d'apprentissage actif : Intégration profonde de la confiance avec les techniques d'apprentissage actif et de contrôle des risques
Équilibre de praticité : Amélioration de la fiabilité globale tout en maintenant le pouvoir discriminant et l'interprétabilité de la distribution de confiance
Importance de la recherche significative : Comble le vide dans la recherche sur la fiabilité de la confiance dans le domaine du raisonnement de code
Méthode systématique et complète : Proposition d'un cadre d'analyse systématique en quatre étapes avec une méthodologie rigoureuse
Conception expérimentale suffisante : Couverture de plusieurs modèles, tâches et stratégies d'amélioration, avec une configuration expérimentale complète
Résultats convaincants : Conclusions validées par plusieurs métriques et méthodes statistiques
Valeur pratique élevée : Fourniture de conseils techniques directement applicables à la pratique de l'ingénierie logicielle
Méthodes d'étalonnage limitées : Adoption principalement du Platt Scaling, sans exploration de l'efficacité d'autres méthodes d'étalonnage
Perte de pouvoir discriminant : Bien que l'étalonnage mathématique améliore l'étalonnage global, il peut réduire le pouvoir discriminant de la confiance
Absence de modèles spécialisés en code : N'inclut pas les modèles CodeLlama, StarCoder et autres modèles spécialisés en code
Adaptabilité dynamique insuffisante : Les méthodes proposées sont principalement statiques, manquant d'adaptabilité dynamique à différents scénarios
L'article cite les travaux importants du domaine connexe, notamment :
Brier (1950) : Travail classique sur la vérification des prédictions probabilistes
Guo et al. (2017) : Recherche importante sur l'étalonnage des réseaux de neurones modernes
Jiang et al. (2021) : Travail fondateur sur l'étalonnage de la confiance des LLMs
Spiess et al. (2024) : Recherche connexe sur la confiance des LLMs dans les tâches de code
Résumé : Cet article est une recherche empirique de haute qualité qui explore systématiquement la question de la fiabilité de la confiance des LLMs dans les tâches de raisonnement de code. La méthodologie est rigoureuse, les expériences sont complètes, et les conclusions présentent une valeur théorique et pratique importante, apportant une contribution significative au développement de l'ingénierie logicielle assistée par IA.