Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
فتح المحار: التقييم التجريبي وتحسين موثوقية الاستدلال على الأكواد في نماذج اللغة الكبيرة
مع الانتشار الواسع لنماذج اللغة الكبيرة (LLMs) في مجال ذكاء الأكواد، أصبح التركيز على موثوقية وقابلية التحكم في مخرجاتها في مهام الاستدلال على الأكواد أمراً ملحاً. يعتبر تقدير الثقة طريقة فعالة وملائمة لتقييم هذه الجوانب. تقترح هذه الورقة إطار عمل لتحليل وتحسين موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد. تجري الدراسة بحثاً تجريبياً شاملاً حول موثوقية الثقة في النماذج الرئيسية عبر مهام مختلفة، وتقيّم فعالية تحسين استراتيجيات الإشارات والمعايرة الرياضية (مثل Platt Scaling) في تحسين موثوقية الثقة.
اقتراح إطار عمل تحليلي منهجي: بناء إطار عمل لتحليل موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد، مع إجراء دراسة تجريبية كمية شاملة
تقييم تقنيات التحسين: تقييم منهجي لفعالية تحسين استراتيجيات الإشارات وطرق المعايرة الرياضية، مع الكشف عن قابليتها للتطبيق والقيود في النماذج والمهام المختلفة
تحليل عميق للعوامل المؤثرة: توفير تحليل عميق لتأثير موثوقية الثقة على التطبيقات العملية في هندسة البرمجيات، مع تقديم توصيات قابلة للتطبيق لتحسين وتطوير آليات الثقة في نماذج اللغة الكبيرة
النتائج التجريبية: اكتشاف أن النماذج ذات القدرات الاستدلالية تظهر أداءً أفضل في موثوقية الثقة، وأن الاستراتيجيات المختلطة هي الأكثر فعالية في تحسين موثوقية الثقة عبر مختلف النماذج
تتطلب مهام الاستدلال على الأكواد من النموذج استنتاج سلوك الكود دون تنفيذ البرنامج، من خلال التحليل على المستويات النحوية والدلالية والمنطقية، بما في ذلك المدخلات والمخرجات والسلوك في وقت التشغيل والمسارات الفرعية أو قيم المتغيرات.
يُعرّف تقدير الثقة بأنه التقييم الاحتمالي الذاتي للنموذج لصحة مخرجاته. بالنسبة للنموذج M، بالنظر إلى المدخل x ومجموعة جميع المخرجات الصحيحة Y، ينتج النموذج المخرج y ويخصص تقدير ثقة p(y|x) ∈ 0,1.
أداء DeepSeek-Reasoner الأمثل: ECE بقيمة 0.066 فقط في مهمة CCP، متفوقاً بشكل ملحوظ على DeepSeek-Chat (0.143) و Qwen3-1.7B (0.231) و GPT-3.5-Turbo (0.338)
ميزة القدرة الاستدلالية واضحة: يتفوق DeepSeek-Reasoner على DeepSeek-Chat في جميع المؤشرات، خاصة في مهام CRUXEval
تجاوز النماذج مفتوحة المصدر للنماذج المغلقة: تجاوزت النماذج مفتوحة المصدر الرئيسية GPT-3.5-Turbo في موثوقية الثقة
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:
Brier (1950): عمل كلاسيكي في التحقق من التنبؤات الاحتمالية
Guo et al. (2017): بحث مهم في معايرة الشبكات العصبية الحديثة
Jiang et al. (2021): عمل رائد في معايرة موثوقية الثقة في نماذج اللغة الكبيرة
Spiess et al. (2024): بحث ذو صلة حول موثوقية الثقة في نماذج اللغة الكبيرة لمهام الأكواد
الخلاصة: هذه ورقة بحثية تجريبية عالية الجودة تستكشف بشكل منهجي مشكلة موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد. تتمتع الورقة بمنهجية صارمة وتجارب شاملة واستنتاجات ذات قيمة نظرية وعملية مهمة، مما يوفر مساهمة مهمة لتطوير هندسة البرمجيات بمساعدة الذكاء الاصطناعي.