2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

فتح المحار: التقييم التجريبي وتحسين موثوقية الاستدلال على الأكواد في نماذج اللغة الكبيرة

المعلومات الأساسية

  • معرّف الورقة: 2511.02197
  • العنوان: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • المؤلفون: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • التصنيف: cs.SE (هندسة البرمجيات)، cs.AI (الذكاء الاصطناعي)
  • تاريخ النشر: 4 نوفمبر 2025
  • رابط الورقة: https://arxiv.org/abs/2511.02197

الملخص

مع الانتشار الواسع لنماذج اللغة الكبيرة (LLMs) في مجال ذكاء الأكواد، أصبح التركيز على موثوقية وقابلية التحكم في مخرجاتها في مهام الاستدلال على الأكواد أمراً ملحاً. يعتبر تقدير الثقة طريقة فعالة وملائمة لتقييم هذه الجوانب. تقترح هذه الورقة إطار عمل لتحليل وتحسين موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد. تجري الدراسة بحثاً تجريبياً شاملاً حول موثوقية الثقة في النماذج الرئيسية عبر مهام مختلفة، وتقيّم فعالية تحسين استراتيجيات الإشارات والمعايرة الرياضية (مثل Platt Scaling) في تحسين موثوقية الثقة.

السياق البحثي والدافع

تعريف المشكلة

يركز هذا البحث بشكل أساسي على مشكلة موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد. يتضمن ذلك بشكل محدد:

  1. مشكلة معايرة الثقة: قد تظهر نماذج اللغة الكبيرة الحالية سلوكاً يتسم بالثقة الزائدة أو الثقة الناقصة في الاستدلال على الأكواد
  2. صعوبة تقييم المصداقية: يواجه المطورون صعوبة في تحديد درجة موثوقية مخرجات النموذج، مما يؤثر على صنع القرار
  3. الانحيازات المنهجية: توجد فروقات كبيرة في أداء الثقة بين النماذج المختلفة والمهام المختلفة

أهمية البحث

  1. القيمة العملية: في ممارسات هندسة البرمجيات، يحتاج المطورون إلى فهم درجة موثوقية مخرجات النموذج لاتخاذ قرارات مستنيرة
  2. الاعتبارات الأمنية: قد تؤدي التنبؤات عالية الثقة الخاطئة إلى عيوب برمجية خطيرة
  3. تحسين الكفاءة: يمكن لتقدير الثقة الموثوق أن يساعد المطورين على تحسين عمليات التحقق

قيود الطرق الموجودة

  1. ندرة البحث: الدراسات المنهجية حول موثوقية الثقة في مهام الاستدلال على الأكواد نسبياً قليلة
  2. تقييم غير كافٍ: تعتمد معظم الأعمال الموجودة على مؤشرات موضوعية مثل دقة الأداء، متجاهلة تقدير الوعي الذاتي للنموذج
  3. تقنيات تحسين محدودة: نقص في الوسائل التقنية الفعالة لتحسين موثوقية الثقة في نماذج اللغة الكبيرة للاستدلال على الأكواد

المساهمات الأساسية

  1. اقتراح إطار عمل تحليلي منهجي: بناء إطار عمل لتحليل موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد، مع إجراء دراسة تجريبية كمية شاملة
  2. تقييم تقنيات التحسين: تقييم منهجي لفعالية تحسين استراتيجيات الإشارات وطرق المعايرة الرياضية، مع الكشف عن قابليتها للتطبيق والقيود في النماذج والمهام المختلفة
  3. تحليل عميق للعوامل المؤثرة: توفير تحليل عميق لتأثير موثوقية الثقة على التطبيقات العملية في هندسة البرمجيات، مع تقديم توصيات قابلة للتطبيق لتحسين وتطوير آليات الثقة في نماذج اللغة الكبيرة
  4. النتائج التجريبية: اكتشاف أن النماذج ذات القدرات الاستدلالية تظهر أداءً أفضل في موثوقية الثقة، وأن الاستراتيجيات المختلطة هي الأكثر فعالية في تحسين موثوقية الثقة عبر مختلف النماذج

شرح الطريقة

تعريف المهمة

تتطلب مهام الاستدلال على الأكواد من النموذج استنتاج سلوك الكود دون تنفيذ البرنامج، من خلال التحليل على المستويات النحوية والدلالية والمنطقية، بما في ذلك المدخلات والمخرجات والسلوك في وقت التشغيل والمسارات الفرعية أو قيم المتغيرات.

يُعرّف تقدير الثقة بأنه التقييم الاحتمالي الذاتي للنموذج لصحة مخرجاته. بالنسبة للنموذج M، بالنظر إلى المدخل x ومجموعة جميع المخرجات الصحيحة Y، ينتج النموذج المخرج y ويخصص تقدير ثقة p(y|x) ∈ 0,1.

معمارية النموذج

إطار العمل ذو الأربع خطوات

  1. الدراسة التجريبية: إطلب من نماذج اللغة الكبيرة توليد إجابات حالات الاختبار وتقديرات الثقة المقابلة
  2. تعديل استراتيجية الإشارات: استخدم استراتيجيات إشارات مختلفة لإعادة توليد تقديرات الثقة
  3. المعايرة الرياضية: تطبيق الطرق الرياضية على تقديرات الثقة المولدة من قبل نماذج اللغة الكبيرة
  4. حساب المؤشرات: حساب مؤشرات متنوعة لتقييم موثوقية أنواع مختلفة من تقديرات الثقة

استراتيجيات توليد الثقة

  1. الثقة الداخلية (Intrinsic Confidence): تقديرات الثقة المولدة مباشرة من النموذج
  2. استراتيجية إعادة التقييم (Reassess Strategy): إعادة تقييم الثقة من خلال إشارات الشك الذاتي
  3. استراتيجية التأمل (Reflective Strategy): استخدام نموذج تأمل مستقل لتقييم ثقة إجابات النموذج الرئيسي

طرق المعايرة الرياضية

استخدام Platt Scaling للمعايرة:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

حيث A و B هما معاملات يتم تحسينها من خلال تقليل احتمالية السجل السالب على بيانات المعايرة.

نقاط الابتكار التقني

  1. نظام تقييم متعدد الأبعاد: دمج ثلاثة مؤشرات (ECE و Brier Score و Performance Score) لتقييم شامل لموثوقية الثقة
  2. استراتيجية تحسين مختلطة: دمج تحسين استراتيجية الإشارات مع المعايرة الرياضية لتحقيق تحسين تعاوني
  3. تحليل خاص بالمهمة: تحليل دقيق لمهام الاستدلال على الأكواد ذات درجات التعقيد المختلفة
  4. المعايرة بالتحقق المتقاطع: استخدام التحقق المتقاطع بـ 5 طيات لمنع الإفراط في التدريب وضمان الصحة الإحصائية

إعداد التجربة

مجموعات البيانات

  1. REval: تحتوي على 3,152 نقطة اختبار، تغطي 4 مهام فرعية
    • التنبؤ بتغطية الكود (CCP)
    • التنبؤ بحالة البرنامج (PSP)
    • التنبؤ بمسار التنفيذ (EPP)
    • التنبؤ بالمخرجات (OP)
  2. CRUXEval: تحتوي على 800 دالة Python مستقلة، تغطي مهمتين فرعيتين
    • التنبؤ بالمدخلات (CRUXEval-I)
    • التنبؤ بالمخرجات (CRUXEval-O)

مؤشرات التقييم

  1. خطأ المعايرة المتوقع (ECE):
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. درجة Brier (BS):
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. درجة الأداء (PS):
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

الطرق المقارنة

تم اختيار نماذج لغة كبيرة رئيسية تمثيلية:

  • الاستدلال مقابل عدم الاستدلال: DeepSeek-V3 مقابل DeepSeek-R1
  • أحجام مختلفة: سلسلة Qwen3 (1.7B, 14B, 32B)
  • مفتوح المصدر مقابل مغلق المصدر: DeepSeek/Qwen3 مقابل GPT-3.5-Turbo

تفاصيل التنفيذ

  • تعيين معامل درجة الحرارة على 0 لضمان استقرار النتائج
  • استخدام قالب إشارات موحد ومعياري
  • استخدام التحقق المتقاطع بـ 5 طيات لمعايرة Platt Scaling

نتائج التجربة

النتائج الرئيسية

المقارنة بين النماذج

  • أداء DeepSeek-Reasoner الأمثل: ECE بقيمة 0.066 فقط في مهمة CCP، متفوقاً بشكل ملحوظ على DeepSeek-Chat (0.143) و Qwen3-1.7B (0.231) و GPT-3.5-Turbo (0.338)
  • ميزة القدرة الاستدلالية واضحة: يتفوق DeepSeek-Reasoner على DeepSeek-Chat في جميع المؤشرات، خاصة في مهام CRUXEval
  • تجاوز النماذج مفتوحة المصدر للنماذج المغلقة: تجاوزت النماذج مفتوحة المصدر الرئيسية GPT-3.5-Turbo في موثوقية الثقة

تأثير تعقيد المهمة

  • أداء أفضل في المهام البسيطة: تتمتع مهام CCP و OP بموثوقية ثقة أفضل بشكل عام من PSP و EPP
  • التنبؤ بالمدخلات أكثر تحدياً: عادة ما تكون CRUXEval-I أصعب من CRUXEval-O

التجارب الاستئصالية

تأثير تحسين استراتيجية الإشارات

  • تحسين محدود: لم تحقق استراتيجيات إعادة التقييم والتأمل تحسيناً منهجياً لمعظم النماذج والمهام
  • استفادة أكبر للنماذج عالية الأداء: يظهر DeepSeek-Reasoner و Qwen3-32B تحسناً واضحاً في مهام محددة
  • تخفيف الثقة الزائدة: تساعد استراتيجية إعادة التقييم في بعض الحالات على تخفيف الثقة الزائدة للنموذج

تأثير المعايرة الرياضية

  • تحسين كبير وشامل: يحقق Platt Scaling تحسيناً ملحوظاً عبر جميع النماذج والمهام
  • القضاء على الانحيازات المنهجية: يزيل بفعالية الفروقات في التوزيع الناتجة عن طرق توليد الثقة المختلفة
  • التحويل من السالب إلى الموجب: تحول درجة الأداء لعدة نماذج من قيم سالبة إلى قيم موجبة

تحليل الحالات

مثال على أداء GPT-3.5-Turbo في مهمة OP:

  • قبل المعايرة: توزيع الثقة منحرف بشدة، منحنى المعايرة ينحرف عن الخط المثالي
  • بعد استراتيجية إعادة التقييم: منحنى المعايرة يقترب من خط المرجع المثالي
  • بعد Platt Scaling: توزيع الاحتمالية ومنحنى المعايرة يتطابق بشكل كبير مع المنحنى المثالي

النتائج التجريبية

  1. القدرة الاستدلالية هي المفتاح: النماذج ذات القدرات الاستدلالية الصريحة لها ميزة واضحة في موثوقية الثقة
  2. الاستراتيجية المختلطة الأكثر فعالية: دمج استراتيجية الإشارات بإعادة التقييم مع Platt Scaling يحقق أفضل تحسين
  3. تأثير الحجم محدود: التحسن في موثوقية الثقة الناتج عن زيادة حجم النموذج يتباطأ بعد الوصول إلى حجم معين
  4. التخصص بالمهمة واضح: لدرجات التعقيد المختلفة للمهام تأثير ملحوظ على أداء الثقة

الأعمال ذات الصلة

بحث معايرة الثقة

  • الطرق التقليدية: ركزت الأبحاث المبكرة على معايرة الثقة في النماذج العصبية الصغيرة
  • تطبيقات نماذج اللغة الكبيرة: توسعت مؤخراً لتشمل فهم اللغة الطبيعية والإجابة على الأسئلة الواقعية والاستدلال الحسابي
  • مجال الأكواد: درس Spiess وآخرون موثوقية الثقة في نماذج اللغة الكبيرة لمهام توليد الأكواد

نماذج اللغة الكبيرة في هندسة البرمجيات

  • توليد وإصلاح الأكواد: تركزت الدراسات الكثيرة على مهام توليد أو إصلاح الأكواد
  • الاستدلال على الأكواد: اتجاه بحثي نسبياً جديد، تركز الأبحاث الموجودة بشكل أساسي على آليات التشغيل وتقييم الأداء
  • المعايير المرجعية: ظهرت معايير مرجعية متعددة للاستدلال على الأكواس مثل CRUXEval و REval و CodeMind

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. فروقات أداء كبيرة: توجد فروقات ملحوظة في موثوقية الثقة بين نماذج اللغة الكبيرة الرئيسية في مهام الاستدلال على الأكواد
  2. ميزة القدرة الاستدلالية: تظهر النماذج ذات القدرات الاستدلالية (مثل DeepSeek-Reasoner) أفضل أداء
  3. فعالية المعايرة الرياضية: يمكن لطرق المعايرة الرياضية مثل Platt Scaling تحسين موثوقية الثقة بشكل منهجي
  4. مجال تحسين ضخم: لم تصل موثوقية الثقة في نماذج اللغة الكبيرة الحالية إلى المستوى المثالي، خاصة في مهام الاستدلال المعقدة

القيود

  1. الفرق بين المعايير والواقع: توجد فروقات لا مفر منها بين مجموعات البيانات المرجعية والبيئات الحقيقية
  2. قيود اختيار النموذج: لم تتضمن النماذج المتخصصة في الأكواد سريعة التطور
  3. تصميم الإشارات الثابت: استخدام تصميم إشارات موحد ومعياري قد يؤثر على عمومية النتائج
  4. معامل درجة الحرارة الثابت: تثبيت معامل درجة الحرارة على 0 قد يتجاهل تأثيره المحتمل على الأداء

الاتجاهات المستقبلية

  1. آليات توليد الثقة: البحث العميق في آليات توليد الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد
  2. استراتيجيات معايرة ديناميكية: تطوير طرق معايرة تكيفية وتقنيات تقسيم الفترات
  3. التكامل مع التعلم النشط: دمج عميق للثقة مع تقنيات التعلم النشط والتحكم في المخاطر
  4. التوازن العملي: الحفاظ على القوة التمييزية والقابلية للتفسير لتوزيع الثقة مع تحسين الموثوقية الكلية

التقييم العميق

المميزات

  1. أهمية بحثية كبيرة: تملأ الفراغ في البحث حول موثوقية الثقة في مجال الاستدلال على الأكواد
  2. منهجية نظامية وشاملة: اقتراح إطار عمل تحليلي منهجي بأربع خطوات، مع منهجية صارمة
  3. تصميم تجريبي كافٍ: تغطية نماذج وحالات ومهام واستراتيجيات تحسين متعددة، مع إعداد تجريبي شامل
  4. نتائج مقنعة: التحقق من الاستنتاجات من خلال مؤشرات متعددة وطرق إحصائية
  5. قيمة عملية عالية: توفير إرشادات تقنية مباشرة قابلة للاستخدام لممارسات هندسة البرمجيات

أوجه القصور

  1. طرق معايرة محدودة: الاعتماد الأساسي على Platt Scaling دون استكشاف تأثير طرق معايرة أخرى
  2. فقدان القوة التمييزية: قد تحسن المعايرة الرياضية المعايرة الكلية لكنها قد تقلل من القوة التمييزية للثقة
  3. نقص النماذج المتخصصة في الأكواد: عدم تضمين نماذج مثل CodeLlama و StarCoder المتخصصة في الأكواد
  4. نقص التكيف الديناميكي: الطرق المقترحة في الأساس ثابتة، تفتقر إلى القدرة على التكيف الديناميكي مع السيناريوهات المختلفة

التأثير

  1. المساهمة الأكاديمية: فتح مجال تطبيق جديد لبحث موثوقية الثقة في نماذج اللغة الكبيرة
  2. الممارسة الهندسية: توفير أساس تقني لتقييم المصداقية في تطوير البرمجيات بمساعدة الذكاء الاصطناعي
  3. وضع المعايير: قد يدفع نحو إنشاء معايير لتقييم موثوقية الثقة في مهام الاستدلال على الأكواد
  4. البحث اللاحق: توفير مرجع مهم للبحث المتعمق في المجالات ذات الصلة

السيناريوهات القابلة للتطبيق

  1. مراجعة الأكواد: مساعدة المطورين على تقييم موثوقية الأكواد المولدة بواسطة الذكاء الاصطناعي
  2. الاختبار الآلي: توفير إرشادات موثوقية الثقة في توليد حالات الاختبار
  3. إعادة هيكلة الأكواد: توفير تقييم موثوقية لاقتراحات إعادة الهيكلة
  4. التعليم والتدريب: مساعدة المتعلمين على فهم منطق الأكواد في التعليم البرمجي

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

  • Brier (1950): عمل كلاسيكي في التحقق من التنبؤات الاحتمالية
  • Guo et al. (2017): بحث مهم في معايرة الشبكات العصبية الحديثة
  • Jiang et al. (2021): عمل رائد في معايرة موثوقية الثقة في نماذج اللغة الكبيرة
  • Spiess et al. (2024): بحث ذو صلة حول موثوقية الثقة في نماذج اللغة الكبيرة لمهام الأكواد

الخلاصة: هذه ورقة بحثية تجريبية عالية الجودة تستكشف بشكل منهجي مشكلة موثوقية الثقة في نماذج اللغة الكبيرة لمهام الاستدلال على الأكواد. تتمتع الورقة بمنهجية صارمة وتجارب شاملة واستنتاجات ذات قيمة نظرية وعملية مهمة، مما يوفر مساهمة مهمة لتطوير هندسة البرمجيات بمساعدة الذكاء الاصطناعي.