2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

ओয়স्টर को खोलें: LLMs में कोड रीजनिंग कॉन्फिडेंस का अनुभवजन्य मूल्यांकन और सुधार

मूल जानकारी

पेपर ID: 2511.02197
शीर्षक: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
लेखक: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
वर्गीकरण: cs.SE (सॉफ्टवेयर इंजीनियरिंग), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन तिथि: 4 नवंबर 2025
पेपर लिंक: https://arxiv.org/abs/2511.02197

सारांश

बड़े भाषा मॉडल (LLMs) के कोड इंटेलिजेंस क्षेत्र में व्यापक अनुप्रयोग के साथ, कोड रीजनिंग कार्यों में उनके आउटपुट की विश्वसनीयता और नियंत्रणीयता पर बढ़ती ध्यान दी जा रही है। कॉन्फिडेंस अनुमान इन पहलुओं का मूल्यांकन करने के लिए एक प्रभावी और सुविधाजनक तरीका है। यह पेपर कोड रीजनिंग कार्यों के लिए LLM कॉन्फिडेंस विश्लेषण और वृद्धि ढांचा प्रस्तावित करता है। अनुसंधान मुख्यधारा के LLMs की विभिन्न कार्यों पर कॉन्फिडेंस विश्वसनीयता का व्यापक अनुभवजन्य अध्ययन करता है, और प्रॉम्प्ट रणनीति अनुकूलन और गणितीय कैलिब्रेशन (जैसे Platt Scaling) जैसी तकनीकों की प्रभावशीलता का मूल्यांकन करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान मुख्य रूप से कोड रीजनिंग कार्यों में LLMs की कॉन्फिडेंस विश्वसनीयता समस्या को संबोधित करता है। इसमें विशेष रूप से शामिल हैं:

कॉन्फिडेंस कैलिब्रेशन समस्या: वर्तमान LLMs कोड रीजनिंग में अत्यधिक आत्मविश्वास या अपर्याप्त आत्मविश्वास का प्रदर्शन कर सकते हैं
विश्वसनीयता मूल्यांकन कठिनाई: डेवलपर्स को मॉडल आउटपुट की विश्वसनीयता का अनुमान लगाना मुश्किल होता है, जो निर्णय लेने को प्रभावित करता है
व्यवस्थित पूर्वाग्रह: विभिन्न मॉडल विभिन्न कार्यों पर कॉन्फिडेंस प्रदर्शन में महत्वपूर्ण अंतर दिखाते हैं

अनुसंधान का महत्व

व्यावहारिक मूल्य: सॉफ्टवेयर इंजीनियरिंग अभ्यास में, डेवलपर्स को सूचित निर्णय लेने के लिए मॉडल आउटपुट की विश्वसनीयता जानने की आवश्यकता है
सुरक्षा विचार: गलत उच्च कॉन्फिडेंस भविष्यवाणी गंभीर सॉफ्टवेयर दोषों का कारण बन सकती है
दक्षता वृद्धि: विश्वसनीय कॉन्फिडेंस अनुमान डेवलपर्स को सत्यापन प्रक्रिया को अनुकूलित करने में मदद कर सकता है

मौजूदा विधियों की सीमाएं

अनुसंधान की कमी: कोड रीजनिंग कार्यों के लिए कॉन्फिडेंस विश्वसनीयता का व्यवस्थित अनुसंधान अपेक्षाकृत दुर्लभ है
अपर्याप्त मूल्यांकन: अधिकांश मौजूदा कार्य सटीकता जैसे उद्देश्य मेट्रिक्स पर निर्भर करते हैं, मॉडल आत्म-जागरूकता के परिमाणीकरण को नजरअंदाज करते हैं
सीमित सुधार तकनीकें: कोड रीजनिंग में LLM कॉन्फिडेंस विश्वसनीयता बढ़ाने के लिए प्रभावी तकनीकी साधनों की कमी है

मुख्य योगदान

व्यवस्थित विश्लेषण ढांचा प्रस्तावित करना: कोड रीजनिंग कार्यों के लिए LLM कॉन्फिडेंस विश्वसनीयता विश्लेषण ढांचा बनाया गया है, और व्यापक मात्रात्मक अनुभवजन्य अनुसंधान किया गया है
सुधार तकनीकों का मूल्यांकन: प्रॉम्प्ट रणनीति अनुकूलन और गणितीय कैलिब्रेशन विधियों की प्रभावशीलता का व्यवस्थित मूल्यांकन, विभिन्न मॉडल और कार्यों पर उनकी प्रयोज्यता और सीमाएं प्रकट करता है
प्रभावशाली कारकों का गहन विश्लेषण: वास्तविक सॉफ्टवेयर इंजीनियरिंग अनुप्रयोगों पर कॉन्फिडेंस विश्वसनीयता के प्रभाव का गहन विश्लेषण प्रदान करता है, और LLM कॉन्फिडेंस तंत्र के अनुकूलन और इंजीनियरिंग तैनाती के लिए व्यावहारिक सुझाव देता है
अनुभवजन्य निष्कर्ष: पाया गया कि रीजनिंग क्षमता वाले मॉडल कॉन्फिडेंस विश्वसनीयता में बेहतर प्रदर्शन करते हैं, और मिश्रित रणनीति विभिन्न मॉडल कॉन्फिडेंस विश्वसनीयता बढ़ाने में सबसे प्रभावी है

विधि विवरण

कार्य परिभाषा

कोड रीजनिंग कार्य मॉडल को प्रोग्राम को निष्पादित किए बिना, वाक्य रचना, शब्दार्थ और तार्किक स्तर पर विश्लेषण के माध्यम से कोड के व्यवहार का अनुमान लगाने की आवश्यकता है, जिसमें इनपुट/आउटपुट, रनटाइम व्यवहार, शाखा पथ या चर मान शामिल हैं।

कॉन्फिडेंस को मॉडल के आउटपुट की सही होने के बारे में व्यक्तिपरक संभाव्यता मूल्यांकन के रूप में परिभाषित किया गया है। मॉडल M के लिए, दिए गए इनपुट x और सभी सही आउटपुट सेट Y के लिए, मॉडल आउटपुट y उत्पन्न करता है और कॉन्फिडेंस p(y|x) ∈ 0,1 निर्दिष्ट करता है।

मॉडल आर्किटेक्चर

चार-चरणीय विधि ढांचा

अनुभवजन्य अनुसंधान: LLMs को परीक्षण केस उत्तर और संबंधित कॉन्फिडेंस स्कोर उत्पन्न करने के लिए प्रॉम्प्ट करना
प्रॉम्प्ट रणनीति समायोजन: विभिन्न प्रॉम्प्ट रणनीतियों का उपयोग करके कॉन्फिडेंस स्कोर पुनः उत्पन्न करना
गणितीय कैलिब्रेशन: LLMs द्वारा उत्पन्न कॉन्फिडेंस स्कोर को संसाधित करने के लिए गणितीय विधियां लागू करना
मेट्रिक्स गणना: विभिन्न प्रकार के कॉन्फिडेंस स्कोर की विश्वसनीयता का मूल्यांकन करने के लिए विभिन्न मेट्रिक्स की गणना करना

कॉन्फिडेंस जनरेशन रणनीति

आंतरिक कॉन्फिडेंस (Intrinsic Confidence): मॉडल द्वारा सीधे उत्पन्न कॉन्फिडेंस स्कोर
पुनर्मूल्यांकन रणनीति (Reassess Strategy): आत्म-संदेह प्रॉम्प्ट के माध्यम से मॉडल को कॉन्फिडेंस का पुनः मूल्यांकन करने के लिए
प्रतिबिंबित रणनीति (Reflective Strategy): मुख्य मॉडल उत्तर की कॉन्फिडेंस का मूल्यांकन करने के लिए एक स्वतंत्र प्रतिबिंब मॉडल का उपयोग करना

गणितीय कैलिब्रेशन विधि

Platt Scaling के लिए कैलिब्रेशन:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

जहां A और B कैलिब्रेशन डेटा नकारात्मक लॉग संभावना को कम करके अनुकूलित किए गए पैरामीटर हैं।

तकनीकी नवाचार बिंदु

बहु-आयामी मूल्यांकन प्रणाली: ECE, Brier Score और Performance Score तीन मेट्रिक्स को कॉन्फिडेंस विश्वसनीयता का व्यापक मूल्यांकन करने के लिए जोड़ता है
मिश्रित अनुकूलन रणनीति: प्रॉम्प्ट रणनीति अनुकूलन और गणितीय कैलिब्रेशन को संयोजित करके सहक्रियात्मक सुधार प्राप्त करता है
कार्य-विशिष्ट विश्लेषण: विभिन्न जटिलता के कोड रीजनिंग कार्यों के लिए सूक्ष्म-दानेदार विश्लेषण
क्रॉस-वेलिडेशन कैलिब्रेशन: ओवरफिटिंग को रोकने और सांख्यिकीय वैधता सुनिश्चित करने के लिए 5-फोल्ड क्रॉस-वेलिडेशन का उपयोग करता है

प्रयोगात्मक सेटअप

डेटासेट

REval: 3,152 परीक्षण बिंदु शामिल हैं, 4 उप-कार्यों को कवर करते हैं
- कोड कवरेज भविष्यवाणी (CCP)
- प्रोग्राम स्थिति भविष्यवाणी (PSP)
- निष्पादन पथ भविष्यवाणी (EPP)
- आउटपुट भविष्यवाणी (OP)
CRUXEval: 800 स्वतंत्र Python फ़ंक्शन शामिल हैं, 2 उप-कार्यों को कवर करते हैं
- इनपुट भविष्यवाणी (CRUXEval-I)
- आउटपुट भविष्यवाणी (CRUXEval-O)

मूल्यांकन मेट्रिक्स

अपेक्षित कैलिब्रेशन त्रुटि (ECE):
```
Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
```

Brier स्कोर (BS):

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

प्रदर्शन स्कोर (PS):
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

तुलनात्मक विधियां

प्रतिनिधि मुख्यधारा के LLMs का चयन किया गया:

रीजनिंग बनाम गैर-रीजनिंग: DeepSeek-V3 बनाम DeepSeek-R1
विभिन्न आकार: Qwen3 सीरीज (1.7B, 14B, 32B)
ओपन सोर्स बनाम क्लोज्ड सोर्स: DeepSeek/Qwen3 बनाम GPT-3.5-Turbo

कार्यान्वयन विवरण

परिणाम स्थिरता सुनिश्चित करने के लिए तापमान पैरामीटर 0 पर सेट किया गया है
एकीकृत मानकीकृत प्रॉम्प्ट टेम्पलेट का उपयोग किया गया है
Platt Scaling कैलिब्रेशन के लिए 5-फोल्ड क्रॉस-वेलिडेशन का उपयोग किया गया है

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल के बीच तुलना

DeepSeek-Reasoner सर्वोत्तम प्रदर्शन: CCP कार्य पर ECE केवल 0.066 है, DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) और GPT-3.5-Turbo (0.338) से काफी बेहतर है
रीजनिंग क्षमता का स्पष्ट लाभ: DeepSeek-Reasoner सभी मेट्रिक्स पर DeepSeek-Chat से बेहतर है, विशेष रूप से CRUXEval कार्यों पर
ओपन सोर्स मॉडल क्लोज्ड सोर्स को पार करते हैं: मुख्यधारा के ओपन सोर्स मॉडल कॉन्फिडेंस विश्वसनीयता में पहले से ही GPT-3.5-Turbo को पार कर गए हैं

कार्य जटिलता प्रभाव

सरल कार्य बेहतर प्रदर्शन: CCP और OP कार्यों की कॉन्फिडेंस विश्वसनीयता आम तौर पर PSP और EPP से बेहतर है
इनपुट भविष्यवाणी अधिक चुनौतीपूर्ण: CRUXEval-I आमतौर पर CRUXEval-O से अधिक कठिन है

विलोपन प्रयोग

प्रॉम्प्ट रणनीति अनुकूलन प्रभाव

सीमित सुधार: अधिकांश मॉडल और कार्यों के लिए, पुनर्मूल्यांकन और प्रतिबिंब रणनीति व्यवस्थित सुधार नहीं लाई
उच्च प्रदर्शन मॉडल अधिक लाभान्वित: DeepSeek-Reasoner और Qwen3-32B विशिष्ट कार्यों पर स्पष्ट सुधार दिखाते हैं
अत्यधिक आत्मविश्वास में कमी: पुनर्मूल्यांकन रणनीति कुछ मामलों में मॉडल के अत्यधिक आत्मविश्वास को कम करने में मदद करती है

गणितीय कैलिब्रेशन प्रभाव

महत्वपूर्ण सार्वभौमिक सुधार: Platt Scaling सभी मॉडल और कार्यों पर महत्वपूर्ण सुधार लाता है
व्यवस्थित पूर्वाग्रह उन्मूलन: विभिन्न कॉन्फिडेंस जनरेशन विधियों द्वारा उत्पन्न वितरण अंतर को प्रभावी ढंग से समाप्त करता है
नकारात्मक से सकारात्मक रूपांतरण: कई मॉडल के Performance Score को नकारात्मक मान से सकारात्मक मान में परिवर्तित करता है

केस विश्लेषण

OP कार्य पर GPT-3.5-Turbo के प्रदर्शन का उदाहरण:

कैलिब्रेशन से पहले: कॉन्फिडेंस वितरण गंभीर रूप से विचलित, कैलिब्रेशन वक्र आदर्श लाइन से विचलित
पुनर्मूल्यांकन रणनीति के बाद: कैलिब्रेशन वक्र आदर्श संदर्भ लाइन के करीब
Platt Scaling के बाद: संभाव्यता वितरण और कैलिब्रेशन वक्र आदर्श वक्र के साथ अत्यधिक मेल खाते हैं

प्रयोगात्मक निष्कर्ष

रीजनिंग क्षमता मुख्य है: स्पष्ट रीजनिंग क्षमता वाले मॉडल कॉन्फिडेंस विश्वसनीयता में स्पष्ट लाभ रखते हैं
मिश्रित रणनीति सबसे प्रभावी: पुनर्मूल्यांकन प्रॉम्प्ट रणनीति और Platt Scaling को जोड़ने वाली मिश्रित रणनीति सर्वोत्तम सुधार प्राप्त करती है
आकार प्रभाव सीमित: मॉडल आकार वृद्धि से कॉन्फिडेंस विश्वसनीयता में सुधार एक निश्चित आकार के बाद समतल हो जाता है
कार्य विशिष्टता स्पष्ट: विभिन्न कार्य जटिलता कॉन्फिडेंस प्रदर्शन पर महत्वपूर्ण प्रभाव डालती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

महत्वपूर्ण प्रदर्शन अंतर: वर्तमान मुख्यधारा के LLMs कोड रीजनिंग कार्यों पर कॉन्फिडेंस विश्वसनीयता में महत्वपूर्ण अंतर दिखाते हैं
रीजनिंग क्षमता लाभ: रीजनिंग क्षमता वाले मॉडल (जैसे DeepSeek-Reasoner) सर्वोत्तम प्रदर्शन करते हैं
गणितीय कैलिब्रेशन प्रभावी: Platt Scaling जैसी गणितीय कैलिब्रेशन विधियां कॉन्फिडेंस विश्वसनीयता में व्यवस्थित रूप से सुधार कर सकती हैं
सुधार के लिए विशाल गुंजाइश: वर्तमान LLMs की कॉन्फिडेंस अभी तक आदर्श विश्वसनीयता स्तर तक नहीं पहुंची है, विशेष रूप से जटिल रीजनिंग कार्यों में

सीमाएं

बेंचमार्क और वास्तविकता अंतर: बेंचमार्क डेटासेट और वास्तविक दुनिया के वातावरण में अपरिहार्य अंतर है
मॉडल चयन सीमा: तेजी से विकसित होने वाले कोड-विशिष्ट LLMs शामिल नहीं हैं
प्रॉम्प्ट डिजाइन निश्चित: एकीकृत मानकीकृत प्रॉम्प्ट डिजाइन का उपयोग किया गया है, जो परिणामों की सार्वभौमिकता को प्रभावित कर सकता है
तापमान पैरामीटर निश्चित: तापमान पैरामीटर को 0 पर निश्चित किया गया है, जो प्रदर्शन पर इसके संभावित प्रभाव को नजरअंदाज कर सकता है

भविष्य की दिशा

कॉन्फिडेंस जनरेशन तंत्र: कोड रीजनिंग कार्यों में LLMs के कॉन्फिडेंस जनरेशन तंत्र का गहन अनुसंधान
गतिशील कैलिब्रेशन रणनीति: अनुकूली कैलिब्रेशन विधियां और अंतराल विभाजन तकनीकें विकसित करना
सक्रिय शिक्षा एकीकरण: कॉन्फिडेंस को सक्रिय शिक्षा और जोखिम नियंत्रण तकनीकों के साथ गहराई से एकीकृत करना
व्यावहारिकता संतुलन: समग्र विश्वसनीयता बढ़ाते हुए कॉन्फिडेंस वितरण की विभेदकारी शक्ति और व्याख्यात्मकता बनाए रखना

गहन मूल्यांकन

शक्तियां

अनुसंधान महत्व: कोड रीजनिंग क्षेत्र में कॉन्फिडेंस विश्वसनीयता अनुसंधान के अंतर को भरता है
विधि व्यवस्थित और पूर्ण: चार-चरणीय व्यवस्थित विश्लेषण ढांचा प्रस्तावित करता है, कठोर पद्धति
पर्याप्त प्रयोगात्मक डिजाइन: कई मॉडल, कार्य और सुधार रणनीतियों को कवर करता है, व्यापक प्रयोगात्मक सेटअप
विश्वसनीय परिणाम: कई मेट्रिक्स और सांख्यिकीय विधियों के माध्यम से निष्कर्षों की विश्वसनीयता सत्यापित की गई है
उच्च व्यावहारिक मूल्य: सॉफ्टवेयर इंजीनियरिंग अभ्यास के लिए सीधे उपयोग योग्य तकनीकी मार्गदर्शन प्रदान करता है

कमियां

कैलिब्रेशन विधि एकल: मुख्य रूप से Platt Scaling का उपयोग किया गया है, अन्य कैलिब्रेशन विधियों के प्रभाव की खोज नहीं की गई है
विभेदकारी शक्ति हानि: गणितीय कैलिब्रेशन समग्र कैलिब्रेशन में सुधार करता है लेकिन कॉन्फिडेंस की विभेदकारी क्षमता को कम कर सकता है
कोड-विशिष्ट मॉडल अनुपस्थित: CodeLlama, StarCoder आदि कोड-विशिष्ट मॉडल शामिल नहीं हैं
गतिशील अनुकूलन अपर्याप्त: प्रस्तावित विधियां मुख्य रूप से स्थिर हैं, विभिन्न परिस्थितियों के लिए गतिशील अनुकूलन क्षमता की कमी है

प्रभाव

शैक्षणिक योगदान: LLM कॉन्फिडेंस अनुसंधान के लिए एक नया अनुप्रयोग क्षेत्र खोलता है
इंजीनियरिंग अभ्यास: AI-सहायक सॉफ्टवेयर विकास के लिए विश्वसनीयता मूल्यांकन के लिए तकनीकी आधार प्रदान करता है
मानक निर्धारण: कोड रीजनिंग कार्य कॉन्फिडेंस मूल्यांकन मानकों की स्थापना को प्रेरित कर सकता है
अनुवर्ती अनुसंधान: संबंधित क्षेत्रों में गहन अनुसंधान के लिए महत्वपूर्ण संदर्भ प्रदान करता है

लागू परिदृश्य

कोड समीक्षा: डेवलपर्स को AI-जनित कोड की विश्वसनीयता का मूल्यांकन करने में मदद करता है
स्वचालित परीक्षण: परीक्षण केस जनरेशन में कॉन्फिडेंस मार्गदर्शन प्रदान करता है
कोड पुनर्संरचना: पुनर्संरचना सुझावों के लिए विश्वसनीयता मूल्यांकन प्रदान करता है
शिक्षा प्रशिक्षण: प्रोग्रामिंग शिक्षण में शिक्षार्थियों को कोड तर्क समझने में मदद करता है

संदर्भ

पेपर संबंधित क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Brier (1950): संभाव्यता भविष्यवाणी सत्यापन का शास्त्रीय कार्य
Guo et al. (2017): आधुनिक तंत्रिका नेटवर्क कैलिब्रेशन का महत्वपूर्ण अनुसंधान
Jiang et al. (2021): LLM कॉन्फिडेंस कैलिब्रेशन का अग्रणी कार्य
Spiess et al. (2024): कोड कार्यों में LLM कॉन्फिडेंस से संबंधित अनुसंधान

सारांश: यह एक उच्च गुणवत्ता का अनुभवजन्य अनुसंधान पेपर है जो कोड रीजनिंग कार्यों में LLMs की कॉन्फिडेंस विश्वसनीयता समस्या का व्यवस्थित रूप से अन्वेषण करता है। पेपर की विधि कठोर है, प्रयोग व्यापक हैं, और निष्कर्ष महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक महत्व रखते हैं, जो AI-सहायक सॉफ्टवेयर इंजीनियरिंग के विकास में महत्वपूर्ण योगदान प्रदान करते हैं।