Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
Die Auster öffnen: Empirische Bewertung und Verbesserung der Code-Reasoning-Konfidenz in LLMs
Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) in der Code-Intelligence werden Zuverlässigkeit und Kontrollierbarkeit ihrer Ausgaben bei Code-Reasoning-Aufgaben zunehmend beachtet. Die Konfidenzschätzung als effektive und praktische Methode zur Bewertung dieser Aspekte ist von großer Bedeutung. Dieses Papier präsentiert ein Analyse- und Verbesserungsrahmenwerk für LLM-Konfidenz bei Code-Reasoning-Aufgaben. Die Forschung führt eine umfassende empirische Studie zur Zuverlässigkeit der Konfidenz führender LLMs bei verschiedenen Aufgaben durch und bewertet ferner die Wirksamkeit von Techniken wie Prompt-Strategie-Optimierung und mathematischer Kalibrierung (wie Platt Scaling) zur Verbesserung der Konfidenz-Zuverlässigkeit.
Diese Forschung befasst sich hauptsächlich mit dem Problem der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben. Dies umfasst konkret:
Konfidenz-Kalibrierungsproblem: Aktuelle LLMs können bei Code-Reasoning Übervertrauen oder Untervertrauen zeigen
Schwierigkeit der Vertrauenswürdigkeitsbewertung: Entwickler haben Schwierigkeiten, die Vertrauenswürdigkeit von Modellausgaben zu beurteilen, was die Entscheidungsfindung beeinträchtigt
Systematische Abweichungen: Signifikante Unterschiede in der Konfidenz-Leistung verschiedener Modelle bei verschiedenen Aufgaben
Praktischer Wert: In der Softwaretechnik-Praxis müssen Entwickler die Vertrauenswürdigkeit von Modellausgaben verstehen, um fundierte Entscheidungen zu treffen
Sicherheitsaspekte: Fehlerhafte hochkonfidente Vorhersagen können zu schwerwiegenden Softwarefehlern führen
Effizienzsteigerung: Zuverlässige Konfidenzschätzung kann Entwicklern helfen, Verifizierungsprozesse zu optimieren
Forschungsmangel: Systematische Forschung zur Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben ist relativ selten
Unzureichende Bewertung: Die meisten bestehenden Arbeiten verlassen sich auf objektive Metriken wie Genauigkeit und ignorieren die Quantifizierung der Selbstwahrnehmung des Modells
Begrenzte Verbesserungstechniken: Es fehlen effektive technische Mittel zur Verbesserung der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning
Systematisches Analyse-Rahmenwerk: Entwicklung eines Rahmenwerks zur Analyse der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben mit umfassender quantitativer empirischer Forschung
Bewertung von Verbesserungstechniken: Systematische Bewertung der Wirksamkeit von Prompt-Strategie-Optimierung und mathematischen Kalibrierungsmethoden, Offenlegung ihrer Anwendbarkeit und Einschränkungen bei verschiedenen Modellen und Aufgaben
Tiefgehende Analyse von Einflussfaktoren: Bereitstellung einer tiefgehenden Analyse der Auswirkungen der Konfidenz-Zuverlässigkeit auf praktische Softwaretechnik-Anwendungen und praktische Empfehlungen für die Optimierung und technische Bereitstellung von LLM-Konfidenz-Mechanismen
Empirische Erkenntnisse: Feststellung, dass Modelle mit Reasoning-Fähigkeiten eine bessere Konfidenz-Zuverlässigkeit aufweisen und Hybrid-Strategien am wirksamsten zur Verbesserung der Konfidenz-Zuverlässigkeit verschiedener Modelle sind
Code-Reasoning-Aufgaben erfordern, dass das Modell das Verhalten von Code durch Analyse auf syntaktischer, semantischer und logischer Ebene ableitet, ohne das Programm auszuführen. Dies umfasst Ein-/Ausgaben, Laufzeitverhalten, Verzweigungspfade oder Variablenwerte.
Konfidenz wird als subjektive Wahrscheinlichkeitsbewertung des Modells für die Korrektheit seiner Ausgabe definiert. Für Modell M, gegeben Eingabe x und Menge aller korrekten Ausgaben Y, erzeugt das Modell Ausgabe y und weist Konfidenz p(y|x) ∈ 0,1 zu.
DeepSeek-Reasoner zeigt optimale Leistung: ECE von nur 0,066 bei CCP-Aufgabe, deutlich besser als DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) und GPT-3.5-Turbo (0,338)
Reasoning-Fähigkeits-Vorteil deutlich: DeepSeek-Reasoner übertrifft DeepSeek-Chat bei allen Metriken, besonders bei CRUXEval-Aufgaben
Open-Source-Modelle übertreffen Closed-Source: Führende Open-Source-Modelle haben Closed-Source-Modelle wie GPT-3.5-Turbo bei Konfidenz-Zuverlässigkeit überholt
Signifikante Leistungsunterschiede: Aktuelle führende LLMs zeigen signifikante Unterschiede in der Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben
Reasoning-Fähigkeits-Vorteil: Modelle mit Reasoning-Fähigkeiten (wie DeepSeek-Reasoner) zeigen beste Leistung
Mathematische Kalibrierung wirksam: Mathematische Kalibrierungsmethoden wie Platt Scaling können Konfidenz-Zuverlässigkeit systematisch verbessern
Großer Verbesserungsspielraum: Aktuelle LLMs-Konfidenz hat noch nicht ideale Zuverlässigkeitsniveaus erreicht, besonders bei komplexen Reasoning-Aufgaben
Konfidenz-Generierungs-Mechanismen: Tiefgehende Forschung zu LLM-Konfidenz-Generierungs-Mechanismen bei Code-Reasoning-Aufgaben
Dynamische Kalibrierungs-Strategien: Entwicklung adaptiver Kalibrierungsmethoden und Intervall-Partitionierungs-Techniken
Active-Learning-Integration: Tiefe Integration von Konfidenz mit Active-Learning und Risiko-Kontroll-Techniken
Praktizitäts-Ausgleich: Aufrechterhaltung der Diskriminativität und Interpretierbarkeit der Konfidenz-Verteilung bei Verbesserung der Gesamtzuverlässigkeit
Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:
Brier (1950): Klassische Arbeiten zur Wahrscheinlichkeits-Vorhersage-Validierung
Guo et al. (2017): Wichtige Forschung zur modernen neuronalen Netzwerk-Kalibrierung
Jiang et al. (2021): Bahnbrechende Arbeiten zur LLM-Konfidenz-Kalibrierung
Spiess et al. (2024): Verwandte Forschung zu LLM-Konfidenz bei Code-Aufgaben
Zusammenfassung: Dies ist ein hochqualitatives empirisches Forschungspapier, das systematisch die Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben untersucht. Das Papier hat rigorose Methodik, umfassende Experimente und Schlussfolgerungen mit wichtiger theoretischer und praktischer Bedeutung, die bedeutende Beiträge zur Entwicklung von KI-gestützter Softwaretechnik leistet.