2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

Die Auster öffnen: Empirische Bewertung und Verbesserung der Code-Reasoning-Konfidenz in LLMs

Grundinformationen

Paper-ID: 2511.02197
Titel: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Autoren: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
Klassifizierung: cs.SE (Softwaretechnik), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 4. November 2025
Paper-Link: https://arxiv.org/abs/2511.02197

Zusammenfassung

Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) in der Code-Intelligence werden Zuverlässigkeit und Kontrollierbarkeit ihrer Ausgaben bei Code-Reasoning-Aufgaben zunehmend beachtet. Die Konfidenzschätzung als effektive und praktische Methode zur Bewertung dieser Aspekte ist von großer Bedeutung. Dieses Papier präsentiert ein Analyse- und Verbesserungsrahmenwerk für LLM-Konfidenz bei Code-Reasoning-Aufgaben. Die Forschung führt eine umfassende empirische Studie zur Zuverlässigkeit der Konfidenz führender LLMs bei verschiedenen Aufgaben durch und bewertet ferner die Wirksamkeit von Techniken wie Prompt-Strategie-Optimierung und mathematischer Kalibrierung (wie Platt Scaling) zur Verbesserung der Konfidenz-Zuverlässigkeit.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich hauptsächlich mit dem Problem der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben. Dies umfasst konkret:

Konfidenz-Kalibrierungsproblem: Aktuelle LLMs können bei Code-Reasoning Übervertrauen oder Untervertrauen zeigen
Schwierigkeit der Vertrauenswürdigkeitsbewertung: Entwickler haben Schwierigkeiten, die Vertrauenswürdigkeit von Modellausgaben zu beurteilen, was die Entscheidungsfindung beeinträchtigt
Systematische Abweichungen: Signifikante Unterschiede in der Konfidenz-Leistung verschiedener Modelle bei verschiedenen Aufgaben

Forschungsbedeutung

Praktischer Wert: In der Softwaretechnik-Praxis müssen Entwickler die Vertrauenswürdigkeit von Modellausgaben verstehen, um fundierte Entscheidungen zu treffen
Sicherheitsaspekte: Fehlerhafte hochkonfidente Vorhersagen können zu schwerwiegenden Softwarefehlern führen
Effizienzsteigerung: Zuverlässige Konfidenzschätzung kann Entwicklern helfen, Verifizierungsprozesse zu optimieren

Einschränkungen bestehender Methoden

Forschungsmangel: Systematische Forschung zur Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben ist relativ selten
Unzureichende Bewertung: Die meisten bestehenden Arbeiten verlassen sich auf objektive Metriken wie Genauigkeit und ignorieren die Quantifizierung der Selbstwahrnehmung des Modells
Begrenzte Verbesserungstechniken: Es fehlen effektive technische Mittel zur Verbesserung der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning

Kernbeiträge

Systematisches Analyse-Rahmenwerk: Entwicklung eines Rahmenwerks zur Analyse der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben mit umfassender quantitativer empirischer Forschung
Bewertung von Verbesserungstechniken: Systematische Bewertung der Wirksamkeit von Prompt-Strategie-Optimierung und mathematischen Kalibrierungsmethoden, Offenlegung ihrer Anwendbarkeit und Einschränkungen bei verschiedenen Modellen und Aufgaben
Tiefgehende Analyse von Einflussfaktoren: Bereitstellung einer tiefgehenden Analyse der Auswirkungen der Konfidenz-Zuverlässigkeit auf praktische Softwaretechnik-Anwendungen und praktische Empfehlungen für die Optimierung und technische Bereitstellung von LLM-Konfidenz-Mechanismen
Empirische Erkenntnisse: Feststellung, dass Modelle mit Reasoning-Fähigkeiten eine bessere Konfidenz-Zuverlässigkeit aufweisen und Hybrid-Strategien am wirksamsten zur Verbesserung der Konfidenz-Zuverlässigkeit verschiedener Modelle sind

Methodische Details

Aufgabendefinition

Code-Reasoning-Aufgaben erfordern, dass das Modell das Verhalten von Code durch Analyse auf syntaktischer, semantischer und logischer Ebene ableitet, ohne das Programm auszuführen. Dies umfasst Ein-/Ausgaben, Laufzeitverhalten, Verzweigungspfade oder Variablenwerte.

Konfidenz wird als subjektive Wahrscheinlichkeitsbewertung des Modells für die Korrektheit seiner Ausgabe definiert. Für Modell M, gegeben Eingabe x und Menge aller korrekten Ausgaben Y, erzeugt das Modell Ausgabe y und weist Konfidenz p(y|x) ∈ 0,1 zu.

Modellarchitektur

Vierschrittiges Methoden-Rahmenwerk

Empirische Forschung: Aufforderung an LLMs, Testfall-Antworten und entsprechende Konfidenz-Scores zu generieren
Prompt-Strategie-Anpassung: Verwendung verschiedener Prompt-Strategien zur Neugenerierung von Konfidenz-Scores
Mathematische Kalibrierung: Anwendung mathematischer Methoden zur Verarbeitung der von LLMs generierten Konfidenz-Scores
Metrik-Berechnung: Berechnung verschiedener Metriken zur Bewertung der Zuverlässigkeit verschiedener Arten von Konfidenz-Scores

Konfidenz-Generierungsstrategien

Intrinsische Konfidenz (Intrinsic Confidence): Direkt vom Modell generierte Konfidenz-Scores
Neubewertungsstrategie (Reassess Strategy): Neubewertung der Konfidenz durch Selbstzweifel-Prompts
Reflexionsstrategie (Reflective Strategy): Verwendung eines unabhängigen Reflexionsmodells zur Bewertung der Konfidenz der Hauptmodell-Antworten

Mathematische Kalibrierungsmethoden

Verwendung von Platt Scaling zur Kalibrierung:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

wobei A und B Parameter sind, die durch Minimierung der negativen Log-Likelihood der Kalibrierungsdaten optimiert werden.

Technische Innovationspunkte

Mehrdimensionales Bewertungssystem: Umfassende Bewertung der Konfidenz-Zuverlässigkeit durch Kombination von ECE, Brier Score und Performance Score
Hybrid-Optimierungsstrategie: Kombination von Prompt-Strategie-Optimierung und mathematischer Kalibrierung für synergistische Verbesserung
Aufgabenspezifische Analyse: Feinkörnige Analyse verschiedener Code-Reasoning-Aufgaben unterschiedlicher Komplexität
Kreuzvalidierungs-Kalibrierung: Verwendung von 5-facher Kreuzvalidierung zur Vermeidung von Überanpassung und Gewährleistung statistischer Validität

Experimentelle Einrichtung

Datensätze

REval: Enthält 3.152 Testpunkte, umfasst 4 Unteraufgaben
- Code-Coverage-Vorhersage (CCP)
- Programmzustands-Vorhersage (PSP)
- Ausführungspfad-Vorhersage (EPP)
- Ausgabe-Vorhersage (OP)
CRUXEval: Enthält 800 unabhängige Python-Funktionen, umfasst 2 Unteraufgaben
- Eingabe-Vorhersage (CRUXEval-I)
- Ausgabe-Vorhersage (CRUXEval-O)

Bewertungsmetriken

Erwarteter Kalibrierungsfehler (ECE):

Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|

Brier-Score (BS):

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

Leistungs-Score (PS):
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

Vergleichsmethoden

Auswahl repräsentativer führender LLMs:

Reasoning vs. Nicht-Reasoning: DeepSeek-V3 vs. DeepSeek-R1
Verschiedene Größen: Qwen3-Serie (1.7B, 14B, 32B)
Open-Source vs. Closed-Source: DeepSeek/Qwen3 vs. GPT-3.5-Turbo

Implementierungsdetails

Temperatur-Parameter auf 0 gesetzt für Stabilitätsgewährleistung
Verwendung einheitlicher standardisierter Prompt-Vorlagen
5-fache Kreuzvalidierung für Platt Scaling-Kalibrierung

Experimentelle Ergebnisse

Hauptergebnisse

Modellvergleich

DeepSeek-Reasoner zeigt optimale Leistung: ECE von nur 0,066 bei CCP-Aufgabe, deutlich besser als DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) und GPT-3.5-Turbo (0,338)
Reasoning-Fähigkeits-Vorteil deutlich: DeepSeek-Reasoner übertrifft DeepSeek-Chat bei allen Metriken, besonders bei CRUXEval-Aufgaben
Open-Source-Modelle übertreffen Closed-Source: Führende Open-Source-Modelle haben Closed-Source-Modelle wie GPT-3.5-Turbo bei Konfidenz-Zuverlässigkeit überholt

Aufgabenkomplexitäts-Auswirkungen

Bessere Leistung bei einfachen Aufgaben: CCP- und OP-Aufgaben zeigen generell bessere Konfidenz-Zuverlässigkeit als PSP und EPP
Eingabe-Vorhersage ist herausfordernder: CRUXEval-I ist typischerweise schwieriger als CRUXEval-O

Ablationsstudien

Effektivität der Prompt-Strategie-Optimierung

Begrenzte Verbesserung: Neubewertungs- und Reflexionsstrategien bringen für die meisten Modelle und Aufgaben keine systematische Verbesserung
Hochleistungsmodelle profitieren mehr: DeepSeek-Reasoner und Qwen3-32B zeigen bei spezifischen Aufgaben deutliche Verbesserungen
Übervertrauen-Minderung: Neubewertungsstrategie hilft in einigen Fällen, Übervertrauen des Modells zu verringern

Effektivität der mathematischen Kalibrierung

Signifikante universelle Verbesserung: Platt Scaling bringt signifikante Verbesserungen bei allen Modellen und Aufgaben
Beseitigung systematischer Abweichungen: Wirksame Beseitigung von Verteilungsabweichungen verschiedener Konfidenz-Generierungsmethoden
Negative zu positive Umwandlung: Performance Score mehrerer Modelle wandelt sich von negativen zu positiven Werten

Fallstudien

Beispiel der Leistung von GPT-3.5-Turbo bei OP-Aufgaben:

Vor Kalibrierung: Konfidenz-Verteilung zeigt schwerwiegende Abweichungen, Kalibrierungskurve weicht von idealer Linie ab
Nach Neubewertungsstrategie: Kalibrierungskurve nähert sich der idealen Referenzlinie
Nach Platt Scaling: Wahrscheinlichkeitsverteilung und Kalibrierungskurve stimmen hochgradig mit idealer Kurve überein

Experimentelle Erkenntnisse

Reasoning-Fähigkeit ist Schlüssel: Modelle mit expliziten Reasoning-Fähigkeiten haben deutliche Vorteile bei Konfidenz-Zuverlässigkeit
Hybrid-Strategie am wirksamsten: Kombination von Neubewertungs-Prompt-Strategie und Platt Scaling erreicht beste Verbesserung
Begrenzte Größen-Effekte: Konfidenz-Zuverlässigkeits-Verbesserungen durch Modellgrößen-Zunahme verlangsamen sich nach Erreichen bestimmter Größe
Deutliche Aufgabenspezifität: Verschiedene Aufgabenkomplexität hat signifikante Auswirkungen auf Konfidenz-Leistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Signifikante Leistungsunterschiede: Aktuelle führende LLMs zeigen signifikante Unterschiede in der Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben
Reasoning-Fähigkeits-Vorteil: Modelle mit Reasoning-Fähigkeiten (wie DeepSeek-Reasoner) zeigen beste Leistung
Mathematische Kalibrierung wirksam: Mathematische Kalibrierungsmethoden wie Platt Scaling können Konfidenz-Zuverlässigkeit systematisch verbessern
Großer Verbesserungsspielraum: Aktuelle LLMs-Konfidenz hat noch nicht ideale Zuverlässigkeitsniveaus erreicht, besonders bei komplexen Reasoning-Aufgaben

Einschränkungen

Benchmark- und Realitäts-Unterschiede: Unvermeidliche Unterschiede zwischen Benchmark-Datensätzen und realen Umgebungen
Modellauswahl-Beschränkungen: Nicht eingeschlossen sind schnell entwickelnde Code-spezialisierte LLMs
Feste Prompt-Gestaltung: Verwendung einheitlicher standardisierter Prompt-Gestaltung könnte die Allgemeingültigkeit der Ergebnisse beeinflussen
Feste Temperatur-Parameter: Temperatur-Parameter auf 0 fixiert könnte potenzielle Auswirkungen auf Leistung übersehen

Zukünftige Richtungen

Konfidenz-Generierungs-Mechanismen: Tiefgehende Forschung zu LLM-Konfidenz-Generierungs-Mechanismen bei Code-Reasoning-Aufgaben
Dynamische Kalibrierungs-Strategien: Entwicklung adaptiver Kalibrierungsmethoden und Intervall-Partitionierungs-Techniken
Active-Learning-Integration: Tiefe Integration von Konfidenz mit Active-Learning und Risiko-Kontroll-Techniken
Praktizitäts-Ausgleich: Aufrechterhaltung der Diskriminativität und Interpretierbarkeit der Konfidenz-Verteilung bei Verbesserung der Gesamtzuverlässigkeit

Tiefgehende Bewertung

Stärken

Große Forschungsbedeutung: Füllt Lücke in der Konfidenz-Zuverlässigkeits-Forschung im Code-Reasoning-Bereich
Systematische und vollständige Methodik: Vorschlag eines vierschrittigen systematischen Analyse-Rahmenwerks mit rigoroser Methodologie
Ausreichende Experimentgestaltung: Abdeckung mehrerer Modelle, Aufgaben und Verbesserungsstrategien mit umfassender experimenteller Einrichtung
Überzeugende Ergebnisse: Validierung der Zuverlässigkeit von Schlussfolgerungen durch mehrere Metriken und statistische Methoden
Hoher praktischer Wert: Direkt anwendbare technische Anleitung für Softwaretechnik-Praxis

Mängel

Einzelne Kalibrierungsmethode: Hauptsächlich Platt Scaling, Erforschung anderer Kalibrierungsmethoden fehlt
Diskriminativitätsverlust: Mathematische Kalibrierung verbessert zwar Gesamtkalibrierung, könnte aber Diskriminativität der Konfidenz verringern
Fehlende Code-spezialisierte Modelle: Nicht eingeschlossen sind CodeLlama, StarCoder und andere Code-spezialisierte Modelle
Unzureichende dynamische Adaptivität: Vorgeschlagene Methoden sind hauptsächlich statisch, mangelnde dynamische Adaptivität an verschiedene Szenarien

Einfluss

Akademischer Beitrag: Eröffnet neues Anwendungsgebiet für LLM-Konfidenz-Forschung
Ingenieur-Praxis: Bietet technische Grundlage für Vertrauenswürdigkeitsbewertung in KI-gestützter Softwareentwicklung
Standardsetzung: Könnte Etablierung von Konfidenz-Bewertungs-Standards für Code-Reasoning-Aufgaben fördern
Nachfolgeforschung: Bietet wichtige Referenz für tiefgehende Forschung in verwandten Bereichen

Anwendungsszenarien

Code-Review: Hilft Entwicklern, Vertrauenswürdigkeit von KI-generiertem Code zu bewerten
Automatisierte Tests: Bietet Konfidenz-Anleitung bei Testfall-Generierung
Code-Refaktorierung: Bietet Vertrauenswürdigkeitsbewertung für Refaktorierungs-Vorschläge
Bildung und Training: Hilft Lernenden, Code-Logik in Programmier-Unterricht zu verstehen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

Brier (1950): Klassische Arbeiten zur Wahrscheinlichkeits-Vorhersage-Validierung
Guo et al. (2017): Wichtige Forschung zur modernen neuronalen Netzwerk-Kalibrierung
Jiang et al. (2021): Bahnbrechende Arbeiten zur LLM-Konfidenz-Kalibrierung
Spiess et al. (2024): Verwandte Forschung zu LLM-Konfidenz bei Code-Aufgaben

Zusammenfassung: Dies ist ein hochqualitatives empirisches Forschungspapier, das systematisch die Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben untersucht. Das Papier hat rigorose Methodik, umfassende Experimente und Schlussfolgerungen mit wichtiger theoretischer und praktischer Bedeutung, die bedeutende Beiträge zur Entwicklung von KI-gestützter Softwaretechnik leistet.