2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Die Auster öffnen: Empirische Bewertung und Verbesserung der Code-Reasoning-Konfidenz in LLMs

Grundinformationen

  • Paper-ID: 2511.02197
  • Titel: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • Autoren: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • Klassifizierung: cs.SE (Softwaretechnik), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 4. November 2025
  • Paper-Link: https://arxiv.org/abs/2511.02197

Zusammenfassung

Mit der weit verbreiteten Anwendung großer Sprachmodelle (LLMs) in der Code-Intelligence werden Zuverlässigkeit und Kontrollierbarkeit ihrer Ausgaben bei Code-Reasoning-Aufgaben zunehmend beachtet. Die Konfidenzschätzung als effektive und praktische Methode zur Bewertung dieser Aspekte ist von großer Bedeutung. Dieses Papier präsentiert ein Analyse- und Verbesserungsrahmenwerk für LLM-Konfidenz bei Code-Reasoning-Aufgaben. Die Forschung führt eine umfassende empirische Studie zur Zuverlässigkeit der Konfidenz führender LLMs bei verschiedenen Aufgaben durch und bewertet ferner die Wirksamkeit von Techniken wie Prompt-Strategie-Optimierung und mathematischer Kalibrierung (wie Platt Scaling) zur Verbesserung der Konfidenz-Zuverlässigkeit.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung befasst sich hauptsächlich mit dem Problem der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben. Dies umfasst konkret:

  1. Konfidenz-Kalibrierungsproblem: Aktuelle LLMs können bei Code-Reasoning Übervertrauen oder Untervertrauen zeigen
  2. Schwierigkeit der Vertrauenswürdigkeitsbewertung: Entwickler haben Schwierigkeiten, die Vertrauenswürdigkeit von Modellausgaben zu beurteilen, was die Entscheidungsfindung beeinträchtigt
  3. Systematische Abweichungen: Signifikante Unterschiede in der Konfidenz-Leistung verschiedener Modelle bei verschiedenen Aufgaben

Forschungsbedeutung

  1. Praktischer Wert: In der Softwaretechnik-Praxis müssen Entwickler die Vertrauenswürdigkeit von Modellausgaben verstehen, um fundierte Entscheidungen zu treffen
  2. Sicherheitsaspekte: Fehlerhafte hochkonfidente Vorhersagen können zu schwerwiegenden Softwarefehlern führen
  3. Effizienzsteigerung: Zuverlässige Konfidenzschätzung kann Entwicklern helfen, Verifizierungsprozesse zu optimieren

Einschränkungen bestehender Methoden

  1. Forschungsmangel: Systematische Forschung zur Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben ist relativ selten
  2. Unzureichende Bewertung: Die meisten bestehenden Arbeiten verlassen sich auf objektive Metriken wie Genauigkeit und ignorieren die Quantifizierung der Selbstwahrnehmung des Modells
  3. Begrenzte Verbesserungstechniken: Es fehlen effektive technische Mittel zur Verbesserung der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning

Kernbeiträge

  1. Systematisches Analyse-Rahmenwerk: Entwicklung eines Rahmenwerks zur Analyse der Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben mit umfassender quantitativer empirischer Forschung
  2. Bewertung von Verbesserungstechniken: Systematische Bewertung der Wirksamkeit von Prompt-Strategie-Optimierung und mathematischen Kalibrierungsmethoden, Offenlegung ihrer Anwendbarkeit und Einschränkungen bei verschiedenen Modellen und Aufgaben
  3. Tiefgehende Analyse von Einflussfaktoren: Bereitstellung einer tiefgehenden Analyse der Auswirkungen der Konfidenz-Zuverlässigkeit auf praktische Softwaretechnik-Anwendungen und praktische Empfehlungen für die Optimierung und technische Bereitstellung von LLM-Konfidenz-Mechanismen
  4. Empirische Erkenntnisse: Feststellung, dass Modelle mit Reasoning-Fähigkeiten eine bessere Konfidenz-Zuverlässigkeit aufweisen und Hybrid-Strategien am wirksamsten zur Verbesserung der Konfidenz-Zuverlässigkeit verschiedener Modelle sind

Methodische Details

Aufgabendefinition

Code-Reasoning-Aufgaben erfordern, dass das Modell das Verhalten von Code durch Analyse auf syntaktischer, semantischer und logischer Ebene ableitet, ohne das Programm auszuführen. Dies umfasst Ein-/Ausgaben, Laufzeitverhalten, Verzweigungspfade oder Variablenwerte.

Konfidenz wird als subjektive Wahrscheinlichkeitsbewertung des Modells für die Korrektheit seiner Ausgabe definiert. Für Modell M, gegeben Eingabe x und Menge aller korrekten Ausgaben Y, erzeugt das Modell Ausgabe y und weist Konfidenz p(y|x) ∈ 0,1 zu.

Modellarchitektur

Vierschrittiges Methoden-Rahmenwerk

  1. Empirische Forschung: Aufforderung an LLMs, Testfall-Antworten und entsprechende Konfidenz-Scores zu generieren
  2. Prompt-Strategie-Anpassung: Verwendung verschiedener Prompt-Strategien zur Neugenerierung von Konfidenz-Scores
  3. Mathematische Kalibrierung: Anwendung mathematischer Methoden zur Verarbeitung der von LLMs generierten Konfidenz-Scores
  4. Metrik-Berechnung: Berechnung verschiedener Metriken zur Bewertung der Zuverlässigkeit verschiedener Arten von Konfidenz-Scores

Konfidenz-Generierungsstrategien

  1. Intrinsische Konfidenz (Intrinsic Confidence): Direkt vom Modell generierte Konfidenz-Scores
  2. Neubewertungsstrategie (Reassess Strategy): Neubewertung der Konfidenz durch Selbstzweifel-Prompts
  3. Reflexionsstrategie (Reflective Strategy): Verwendung eines unabhängigen Reflexionsmodells zur Bewertung der Konfidenz der Hauptmodell-Antworten

Mathematische Kalibrierungsmethoden

Verwendung von Platt Scaling zur Kalibrierung:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

wobei A und B Parameter sind, die durch Minimierung der negativen Log-Likelihood der Kalibrierungsdaten optimiert werden.

Technische Innovationspunkte

  1. Mehrdimensionales Bewertungssystem: Umfassende Bewertung der Konfidenz-Zuverlässigkeit durch Kombination von ECE, Brier Score und Performance Score
  2. Hybrid-Optimierungsstrategie: Kombination von Prompt-Strategie-Optimierung und mathematischer Kalibrierung für synergistische Verbesserung
  3. Aufgabenspezifische Analyse: Feinkörnige Analyse verschiedener Code-Reasoning-Aufgaben unterschiedlicher Komplexität
  4. Kreuzvalidierungs-Kalibrierung: Verwendung von 5-facher Kreuzvalidierung zur Vermeidung von Überanpassung und Gewährleistung statistischer Validität

Experimentelle Einrichtung

Datensätze

  1. REval: Enthält 3.152 Testpunkte, umfasst 4 Unteraufgaben
    • Code-Coverage-Vorhersage (CCP)
    • Programmzustands-Vorhersage (PSP)
    • Ausführungspfad-Vorhersage (EPP)
    • Ausgabe-Vorhersage (OP)
  2. CRUXEval: Enthält 800 unabhängige Python-Funktionen, umfasst 2 Unteraufgaben
    • Eingabe-Vorhersage (CRUXEval-I)
    • Ausgabe-Vorhersage (CRUXEval-O)

Bewertungsmetriken

  1. Erwarteter Kalibrierungsfehler (ECE):
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Brier-Score (BS):
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. Leistungs-Score (PS):
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

Vergleichsmethoden

Auswahl repräsentativer führender LLMs:

  • Reasoning vs. Nicht-Reasoning: DeepSeek-V3 vs. DeepSeek-R1
  • Verschiedene Größen: Qwen3-Serie (1.7B, 14B, 32B)
  • Open-Source vs. Closed-Source: DeepSeek/Qwen3 vs. GPT-3.5-Turbo

Implementierungsdetails

  • Temperatur-Parameter auf 0 gesetzt für Stabilitätsgewährleistung
  • Verwendung einheitlicher standardisierter Prompt-Vorlagen
  • 5-fache Kreuzvalidierung für Platt Scaling-Kalibrierung

Experimentelle Ergebnisse

Hauptergebnisse

Modellvergleich

  • DeepSeek-Reasoner zeigt optimale Leistung: ECE von nur 0,066 bei CCP-Aufgabe, deutlich besser als DeepSeek-Chat (0,143), Qwen3-1.7B (0,231) und GPT-3.5-Turbo (0,338)
  • Reasoning-Fähigkeits-Vorteil deutlich: DeepSeek-Reasoner übertrifft DeepSeek-Chat bei allen Metriken, besonders bei CRUXEval-Aufgaben
  • Open-Source-Modelle übertreffen Closed-Source: Führende Open-Source-Modelle haben Closed-Source-Modelle wie GPT-3.5-Turbo bei Konfidenz-Zuverlässigkeit überholt

Aufgabenkomplexitäts-Auswirkungen

  • Bessere Leistung bei einfachen Aufgaben: CCP- und OP-Aufgaben zeigen generell bessere Konfidenz-Zuverlässigkeit als PSP und EPP
  • Eingabe-Vorhersage ist herausfordernder: CRUXEval-I ist typischerweise schwieriger als CRUXEval-O

Ablationsstudien

Effektivität der Prompt-Strategie-Optimierung

  • Begrenzte Verbesserung: Neubewertungs- und Reflexionsstrategien bringen für die meisten Modelle und Aufgaben keine systematische Verbesserung
  • Hochleistungsmodelle profitieren mehr: DeepSeek-Reasoner und Qwen3-32B zeigen bei spezifischen Aufgaben deutliche Verbesserungen
  • Übervertrauen-Minderung: Neubewertungsstrategie hilft in einigen Fällen, Übervertrauen des Modells zu verringern

Effektivität der mathematischen Kalibrierung

  • Signifikante universelle Verbesserung: Platt Scaling bringt signifikante Verbesserungen bei allen Modellen und Aufgaben
  • Beseitigung systematischer Abweichungen: Wirksame Beseitigung von Verteilungsabweichungen verschiedener Konfidenz-Generierungsmethoden
  • Negative zu positive Umwandlung: Performance Score mehrerer Modelle wandelt sich von negativen zu positiven Werten

Fallstudien

Beispiel der Leistung von GPT-3.5-Turbo bei OP-Aufgaben:

  • Vor Kalibrierung: Konfidenz-Verteilung zeigt schwerwiegende Abweichungen, Kalibrierungskurve weicht von idealer Linie ab
  • Nach Neubewertungsstrategie: Kalibrierungskurve nähert sich der idealen Referenzlinie
  • Nach Platt Scaling: Wahrscheinlichkeitsverteilung und Kalibrierungskurve stimmen hochgradig mit idealer Kurve überein

Experimentelle Erkenntnisse

  1. Reasoning-Fähigkeit ist Schlüssel: Modelle mit expliziten Reasoning-Fähigkeiten haben deutliche Vorteile bei Konfidenz-Zuverlässigkeit
  2. Hybrid-Strategie am wirksamsten: Kombination von Neubewertungs-Prompt-Strategie und Platt Scaling erreicht beste Verbesserung
  3. Begrenzte Größen-Effekte: Konfidenz-Zuverlässigkeits-Verbesserungen durch Modellgrößen-Zunahme verlangsamen sich nach Erreichen bestimmter Größe
  4. Deutliche Aufgabenspezifität: Verschiedene Aufgabenkomplexität hat signifikante Auswirkungen auf Konfidenz-Leistung

Verwandte Arbeiten

Konfidenz-Kalibrierungs-Forschung

  • Traditionelle Methoden: Frühe Forschung konzentrierte sich auf Konfidenz-Kalibrierung kleiner neuronaler Modelle
  • LLM-Anwendungen: Kürzlich auf natürliches Sprachverständnis, Fakten-QA, arithmetisches Reasoning erweitert
  • Code-Bereich: Spiess et al. untersuchten LLM-Konfidenz-Zuverlässigkeit bei Code-Generierungs-Aufgaben

LLMs in der Softwaretechnik

  • Code-Generierung und -Reparatur: Umfangreiche Forschung konzentriert sich auf Code-Generierungs- oder Reparatur-Aufgaben
  • Code-Reasoning: Relativ neues Forschungsgebiet, bestehende Forschung konzentriert sich hauptsächlich auf Funktionsmechanismen und Leistungsbewertung
  • Benchmark-Tests: Mehrere Code-Reasoning-Benchmarks entstanden, wie CRUXEval, REval, CodeMind usw.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Signifikante Leistungsunterschiede: Aktuelle führende LLMs zeigen signifikante Unterschiede in der Konfidenz-Zuverlässigkeit bei Code-Reasoning-Aufgaben
  2. Reasoning-Fähigkeits-Vorteil: Modelle mit Reasoning-Fähigkeiten (wie DeepSeek-Reasoner) zeigen beste Leistung
  3. Mathematische Kalibrierung wirksam: Mathematische Kalibrierungsmethoden wie Platt Scaling können Konfidenz-Zuverlässigkeit systematisch verbessern
  4. Großer Verbesserungsspielraum: Aktuelle LLMs-Konfidenz hat noch nicht ideale Zuverlässigkeitsniveaus erreicht, besonders bei komplexen Reasoning-Aufgaben

Einschränkungen

  1. Benchmark- und Realitäts-Unterschiede: Unvermeidliche Unterschiede zwischen Benchmark-Datensätzen und realen Umgebungen
  2. Modellauswahl-Beschränkungen: Nicht eingeschlossen sind schnell entwickelnde Code-spezialisierte LLMs
  3. Feste Prompt-Gestaltung: Verwendung einheitlicher standardisierter Prompt-Gestaltung könnte die Allgemeingültigkeit der Ergebnisse beeinflussen
  4. Feste Temperatur-Parameter: Temperatur-Parameter auf 0 fixiert könnte potenzielle Auswirkungen auf Leistung übersehen

Zukünftige Richtungen

  1. Konfidenz-Generierungs-Mechanismen: Tiefgehende Forschung zu LLM-Konfidenz-Generierungs-Mechanismen bei Code-Reasoning-Aufgaben
  2. Dynamische Kalibrierungs-Strategien: Entwicklung adaptiver Kalibrierungsmethoden und Intervall-Partitionierungs-Techniken
  3. Active-Learning-Integration: Tiefe Integration von Konfidenz mit Active-Learning und Risiko-Kontroll-Techniken
  4. Praktizitäts-Ausgleich: Aufrechterhaltung der Diskriminativität und Interpretierbarkeit der Konfidenz-Verteilung bei Verbesserung der Gesamtzuverlässigkeit

Tiefgehende Bewertung

Stärken

  1. Große Forschungsbedeutung: Füllt Lücke in der Konfidenz-Zuverlässigkeits-Forschung im Code-Reasoning-Bereich
  2. Systematische und vollständige Methodik: Vorschlag eines vierschrittigen systematischen Analyse-Rahmenwerks mit rigoroser Methodologie
  3. Ausreichende Experimentgestaltung: Abdeckung mehrerer Modelle, Aufgaben und Verbesserungsstrategien mit umfassender experimenteller Einrichtung
  4. Überzeugende Ergebnisse: Validierung der Zuverlässigkeit von Schlussfolgerungen durch mehrere Metriken und statistische Methoden
  5. Hoher praktischer Wert: Direkt anwendbare technische Anleitung für Softwaretechnik-Praxis

Mängel

  1. Einzelne Kalibrierungsmethode: Hauptsächlich Platt Scaling, Erforschung anderer Kalibrierungsmethoden fehlt
  2. Diskriminativitätsverlust: Mathematische Kalibrierung verbessert zwar Gesamtkalibrierung, könnte aber Diskriminativität der Konfidenz verringern
  3. Fehlende Code-spezialisierte Modelle: Nicht eingeschlossen sind CodeLlama, StarCoder und andere Code-spezialisierte Modelle
  4. Unzureichende dynamische Adaptivität: Vorgeschlagene Methoden sind hauptsächlich statisch, mangelnde dynamische Adaptivität an verschiedene Szenarien

Einfluss

  1. Akademischer Beitrag: Eröffnet neues Anwendungsgebiet für LLM-Konfidenz-Forschung
  2. Ingenieur-Praxis: Bietet technische Grundlage für Vertrauenswürdigkeitsbewertung in KI-gestützter Softwareentwicklung
  3. Standardsetzung: Könnte Etablierung von Konfidenz-Bewertungs-Standards für Code-Reasoning-Aufgaben fördern
  4. Nachfolgeforschung: Bietet wichtige Referenz für tiefgehende Forschung in verwandten Bereichen

Anwendungsszenarien

  1. Code-Review: Hilft Entwicklern, Vertrauenswürdigkeit von KI-generiertem Code zu bewerten
  2. Automatisierte Tests: Bietet Konfidenz-Anleitung bei Testfall-Generierung
  3. Code-Refaktorierung: Bietet Vertrauenswürdigkeitsbewertung für Refaktorierungs-Vorschläge
  4. Bildung und Training: Hilft Lernenden, Code-Logik in Programmier-Unterricht zu verstehen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus verwandten Bereichen, einschließlich:

  • Brier (1950): Klassische Arbeiten zur Wahrscheinlichkeits-Vorhersage-Validierung
  • Guo et al. (2017): Wichtige Forschung zur modernen neuronalen Netzwerk-Kalibrierung
  • Jiang et al. (2021): Bahnbrechende Arbeiten zur LLM-Konfidenz-Kalibrierung
  • Spiess et al. (2024): Verwandte Forschung zu LLM-Konfidenz bei Code-Aufgaben

Zusammenfassung: Dies ist ein hochqualitatives empirisches Forschungspapier, das systematisch die Konfidenz-Zuverlässigkeit von LLMs bei Code-Reasoning-Aufgaben untersucht. Das Papier hat rigorose Methodik, umfassende Experimente und Schlussfolgerungen mit wichtiger theoretischer und praktischer Bedeutung, die bedeutende Beiträge zur Entwicklung von KI-gestützter Softwaretechnik leistet.