2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.

With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.

academic

Aprire l'Ostrica: Valutazione Empirica e Miglioramento dell'Affidabilità del Ragionamento sul Codice negli LLM

Informazioni Fondamentali

ID Articolo: 2511.02197
Titolo: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Autori: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale)
Data di Pubblicazione: 4 novembre 2025
Link Articolo: https://arxiv.org/abs/2511.02197

Riassunto

Con l'ampia applicazione dei modelli linguistici di grandi dimensioni (LLM) nel campo dell'intelligenza del codice, l'affidabilità e la controllabilità dei loro output nei compiti di ragionamento sul codice stanno ricevendo crescente attenzione. La stima della confidenza rappresenta un metodo efficace e conveniente per valutare questi aspetti, rivestendo un'importanza significativa. Questo articolo propone un framework di analisi e miglioramento della confidenza degli LLM per compiti di ragionamento sul codice. Lo studio conduce una ricerca empirica completa sull'affidabilità della confidenza dei principali LLM in diversi compiti, valutando ulteriormente l'efficacia di tecniche quali l'ottimizzazione delle strategie di prompt e la calibrazione matematica (come il Platt Scaling) nel migliorare l'affidabilità della confidenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta principalmente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. Nello specifico include:

Problema di calibrazione della confidenza: Gli attuali LLM potrebbero manifestare comportamenti di eccessiva fiducia o insufficiente fiducia nel ragionamento sul codice
Difficoltà nella valutazione dell'affidabilità: Gli sviluppatori hanno difficoltà nel determinare il grado di affidabilità dell'output del modello, influenzando il processo decisionale
Deviazioni sistematiche: Esistono differenze significative nella performance della confidenza di diversi modelli su diversi compiti

Importanza della Ricerca

Valore pratico: Nella pratica dell'ingegneria del software, gli sviluppatori devono comprendere l'affidabilità dell'output del modello per prendere decisioni consapevoli
Considerazioni di sicurezza: Previsioni con elevata confidenza errate potrebbero portare a difetti software gravi
Miglioramento dell'efficienza: Una stima affidabile della confidenza può aiutare gli sviluppatori a ottimizzare i processi di verifica

Limitazioni dei Metodi Esistenti

Ricerca scarsa: Gli studi sistematici sull'affidabilità della confidenza per compiti di ragionamento sul codice sono relativamente rari
Valutazione insufficiente: La maggior parte dei lavori esistenti si affida a metriche oggettive come l'accuratezza, trascurando la quantificazione dell'autoconsapevolezza del modello
Tecniche di miglioramento limitate: Mancano metodi tecnici efficaci per migliorare l'affidabilità della confidenza degli LLM nel ragionamento sul codice

Contributi Principali

Propone un framework di analisi sistematica: Costruisce un framework di analisi dell'affidabilità della confidenza degli LLM per compiti di ragionamento sul codice, conducendo una ricerca empirica quantitativa completa
Valuta tecniche di miglioramento: Valuta sistematicamente l'efficacia dell'ottimizzazione delle strategie di prompt e dei metodi di calibrazione matematica, rivelando la loro applicabilità e limitazioni su diversi modelli e compiti
Analisi approfondita dei fattori influenti: Fornisce un'analisi approfondita dell'impatto dell'affidabilità della confidenza sulle applicazioni pratiche dell'ingegneria del software, offrendo raccomandazioni praticabili per l'ottimizzazione e la distribuzione ingegneristica dei meccanismi di confidenza degli LLM
Scoperte empiriche: Scopre che i modelli con capacità di ragionamento mostrano prestazioni superiori nell'affidabilità della confidenza, e le strategie ibride sono più efficaci nel migliorare l'affidabilità della confidenza di vari modelli

Spiegazione Dettagliata dei Metodi

Definizione del Compito

I compiti di ragionamento sul codice richiedono al modello di inferire il comportamento del codice attraverso l'analisi a livello sintattico, semantico e logico senza eseguire il programma, inclusi input/output, comportamento a runtime, percorsi di branch o valori di variabili.

La confidenza è definita come la valutazione della probabilità soggettiva del modello sulla correttezza del suo output. Per un modello M, dato un input x e l'insieme di tutti gli output corretti Y, il modello produce un output y e assegna una confidenza p(y|x) ∈ 0,1.

Architettura del Modello

Framework del Metodo a Quattro Fasi

Ricerca empirica: Sollecitare gli LLM a generare risposte ai casi di test e i corrispondenti punteggi di confidenza
Regolazione della strategia di prompt: Rigenerare i punteggi di confidenza utilizzando diverse strategie di prompt
Calibrazione matematica: Applicare metodi matematici per elaborare i punteggi di confidenza generati dagli LLM
Calcolo delle metriche: Calcolare varie metriche per valutare l'affidabilità di diversi tipi di punteggi di confidenza

Strategie di Generazione della Confidenza

Confidenza Intrinseca (Intrinsic Confidence): Punteggio di confidenza generato direttamente dal modello
Strategia di Rivalutazione (Reassess Strategy): Rivalutare la confidenza attraverso prompt di auto-dubbio
Strategia Riflessiva (Reflective Strategy): Utilizzare un modello di riflessione indipendente per valutare la confidenza della risposta del modello principale

Metodi di Calibrazione Matematica

Applicare il Platt Scaling per la calibrazione:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

dove A e B sono parametri ottimizzati minimizzando la verosimiglianza logaritmica negativa sui dati di calibrazione.

Punti di Innovazione Tecnica

Sistema di valutazione multidimensionale: Combina tre metriche (ECE, Brier Score e Performance Score) per valutare completamente l'affidabilità della confidenza
Strategia di ottimizzazione ibrida: Integra l'ottimizzazione della strategia di prompt con la calibrazione matematica per il miglioramento sinergico
Analisi specifica del compito: Conduce analisi a grana fine per compiti di ragionamento sul codice di diversa complessità
Calibrazione con convalida incrociata: Utilizza la convalida incrociata a 5 fold per prevenire l'overfitting, garantendo la validità statistica

Configurazione Sperimentale

Dataset

REval: Contiene 3.152 punti di test, coprendo 4 sotto-compiti
- Previsione della copertura del codice (CCP)
- Previsione dello stato del programma (PSP)
- Previsione del percorso di esecuzione (EPP)
- Previsione dell'output (OP)
CRUXEval: Contiene 800 funzioni Python indipendenti, coprendo 2 sotto-compiti
- Previsione dell'input (CRUXEval-I)
- Previsione dell'output (CRUXEval-O)

Metriche di Valutazione

Errore di Calibrazione Atteso (ECE):

Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|

Punteggio di Brier (BS):

Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²

Punteggio di Performance (PS):
```
Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
```

Metodi di Confronto

Sono stati selezionati LLM rappresentativi e mainstream:

Ragionamento vs non-ragionamento: DeepSeek-V3 vs DeepSeek-R1
Diverse dimensioni: Serie Qwen3 (1.7B, 14B, 32B)
Open source vs closed source: DeepSeek/Qwen3 vs GPT-3.5-Turbo

Dettagli di Implementazione

Parametro di temperatura impostato a 0 per garantire la stabilità dei risultati
Utilizzo di template di prompt standardizzati e uniformi
Utilizzo della convalida incrociata a 5 fold per la calibrazione del Platt Scaling

Risultati Sperimentali

Risultati Principali

Confronto tra Modelli

DeepSeek-Reasoner mostra le prestazioni migliori: ECE di soli 0.066 nel compito CCP, significativamente superiore a DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) e GPT-3.5-Turbo (0.338)
Vantaggio evidente della capacità di ragionamento: DeepSeek-Reasoner supera DeepSeek-Chat in tutte le metriche, in particolare nei compiti CRUXEval
Modelli open source superano closed source: I principali modelli open source hanno superato GPT-3.5-Turbo nell'affidabilità della confidenza

Impatto della Complessità del Compito

Migliori prestazioni nei compiti semplici: L'affidabilità della confidenza nei compiti CCP e OP è generalmente superiore a PSP e EPP
Previsione dell'input più impegnativa: CRUXEval-I è tipicamente più difficile di CRUXEval-O

Esperimenti di Ablazione

Effetto dell'Ottimizzazione della Strategia di Prompt

Miglioramento limitato: Le strategie di rivalutazione e riflessione non hanno portato miglioramenti sistematici per la maggior parte dei modelli e compiti
Modelli ad alte prestazioni traggono maggior beneficio: DeepSeek-Reasoner e Qwen3-32B mostrano miglioramenti evidenti in compiti specifici
Mitigazione dell'eccessiva fiducia: La strategia di rivalutazione aiuta in alcuni casi a mitigare l'eccessiva fiducia del modello

Effetto della Calibrazione Matematica

Miglioramento significativo e universale: Il Platt Scaling porta miglioramenti significativi su tutti i modelli e compiti
Eliminazione della deviazione sistematica: Elimina efficacemente le differenze di distribuzione prodotte da diversi metodi di generazione della confidenza
Conversione da negativo a positivo: Il Performance Score di più modelli si converte da valori negativi a positivi

Analisi di Casi

Prendendo come esempio le prestazioni di GPT-3.5-Turbo nel compito OP:

Prima della calibrazione: La distribuzione della confidenza è gravemente deviata, la curva di calibrazione si discosta dalla linea ideale
Dopo la strategia di rivalutazione: La curva di calibrazione si avvicina alla linea di riferimento ideale
Dopo il Platt Scaling: La distribuzione di probabilità e la curva di calibrazione si allineano altamente con la curva ideale

Scoperte Sperimentali

La capacità di ragionamento è fondamentale: I modelli con capacità di ragionamento esplicito mostrano vantaggi evidenti nell'affidabilità della confidenza
La strategia ibrida è più efficace: La combinazione della strategia di prompt di rivalutazione e del Platt Scaling realizza il miglioramento migliore
Effetto della scala limitato: Il miglioramento dell'affidabilità della confidenza derivante dall'aumento della dimensione del modello tende a stabilizzarsi dopo aver raggiunto una certa scala
Specificità del compito evidente: La diversa complessità dei compiti ha un impatto significativo sulla performance della confidenza

Lavori Correlati

Ricerca sulla Calibrazione della Confidenza

Metodi tradizionali: La ricerca iniziale si è concentrata sulla calibrazione della confidenza in piccoli modelli neurali
Applicazioni LLM: Recentemente estesa alla comprensione del linguaggio naturale, domande fattuali, ragionamento aritmetico e altri campi
Dominio del codice: Spiess et al. hanno studiato l'affidabilità della confidenza degli LLM nei compiti di generazione del codice

LLM nell'Ingegneria del Software

Generazione e correzione del codice: Numerosi studi si concentrano su compiti di generazione o correzione del codice
Ragionamento sul codice: Una direzione di ricerca relativamente nuova, con studi esistenti principalmente focalizzati su meccanismi operativi e valutazione delle prestazioni
Benchmark: Sono emersi più benchmark di ragionamento sul codice, come CRUXEval, REval, CodeMind, ecc.

Conclusioni e Discussione

Conclusioni Principali

Differenze di performance significative: Esistono differenze significative nell'affidabilità della confidenza dei principali LLM nei compiti di ragionamento sul codice
Vantaggio della capacità di ragionamento: I modelli con capacità di ragionamento (come DeepSeek-Reasoner) mostrano le migliori prestazioni
Efficacia della calibrazione matematica: Metodi di calibrazione matematica come il Platt Scaling possono migliorare sistematicamente l'affidabilità della confidenza
Ampio spazio di miglioramento: L'affidabilità della confidenza degli attuali LLM non ha ancora raggiunto livelli ideali, in particolare nei compiti di ragionamento complesso

Limitazioni

Differenza tra benchmark e realtà: Esiste una differenza inevitabile tra i dataset di benchmark e gli ambienti del mondo reale
Limitazioni nella selezione dei modelli: Non include LLM specializzati nel codice in rapido sviluppo
Design di prompt fisso: Utilizza un design di prompt standardizzato e uniforme, che potrebbe influenzare la generalizzabilità dei risultati
Parametro di temperatura fisso: Fissa il parametro di temperatura a 0, potrebbe trascurare il suo potenziale impatto sulle prestazioni

Direzioni Future

Meccanismo di generazione della confidenza: Ricerca approfondita sul meccanismo di generazione della confidenza degli LLM nei compiti di ragionamento sul codice
Strategie di calibrazione dinamica: Sviluppare metodi di calibrazione adattivi e tecniche di partizione degli intervalli
Integrazione dell'apprendimento attivo: Integrare profondamente la confidenza con tecniche di apprendimento attivo e controllo del rischio
Equilibrio della praticità: Mantenere il potere discriminativo e l'interpretabilità della distribuzione della confidenza mentre si migliora l'affidabilità complessiva

Valutazione Approfondita

Punti di Forza

Significato della ricerca rilevante: Colma il vuoto nella ricerca sull'affidabilità della confidenza nel campo del ragionamento sul codice
Metodo sistematico e completo: Propone un framework di analisi sistematica a quattro fasi con metodologia rigorosa
Progettazione sperimentale completa: Copre più modelli, compiti e strategie di miglioramento, con configurazione sperimentale completa
Risultati convincenti: Verifica l'affidabilità delle conclusioni attraverso molteplici metriche e metodi statistici
Alto valore pratico: Fornisce orientamenti tecnici direttamente utilizzabili per la pratica dell'ingegneria del software

Insufficienze

Metodo di calibrazione singolare: Principalmente utilizza il Platt Scaling, non esplora l'effetto di altri metodi di calibrazione
Perdita di potere discriminativo: Sebbene la calibrazione matematica migliori la calibrazione complessiva, potrebbe ridurre il potere discriminativo della confidenza
Assenza di modelli specializzati nel codice: Non include modelli specializzati nel codice come CodeLlama, StarCoder
Adattabilità dinamica insufficiente: I metodi proposti sono principalmente statici, mancano di adattabilità dinamica a diversi scenari

Impatto

Contributo accademico: Apre un nuovo campo di applicazione per la ricerca sulla confidenza degli LLM
Pratica ingegneristica: Fornisce la base tecnica per la valutazione dell'affidabilità nello sviluppo software assistito da AI
Definizione di standard: Potrebbe promuovere l'istituzione di standard di valutazione della confidenza per compiti di ragionamento sul codice
Ricerca successiva: Fornisce importanti riferimenti per la ricerca approfondita in campi correlati

Scenari Applicabili

Revisione del codice: Aiuta gli sviluppatori a valutare l'affidabilità del codice generato da AI
Test automatizzato: Fornisce orientamento sulla confidenza nella generazione dei casi di test
Refactoring del codice: Fornisce valutazione dell'affidabilità per i suggerimenti di refactoring
Educazione e formazione: Aiuta gli studenti a comprendere la logica del codice nell'insegnamento della programmazione

Bibliografia

L'articolo cita importanti lavori nel campo correlato, inclusi:

Brier (1950): Lavoro classico sulla verifica delle previsioni probabilistiche
Guo et al. (2017): Ricerca importante sulla calibrazione moderna delle reti neurali
Jiang et al. (2021): Lavoro pioneristico sulla calibrazione della confidenza degli LLM
Spiess et al. (2024): Ricerca correlata sulla confidenza degli LLM nei compiti di codice

Sintesi: Questo è un articolo di ricerca empirica di alta qualità che esplora sistematicamente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. L'articolo ha una metodologia rigorosa, esperimenti completi e conclusioni di importante valore teorico e pratico, fornendo contributi significativi allo sviluppo dell'ingegneria del software assistita da AI.