Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic
Aprire l'Ostrica: Valutazione Empirica e Miglioramento dell'Affidabilità del Ragionamento sul Codice negli LLM
Con l'ampia applicazione dei modelli linguistici di grandi dimensioni (LLM) nel campo dell'intelligenza del codice, l'affidabilità e la controllabilità dei loro output nei compiti di ragionamento sul codice stanno ricevendo crescente attenzione. La stima della confidenza rappresenta un metodo efficace e conveniente per valutare questi aspetti, rivestendo un'importanza significativa. Questo articolo propone un framework di analisi e miglioramento della confidenza degli LLM per compiti di ragionamento sul codice. Lo studio conduce una ricerca empirica completa sull'affidabilità della confidenza dei principali LLM in diversi compiti, valutando ulteriormente l'efficacia di tecniche quali l'ottimizzazione delle strategie di prompt e la calibrazione matematica (come il Platt Scaling) nel migliorare l'affidabilità della confidenza.
Questa ricerca affronta principalmente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. Nello specifico include:
Problema di calibrazione della confidenza: Gli attuali LLM potrebbero manifestare comportamenti di eccessiva fiducia o insufficiente fiducia nel ragionamento sul codice
Difficoltà nella valutazione dell'affidabilità: Gli sviluppatori hanno difficoltà nel determinare il grado di affidabilità dell'output del modello, influenzando il processo decisionale
Deviazioni sistematiche: Esistono differenze significative nella performance della confidenza di diversi modelli su diversi compiti
Valore pratico: Nella pratica dell'ingegneria del software, gli sviluppatori devono comprendere l'affidabilità dell'output del modello per prendere decisioni consapevoli
Considerazioni di sicurezza: Previsioni con elevata confidenza errate potrebbero portare a difetti software gravi
Miglioramento dell'efficienza: Una stima affidabile della confidenza può aiutare gli sviluppatori a ottimizzare i processi di verifica
Ricerca scarsa: Gli studi sistematici sull'affidabilità della confidenza per compiti di ragionamento sul codice sono relativamente rari
Valutazione insufficiente: La maggior parte dei lavori esistenti si affida a metriche oggettive come l'accuratezza, trascurando la quantificazione dell'autoconsapevolezza del modello
Tecniche di miglioramento limitate: Mancano metodi tecnici efficaci per migliorare l'affidabilità della confidenza degli LLM nel ragionamento sul codice
Propone un framework di analisi sistematica: Costruisce un framework di analisi dell'affidabilità della confidenza degli LLM per compiti di ragionamento sul codice, conducendo una ricerca empirica quantitativa completa
Valuta tecniche di miglioramento: Valuta sistematicamente l'efficacia dell'ottimizzazione delle strategie di prompt e dei metodi di calibrazione matematica, rivelando la loro applicabilità e limitazioni su diversi modelli e compiti
Analisi approfondita dei fattori influenti: Fornisce un'analisi approfondita dell'impatto dell'affidabilità della confidenza sulle applicazioni pratiche dell'ingegneria del software, offrendo raccomandazioni praticabili per l'ottimizzazione e la distribuzione ingegneristica dei meccanismi di confidenza degli LLM
Scoperte empiriche: Scopre che i modelli con capacità di ragionamento mostrano prestazioni superiori nell'affidabilità della confidenza, e le strategie ibride sono più efficaci nel migliorare l'affidabilità della confidenza di vari modelli
I compiti di ragionamento sul codice richiedono al modello di inferire il comportamento del codice attraverso l'analisi a livello sintattico, semantico e logico senza eseguire il programma, inclusi input/output, comportamento a runtime, percorsi di branch o valori di variabili.
La confidenza è definita come la valutazione della probabilità soggettiva del modello sulla correttezza del suo output. Per un modello M, dato un input x e l'insieme di tutti gli output corretti Y, il modello produce un output y e assegna una confidenza p(y|x) ∈ 0,1.
Confidenza Intrinseca (Intrinsic Confidence): Punteggio di confidenza generato direttamente dal modello
Strategia di Rivalutazione (Reassess Strategy): Rivalutare la confidenza attraverso prompt di auto-dubbio
Strategia Riflessiva (Reflective Strategy): Utilizzare un modello di riflessione indipendente per valutare la confidenza della risposta del modello principale
Sistema di valutazione multidimensionale: Combina tre metriche (ECE, Brier Score e Performance Score) per valutare completamente l'affidabilità della confidenza
Strategia di ottimizzazione ibrida: Integra l'ottimizzazione della strategia di prompt con la calibrazione matematica per il miglioramento sinergico
Analisi specifica del compito: Conduce analisi a grana fine per compiti di ragionamento sul codice di diversa complessità
Calibrazione con convalida incrociata: Utilizza la convalida incrociata a 5 fold per prevenire l'overfitting, garantendo la validità statistica
DeepSeek-Reasoner mostra le prestazioni migliori: ECE di soli 0.066 nel compito CCP, significativamente superiore a DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) e GPT-3.5-Turbo (0.338)
Vantaggio evidente della capacità di ragionamento: DeepSeek-Reasoner supera DeepSeek-Chat in tutte le metriche, in particolare nei compiti CRUXEval
Modelli open source superano closed source: I principali modelli open source hanno superato GPT-3.5-Turbo nell'affidabilità della confidenza
Miglioramento limitato: Le strategie di rivalutazione e riflessione non hanno portato miglioramenti sistematici per la maggior parte dei modelli e compiti
Modelli ad alte prestazioni traggono maggior beneficio: DeepSeek-Reasoner e Qwen3-32B mostrano miglioramenti evidenti in compiti specifici
Mitigazione dell'eccessiva fiducia: La strategia di rivalutazione aiuta in alcuni casi a mitigare l'eccessiva fiducia del modello
Miglioramento significativo e universale: Il Platt Scaling porta miglioramenti significativi su tutti i modelli e compiti
Eliminazione della deviazione sistematica: Elimina efficacemente le differenze di distribuzione prodotte da diversi metodi di generazione della confidenza
Conversione da negativo a positivo: Il Performance Score di più modelli si converte da valori negativi a positivi
La capacità di ragionamento è fondamentale: I modelli con capacità di ragionamento esplicito mostrano vantaggi evidenti nell'affidabilità della confidenza
La strategia ibrida è più efficace: La combinazione della strategia di prompt di rivalutazione e del Platt Scaling realizza il miglioramento migliore
Effetto della scala limitato: Il miglioramento dell'affidabilità della confidenza derivante dall'aumento della dimensione del modello tende a stabilizzarsi dopo aver raggiunto una certa scala
Specificità del compito evidente: La diversa complessità dei compiti ha un impatto significativo sulla performance della confidenza
Generazione e correzione del codice: Numerosi studi si concentrano su compiti di generazione o correzione del codice
Ragionamento sul codice: Una direzione di ricerca relativamente nuova, con studi esistenti principalmente focalizzati su meccanismi operativi e valutazione delle prestazioni
Benchmark: Sono emersi più benchmark di ragionamento sul codice, come CRUXEval, REval, CodeMind, ecc.
Differenze di performance significative: Esistono differenze significative nell'affidabilità della confidenza dei principali LLM nei compiti di ragionamento sul codice
Vantaggio della capacità di ragionamento: I modelli con capacità di ragionamento (come DeepSeek-Reasoner) mostrano le migliori prestazioni
Efficacia della calibrazione matematica: Metodi di calibrazione matematica come il Platt Scaling possono migliorare sistematicamente l'affidabilità della confidenza
Ampio spazio di miglioramento: L'affidabilità della confidenza degli attuali LLM non ha ancora raggiunto livelli ideali, in particolare nei compiti di ragionamento complesso
Meccanismo di generazione della confidenza: Ricerca approfondita sul meccanismo di generazione della confidenza degli LLM nei compiti di ragionamento sul codice
Strategie di calibrazione dinamica: Sviluppare metodi di calibrazione adattivi e tecniche di partizione degli intervalli
Integrazione dell'apprendimento attivo: Integrare profondamente la confidenza con tecniche di apprendimento attivo e controllo del rischio
Equilibrio della praticità: Mantenere il potere discriminativo e l'interpretabilità della distribuzione della confidenza mentre si migliora l'affidabilità complessiva
Metodo di calibrazione singolare: Principalmente utilizza il Platt Scaling, non esplora l'effetto di altri metodi di calibrazione
Perdita di potere discriminativo: Sebbene la calibrazione matematica migliori la calibrazione complessiva, potrebbe ridurre il potere discriminativo della confidenza
Assenza di modelli specializzati nel codice: Non include modelli specializzati nel codice come CodeLlama, StarCoder
Adattabilità dinamica insufficiente: I metodi proposti sono principalmente statici, mancano di adattabilità dinamica a diversi scenari
L'articolo cita importanti lavori nel campo correlato, inclusi:
Brier (1950): Lavoro classico sulla verifica delle previsioni probabilistiche
Guo et al. (2017): Ricerca importante sulla calibrazione moderna delle reti neurali
Jiang et al. (2021): Lavoro pioneristico sulla calibrazione della confidenza degli LLM
Spiess et al. (2024): Ricerca correlata sulla confidenza degli LLM nei compiti di codice
Sintesi: Questo è un articolo di ricerca empirica di alta qualità che esplora sistematicamente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. L'articolo ha una metodologia rigorosa, esperimenti completi e conclusioni di importante valore teorico e pratico, fornendo contributi significativi allo sviluppo dell'ingegneria del software assistita da AI.