2025-11-11T07:31:09.386834

Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs

Wang, Hu, Chen et al.
With the widespread application of large language models (LLMs) in the field of code intelligence, increasing attention has been paid to the reliability and controllability of their outputs in code reasoning tasks. Confidence estimation serves as an effective and convenient approach for evaluating these aspects. This paper proposes a confidence analysis and enhancement framework for LLMs tailored to code reasoning tasks. We conduct a comprehensive empirical study on the confidence reliability of mainstream LLMs across different tasks, and further evaluate the effectiveness of techniques such as prompt strategy optimisation and mathematical calibration (e.g., Platt Scaling) in improving confidence reliability. Our results show that DeepSeek-Reasoner achieves the best performance across various tasks, outperforming other models by up to $0.680$, $0.636$, and $13.652$ in terms of ECE, Brier Score, and Performance Score, respectively. The hybrid strategy combining the reassess prompt strategy and Platt Scaling achieves improvements of up to $0.541$, $0.628$, and $15.084$ over the original performance in the aforementioned three metrics. These results indicate that models with reasoning capabilities demonstrate superior confidence reliability, and that the hybrid strategy is the most effective in enhancing the confidence reliability of various models. Meanwhile, we elucidate the impact of different task complexities, model scales, and strategies on confidence performance, and highlight that the confidence of current LLMs in complex reasoning tasks still has considerable room for improvement. This study not only provides a research foundation and technical reference for the application of confidence in LLM-assisted software engineering, but also points the way for future optimisation and engineering deployment of confidence mechanisms.
academic

Aprire l'Ostrica: Valutazione Empirica e Miglioramento dell'Affidabilità del Ragionamento sul Codice negli LLM

Informazioni Fondamentali

  • ID Articolo: 2511.02197
  • Titolo: Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs
  • Autori: Shufan Wang, Xing Hu, Junkai Chen, Zhiyuan Pan, Xin Xia
  • Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale)
  • Data di Pubblicazione: 4 novembre 2025
  • Link Articolo: https://arxiv.org/abs/2511.02197

Riassunto

Con l'ampia applicazione dei modelli linguistici di grandi dimensioni (LLM) nel campo dell'intelligenza del codice, l'affidabilità e la controllabilità dei loro output nei compiti di ragionamento sul codice stanno ricevendo crescente attenzione. La stima della confidenza rappresenta un metodo efficace e conveniente per valutare questi aspetti, rivestendo un'importanza significativa. Questo articolo propone un framework di analisi e miglioramento della confidenza degli LLM per compiti di ragionamento sul codice. Lo studio conduce una ricerca empirica completa sull'affidabilità della confidenza dei principali LLM in diversi compiti, valutando ulteriormente l'efficacia di tecniche quali l'ottimizzazione delle strategie di prompt e la calibrazione matematica (come il Platt Scaling) nel migliorare l'affidabilità della confidenza.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta principalmente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. Nello specifico include:

  1. Problema di calibrazione della confidenza: Gli attuali LLM potrebbero manifestare comportamenti di eccessiva fiducia o insufficiente fiducia nel ragionamento sul codice
  2. Difficoltà nella valutazione dell'affidabilità: Gli sviluppatori hanno difficoltà nel determinare il grado di affidabilità dell'output del modello, influenzando il processo decisionale
  3. Deviazioni sistematiche: Esistono differenze significative nella performance della confidenza di diversi modelli su diversi compiti

Importanza della Ricerca

  1. Valore pratico: Nella pratica dell'ingegneria del software, gli sviluppatori devono comprendere l'affidabilità dell'output del modello per prendere decisioni consapevoli
  2. Considerazioni di sicurezza: Previsioni con elevata confidenza errate potrebbero portare a difetti software gravi
  3. Miglioramento dell'efficienza: Una stima affidabile della confidenza può aiutare gli sviluppatori a ottimizzare i processi di verifica

Limitazioni dei Metodi Esistenti

  1. Ricerca scarsa: Gli studi sistematici sull'affidabilità della confidenza per compiti di ragionamento sul codice sono relativamente rari
  2. Valutazione insufficiente: La maggior parte dei lavori esistenti si affida a metriche oggettive come l'accuratezza, trascurando la quantificazione dell'autoconsapevolezza del modello
  3. Tecniche di miglioramento limitate: Mancano metodi tecnici efficaci per migliorare l'affidabilità della confidenza degli LLM nel ragionamento sul codice

Contributi Principali

  1. Propone un framework di analisi sistematica: Costruisce un framework di analisi dell'affidabilità della confidenza degli LLM per compiti di ragionamento sul codice, conducendo una ricerca empirica quantitativa completa
  2. Valuta tecniche di miglioramento: Valuta sistematicamente l'efficacia dell'ottimizzazione delle strategie di prompt e dei metodi di calibrazione matematica, rivelando la loro applicabilità e limitazioni su diversi modelli e compiti
  3. Analisi approfondita dei fattori influenti: Fornisce un'analisi approfondita dell'impatto dell'affidabilità della confidenza sulle applicazioni pratiche dell'ingegneria del software, offrendo raccomandazioni praticabili per l'ottimizzazione e la distribuzione ingegneristica dei meccanismi di confidenza degli LLM
  4. Scoperte empiriche: Scopre che i modelli con capacità di ragionamento mostrano prestazioni superiori nell'affidabilità della confidenza, e le strategie ibride sono più efficaci nel migliorare l'affidabilità della confidenza di vari modelli

Spiegazione Dettagliata dei Metodi

Definizione del Compito

I compiti di ragionamento sul codice richiedono al modello di inferire il comportamento del codice attraverso l'analisi a livello sintattico, semantico e logico senza eseguire il programma, inclusi input/output, comportamento a runtime, percorsi di branch o valori di variabili.

La confidenza è definita come la valutazione della probabilità soggettiva del modello sulla correttezza del suo output. Per un modello M, dato un input x e l'insieme di tutti gli output corretti Y, il modello produce un output y e assegna una confidenza p(y|x) ∈ 0,1.

Architettura del Modello

Framework del Metodo a Quattro Fasi

  1. Ricerca empirica: Sollecitare gli LLM a generare risposte ai casi di test e i corrispondenti punteggi di confidenza
  2. Regolazione della strategia di prompt: Rigenerare i punteggi di confidenza utilizzando diverse strategie di prompt
  3. Calibrazione matematica: Applicare metodi matematici per elaborare i punteggi di confidenza generati dagli LLM
  4. Calcolo delle metriche: Calcolare varie metriche per valutare l'affidabilità di diversi tipi di punteggi di confidenza

Strategie di Generazione della Confidenza

  1. Confidenza Intrinseca (Intrinsic Confidence): Punteggio di confidenza generato direttamente dal modello
  2. Strategia di Rivalutazione (Reassess Strategy): Rivalutare la confidenza attraverso prompt di auto-dubbio
  3. Strategia Riflessiva (Reflective Strategy): Utilizzare un modello di riflessione indipendente per valutare la confidenza della risposta del modello principale

Metodi di Calibrazione Matematica

Applicare il Platt Scaling per la calibrazione:

p'ᵢⱼ = 1/(1 + exp(-(A·pᵢⱼ + B)))

dove A e B sono parametri ottimizzati minimizzando la verosimiglianza logaritmica negativa sui dati di calibrazione.

Punti di Innovazione Tecnica

  1. Sistema di valutazione multidimensionale: Combina tre metriche (ECE, Brier Score e Performance Score) per valutare completamente l'affidabilità della confidenza
  2. Strategia di ottimizzazione ibrida: Integra l'ottimizzazione della strategia di prompt con la calibrazione matematica per il miglioramento sinergico
  3. Analisi specifica del compito: Conduce analisi a grana fine per compiti di ragionamento sul codice di diversa complessità
  4. Calibrazione con convalida incrociata: Utilizza la convalida incrociata a 5 fold per prevenire l'overfitting, garantendo la validità statistica

Configurazione Sperimentale

Dataset

  1. REval: Contiene 3.152 punti di test, coprendo 4 sotto-compiti
    • Previsione della copertura del codice (CCP)
    • Previsione dello stato del programma (PSP)
    • Previsione del percorso di esecuzione (EPP)
    • Previsione dell'output (OP)
  2. CRUXEval: Contiene 800 funzioni Python indipendenti, coprendo 2 sotto-compiti
    • Previsione dell'input (CRUXEval-I)
    • Previsione dell'output (CRUXEval-O)

Metriche di Valutazione

  1. Errore di Calibrazione Atteso (ECE):
    Eᵢ = (1/|Tᵢ|) Σ |δᵢⱼ - pᵢⱼ|
    
  2. Punteggio di Brier (BS):
    Bᵢ = (1/|Tᵢ|) Σ (δᵢⱼ - pᵢⱼ)²
    
  3. Punteggio di Performance (PS):
    Pᵢ = (B⁰ᵢ - Bᵢ)/B⁰ᵢ
    

Metodi di Confronto

Sono stati selezionati LLM rappresentativi e mainstream:

  • Ragionamento vs non-ragionamento: DeepSeek-V3 vs DeepSeek-R1
  • Diverse dimensioni: Serie Qwen3 (1.7B, 14B, 32B)
  • Open source vs closed source: DeepSeek/Qwen3 vs GPT-3.5-Turbo

Dettagli di Implementazione

  • Parametro di temperatura impostato a 0 per garantire la stabilità dei risultati
  • Utilizzo di template di prompt standardizzati e uniformi
  • Utilizzo della convalida incrociata a 5 fold per la calibrazione del Platt Scaling

Risultati Sperimentali

Risultati Principali

Confronto tra Modelli

  • DeepSeek-Reasoner mostra le prestazioni migliori: ECE di soli 0.066 nel compito CCP, significativamente superiore a DeepSeek-Chat (0.143), Qwen3-1.7B (0.231) e GPT-3.5-Turbo (0.338)
  • Vantaggio evidente della capacità di ragionamento: DeepSeek-Reasoner supera DeepSeek-Chat in tutte le metriche, in particolare nei compiti CRUXEval
  • Modelli open source superano closed source: I principali modelli open source hanno superato GPT-3.5-Turbo nell'affidabilità della confidenza

Impatto della Complessità del Compito

  • Migliori prestazioni nei compiti semplici: L'affidabilità della confidenza nei compiti CCP e OP è generalmente superiore a PSP e EPP
  • Previsione dell'input più impegnativa: CRUXEval-I è tipicamente più difficile di CRUXEval-O

Esperimenti di Ablazione

Effetto dell'Ottimizzazione della Strategia di Prompt

  • Miglioramento limitato: Le strategie di rivalutazione e riflessione non hanno portato miglioramenti sistematici per la maggior parte dei modelli e compiti
  • Modelli ad alte prestazioni traggono maggior beneficio: DeepSeek-Reasoner e Qwen3-32B mostrano miglioramenti evidenti in compiti specifici
  • Mitigazione dell'eccessiva fiducia: La strategia di rivalutazione aiuta in alcuni casi a mitigare l'eccessiva fiducia del modello

Effetto della Calibrazione Matematica

  • Miglioramento significativo e universale: Il Platt Scaling porta miglioramenti significativi su tutti i modelli e compiti
  • Eliminazione della deviazione sistematica: Elimina efficacemente le differenze di distribuzione prodotte da diversi metodi di generazione della confidenza
  • Conversione da negativo a positivo: Il Performance Score di più modelli si converte da valori negativi a positivi

Analisi di Casi

Prendendo come esempio le prestazioni di GPT-3.5-Turbo nel compito OP:

  • Prima della calibrazione: La distribuzione della confidenza è gravemente deviata, la curva di calibrazione si discosta dalla linea ideale
  • Dopo la strategia di rivalutazione: La curva di calibrazione si avvicina alla linea di riferimento ideale
  • Dopo il Platt Scaling: La distribuzione di probabilità e la curva di calibrazione si allineano altamente con la curva ideale

Scoperte Sperimentali

  1. La capacità di ragionamento è fondamentale: I modelli con capacità di ragionamento esplicito mostrano vantaggi evidenti nell'affidabilità della confidenza
  2. La strategia ibrida è più efficace: La combinazione della strategia di prompt di rivalutazione e del Platt Scaling realizza il miglioramento migliore
  3. Effetto della scala limitato: Il miglioramento dell'affidabilità della confidenza derivante dall'aumento della dimensione del modello tende a stabilizzarsi dopo aver raggiunto una certa scala
  4. Specificità del compito evidente: La diversa complessità dei compiti ha un impatto significativo sulla performance della confidenza

Lavori Correlati

Ricerca sulla Calibrazione della Confidenza

  • Metodi tradizionali: La ricerca iniziale si è concentrata sulla calibrazione della confidenza in piccoli modelli neurali
  • Applicazioni LLM: Recentemente estesa alla comprensione del linguaggio naturale, domande fattuali, ragionamento aritmetico e altri campi
  • Dominio del codice: Spiess et al. hanno studiato l'affidabilità della confidenza degli LLM nei compiti di generazione del codice

LLM nell'Ingegneria del Software

  • Generazione e correzione del codice: Numerosi studi si concentrano su compiti di generazione o correzione del codice
  • Ragionamento sul codice: Una direzione di ricerca relativamente nuova, con studi esistenti principalmente focalizzati su meccanismi operativi e valutazione delle prestazioni
  • Benchmark: Sono emersi più benchmark di ragionamento sul codice, come CRUXEval, REval, CodeMind, ecc.

Conclusioni e Discussione

Conclusioni Principali

  1. Differenze di performance significative: Esistono differenze significative nell'affidabilità della confidenza dei principali LLM nei compiti di ragionamento sul codice
  2. Vantaggio della capacità di ragionamento: I modelli con capacità di ragionamento (come DeepSeek-Reasoner) mostrano le migliori prestazioni
  3. Efficacia della calibrazione matematica: Metodi di calibrazione matematica come il Platt Scaling possono migliorare sistematicamente l'affidabilità della confidenza
  4. Ampio spazio di miglioramento: L'affidabilità della confidenza degli attuali LLM non ha ancora raggiunto livelli ideali, in particolare nei compiti di ragionamento complesso

Limitazioni

  1. Differenza tra benchmark e realtà: Esiste una differenza inevitabile tra i dataset di benchmark e gli ambienti del mondo reale
  2. Limitazioni nella selezione dei modelli: Non include LLM specializzati nel codice in rapido sviluppo
  3. Design di prompt fisso: Utilizza un design di prompt standardizzato e uniforme, che potrebbe influenzare la generalizzabilità dei risultati
  4. Parametro di temperatura fisso: Fissa il parametro di temperatura a 0, potrebbe trascurare il suo potenziale impatto sulle prestazioni

Direzioni Future

  1. Meccanismo di generazione della confidenza: Ricerca approfondita sul meccanismo di generazione della confidenza degli LLM nei compiti di ragionamento sul codice
  2. Strategie di calibrazione dinamica: Sviluppare metodi di calibrazione adattivi e tecniche di partizione degli intervalli
  3. Integrazione dell'apprendimento attivo: Integrare profondamente la confidenza con tecniche di apprendimento attivo e controllo del rischio
  4. Equilibrio della praticità: Mantenere il potere discriminativo e l'interpretabilità della distribuzione della confidenza mentre si migliora l'affidabilità complessiva

Valutazione Approfondita

Punti di Forza

  1. Significato della ricerca rilevante: Colma il vuoto nella ricerca sull'affidabilità della confidenza nel campo del ragionamento sul codice
  2. Metodo sistematico e completo: Propone un framework di analisi sistematica a quattro fasi con metodologia rigorosa
  3. Progettazione sperimentale completa: Copre più modelli, compiti e strategie di miglioramento, con configurazione sperimentale completa
  4. Risultati convincenti: Verifica l'affidabilità delle conclusioni attraverso molteplici metriche e metodi statistici
  5. Alto valore pratico: Fornisce orientamenti tecnici direttamente utilizzabili per la pratica dell'ingegneria del software

Insufficienze

  1. Metodo di calibrazione singolare: Principalmente utilizza il Platt Scaling, non esplora l'effetto di altri metodi di calibrazione
  2. Perdita di potere discriminativo: Sebbene la calibrazione matematica migliori la calibrazione complessiva, potrebbe ridurre il potere discriminativo della confidenza
  3. Assenza di modelli specializzati nel codice: Non include modelli specializzati nel codice come CodeLlama, StarCoder
  4. Adattabilità dinamica insufficiente: I metodi proposti sono principalmente statici, mancano di adattabilità dinamica a diversi scenari

Impatto

  1. Contributo accademico: Apre un nuovo campo di applicazione per la ricerca sulla confidenza degli LLM
  2. Pratica ingegneristica: Fornisce la base tecnica per la valutazione dell'affidabilità nello sviluppo software assistito da AI
  3. Definizione di standard: Potrebbe promuovere l'istituzione di standard di valutazione della confidenza per compiti di ragionamento sul codice
  4. Ricerca successiva: Fornisce importanti riferimenti per la ricerca approfondita in campi correlati

Scenari Applicabili

  1. Revisione del codice: Aiuta gli sviluppatori a valutare l'affidabilità del codice generato da AI
  2. Test automatizzato: Fornisce orientamento sulla confidenza nella generazione dei casi di test
  3. Refactoring del codice: Fornisce valutazione dell'affidabilità per i suggerimenti di refactoring
  4. Educazione e formazione: Aiuta gli studenti a comprendere la logica del codice nell'insegnamento della programmazione

Bibliografia

L'articolo cita importanti lavori nel campo correlato, inclusi:

  • Brier (1950): Lavoro classico sulla verifica delle previsioni probabilistiche
  • Guo et al. (2017): Ricerca importante sulla calibrazione moderna delle reti neurali
  • Jiang et al. (2021): Lavoro pioneristico sulla calibrazione della confidenza degli LLM
  • Spiess et al. (2024): Ricerca correlata sulla confidenza degli LLM nei compiti di codice

Sintesi: Questo è un articolo di ricerca empirica di alta qualità che esplora sistematicamente il problema dell'affidabilità della confidenza degli LLM nei compiti di ragionamento sul codice. L'articolo ha una metodologia rigorosa, esperimenti completi e conclusioni di importante valore teorico e pratico, fornendo contributi significativi allo sviluppo dell'ingegneria del software assistita da AI.