Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'esprimere il grado di confidenza in linguaggio naturale, migliorando la trasparenza e l'affidabilità. Tuttavia, il loro grado di confidenza spesso presenta problemi di eccessiva sicurezza, le cui cause fondamentali non sono ancora state sufficientemente comprese. Questo studio conduce un'analisi dettagliata della dinamica intrinseca della confidenza verbalizzata, identificando l'"indipendenza dalla risposta" come fattore chiave, ovvero l'incapacità del modello di modulare il grado di confidenza in base alle proprie risposte. Per affrontare questo problema, gli autori propongono ADVICE (Answer-Dependent Verbalized Confidence Estimation), un framework di fine-tuning che promuove la stima della confidenza basata sulla risposta. Esperimenti estensivi dimostrano che ADVICE migliora significativamente la calibrazione della confidenza mantenendo le prestazioni del compito. Ulteriori analisi confermano che ADVICE potenzia la dipendenza dalla risposta, producendo distribuzioni di confidenza più bilanciate e ben calibrate.
Problema Centrale: I modelli linguistici di grandi dimensioni presentano un grave problema di eccessiva sicurezza nella generazione della confidenza verbalizzata, tendendo a esprimere alta confidenza indipendentemente dalla correttezza della risposta
Importanza: Nel dispiegamento di LLM in settori ad alto rischio come il diritto e la medicina, la stima affidabile della confidenza è cruciale per gestire l'incompletezza intrinseca del modello
Limitazioni degli Approcci Esistenti:
La ricerca esistente si concentra principalmente sul "come" mitigare l'eccessiva sicurezza, piuttosto che sul "perché" si verifichi
Manca una comprensione approfondita dei meccanismi intrinseci della confidenza verbalizzata
Sebbene i metodi di prompting, campionamento e fine-tuning mostrino miglioramenti, le cause fondamentali rimangono non chiarite
Gli autori traggono ispirazione dalla teoria della stima della confidenza nelle neuroscienze, inquadrando la stima della confidenza come un processo di accumulo di evidenza post-decisionale, scoprendo che gli LLM spesso trascurano le informazioni della risposta generata quando stimano il grado di confidenza, il che contraddice la definizione di confidenza.
Scoperta Teorica: Identificazione e analisi sistematica per la prima volta dell'"indipendenza dalla risposta" come causa fondamentale dell'eccessiva sicurezza negli LLM
Metodo di Analisi: Proposta di un metodo di doppia verifica basato sul confronto di distribuzioni di probabilità e analisi di attribuzione per quantificare la dipendenza dalla risposta
Soluzione Proposta: Progettazione del framework di fine-tuning ADVICE che incoraggia esplicitamente il modello a prestare attenzione alle risposte generate nel riportare il grado di confidenza
Verifica Empirica: Validazione dell'efficacia del metodo su più dataset e modelli, dimostrando l'importanza delle informazioni sulla risposta nella stima della confidenza
Capacità di Generalizzazione: Dimostrazione della forte capacità di generalizzazione del metodo su compiti fuori distribuzione e caratteristiche di distribuzione della confidenza bilanciate
Data una domanda q e la risposta corrispondente a, la confidenza verbalizzata dovrebbe approssimare la probabilità che la risposta sia corretta P(correct|q,a). La stima ideale della confidenza dovrebbe:
Esprimere alta confidenza quando la risposta è corretta
Esprimere bassa confidenza quando la risposta è errata
Regolare il livello di confidenza in base al contenuto della risposta
La divergenza Jensen-Shannon (JSD) viene utilizzata per quantificare la differenza tra le due distribuzioni; valori JSD prossimi a 0 indicano che il modello è insensibile alle informazioni sulla risposta.
Confronto delle prestazioni su TriviaQA (GEMMA-2-9B-IT):
ECE: Default (21.9%) → ADVICE (6.5%)
NCE: Default (-21.8%) → ADVICE (1.6%)
AUROC: Default (52.7%) → ADVICE (78.5%)
I risultati di generalizzazione cross-domain mostrano che ADVICE ottiene miglioramenti significativi su MMLU, SciQ e LogiQA, dimostrando la robustezza del metodo.
Verifica dell'Indipendenza dalla Risposta: La distribuzione JSD presenta un modello di legge di potenza, con la maggior parte dei valori prossimi a 0, confermando l'ipotesi di indipendenza dalla risposta
Modelli di Attenzione: I pesi di attenzione dalla confidenza alla risposta sono significativamente inferiori rispetto ad altre direzioni
Miglioramento della Calibrazione: I grafici di affidabilità dimostrano che ADVICE produce distribuzioni di confidenza più granulari e accurate
Aumento della Consapevolezza della Risposta: Gli esperimenti di mascheramento mostrano che ADVICE esprime appropriatamente incertezza quando la risposta è assente
Contributo Teorico Notevole: Analisi sistematica per la prima volta della causa fondamentale dell'eccessiva sicurezza, fornendo importanti intuizioni teoriche
Metodologia Rigorosa: Utilizzo di verifiche multi-angolari (analisi probabilistica + analisi di attribuzione), alta credibilità delle conclusioni
Progettazione Sperimentale Completa: Valutazione completa tra modelli e dataset, esperimenti di ablazione sufficienti
Valore Pratico Significativo: Migliora significativamente la calibrazione della confidenza mantenendo le prestazioni del compito
Forte Capacità di Generalizzazione: Buone prestazioni su dati fuori distribuzione, dimostrando robustezza del metodo
Ambito di Compiti Limitato: Principalmente verificato su compiti di QA; l'applicabilità ad altri compiti NLP non è sufficientemente esplorata
Sovraccarico Computazionale: Richiede processo di fine-tuning aggiuntivo e costruzione di dati contrastivi
Profondità dell'Analisi Teorica: Sebbene identifichi il problema dell'indipendenza dalla risposta, l'analisi delle cause profonde sottostanti non è sufficientemente approfondita
Effetti a Lungo Termine: Non valuta la stabilità del modello fine-tuned nell'uso prolungato
L'articolo cita 68 lavori correlati, coprendo molteplici aree inclusa la confidenza verbalizzata, i metodi di sondaggio degli LLM e la teoria della calibrazione, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi sia nell'analisi teorica che nei metodi pratici. Gli autori non solo identificano la causa fondamentale dell'eccessiva sicurezza degli LLM, ma propongono anche una soluzione efficace. Il metodo è semplice ed efficace, la progettazione sperimentale è rigorosa e i risultati sono convincenti. Possiede importante significato nel promuovere l'AI affidabile e nel migliorare l'affidabilità degli LLM nelle applicazioni pratiche.