2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Informazioni Fondamentali

  • ID Articolo: 2510.10913
  • Titolo: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • Autori: Ki Jung Seo, Sehun Lim, Taeuk Kim (Hanyang University)
  • Classificazione: cs.CL (Computational Linguistics)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10913

Riassunto

I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'esprimere il grado di confidenza in linguaggio naturale, migliorando la trasparenza e l'affidabilità. Tuttavia, il loro grado di confidenza spesso presenta problemi di eccessiva sicurezza, le cui cause fondamentali non sono ancora state sufficientemente comprese. Questo studio conduce un'analisi dettagliata della dinamica intrinseca della confidenza verbalizzata, identificando l'"indipendenza dalla risposta" come fattore chiave, ovvero l'incapacità del modello di modulare il grado di confidenza in base alle proprie risposte. Per affrontare questo problema, gli autori propongono ADVICE (Answer-Dependent Verbalized Confidence Estimation), un framework di fine-tuning che promuove la stima della confidenza basata sulla risposta. Esperimenti estensivi dimostrano che ADVICE migliora significativamente la calibrazione della confidenza mantenendo le prestazioni del compito. Ulteriori analisi confermano che ADVICE potenzia la dipendenza dalla risposta, producendo distribuzioni di confidenza più bilanciate e ben calibrate.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: I modelli linguistici di grandi dimensioni presentano un grave problema di eccessiva sicurezza nella generazione della confidenza verbalizzata, tendendo a esprimere alta confidenza indipendentemente dalla correttezza della risposta
  2. Importanza: Nel dispiegamento di LLM in settori ad alto rischio come il diritto e la medicina, la stima affidabile della confidenza è cruciale per gestire l'incompletezza intrinseca del modello
  3. Limitazioni degli Approcci Esistenti:
    • La ricerca esistente si concentra principalmente sul "come" mitigare l'eccessiva sicurezza, piuttosto che sul "perché" si verifichi
    • Manca una comprensione approfondita dei meccanismi intrinseci della confidenza verbalizzata
    • Sebbene i metodi di prompting, campionamento e fine-tuning mostrino miglioramenti, le cause fondamentali rimangono non chiarite

Motivazione della Ricerca

Gli autori traggono ispirazione dalla teoria della stima della confidenza nelle neuroscienze, inquadrando la stima della confidenza come un processo di accumulo di evidenza post-decisionale, scoprendo che gli LLM spesso trascurano le informazioni della risposta generata quando stimano il grado di confidenza, il che contraddice la definizione di confidenza.

Contributi Principali

  1. Scoperta Teorica: Identificazione e analisi sistematica per la prima volta dell'"indipendenza dalla risposta" come causa fondamentale dell'eccessiva sicurezza negli LLM
  2. Metodo di Analisi: Proposta di un metodo di doppia verifica basato sul confronto di distribuzioni di probabilità e analisi di attribuzione per quantificare la dipendenza dalla risposta
  3. Soluzione Proposta: Progettazione del framework di fine-tuning ADVICE che incoraggia esplicitamente il modello a prestare attenzione alle risposte generate nel riportare il grado di confidenza
  4. Verifica Empirica: Validazione dell'efficacia del metodo su più dataset e modelli, dimostrando l'importanza delle informazioni sulla risposta nella stima della confidenza
  5. Capacità di Generalizzazione: Dimostrazione della forte capacità di generalizzazione del metodo su compiti fuori distribuzione e caratteristiche di distribuzione della confidenza bilanciate

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data una domanda q e la risposta corrispondente a, la confidenza verbalizzata dovrebbe approssimare la probabilità che la risposta sia corretta P(correct|q,a). La stima ideale della confidenza dovrebbe:

  • Esprimere alta confidenza quando la risposta è corretta
  • Esprimere bassa confidenza quando la risposta è errata
  • Regolare il livello di confidenza in base al contenuto della risposta

Analisi dell'Indipendenza dalla Risposta

1. Metodo di Confronto delle Distribuzioni di Probabilità

Verifica dell'indipendenza dalla risposta confrontando le seguenti due distribuzioni:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

dove il lato destro viene espanso mediante la formula della probabilità totale come:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

La divergenza Jensen-Shannon (JSD) viene utilizzata per quantificare la differenza tra le due distribuzioni; valori JSD prossimi a 0 indicano che il modello è insensibile alle informazioni sulla risposta.

2. Metodo di Analisi di Attribuzione

  • Attention Rollout: Analisi dei pesi di attenzione dei token di risposta nella generazione della confidenza
  • Integrated Gradients: Calcolo del contributo dei token di risposta alla previsione della confidenza

Progettazione del Framework ADVICE

Costruzione dei Dati di Addestramento

  1. Campionamento di 2000 istanze da TriviaQA
  2. Costruzione di triple (q, a_correct, a_wrong) per ogni domanda q
  3. Costruzione di tre varianti di formato verbalizzato per migliorare la generalizzazione

Obiettivo di Addestramento

Definizione di tre funzioni di perdita:

  1. Perdita di Modellazione del Linguaggio:
L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

Mantiene la capacità originale di QA del modello

  1. Perdita di Distribuzione Contrastiva:
L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

Guida il modello ad apprendere a distinguere le distribuzioni di confidenza tra risposte corrette e errate

  1. Perdita di Margine:
L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

Assicura che le risposte corrette ottengano un grado di confidenza atteso più elevato

Funzione di perdita totale:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

Punti di Innovazione Tecnica

  1. Analisi della Causa Radice: Primo approccio ad analizzare il problema dell'eccessiva sicurezza dal punto di vista della dipendenza dalla risposta
  2. Doppia Verifica: Combinazione di analisi probabilistica e metodi di attribuzione delle reti neurali per verificare l'ipotesi
  3. Apprendimento Contrastivo: Utilizzo di coppie di risposte corrette/errate per l'addestramento contrastivo
  4. Ottimizzazione Multi-Obiettivo: Equilibrio tra il mantenimento delle prestazioni del compito e il miglioramento della calibrazione della confidenza

Configurazione Sperimentale

Dataset

  • Addestramento: TriviaQA (2000 istanze)
  • Valutazione: TriviaQA, MMLU, SciQ, LogiQA (test di generalizzazione cross-domain)

Modelli

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

Tipi di Espressione della Confidenza

  • ScoreText: {low, medium, high}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

Metriche di Valutazione

  • ECE (Expected Calibration Error): Differenza assoluta media tra confidenza predetta e accuratezza effettiva
  • NCE (Net Calibration Error): Errore di calibrazione con segno, riflette la distorsione
  • BS (Brier Score): Errore quadratico medio della previsione probabilistica
  • AUROC: Capacità di ordinamento della confidenza

Metodi di Confronto

  • Default: Metodo di prompting di base
  • Self-Consistency: Metodo basato su campionamento
  • ConfTuner: Metodo di fine-tuning attualmente migliore

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni su TriviaQA (GEMMA-2-9B-IT):

  • ECE: Default (21.9%) → ADVICE (6.5%)
  • NCE: Default (-21.8%) → ADVICE (1.6%)
  • AUROC: Default (52.7%) → ADVICE (78.5%)

I risultati di generalizzazione cross-domain mostrano che ADVICE ottiene miglioramenti significativi su MMLU, SciQ e LogiQA, dimostrando la robustezza del metodo.

Esperimenti di Ablazione

Analisi del contributo di ogni funzione di perdita:

  • L_JSD utilizzata singolarmente: ECE ridotto da 19.7% a 4.9%
  • L_Margin utilizzata singolarmente: ECE ridotto da 19.7% a 3.9%
  • ADVICE completo: Migliore capacità di generalizzazione cross-dataset

Scoperte Chiave

  1. Verifica dell'Indipendenza dalla Risposta: La distribuzione JSD presenta un modello di legge di potenza, con la maggior parte dei valori prossimi a 0, confermando l'ipotesi di indipendenza dalla risposta
  2. Modelli di Attenzione: I pesi di attenzione dalla confidenza alla risposta sono significativamente inferiori rispetto ad altre direzioni
  3. Miglioramento della Calibrazione: I grafici di affidabilità dimostrano che ADVICE produce distribuzioni di confidenza più granulari e accurate
  4. Aumento della Consapevolezza della Risposta: Gli esperimenti di mascheramento mostrano che ADVICE esprime appropriatamente incertezza quando la risposta è assente

Analisi degli Iperparametri

L'aumento di δ_JSD continua a ridurre l'ECE, verificando l'efficacia dell'obiettivo di apprendimento contrastivo.

Lavori Correlati

Ricerca sulla Confidenza Verbalizzata

  • Lin et al. (2022) hanno introdotto per la prima volta la stima della confidenza verbalizzata
  • La ricerca successiva si divide principalmente in tre categorie: metodi di prompting, metodi di campionamento e metodi di fine-tuning
  • Questo studio colma il vuoto nell'analisi dei meccanismi

Metodi di Sondaggio degli LLM

  • Analisi dei meccanismi di attenzione: Attention Rollout, Attention Flow, ecc.
  • Metodi di attribuzione basati su gradienti: Integrated Gradients, ecc.
  • Questo studio applica innovativamente questi metodi all'analisi della confidenza

Conclusioni e Discussione

Conclusioni Principali

  1. L'eccessiva sicurezza degli LLM deriva principalmente dal problema dell'indipendenza dalla risposta
  2. ADVICE migliora efficacemente la calibrazione della confidenza potenziando la dipendenza dalla risposta
  3. Il metodo possiede buona capacità di generalizzazione e valore pratico

Limitazioni

  1. Si concentra principalmente su compiti di QA su testo breve; l'applicabilità a compiti di comprensione di testo lungo rimane da verificare
  2. Richiede costi aggiuntivi di costruzione dei dati per generare coppie di risposte contrastive
  3. L'efficacia su compiti di ragionamento complesso necessita di ulteriore esplorazione

Direzioni Future

  1. Estensione a compiti che richiedono comprensione di contesto lungo e ragionamento complesso
  2. Esplorazione di metodi più efficienti per la costruzione dei dati di addestramento
  3. Ricerca sull'applicazione in altre modalità (come modelli visione-linguaggio)

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Notevole: Analisi sistematica per la prima volta della causa fondamentale dell'eccessiva sicurezza, fornendo importanti intuizioni teoriche
  2. Metodologia Rigorosa: Utilizzo di verifiche multi-angolari (analisi probabilistica + analisi di attribuzione), alta credibilità delle conclusioni
  3. Progettazione Sperimentale Completa: Valutazione completa tra modelli e dataset, esperimenti di ablazione sufficienti
  4. Valore Pratico Significativo: Migliora significativamente la calibrazione della confidenza mantenendo le prestazioni del compito
  5. Forte Capacità di Generalizzazione: Buone prestazioni su dati fuori distribuzione, dimostrando robustezza del metodo

Insufficienze

  1. Ambito di Compiti Limitato: Principalmente verificato su compiti di QA; l'applicabilità ad altri compiti NLP non è sufficientemente esplorata
  2. Sovraccarico Computazionale: Richiede processo di fine-tuning aggiuntivo e costruzione di dati contrastivi
  3. Profondità dell'Analisi Teorica: Sebbene identifichi il problema dell'indipendenza dalla risposta, l'analisi delle cause profonde sottostanti non è sufficientemente approfondita
  4. Effetti a Lungo Termine: Non valuta la stabilità del modello fine-tuned nell'uso prolungato

Impatto

  1. Valore Accademico: Fornisce una nuova prospettiva di ricerca e un framework di analisi al campo della stima della confidenza
  2. Significato Pratico: Possiede importante valore nel migliorare l'affidabilità degli LLM in applicazioni ad alto rischio
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source, facilitando la riproduzione e l'estensione

Scenari Applicabili

  • Sistemi di domande e risposte che richiedono stima affidabile della confidenza
  • Sistemi di supporto alle decisioni ad alto rischio
  • Scenari di collaborazione uomo-macchina con espressione dell'incertezza
  • Applicazioni di calibrazione del modello e AI affidabile

Riferimenti Bibliografici

L'articolo cita 68 lavori correlati, coprendo molteplici aree inclusa la confidenza verbalizzata, i metodi di sondaggio degli LLM e la teoria della calibrazione, fornendo una solida base teorica per la ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità con importanti contributi sia nell'analisi teorica che nei metodi pratici. Gli autori non solo identificano la causa fondamentale dell'eccessiva sicurezza degli LLM, ma propongono anche una soluzione efficace. Il metodo è semplice ed efficace, la progettazione sperimentale è rigorosa e i risultati sono convincenti. Possiede importante significato nel promuovere l'AI affidabile e nel migliorare l'affidabilità degli LLM nelle applicazioni pratiche.