2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim

Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.

academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Grundinformationen

Paper-ID: 2510.10913
Titel: ADVICE: Answer-Dependent Verbalized Confidence Estimation
Autoren: Ki Jung Seo, Sehun Lim, Taeuk Kim (Hanyang University)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.10913

Zusammenfassung

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Ausdrückung von Konfidenz in natürlicher Sprache erzielt und damit Transparenz und Zuverlässigkeit verbessert. Allerdings zeigt ihre Konfidenz häufig ein Übervertrauensproblem, dessen Grundursachen noch nicht ausreichend verstanden sind. Diese Forschung führt eine detaillierte Analyse der inneren Dynamik verbalisierter Konfidenz durch und identifiziert "Antwortunabhängigkeit" als Schlüsselfaktor – das Versagen des Modells, seine Konfidenz basierend auf seiner eigenen Antwort zu modulieren. Um dieses Problem zu beheben, schlagen die Autoren ADVICE (Answer-Dependent Verbalized Confidence Estimation) vor, ein Feinabstimmungsrahmenwerk, das answerbasierte Konfidenzschätzung fördert. Umfangreiche Experimente zeigen, dass ADVICE die Konfidenzkalibration erheblich verbessert, während die Aufgabenleistung erhalten bleibt. Weitere Analysen bestätigen, dass ADVICE die Antwortabhängigkeit verstärkt und eine ausgewogenere und besser kalibrierte Konfidenzverteilung erzeugt.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Große Sprachmodelle zeigen bei der Generierung verbalisierter Konfidenz ein ernstes Übervertrauensproblem, d.h. sie neigen dazu, hohe Konfidenz auszudrücken, unabhängig davon, ob die Antwort korrekt ist oder nicht
Bedeutung: Bei der Bereitstellung von LLMs in hochriskanten Bereichen wie Recht und Medizin ist eine zuverlässige Konfidenzschätzung entscheidend für die Verwaltung der inhärenten Unvollständigkeit des Modells
Einschränkungen bestehender Methoden:
- Bestehende Forschung konzentriert sich hauptsächlich auf "wie" man Übervertrauen abschwächt, nicht auf "warum" es entsteht
- Mangel an tiefem Verständnis der inneren Mechanismen verbalisierter Konfidenz
- Obwohl Prompt-Methoden, Sampling-Methoden und Feinabstimmungsmethoden Verbesserungen bringen, bleiben die Grundursachen unklar

Forschungsmotivation

Die Autoren lassen sich von Konfidenzschätzungstheorien aus der Neurowissenschaft inspirieren und rahmen Konfidenzschätzung als einen Prozess der Evidenzakkumulation nach einer Entscheidung ein. Sie entdecken, dass LLMs bei der Konfidenzschätzung häufig die von ihnen selbst generierten Antwortinformationen ignorieren, was der Definition von Konfidenz widerspricht.

Kernbeiträge

Theoretische Erkenntnisse: Erstmalige systematische Identifizierung und Analyse der "Antwortunabhängigkeit" als Grundursache für Übervertrauen in LLMs
Analysemethode: Vorschlag einer dualen Verifizierungsmethode basierend auf Wahrscheinlichkeitsverteilungsvergleich und Attributionsanalyse zur Quantifizierung der Antwortabhängigkeit
Lösungsansatz: Entwurf des ADVICE-Feinabstimmungsrahmenwerks, das das Modell explizit ermutigt, bei der Berichterstattung von Konfidenz auf seine generierte Antwort zu achten
Empirische Validierung: Validierung der Methode auf mehreren Datensätzen und Modellen, die die Bedeutung von Antwortinformationen bei der Konfidenzschätzung demonstriert
Generalisierungsfähigkeit: Demonstration der starken Generalisierungsfähigkeit der Methode auf verteilungsexterne Aufgaben und ausgewogene Konfidenzverteilungseigenschaften

Methodische Details

Aufgabendefinition

Gegeben eine Frage q und die entsprechende Antwort a sollte die verbalisierte Konfidenz die Wahrscheinlichkeit approximieren, dass die Antwort korrekt ist P(correct|q,a). Eine ideale Konfidenzschätzung sollte:

Hohe Konfidenz ausdrücken, wenn die Antwort korrekt ist
Niedrige Konfidenz ausdrücken, wenn die Antwort falsch ist
Die Konfidenzebene basierend auf dem Antwortinhalt anpassen

Analyse der Antwortunabhängigkeit

1. Wahrscheinlichkeitsverteilungsvergleichsmethode

Durch Vergleich der folgenden zwei Verteilungen wird die Antwortunabhängigkeit validiert:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

wobei die rechte Seite durch die Formel der totalen Wahrscheinlichkeit erweitert wird zu:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Die Jensen-Shannon-Divergenz (JSD) wird verwendet, um die Differenz zwischen den zwei Verteilungen zu quantifizieren. Ein JSD-Wert nahe 0 zeigt an, dass das Modell gegenüber Antwortinformationen unempfindlich ist.

2. Attributionsanalysemethode

Attention Rollout: Analyse der Aufmerksamkeitsgewichte der Konfidenzgenerierung auf Antwort-Tokens
Integrated Gradients: Berechnung des Beitrags von Antwort-Tokens zur Konfidenzvorhersage

ADVICE-Rahmenwerk-Design

Trainingsdatenkonstruktion

Stichprobenentnahme von 2000 Instanzen aus TriviaQA
Konstruktion von Tripeln (q, a_correct, a_wrong) für jede Frage q
Konstruktion von drei sprachlichen Formatvarianten zur Verbesserung der Generalisierungsfähigkeit

Trainingsziel

Definition von drei Verlustfunktionen:

Sprachmodellierungsverlust:

L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

Erhaltung der ursprünglichen QA-Fähigkeit des Modells

Kontrastive Verteilungsverlust:

L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

Antrieb des Modells zum Erlernen der Unterscheidung zwischen Konfidenzverteilungen korrekter und falscher Antworten

Margin-Verlust:

L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

Sicherstellung, dass korrekte Antworten höhere erwartete Konfidenz erhalten

Gesamtverlustfunktion:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

Technische Innovationen

Grundursachenanalyse: Erstmalige Analyse des Übervertrauensproblems aus der Perspektive der Antwortabhängigkeit
Duale Validierung: Kombination von Wahrscheinlichkeitsanalyse und neuronalen Netzwerk-Attributionsmethoden zur Validierung von Hypothesen
Kontrastives Lernen: Nutzung von korrekten/falschen Antwortpaaren für kontrastives Training
Multi-Objective-Optimierung: Ausgleich zwischen Aufgabenleistungserhaltung und Konfidenzkalibrationverbesserung

Experimentelle Einrichtung

Datensätze

Training: TriviaQA (2000 Instanzen)
Evaluierung: TriviaQA, MMLU, SciQ, LogiQA (Test der domänenübergreifenden Generalisierung)

Modelle

LLAMA-3.1-8B-INSTRUCT
MISTRAL-7B-INSTRUCT-V0.3
GEMMA-2-9B-IT

Konfidenzausdruckstypen

ScoreText: {niedrig, mittel, hoch}
ScoreLetter: {E, D, C, B, A}
ScoreNumber: {0, 1, ..., 9}
ScoreFloat: 0.0, 1.0
ScorePercent: {0%, 1%, ..., 100%}

Bewertungsmetriken

ECE (Expected Calibration Error): Durchschnittliche absolute Differenz zwischen vorhergesagter Konfidenz und tatsächlicher Genauigkeit
NCE (Net Calibration Error): Signierter Kalibrierungsfehler, der Verzerrung widerspiegelt
BS (Brier Score): Mittlerer quadratischer Fehler der Wahrscheinlichkeitsvorhersage
AUROC: Fähigkeit zur Konfidenzrangordnung

Vergleichsmethoden

Default: Basis-Prompt-Methode
Self-Consistency: Sampling-basierte Methode
ConfTuner: Aktuelle beste Feinabstimmungsmethode

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf TriviaQA (GEMMA-2-9B-IT):

ECE: Default (21,9%) → ADVICE (6,5%)
NCE: Default (-21,8%) → ADVICE (1,6%)
AUROC: Default (52,7%) → ADVICE (78,5%)

Ergebnisse der domänenübergreifenden Generalisierung zeigen, dass ADVICE auf MMLU, SciQ und LogiQA erhebliche Verbesserungen erzielt, was die Robustheit der Methode demonstriert.

Ablationsstudien

Analyse des Beitrags jeder Verlustfunktion:

L_JSD allein verwendet: ECE von 19,7% auf 4,9% reduziert
L_Margin allein verwendet: ECE von 19,7% auf 3,9% reduziert
Vollständiges ADVICE: Beste datensatzübergreifende Generalisierungsfähigkeit

Wichtigste Erkenntnisse

Validierung der Antwortunabhängigkeit: JSD-Verteilung zeigt ein Potenzgesetz-Muster, wobei die meisten Werte nahe 0 liegen, was die Antwortunabhängigkeitshypothese bestätigt
Aufmerksamkeitsmuster: Aufmerksamkeitsgewichte von Konfidenz zu Antwort sind deutlich niedriger als in anderen Richtungen
Kalibrierungsverbesserung: Zuverlässigkeitsdiagramme zeigen, dass ADVICE feiner abgestufte und genauere Konfidenzverteilungen erzeugt
Verbesserte Antwortbewusstsein: Maskierungsexperimente zeigen, dass ADVICE bei fehlender Antwort angemessen Unsicherheit ausdrückt

Hyperparameter-Analyse

Die Erhöhung von δ_JSD reduziert kontinuierlich die ECE und validiert die Effektivität des kontrastiven Lernziels.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Das Übervertrauen von LLMs stammt hauptsächlich aus dem Antwortunabhängigkeitsproblem
ADVICE verbessert die Konfidenzkalibration effektiv durch Verstärkung der Antwortabhängigkeit
Die Methode hat gute Generalisierungsfähigkeit und praktischen Wert

Einschränkungen

Konzentriert sich hauptsächlich auf Kurztexte QA-Aufgaben; die Anwendbarkeit auf Langtext-Verständnisaufgaben muss noch überprüft werden
Erfordert zusätzliche Datenaufbaukosten zur Generierung von Kontrastantwortpaaren
Die Effektivität bei komplexen Reasoning-Aufgaben muss weiter erforscht werden

Zukünftige Richtungen

Erweiterung auf Aufgaben, die Langzeitkontext-Verständnis und komplexes Reasoning erfordern
Erforschung effizienterer Trainingsdatenkonstruktionsmethoden
Untersuchung der Anwendung auf andere Modalitäten (z.B. Vision-Language-Modelle)

Tiefgreifende Bewertung

Stärken

Hervorragende theoretische Beiträge: Erstmalige systematische Analyse der Grundursachen von Übervertrauen mit wichtigen theoretischen Erkenntnissen
Rigorose Methodologie: Verwendung mehrerer Perspektiven zur Validierung (Wahrscheinlichkeitsanalyse + Attributionsanalyse) mit hoher Glaubwürdigkeit
Umfassende Experimentgestaltung: Umfassende Bewertung über Modelle und Datensätze hinweg mit ausreichenden Ablationsstudien
Signifikanter praktischer Wert: Erhebliche Verbesserung der Konfidenzkalibration bei Beibehaltung der Aufgabenleistung
Starke Generalisierungsfähigkeit: Gute Leistung auf verteilungsexternen Daten, was die Robustheit der Methode zeigt

Mängel

Begrenzte Aufgabenbereiche: Hauptsächlich QA-Aufgaben validiert; die Anwendbarkeit auf andere NLP-Aufgaben ist nicht ausreichend erforscht
Rechnerischer Aufwand: Erfordert zusätzliche Feinabstimmung und Kontrastdatenkonstruktion
Tiefe der theoretischen Analyse: Obwohl das Antwortunabhängigkeitsproblem identifiziert wird, ist die Analyse der tieferen Ursachen nicht ausreichend
Langzeiteffekte: Stabilität des Modells nach Feinabstimmung bei längerfristiger Nutzung nicht bewertet

Auswirkungen

Akademischer Wert: Bietet neue Forschungsperspektiven und Analysrahmen für das Konfidenzschätzungsfeld
Praktische Bedeutung: Wichtig für die Verbesserung der Zuverlässigkeit von LLMs in hochriskanten Anwendungen
Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Open-Source-Code erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

Frage-Antwort-Systeme, die zuverlässige Konfidenzschätzung erfordern
Hochrisiko-Entscheidungsunterstützungssysteme
Unsicherheitsausdrücke in Mensch-Maschine-Kooperationsszenarien
Modellkalibrierung und vertrauenswürdige KI-Anwendungen

Literaturverzeichnis

Das Papier zitiert 68 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich verbalisierter Konfidenz, LLM-Sondierungsmethoden und Kalibrierungstheorie, und bietet eine solide theoretische Grundlage für die Forschung.

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Analyse als auch in praktischen Methoden. Die Autoren identifizieren nicht nur die Grundursachen des Übervertrauens in LLMs, sondern schlagen auch eine effektive Lösung vor. Die Methode ist einfach und effektiv, das Experimentdesign ist rigoros und die Ergebnisse sind überzeugend. Sie hat wichtige Bedeutung für die Förderung vertrauenswürdiger KI und die Verbesserung der Zuverlässigkeit von LLMs in praktischen Anwendungen.