2025-11-13T09:01:14.934288

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Seo, Lim, Kim
Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
academic

ADVICE: Answer-Dependent Verbalized Confidence Estimation

Grundinformationen

  • Paper-ID: 2510.10913
  • Titel: ADVICE: Answer-Dependent Verbalized Confidence Estimation
  • Autoren: Ki Jung Seo, Sehun Lim, Taeuk Kim (Hanyang University)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.10913

Zusammenfassung

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Ausdrückung von Konfidenz in natürlicher Sprache erzielt und damit Transparenz und Zuverlässigkeit verbessert. Allerdings zeigt ihre Konfidenz häufig ein Übervertrauensproblem, dessen Grundursachen noch nicht ausreichend verstanden sind. Diese Forschung führt eine detaillierte Analyse der inneren Dynamik verbalisierter Konfidenz durch und identifiziert "Antwortunabhängigkeit" als Schlüsselfaktor – das Versagen des Modells, seine Konfidenz basierend auf seiner eigenen Antwort zu modulieren. Um dieses Problem zu beheben, schlagen die Autoren ADVICE (Answer-Dependent Verbalized Confidence Estimation) vor, ein Feinabstimmungsrahmenwerk, das answerbasierte Konfidenzschätzung fördert. Umfangreiche Experimente zeigen, dass ADVICE die Konfidenzkalibration erheblich verbessert, während die Aufgabenleistung erhalten bleibt. Weitere Analysen bestätigen, dass ADVICE die Antwortabhängigkeit verstärkt und eine ausgewogenere und besser kalibrierte Konfidenzverteilung erzeugt.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Große Sprachmodelle zeigen bei der Generierung verbalisierter Konfidenz ein ernstes Übervertrauensproblem, d.h. sie neigen dazu, hohe Konfidenz auszudrücken, unabhängig davon, ob die Antwort korrekt ist oder nicht
  2. Bedeutung: Bei der Bereitstellung von LLMs in hochriskanten Bereichen wie Recht und Medizin ist eine zuverlässige Konfidenzschätzung entscheidend für die Verwaltung der inhärenten Unvollständigkeit des Modells
  3. Einschränkungen bestehender Methoden:
    • Bestehende Forschung konzentriert sich hauptsächlich auf "wie" man Übervertrauen abschwächt, nicht auf "warum" es entsteht
    • Mangel an tiefem Verständnis der inneren Mechanismen verbalisierter Konfidenz
    • Obwohl Prompt-Methoden, Sampling-Methoden und Feinabstimmungsmethoden Verbesserungen bringen, bleiben die Grundursachen unklar

Forschungsmotivation

Die Autoren lassen sich von Konfidenzschätzungstheorien aus der Neurowissenschaft inspirieren und rahmen Konfidenzschätzung als einen Prozess der Evidenzakkumulation nach einer Entscheidung ein. Sie entdecken, dass LLMs bei der Konfidenzschätzung häufig die von ihnen selbst generierten Antwortinformationen ignorieren, was der Definition von Konfidenz widerspricht.

Kernbeiträge

  1. Theoretische Erkenntnisse: Erstmalige systematische Identifizierung und Analyse der "Antwortunabhängigkeit" als Grundursache für Übervertrauen in LLMs
  2. Analysemethode: Vorschlag einer dualen Verifizierungsmethode basierend auf Wahrscheinlichkeitsverteilungsvergleich und Attributionsanalyse zur Quantifizierung der Antwortabhängigkeit
  3. Lösungsansatz: Entwurf des ADVICE-Feinabstimmungsrahmenwerks, das das Modell explizit ermutigt, bei der Berichterstattung von Konfidenz auf seine generierte Antwort zu achten
  4. Empirische Validierung: Validierung der Methode auf mehreren Datensätzen und Modellen, die die Bedeutung von Antwortinformationen bei der Konfidenzschätzung demonstriert
  5. Generalisierungsfähigkeit: Demonstration der starken Generalisierungsfähigkeit der Methode auf verteilungsexterne Aufgaben und ausgewogene Konfidenzverteilungseigenschaften

Methodische Details

Aufgabendefinition

Gegeben eine Frage q und die entsprechende Antwort a sollte die verbalisierte Konfidenz die Wahrscheinlichkeit approximieren, dass die Antwort korrekt ist P(correct|q,a). Eine ideale Konfidenzschätzung sollte:

  • Hohe Konfidenz ausdrücken, wenn die Antwort korrekt ist
  • Niedrige Konfidenz ausdrücken, wenn die Antwort falsch ist
  • Die Konfidenzebene basierend auf dem Antwortinhalt anpassen

Analyse der Antwortunabhängigkeit

1. Wahrscheinlichkeitsverteilungsvergleichsmethode

Durch Vergleich der folgenden zwei Verteilungen wird die Antwortunabhängigkeit validiert:

P_M(C | q, a) ≈ P_M(C | q) ∀a ∈ A_q

wobei die rechte Seite durch die Formel der totalen Wahrscheinlichkeit erweitert wird zu:

P_M(C | q) = Σ_{a'∈A_q} P_M(C | q, a') P_M(a' | q)

Die Jensen-Shannon-Divergenz (JSD) wird verwendet, um die Differenz zwischen den zwei Verteilungen zu quantifizieren. Ein JSD-Wert nahe 0 zeigt an, dass das Modell gegenüber Antwortinformationen unempfindlich ist.

2. Attributionsanalysemethode

  • Attention Rollout: Analyse der Aufmerksamkeitsgewichte der Konfidenzgenerierung auf Antwort-Tokens
  • Integrated Gradients: Berechnung des Beitrags von Antwort-Tokens zur Konfidenzvorhersage

ADVICE-Rahmenwerk-Design

Trainingsdatenkonstruktion

  1. Stichprobenentnahme von 2000 Instanzen aus TriviaQA
  2. Konstruktion von Tripeln (q, a_correct, a_wrong) für jede Frage q
  3. Konstruktion von drei sprachlichen Formatvarianten zur Verbesserung der Generalisierungsfähigkeit

Trainingsziel

Definition von drei Verlustfunktionen:

  1. Sprachmodellierungsverlust:
L_LM = (1/|a_correct|) Σ_{x_t∈a_correct} -log P(x_t | x_<t)

Erhaltung der ursprünglichen QA-Fähigkeit des Modells

  1. Kontrastive Verteilungsverlust:
L_JSD = max(0, δ_JSD - D_JSD(P_correct || P_wrong))

Antrieb des Modells zum Erlernen der Unterscheidung zwischen Konfidenzverteilungen korrekter und falscher Antworten

  1. Margin-Verlust:
L_Margin = max(0, δ_Margin - (μ_correct - μ_wrong))

Sicherstellung, dass korrekte Antworten höhere erwartete Konfidenz erhalten

Gesamtverlustfunktion:

L = λ_LM L_LM + λ_JSD L_JSD + λ_Margin L_Margin

Technische Innovationen

  1. Grundursachenanalyse: Erstmalige Analyse des Übervertrauensproblems aus der Perspektive der Antwortabhängigkeit
  2. Duale Validierung: Kombination von Wahrscheinlichkeitsanalyse und neuronalen Netzwerk-Attributionsmethoden zur Validierung von Hypothesen
  3. Kontrastives Lernen: Nutzung von korrekten/falschen Antwortpaaren für kontrastives Training
  4. Multi-Objective-Optimierung: Ausgleich zwischen Aufgabenleistungserhaltung und Konfidenzkalibrationverbesserung

Experimentelle Einrichtung

Datensätze

  • Training: TriviaQA (2000 Instanzen)
  • Evaluierung: TriviaQA, MMLU, SciQ, LogiQA (Test der domänenübergreifenden Generalisierung)

Modelle

  • LLAMA-3.1-8B-INSTRUCT
  • MISTRAL-7B-INSTRUCT-V0.3
  • GEMMA-2-9B-IT

Konfidenzausdruckstypen

  • ScoreText: {niedrig, mittel, hoch}
  • ScoreLetter: {E, D, C, B, A}
  • ScoreNumber: {0, 1, ..., 9}
  • ScoreFloat: 0.0, 1.0
  • ScorePercent: {0%, 1%, ..., 100%}

Bewertungsmetriken

  • ECE (Expected Calibration Error): Durchschnittliche absolute Differenz zwischen vorhergesagter Konfidenz und tatsächlicher Genauigkeit
  • NCE (Net Calibration Error): Signierter Kalibrierungsfehler, der Verzerrung widerspiegelt
  • BS (Brier Score): Mittlerer quadratischer Fehler der Wahrscheinlichkeitsvorhersage
  • AUROC: Fähigkeit zur Konfidenzrangordnung

Vergleichsmethoden

  • Default: Basis-Prompt-Methode
  • Self-Consistency: Sampling-basierte Methode
  • ConfTuner: Aktuelle beste Feinabstimmungsmethode

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf TriviaQA (GEMMA-2-9B-IT):

  • ECE: Default (21,9%) → ADVICE (6,5%)
  • NCE: Default (-21,8%) → ADVICE (1,6%)
  • AUROC: Default (52,7%) → ADVICE (78,5%)

Ergebnisse der domänenübergreifenden Generalisierung zeigen, dass ADVICE auf MMLU, SciQ und LogiQA erhebliche Verbesserungen erzielt, was die Robustheit der Methode demonstriert.

Ablationsstudien

Analyse des Beitrags jeder Verlustfunktion:

  • L_JSD allein verwendet: ECE von 19,7% auf 4,9% reduziert
  • L_Margin allein verwendet: ECE von 19,7% auf 3,9% reduziert
  • Vollständiges ADVICE: Beste datensatzübergreifende Generalisierungsfähigkeit

Wichtigste Erkenntnisse

  1. Validierung der Antwortunabhängigkeit: JSD-Verteilung zeigt ein Potenzgesetz-Muster, wobei die meisten Werte nahe 0 liegen, was die Antwortunabhängigkeitshypothese bestätigt
  2. Aufmerksamkeitsmuster: Aufmerksamkeitsgewichte von Konfidenz zu Antwort sind deutlich niedriger als in anderen Richtungen
  3. Kalibrierungsverbesserung: Zuverlässigkeitsdiagramme zeigen, dass ADVICE feiner abgestufte und genauere Konfidenzverteilungen erzeugt
  4. Verbesserte Antwortbewusstsein: Maskierungsexperimente zeigen, dass ADVICE bei fehlender Antwort angemessen Unsicherheit ausdrückt

Hyperparameter-Analyse

Die Erhöhung von δ_JSD reduziert kontinuierlich die ECE und validiert die Effektivität des kontrastiven Lernziels.

Verwandte Arbeiten

Forschung zu verbalisierter Konfidenz

  • Lin et al. (2022) führten erstmals verbalisierte Konfidenzschätzung ein
  • Nachfolgende Forschung teilt sich hauptsächlich in drei Kategorien: Prompt-Methoden, Sampling-Methoden und Feinabstimmungsmethoden
  • Diese Forschung füllt die Lücke in der Mechanismusanalyse

LLM-Sondierungsmethoden

  • Aufmerksamkeitsmechanismusanalyse: Attention Rollout, Attention Flow usw.
  • Gradienten-Attributionsmethoden: Integrated Gradients usw.
  • Diese Forschung wendet diese Methoden innovativ auf die Konfidenzanalyse an

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Das Übervertrauen von LLMs stammt hauptsächlich aus dem Antwortunabhängigkeitsproblem
  2. ADVICE verbessert die Konfidenzkalibration effektiv durch Verstärkung der Antwortabhängigkeit
  3. Die Methode hat gute Generalisierungsfähigkeit und praktischen Wert

Einschränkungen

  1. Konzentriert sich hauptsächlich auf Kurztexte QA-Aufgaben; die Anwendbarkeit auf Langtext-Verständnisaufgaben muss noch überprüft werden
  2. Erfordert zusätzliche Datenaufbaukosten zur Generierung von Kontrastantwortpaaren
  3. Die Effektivität bei komplexen Reasoning-Aufgaben muss weiter erforscht werden

Zukünftige Richtungen

  1. Erweiterung auf Aufgaben, die Langzeitkontext-Verständnis und komplexes Reasoning erfordern
  2. Erforschung effizienterer Trainingsdatenkonstruktionsmethoden
  3. Untersuchung der Anwendung auf andere Modalitäten (z.B. Vision-Language-Modelle)

Tiefgreifende Bewertung

Stärken

  1. Hervorragende theoretische Beiträge: Erstmalige systematische Analyse der Grundursachen von Übervertrauen mit wichtigen theoretischen Erkenntnissen
  2. Rigorose Methodologie: Verwendung mehrerer Perspektiven zur Validierung (Wahrscheinlichkeitsanalyse + Attributionsanalyse) mit hoher Glaubwürdigkeit
  3. Umfassende Experimentgestaltung: Umfassende Bewertung über Modelle und Datensätze hinweg mit ausreichenden Ablationsstudien
  4. Signifikanter praktischer Wert: Erhebliche Verbesserung der Konfidenzkalibration bei Beibehaltung der Aufgabenleistung
  5. Starke Generalisierungsfähigkeit: Gute Leistung auf verteilungsexternen Daten, was die Robustheit der Methode zeigt

Mängel

  1. Begrenzte Aufgabenbereiche: Hauptsächlich QA-Aufgaben validiert; die Anwendbarkeit auf andere NLP-Aufgaben ist nicht ausreichend erforscht
  2. Rechnerischer Aufwand: Erfordert zusätzliche Feinabstimmung und Kontrastdatenkonstruktion
  3. Tiefe der theoretischen Analyse: Obwohl das Antwortunabhängigkeitsproblem identifiziert wird, ist die Analyse der tieferen Ursachen nicht ausreichend
  4. Langzeiteffekte: Stabilität des Modells nach Feinabstimmung bei längerfristiger Nutzung nicht bewertet

Auswirkungen

  1. Akademischer Wert: Bietet neue Forschungsperspektiven und Analysrahmen für das Konfidenzschätzungsfeld
  2. Praktische Bedeutung: Wichtig für die Verbesserung der Zuverlässigkeit von LLMs in hochriskanten Anwendungen
  3. Reproduzierbarkeit: Bereitstellung detaillierter Implementierungsdetails und Open-Source-Code erleichtert Reproduktion und Erweiterung

Anwendungsszenarien

  • Frage-Antwort-Systeme, die zuverlässige Konfidenzschätzung erfordern
  • Hochrisiko-Entscheidungsunterstützungssysteme
  • Unsicherheitsausdrücke in Mensch-Maschine-Kooperationsszenarien
  • Modellkalibrierung und vertrauenswürdige KI-Anwendungen

Literaturverzeichnis

Das Papier zitiert 68 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich verbalisierter Konfidenz, LLM-Sondierungsmethoden und Kalibrierungstheorie, und bietet eine solide theoretische Grundlage für die Forschung.


Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Analyse als auch in praktischen Methoden. Die Autoren identifizieren nicht nur die Grundursachen des Übervertrauens in LLMs, sondern schlagen auch eine effektive Lösung vor. Die Methode ist einfach und effektiv, das Experimentdesign ist rigoros und die Ergebnisse sind überzeugend. Sie hat wichtige Bedeutung für die Förderung vertrauenswürdiger KI und die Verbesserung der Zuverlässigkeit von LLMs in praktischen Anwendungen.