Recent progress in large language models (LLMs) has enabled them to express their confidence in natural language, enhancing transparency and reliability. However, their confidence often exhibits overconfidence, the cause of which remains poorly understood. In this work, we conduct a detailed analysis of the dynamics underlying verbalized confidence and identify answer-independence as a key factor, defined as the model's failure to condition confidence on its own answer. To address this, we propose ADVICE (Answer-Dependent Verbalized Confidence Estimation), a fine-tuning framework that facilitates answer-grounded confidence estimation. Extensive experiments show that ADVICE substantially improves confidence calibration while preserving task performance. Further analyses confirm that ADVICE strengthens answer-groundedness, leading to more balanced and well-calibrated confidence distributions. Our findings shed light on the origin of overconfidence and establish a framework for more trustworthy confidence verbalization.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Ausdrückung von Konfidenz in natürlicher Sprache erzielt und damit Transparenz und Zuverlässigkeit verbessert. Allerdings zeigt ihre Konfidenz häufig ein Übervertrauensproblem, dessen Grundursachen noch nicht ausreichend verstanden sind. Diese Forschung führt eine detaillierte Analyse der inneren Dynamik verbalisierter Konfidenz durch und identifiziert "Antwortunabhängigkeit" als Schlüsselfaktor – das Versagen des Modells, seine Konfidenz basierend auf seiner eigenen Antwort zu modulieren. Um dieses Problem zu beheben, schlagen die Autoren ADVICE (Answer-Dependent Verbalized Confidence Estimation) vor, ein Feinabstimmungsrahmenwerk, das answerbasierte Konfidenzschätzung fördert. Umfangreiche Experimente zeigen, dass ADVICE die Konfidenzkalibration erheblich verbessert, während die Aufgabenleistung erhalten bleibt. Weitere Analysen bestätigen, dass ADVICE die Antwortabhängigkeit verstärkt und eine ausgewogenere und besser kalibrierte Konfidenzverteilung erzeugt.
Kernproblem: Große Sprachmodelle zeigen bei der Generierung verbalisierter Konfidenz ein ernstes Übervertrauensproblem, d.h. sie neigen dazu, hohe Konfidenz auszudrücken, unabhängig davon, ob die Antwort korrekt ist oder nicht
Bedeutung: Bei der Bereitstellung von LLMs in hochriskanten Bereichen wie Recht und Medizin ist eine zuverlässige Konfidenzschätzung entscheidend für die Verwaltung der inhärenten Unvollständigkeit des Modells
Einschränkungen bestehender Methoden:
Bestehende Forschung konzentriert sich hauptsächlich auf "wie" man Übervertrauen abschwächt, nicht auf "warum" es entsteht
Mangel an tiefem Verständnis der inneren Mechanismen verbalisierter Konfidenz
Obwohl Prompt-Methoden, Sampling-Methoden und Feinabstimmungsmethoden Verbesserungen bringen, bleiben die Grundursachen unklar
Die Autoren lassen sich von Konfidenzschätzungstheorien aus der Neurowissenschaft inspirieren und rahmen Konfidenzschätzung als einen Prozess der Evidenzakkumulation nach einer Entscheidung ein. Sie entdecken, dass LLMs bei der Konfidenzschätzung häufig die von ihnen selbst generierten Antwortinformationen ignorieren, was der Definition von Konfidenz widerspricht.
Theoretische Erkenntnisse: Erstmalige systematische Identifizierung und Analyse der "Antwortunabhängigkeit" als Grundursache für Übervertrauen in LLMs
Analysemethode: Vorschlag einer dualen Verifizierungsmethode basierend auf Wahrscheinlichkeitsverteilungsvergleich und Attributionsanalyse zur Quantifizierung der Antwortabhängigkeit
Lösungsansatz: Entwurf des ADVICE-Feinabstimmungsrahmenwerks, das das Modell explizit ermutigt, bei der Berichterstattung von Konfidenz auf seine generierte Antwort zu achten
Empirische Validierung: Validierung der Methode auf mehreren Datensätzen und Modellen, die die Bedeutung von Antwortinformationen bei der Konfidenzschätzung demonstriert
Generalisierungsfähigkeit: Demonstration der starken Generalisierungsfähigkeit der Methode auf verteilungsexterne Aufgaben und ausgewogene Konfidenzverteilungseigenschaften
Gegeben eine Frage q und die entsprechende Antwort a sollte die verbalisierte Konfidenz die Wahrscheinlichkeit approximieren, dass die Antwort korrekt ist P(correct|q,a). Eine ideale Konfidenzschätzung sollte:
Hohe Konfidenz ausdrücken, wenn die Antwort korrekt ist
Niedrige Konfidenz ausdrücken, wenn die Antwort falsch ist
Die Konfidenzebene basierend auf dem Antwortinhalt anpassen
Die Jensen-Shannon-Divergenz (JSD) wird verwendet, um die Differenz zwischen den zwei Verteilungen zu quantifizieren. Ein JSD-Wert nahe 0 zeigt an, dass das Modell gegenüber Antwortinformationen unempfindlich ist.
Ergebnisse der domänenübergreifenden Generalisierung zeigen, dass ADVICE auf MMLU, SciQ und LogiQA erhebliche Verbesserungen erzielt, was die Robustheit der Methode demonstriert.
Validierung der Antwortunabhängigkeit: JSD-Verteilung zeigt ein Potenzgesetz-Muster, wobei die meisten Werte nahe 0 liegen, was die Antwortunabhängigkeitshypothese bestätigt
Aufmerksamkeitsmuster: Aufmerksamkeitsgewichte von Konfidenz zu Antwort sind deutlich niedriger als in anderen Richtungen
Kalibrierungsverbesserung: Zuverlässigkeitsdiagramme zeigen, dass ADVICE feiner abgestufte und genauere Konfidenzverteilungen erzeugt
Verbesserte Antwortbewusstsein: Maskierungsexperimente zeigen, dass ADVICE bei fehlender Antwort angemessen Unsicherheit ausdrückt
Das Papier zitiert 68 relevante Referenzen, die wichtige Arbeiten in mehreren Bereichen abdecken, einschließlich verbalisierter Konfidenz, LLM-Sondierungsmethoden und Kalibrierungstheorie, und bietet eine solide theoretische Grundlage für die Forschung.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit wichtigen Beiträgen sowohl in theoretischer Analyse als auch in praktischen Methoden. Die Autoren identifizieren nicht nur die Grundursachen des Übervertrauens in LLMs, sondern schlagen auch eine effektive Lösung vor. Die Methode ist einfach und effektiv, das Experimentdesign ist rigoros und die Ergebnisse sind überzeugend. Sie hat wichtige Bedeutung für die Förderung vertrauenswürdiger KI und die Verbesserung der Zuverlässigkeit von LLMs in praktischen Anwendungen.