2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

Vertrauensbasierte Antwortenthaltung: Verbesserung der Zuverlässigkeit von LLMs durch aktivierungsbasierte Unsicherheitsschätzung

Grundinformationen

Paper-ID: 2510.13750
Titel: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Autoren: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: 16. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2510.13750v2

Zusammenfassung

Dieses Paper präsentiert eine Vertrauensschätzungsmethode für Retrieval-Augmented-Generation-(RAG-)Systeme, die eng mit der Korrektheit der Ausgaben großer Sprachmodelle (LLMs) korreliert. Die Vertrauensschätzung ist besonders in hochriskanten Bereichen wie Finanzen und Medizin wichtig, wo die Kosten einer falschen Antwort die Kosten der Verweigerung einer Antwort bei weitem übersteigen. Die Methode erweitert bestehende Verfahren zur Unsicherheitsquantifizierung durch die Nutzung von rohen Feed-Forward-Netzwerk-(FFN-)Aktivierungen als autoregressives Signal und vermeidet damit den inhärenten Informationsverlust von Token-Logits und Wahrscheinlichkeiten nach Projektion und Softmax-Normalisierung. Die Autoren modellieren die Vertrauensvorhersage als Sequenzklassifizierungsaufgabe und verwenden Huber-Verlust-Regularisierung während des Trainings, um die Robustheit gegenüber verrauschter Überwachung zu verbessern. In realen Szenarien der Kundenunterstützung in der Finanzbranche mit komplexen Wissensdatenbanken übertrifft die Methode starke Baselines und behält hohe Genauigkeit unter strikten Latenzeinschränkungen bei.

Forschungshintergrund und Motivation

Problemdefinition

In hochriskanten Anwendungsszenarien sollten RAG-Systeme eher eine Antwort verweigern, als eine fehlerhafte Antwort bereitzustellen. Dies erfordert ein Vertrauensmaß, das stark mit der Korrektheit der Antwort korreliert und Antworten maskiert, wenn der Vertrauenswert unter einem Schwellenwert liegt.

Bedeutung des Problems

Anforderungen in hochriskanten Bereichen: In streng regulierten Bereichen wie Finanzen und Medizin sind die Reputations- und Finanzkosten einer falschen Antwort weitaus höher als die Kosten der Nichtbeantwortung
Herausforderungen bei der Echtzeitbereitstellung: Bestehende Methoden zeigen schlechte Leistung bei langen narrativen Antworten und unter Latenzanforderungen in Produktionsumgebungen
Unsicherheitsquellen: Hauptsächlich epistemische Unsicherheit (unzureichendes Modellwissen) statt aleatische Unsicherheit (inhärente Datenzufälligkeit)

Einschränkungen bestehender Methoden

Stichprobenbasierte Methoden: Erfordern mehrfache Generierung, was in Produktionsumgebungen zu hohen Rechenkosten und Latenz führt
Token-Wahrscheinlichkeitsmethoden: Zeigen schlechte Leistung bei langen Antworten; ein einzelnes Wort mit niedriger Wahrscheinlichkeit kann die Gesamtsequenzpunktzahl unverhältnismäßig senken
Informationsverlust: Token-Wahrscheinlichkeiten verlieren nach linearer Projektion und Softmax-Transformation reichhaltige interne Darstellungsinformationen

Kernbeiträge

Aktivierungsbasierte Vertrauensschätzungsmethode: Nutzt rohe FFN-Aktivierungen als autoregressives Signal und vermeidet Informationsverlust von Token-Logits
Sequenzklassifizierungsrahmen: Modelliert Vertrauensvorhersage als Sequenzklassifizierungsaufgabe mit LSTM zur Verarbeitung von Aktivierungssequenzen
Huber-Verlust-Regularisierung: Führt Huber-Verlust ein, um Robustheit gegenüber verrauschter Überwachung in der Abrufphase zu verbessern
Validierung in Produktionsumgebungen: Verifiziert Wirksamkeit und Skalierbarkeit der Methode in echten Finanzkundensupport-Szenarien
Effizienzoptimierung: Zeigt, dass die Verwendung nur der Aktivierungen der 16. Schicht die Latenz erheblich reduziert und gleichzeitig die Genauigkeit beibehält

Methodische Details

Aufgabendefinition

Gegeben eine Eingabe x und eine generierte Sequenz s besteht das Ziel darin, einen Vertrauenswert c zu schätzen, der stark mit der Korrektheit der Antwort korreliert. Wenn c unter einem Schwellenwert liegt, verweigert das System die Anzeige der Antwort.

Modellarchitektur

Gesamtrahmen

Die Eingabesequenz wird konstruiert als:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

wobei xI (Anweisung), xQ (Frage), xC (Kontext), s (Antwort), xEOS (Endsymbol)

Aktivierungsextraktion

Extrahiert verborgene Zustandsaktivierungen aus der ℓ-ten Transformer-Schicht:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

Behält nur Aktivierungen bei, die dem Antwortteil entsprechen:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

Sequenzklassifizierer

Verwendet LSTM als Sequenzklassifizierer g(Sin), der einen 2-dimensionalen Logit-Vektor z ausgibt, wobei der Vertrauenswert wie folgt berechnet wird:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

Trainingstrategie

Verlustfunktion

Kombiniert Kreuzentropie-Verlust und Huber-Verlust-Regularisierung:

LTotal = LCE + λLHuber

Huber-Verlust wird definiert als:

Hδ(x) = {
  ½x² für |x| ≤ δ
  δ(|x| - ½δ) andernfalls
}

Batch-Level Huber-Verlust:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

Technische Innovationen

Rohe Aktivierungen vs. Token-Wahrscheinlichkeiten: Vermeidet Informationskompression und Verzerrung durch lineare Projektion und Softmax
Autoregressives Sequenzmodellieren: Nutzt LSTM zur Erfassung zeitlicher Abhängigkeiten im Generierungsprozess
Robustheit-Regularisierung: Huber-Verlust ist robuster gegenüber verrauschten Labels, die durch Abruffehler eingeführt werden
Schicht-Optimierung: Experimentelle Bestimmung der optimalen Schicht zur Aktivierungsextraktion

Experimentelle Einrichtung

Datensätze

Quelle: Interne Finanzkundensupport-Wissensdatenbank von Capital One
Umfang: 8.5k Dokumente, ca. 45k Chunks
Merkmale: Halbstrukturierte Dokumente mit komplexer Hierarchie, Tabellen, Listen usw.
Annotation: Zweistufiger Validierungsmechanismus durch Echtzeit-Feedback und SME-Expertenbeurteilung

Bewertungsmetriken

AUROC: Unterscheidungsfähigkeit des Vertrauenswerts
Präzision (P): Genauigkeit angezeigter Antworten
Recall (R): Rückrufquote korrekter Antworten
ROUGE-L: Bewertung der Antwortqualität
Maskierungsrate: Anteil maskierter Antworten
Latenz: Durchschnittliche und P99-Antwortzeiten

Vergleichsmethoden

Vectara (HHEM2.1): Semantisches Konsistenzmodell basierend auf Implikation
VectaraFT: Feinabgestimmte Version von Vectara
Logits-basiert: Unsicherheitsmodell basierend auf Token-Logits

Implementierungsdetails

Modell: Llama 3.1 8B
Aktivierungsschichten: 16. und 32. Schicht
Kontextgröße: Top-1, Top-3, Top-5, Full (Top-7)
Inferenz-Framework: Hugging Face, vLLM

Experimentelle Ergebnisse

Hauptergebnisse

Methode	AUROC
Vectara	0.590
VectaraFT	0.634
Logits-basiert	0.663
Unser Modell (ohne Kalibrierung)	0.741
Unser Modell (mit Kalibrierung)	0.772

Analyse des Vertrauensschwellenwerts

Schwellenwert	Präzision	Recall	ROUGE-L (angezeigt/maskiert)	Maskierungsrate
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

Schicht- und Kontextoptimierung

16. Schicht vs. 32. Schicht:

Die 16. Schicht reduziert die Latenz erheblich (ca. 42.5%) bei ähnlicher Leistung
Bei vollständiger Kontexteinstellung erreicht die 16. Schicht 0.97 Präzision mit 31.3% Maskierungsrate

Latenzanalyse:

Framework	Schicht	Kontext	Durchschnittliche Latenz (ms)	P99 Latenz (ms)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

Ablationsstudien

Wirkung des Huber-Verlusts: Verbesserung von 0.741 auf 0.772 AUROC
Auswahl der Aktivierungsschicht: 16. Schicht zeigt ähnliche Leistung wie 32. Schicht mit niedrigerer Latenz
Auswirkung der Kontextgröße: Größerer Kontext verbessert Genauigkeit, erhöht aber Latenz

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Wirksamkeit: Aktivierungsbasierte Methode übertrifft deutlich bestehende Baselines mit AUROC von 0.772
Praktikabilität: Erreicht in Produktionsumgebungen ein gutes Gleichgewicht von 0.95 Präzision und 29.9% Maskierungsrate
Effizienz: Aktivierungen der 16. Schicht reduzieren Latenz erheblich bei Beibehaltung der Leistung
Robustheit: Huber-Verlust verbessert effektiv die Robustheit gegenüber verrauschter Überwachung

Einschränkungen

White-Box-Abhängigkeit: Erfordert Zugriff auf interne Modellaktivierungen, begrenzt Allgemeingültigkeit
Architekturspezifität: Methode ist auf spezifische Modellarchitektur zugeschnitten, Transfer erfordert Neukonfiguration
Zweistufige Verarbeitung: Erfordert zusätzlichen Vorwärtsdurchlauf zur Berechnung des Vertrauenswerts
Datenbeschränkungen: Experimentelle Daten können nicht veröffentlicht werden, beeinträchtigt Reproduzierbarkeit

Zukünftige Richtungen

End-to-End-Integration: Direkte Integration der Vertrauensschätzung in den Generierungsprozess
Architekturunabhängigkeit: Entwicklung universeller Methoden für verschiedene LLM-Architekturen
Rechenoptimierung: Weitere Reduzierung des Rechenaufwands der Vertrauensschätzung
Theoretische Analyse: Tieferes Verständnis der theoretischen Beziehung zwischen Aktivierungsmuster und Vertrauen

Tiefgreifende Bewertung

Stärken

Technische Innovation: Erste systematische Nutzung von FFN-Aktivierungen für RAG-Vertrauensschätzung, vermeidet Informationsverlust von Token-Wahrscheinlichkeiten
Praktischer Wert: Validierung in echten Finanzszenarien mit starker praktischer Ausrichtung
Umfassende Experimente: Gründliche Ablationsstudien aus mehreren Dimensionen (Schicht, Kontext, Latenz)
Engineeringüberlegungen: Ausreichende Berücksichtigung von Latenzeinschränkungen und Skalierbarkeitsanforderungen in Produktionsumgebungen

Schwächen

Allgemeingültigkeitsbeschränkungen: Methode hängt von White-Box-Zugriff und spezifischer Architektur ab, begrenzte Verallgemeinerbarkeit
Theoretische Grundlagen: Mangelnde tiefgreifende theoretische Analyse, warum FFN-Aktivierungen Vertrauen vorhersagen können
Datentransparenz: Proprietärer Datensatz kann nicht veröffentlicht werden, beeinträchtigt Verifizierbarkeit der Ergebnisse
Begrenzte Vergleiche: Unzureichende Vergleiche mit mehr aktuellen Unsicherheitsquantifizierungsmethoden

Auswirkungen

Akademischer Beitrag: Bietet neuen technischen Weg für Vertrauenswürdigkeitsforschung in RAG-Systemen
Industrieller Wert: Bietet praktische Lösung für LLM-Bereitstellung in hochriskanten Bereichen
Methodische Inspiration: Aktivierungsbasierte Methode könnte mehr Forschung zur Nutzung interner Darstellungen inspirieren

Anwendungsszenarien

Hochriskante Bereiche: Finanzen, Medizin, Recht und andere Szenarien mit extremen Genauigkeitsanforderungen
White-Box-Bereitstellung: Unternehmensanwendungen mit Zugriff auf interne Modellparameter
Echtzeitsysteme: Szenarien, die unter strikten Latenzeinschränkungen vertrauenswürdige Antworten erfordern
Spezialisierte Wissensdatenbanken: RAG-Anwendungen mit strukturierten, spezialisierten Wissensdatenbanken

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten aus mehreren verwandten Bereichen wie Unsicherheitsquantifizierung, RAG-Systeme und Aktivierungsanalyse, einschließlich:

Azaria und Mitchell (2023): Interne Zustände von LLMs und "Lügen"-Erkennung
Bakman et al. (2024): Bedeutungsbasierte Antwortenbeurteilung
Bao et al. (2024): HHEM-Implikationsmodell
Dai et al. (2022): Wissensneuronen in vortrainierten Transformern

Gesamtbewertung: Dies ist ein technisch solides Paper mit hohem praktischen Wert, das eine innovative Lösung für das wichtige Problem der Vertrauensschätzung in RAG-Systemen bietet. Obwohl es gewisse Einschränkungen in Bezug auf Allgemeingültigkeit und theoretische Tiefe gibt, verleihen seine erfolgreiche Anwendung in echten Szenarien und umfassende experimentelle Validierung ihm bedeutenden akademischen und industriellen Wert.