2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic

Vertrauensbasierte Antwortenthaltung: Verbesserung der Zuverlässigkeit von LLMs durch aktivierungsbasierte Unsicherheitsschätzung

Grundinformationen

  • Paper-ID: 2510.13750
  • Titel: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
  • Autoren: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: 16. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2510.13750v2

Zusammenfassung

Dieses Paper präsentiert eine Vertrauensschätzungsmethode für Retrieval-Augmented-Generation-(RAG-)Systeme, die eng mit der Korrektheit der Ausgaben großer Sprachmodelle (LLMs) korreliert. Die Vertrauensschätzung ist besonders in hochriskanten Bereichen wie Finanzen und Medizin wichtig, wo die Kosten einer falschen Antwort die Kosten der Verweigerung einer Antwort bei weitem übersteigen. Die Methode erweitert bestehende Verfahren zur Unsicherheitsquantifizierung durch die Nutzung von rohen Feed-Forward-Netzwerk-(FFN-)Aktivierungen als autoregressives Signal und vermeidet damit den inhärenten Informationsverlust von Token-Logits und Wahrscheinlichkeiten nach Projektion und Softmax-Normalisierung. Die Autoren modellieren die Vertrauensvorhersage als Sequenzklassifizierungsaufgabe und verwenden Huber-Verlust-Regularisierung während des Trainings, um die Robustheit gegenüber verrauschter Überwachung zu verbessern. In realen Szenarien der Kundenunterstützung in der Finanzbranche mit komplexen Wissensdatenbanken übertrifft die Methode starke Baselines und behält hohe Genauigkeit unter strikten Latenzeinschränkungen bei.

Forschungshintergrund und Motivation

Problemdefinition

In hochriskanten Anwendungsszenarien sollten RAG-Systeme eher eine Antwort verweigern, als eine fehlerhafte Antwort bereitzustellen. Dies erfordert ein Vertrauensmaß, das stark mit der Korrektheit der Antwort korreliert und Antworten maskiert, wenn der Vertrauenswert unter einem Schwellenwert liegt.

Bedeutung des Problems

  1. Anforderungen in hochriskanten Bereichen: In streng regulierten Bereichen wie Finanzen und Medizin sind die Reputations- und Finanzkosten einer falschen Antwort weitaus höher als die Kosten der Nichtbeantwortung
  2. Herausforderungen bei der Echtzeitbereitstellung: Bestehende Methoden zeigen schlechte Leistung bei langen narrativen Antworten und unter Latenzanforderungen in Produktionsumgebungen
  3. Unsicherheitsquellen: Hauptsächlich epistemische Unsicherheit (unzureichendes Modellwissen) statt aleatische Unsicherheit (inhärente Datenzufälligkeit)

Einschränkungen bestehender Methoden

  1. Stichprobenbasierte Methoden: Erfordern mehrfache Generierung, was in Produktionsumgebungen zu hohen Rechenkosten und Latenz führt
  2. Token-Wahrscheinlichkeitsmethoden: Zeigen schlechte Leistung bei langen Antworten; ein einzelnes Wort mit niedriger Wahrscheinlichkeit kann die Gesamtsequenzpunktzahl unverhältnismäßig senken
  3. Informationsverlust: Token-Wahrscheinlichkeiten verlieren nach linearer Projektion und Softmax-Transformation reichhaltige interne Darstellungsinformationen

Kernbeiträge

  1. Aktivierungsbasierte Vertrauensschätzungsmethode: Nutzt rohe FFN-Aktivierungen als autoregressives Signal und vermeidet Informationsverlust von Token-Logits
  2. Sequenzklassifizierungsrahmen: Modelliert Vertrauensvorhersage als Sequenzklassifizierungsaufgabe mit LSTM zur Verarbeitung von Aktivierungssequenzen
  3. Huber-Verlust-Regularisierung: Führt Huber-Verlust ein, um Robustheit gegenüber verrauschter Überwachung in der Abrufphase zu verbessern
  4. Validierung in Produktionsumgebungen: Verifiziert Wirksamkeit und Skalierbarkeit der Methode in echten Finanzkundensupport-Szenarien
  5. Effizienzoptimierung: Zeigt, dass die Verwendung nur der Aktivierungen der 16. Schicht die Latenz erheblich reduziert und gleichzeitig die Genauigkeit beibehält

Methodische Details

Aufgabendefinition

Gegeben eine Eingabe x und eine generierte Sequenz s besteht das Ziel darin, einen Vertrauenswert c zu schätzen, der stark mit der Korrektheit der Antwort korreliert. Wenn c unter einem Schwellenwert liegt, verweigert das System die Anzeige der Antwort.

Modellarchitektur

Gesamtrahmen

Die Eingabesequenz wird konstruiert als:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

wobei xI (Anweisung), xQ (Frage), xC (Kontext), s (Antwort), xEOS (Endsymbol)

Aktivierungsextraktion

Extrahiert verborgene Zustandsaktivierungen aus der ℓ-ten Transformer-Schicht:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

Behält nur Aktivierungen bei, die dem Antwortteil entsprechen:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

Sequenzklassifizierer

Verwendet LSTM als Sequenzklassifizierer g(Sin), der einen 2-dimensionalen Logit-Vektor z ausgibt, wobei der Vertrauenswert wie folgt berechnet wird:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

Trainingstrategie

Verlustfunktion

Kombiniert Kreuzentropie-Verlust und Huber-Verlust-Regularisierung:

LTotal = LCE + λLHuber

Huber-Verlust wird definiert als:

Hδ(x) = {
  ½x² für |x| ≤ δ
  δ(|x| - ½δ) andernfalls
}

Batch-Level Huber-Verlust:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

Technische Innovationen

  1. Rohe Aktivierungen vs. Token-Wahrscheinlichkeiten: Vermeidet Informationskompression und Verzerrung durch lineare Projektion und Softmax
  2. Autoregressives Sequenzmodellieren: Nutzt LSTM zur Erfassung zeitlicher Abhängigkeiten im Generierungsprozess
  3. Robustheit-Regularisierung: Huber-Verlust ist robuster gegenüber verrauschten Labels, die durch Abruffehler eingeführt werden
  4. Schicht-Optimierung: Experimentelle Bestimmung der optimalen Schicht zur Aktivierungsextraktion

Experimentelle Einrichtung

Datensätze

  • Quelle: Interne Finanzkundensupport-Wissensdatenbank von Capital One
  • Umfang: 8.5k Dokumente, ca. 45k Chunks
  • Merkmale: Halbstrukturierte Dokumente mit komplexer Hierarchie, Tabellen, Listen usw.
  • Annotation: Zweistufiger Validierungsmechanismus durch Echtzeit-Feedback und SME-Expertenbeurteilung

Bewertungsmetriken

  • AUROC: Unterscheidungsfähigkeit des Vertrauenswerts
  • Präzision (P): Genauigkeit angezeigter Antworten
  • Recall (R): Rückrufquote korrekter Antworten
  • ROUGE-L: Bewertung der Antwortqualität
  • Maskierungsrate: Anteil maskierter Antworten
  • Latenz: Durchschnittliche und P99-Antwortzeiten

Vergleichsmethoden

  • Vectara (HHEM2.1): Semantisches Konsistenzmodell basierend auf Implikation
  • VectaraFT: Feinabgestimmte Version von Vectara
  • Logits-basiert: Unsicherheitsmodell basierend auf Token-Logits

Implementierungsdetails

  • Modell: Llama 3.1 8B
  • Aktivierungsschichten: 16. und 32. Schicht
  • Kontextgröße: Top-1, Top-3, Top-5, Full (Top-7)
  • Inferenz-Framework: Hugging Face, vLLM

Experimentelle Ergebnisse

Hauptergebnisse

MethodeAUROC
Vectara0.590
VectaraFT0.634
Logits-basiert0.663
Unser Modell (ohne Kalibrierung)0.741
Unser Modell (mit Kalibrierung)0.772

Analyse des Vertrauensschwellenwerts

SchwellenwertPräzisionRecallROUGE-L (angezeigt/maskiert)Maskierungsrate
0.50.950.730.65/0.5729.9%
0.70.960.650.66/0.5738.6%
0.90.970.520.67/0.5852.0%

Schicht- und Kontextoptimierung

16. Schicht vs. 32. Schicht:

  • Die 16. Schicht reduziert die Latenz erheblich (ca. 42.5%) bei ähnlicher Leistung
  • Bei vollständiger Kontexteinstellung erreicht die 16. Schicht 0.97 Präzision mit 31.3% Maskierungsrate

Latenzanalyse:

FrameworkSchichtKontextDurchschnittliche Latenz (ms)P99 Latenz (ms)
vLLM16Full127267
vLLM32Full206354

Ablationsstudien

  1. Wirkung des Huber-Verlusts: Verbesserung von 0.741 auf 0.772 AUROC
  2. Auswahl der Aktivierungsschicht: 16. Schicht zeigt ähnliche Leistung wie 32. Schicht mit niedrigerer Latenz
  3. Auswirkung der Kontextgröße: Größerer Kontext verbessert Genauigkeit, erhöht aber Latenz

Verwandte Arbeiten

Klassifizierung von Unsicherheitsquantifizierungsmethoden

  1. Stichprobenbasierte Methoden: Messen Konsistenz durch mehrfache Generierung, aber hohe Rechenkosten
  2. Wahrscheinlichkeitsbasierte Methoden: Nutzen Token-Wahrscheinlichkeiten und semantische Entropie, aber begrenzte Wirksamkeit bei langen Texten
  3. Klassifizierungsbasierte Methoden: Wie HHEM usw., vermeiden mehrfache Generierung, erfordern aber Black-Box-Zugriff
  4. Aktivierungsbasierte Methoden: Nutzen interne Darstellungen, Hauptbeitrag dieses Papers

Vorteile dieses Papers

  • Im Vergleich zu Stichprobenmethoden: Einzelner Vorwärtsdurchlauf, niedrigere Latenz
  • Im Vergleich zu Wahrscheinlichkeitsmethoden: Beibehaltung vollständiger interner Darstellung, weniger Informationsverlust
  • Im Vergleich zu Black-Box-Methoden: Nutzung von White-Box-Zugriff für reichhaltigere Signale

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wirksamkeit: Aktivierungsbasierte Methode übertrifft deutlich bestehende Baselines mit AUROC von 0.772
  2. Praktikabilität: Erreicht in Produktionsumgebungen ein gutes Gleichgewicht von 0.95 Präzision und 29.9% Maskierungsrate
  3. Effizienz: Aktivierungen der 16. Schicht reduzieren Latenz erheblich bei Beibehaltung der Leistung
  4. Robustheit: Huber-Verlust verbessert effektiv die Robustheit gegenüber verrauschter Überwachung

Einschränkungen

  1. White-Box-Abhängigkeit: Erfordert Zugriff auf interne Modellaktivierungen, begrenzt Allgemeingültigkeit
  2. Architekturspezifität: Methode ist auf spezifische Modellarchitektur zugeschnitten, Transfer erfordert Neukonfiguration
  3. Zweistufige Verarbeitung: Erfordert zusätzlichen Vorwärtsdurchlauf zur Berechnung des Vertrauenswerts
  4. Datenbeschränkungen: Experimentelle Daten können nicht veröffentlicht werden, beeinträchtigt Reproduzierbarkeit

Zukünftige Richtungen

  1. End-to-End-Integration: Direkte Integration der Vertrauensschätzung in den Generierungsprozess
  2. Architekturunabhängigkeit: Entwicklung universeller Methoden für verschiedene LLM-Architekturen
  3. Rechenoptimierung: Weitere Reduzierung des Rechenaufwands der Vertrauensschätzung
  4. Theoretische Analyse: Tieferes Verständnis der theoretischen Beziehung zwischen Aktivierungsmuster und Vertrauen

Tiefgreifende Bewertung

Stärken

  1. Technische Innovation: Erste systematische Nutzung von FFN-Aktivierungen für RAG-Vertrauensschätzung, vermeidet Informationsverlust von Token-Wahrscheinlichkeiten
  2. Praktischer Wert: Validierung in echten Finanzszenarien mit starker praktischer Ausrichtung
  3. Umfassende Experimente: Gründliche Ablationsstudien aus mehreren Dimensionen (Schicht, Kontext, Latenz)
  4. Engineeringüberlegungen: Ausreichende Berücksichtigung von Latenzeinschränkungen und Skalierbarkeitsanforderungen in Produktionsumgebungen

Schwächen

  1. Allgemeingültigkeitsbeschränkungen: Methode hängt von White-Box-Zugriff und spezifischer Architektur ab, begrenzte Verallgemeinerbarkeit
  2. Theoretische Grundlagen: Mangelnde tiefgreifende theoretische Analyse, warum FFN-Aktivierungen Vertrauen vorhersagen können
  3. Datentransparenz: Proprietärer Datensatz kann nicht veröffentlicht werden, beeinträchtigt Verifizierbarkeit der Ergebnisse
  4. Begrenzte Vergleiche: Unzureichende Vergleiche mit mehr aktuellen Unsicherheitsquantifizierungsmethoden

Auswirkungen

  1. Akademischer Beitrag: Bietet neuen technischen Weg für Vertrauenswürdigkeitsforschung in RAG-Systemen
  2. Industrieller Wert: Bietet praktische Lösung für LLM-Bereitstellung in hochriskanten Bereichen
  3. Methodische Inspiration: Aktivierungsbasierte Methode könnte mehr Forschung zur Nutzung interner Darstellungen inspirieren

Anwendungsszenarien

  1. Hochriskante Bereiche: Finanzen, Medizin, Recht und andere Szenarien mit extremen Genauigkeitsanforderungen
  2. White-Box-Bereitstellung: Unternehmensanwendungen mit Zugriff auf interne Modellparameter
  3. Echtzeitsysteme: Szenarien, die unter strikten Latenzeinschränkungen vertrauenswürdige Antworten erfordern
  4. Spezialisierte Wissensdatenbanken: RAG-Anwendungen mit strukturierten, spezialisierten Wissensdatenbanken

Literaturverzeichnis

Dieses Paper zitiert wichtige Arbeiten aus mehreren verwandten Bereichen wie Unsicherheitsquantifizierung, RAG-Systeme und Aktivierungsanalyse, einschließlich:

  • Azaria und Mitchell (2023): Interne Zustände von LLMs und "Lügen"-Erkennung
  • Bakman et al. (2024): Bedeutungsbasierte Antwortenbeurteilung
  • Bao et al. (2024): HHEM-Implikationsmodell
  • Dai et al. (2022): Wissensneuronen in vortrainierten Transformern

Gesamtbewertung: Dies ist ein technisch solides Paper mit hohem praktischen Wert, das eine innovative Lösung für das wichtige Problem der Vertrauensschätzung in RAG-Systemen bietet. Obwohl es gewisse Einschränkungen in Bezug auf Allgemeingültigkeit und theoretische Tiefe gibt, verleihen seine erfolgreiche Anwendung in echten Szenarien und umfassende experimentelle Validierung ihm bedeutenden akademischen und industriellen Wert.