Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic
Abstinence de Réponse Basée sur la Confiance : Améliorer la Fiabilité des LLM via l'Estimation de l'Incertitude Basée sur l'Activation
Cet article propose une méthode d'estimation de la confiance pour les systèmes de génération augmentée par récupération (RAG) qui est fortement corrélée à la justesse des résultats des grands modèles de langage (LLM). L'estimation de la confiance est particulièrement importante dans les domaines à haut risque tels que la finance et la médecine, où le coût d'une réponse incorrecte dépasse largement celui de l'absence de réponse. La méthode étend les approches existantes de quantification de l'incertitude en exploitant les activations brutes du réseau de rétroaction (FFN) comme signaux d'autorégression, évitant ainsi la perte d'information inhérente aux logits de tokens et aux probabilités après projection et normalisation softmax. Les auteurs modélisent la prédiction de confiance comme une tâche de classification de séquences et utilisent la perte de Huber pour régulariser l'entraînement afin d'améliorer la robustesse face aux annotations bruitées. Dans des scénarios réels de support client dans le secteur financier avec des bases de connaissances complexes, la méthode surpasse les baselines solides tout en maintenant une haute précision sous des contraintes de latence strictes.
Dans les scénarios d'application à haut risque, les systèmes RAG devraient refuser de répondre plutôt que de fournir des réponses incorrectes. Cela nécessite une mesure de confiance fortement corrélée à la justesse de la réponse, qui masque les réponses lorsque le score de confiance est inférieur à un seuil.
Besoins des domaines à haut risque: Dans les secteurs strictement réglementés tels que la finance et la médecine, le coût réputationnel et financier de fournir une réponse incorrecte dépasse largement celui de ne pas fournir de réponse
Défis du déploiement en temps réel: Les méthodes existantes fonctionnent mal avec les réponses narratives longues et les exigences de latence en environnement de production
Sources d'incertitude: Principalement l'incertitude épistémique (connaissances insuffisantes du modèle) plutôt que l'incertitude aléatoire (caractère aléatoire inhérent aux données)
Méthodes basées sur l'échantillonnage: Nécessitent plusieurs générations, introduisant des coûts de calcul et une latence excessifs en environnement de production
Méthodes basées sur les probabilités de tokens: Fonctionnent mal avec les réponses longues, un seul mot à faible probabilité pouvant réduire de manière disproportionnée le score global de la séquence
Perte d'information: Les probabilités de tokens perdent des informations de représentation interne riche après projection linéaire et transformation softmax
Proposition d'une méthode d'estimation de confiance basée sur l'activation: Exploitation des activations FFN brutes comme signaux d'autorégression, évitant la perte d'information des logits de tokens
Cadre de classification de séquences: Modélisation de la prédiction de confiance comme une tâche de classification de séquences utilisant LSTM pour traiter les séquences d'activation
Régularisation par perte de Huber: Introduction de la perte de Huber pour améliorer la robustesse face aux annotations bruitées de la phase de récupération
Validation en environnement de production: Vérification de l'efficacité et de la scalabilité de la méthode dans des scénarios réels de support client financier
Optimisation de l'efficacité: Démonstration que l'utilisation uniquement des activations de la couche 16 réduit significativement la latence tout en maintenant la précision
Étant donné une entrée x et une séquence générée s, l'objectif est d'estimer un score de confiance c fortement corrélé à la justesse de la réponse. Lorsque c est inférieur à un seuil, le système refuse d'afficher la réponse.
Innovation Technique: Première exploitation systématique des activations FFN pour l'estimation de confiance en RAG, évitant la perte d'information des probabilités de tokens
Valeur Pratique: Validation dans des scénarios financiers réels avec une forte orientation pratique
Expériences Complètes: Études d'ablation approfondies sous plusieurs dimensions (couches, contexte, latence)
Considérations Techniques: Prise en compte suffisante des contraintes de latence et des exigences de scalabilité en environnement de production
Cet article cite des travaux importants dans plusieurs domaines connexes incluant la quantification de l'incertitude, les systèmes RAG, et l'analyse d'activation, notamment:
Azaria and Mitchell (2023): États internes de LLM et détection de "mensonges"
Bakman et al. (2024): Notation de réponses basée sur le sens
Bao et al. (2024): Modèle d'implication HHEM
Dai et al. (2022): Neurones de connaissances dans les Transformers pré-entraînés
Évaluation Globale: Cet article est techniquement solide et possède une haute valeur pratique, proposant une solution innovante au problème important de l'estimation de confiance dans les systèmes RAG. Bien qu'il présente certaines limitations en termes de généralité et de profondeur théorique, son application réussie dans des scénarios réels et sa validation expérimentale complète lui confèrent une importance académique et industrielle significative.