2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.

We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.

academic

Abstinence de Réponse Basée sur la Confiance : Améliorer la Fiabilité des LLM via l'Estimation de l'Incertitude Basée sur l'Activation

Informations Fondamentales

ID de l'article: 2510.13750
Titre: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
Auteurs: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
Classification: cs.CL (Linguistique Informatique)
Date de publication: 16 octobre 2025 (arXiv v2)
Lien de l'article: https://arxiv.org/abs/2510.13750v2

Résumé

Cet article propose une méthode d'estimation de la confiance pour les systèmes de génération augmentée par récupération (RAG) qui est fortement corrélée à la justesse des résultats des grands modèles de langage (LLM). L'estimation de la confiance est particulièrement importante dans les domaines à haut risque tels que la finance et la médecine, où le coût d'une réponse incorrecte dépasse largement celui de l'absence de réponse. La méthode étend les approches existantes de quantification de l'incertitude en exploitant les activations brutes du réseau de rétroaction (FFN) comme signaux d'autorégression, évitant ainsi la perte d'information inhérente aux logits de tokens et aux probabilités après projection et normalisation softmax. Les auteurs modélisent la prédiction de confiance comme une tâche de classification de séquences et utilisent la perte de Huber pour régulariser l'entraînement afin d'améliorer la robustesse face aux annotations bruitées. Dans des scénarios réels de support client dans le secteur financier avec des bases de connaissances complexes, la méthode surpasse les baselines solides tout en maintenant une haute précision sous des contraintes de latence strictes.

Contexte et Motivation de la Recherche

Définition du Problème

Dans les scénarios d'application à haut risque, les systèmes RAG devraient refuser de répondre plutôt que de fournir des réponses incorrectes. Cela nécessite une mesure de confiance fortement corrélée à la justesse de la réponse, qui masque les réponses lorsque le score de confiance est inférieur à un seuil.

Importance du Problème

Besoins des domaines à haut risque: Dans les secteurs strictement réglementés tels que la finance et la médecine, le coût réputationnel et financier de fournir une réponse incorrecte dépasse largement celui de ne pas fournir de réponse
Défis du déploiement en temps réel: Les méthodes existantes fonctionnent mal avec les réponses narratives longues et les exigences de latence en environnement de production
Sources d'incertitude: Principalement l'incertitude épistémique (connaissances insuffisantes du modèle) plutôt que l'incertitude aléatoire (caractère aléatoire inhérent aux données)

Limitations des Approches Existantes

Méthodes basées sur l'échantillonnage: Nécessitent plusieurs générations, introduisant des coûts de calcul et une latence excessifs en environnement de production
Méthodes basées sur les probabilités de tokens: Fonctionnent mal avec les réponses longues, un seul mot à faible probabilité pouvant réduire de manière disproportionnée le score global de la séquence
Perte d'information: Les probabilités de tokens perdent des informations de représentation interne riche après projection linéaire et transformation softmax

Contributions Principales

Proposition d'une méthode d'estimation de confiance basée sur l'activation: Exploitation des activations FFN brutes comme signaux d'autorégression, évitant la perte d'information des logits de tokens
Cadre de classification de séquences: Modélisation de la prédiction de confiance comme une tâche de classification de séquences utilisant LSTM pour traiter les séquences d'activation
Régularisation par perte de Huber: Introduction de la perte de Huber pour améliorer la robustesse face aux annotations bruitées de la phase de récupération
Validation en environnement de production: Vérification de l'efficacité et de la scalabilité de la méthode dans des scénarios réels de support client financier
Optimisation de l'efficacité: Démonstration que l'utilisation uniquement des activations de la couche 16 réduit significativement la latence tout en maintenant la précision

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une entrée x et une séquence générée s, l'objectif est d'estimer un score de confiance c fortement corrélé à la justesse de la réponse. Lorsque c est inférieur à un seuil, le système refuse d'afficher la réponse.

Architecture du Modèle

Cadre Global

La construction de la séquence d'entrée est:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

où xI (instruction), xQ (question), xC (contexte), s (réponse), xEOS (symbole de fin)

Extraction d'Activation

Extraction des activations d'état caché de la couche ℓ du Transformer:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

Conservation uniquement des activations correspondant à la partie réponse:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

Classificateur de Séquences

Utilisation d'un LSTM comme classificateur de séquences g(Sin), produisant un vecteur logit bidimensionnel z, le score de confiance étant:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

Stratégie d'Entraînement

Fonction de Perte

Combinaison de la perte d'entropie croisée et de la régularisation par perte de Huber:

LTotal = LCE + λLHuber

La perte de Huber est définie comme:

Hδ(x) = {
  ½x² pour |x| ≤ δ
  δ(|x| - ½δ) sinon
}

Perte de Huber au niveau du batch:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

Points d'Innovation Technique

Activations brutes vs Probabilités de tokens: Évite la compression et la distorsion d'information causées par la projection linéaire et softmax
Modélisation de séquences autorégressive: Utilisation de LSTM pour capturer les dépendances temporelles dans le processus de génération
Régularisation de robustesse: La perte de Huber est plus robuste face aux étiquettes bruitées introduites par les erreurs de récupération
Optimisation au niveau des couches: Détermination expérimentale de la couche optimale pour l'extraction d'activation

Configuration Expérimentale

Ensemble de Données

Source: Base de connaissances interne de support client financier de Capital One
Échelle: 8,5k documents, environ 45k chunks
Caractéristiques: Documents semi-structurés contenant des structures hiérarchiques complexes, des tableaux, des listes, etc.
Annotation: Mécanisme de validation à deux niveaux via retour en temps réel et évaluation d'experts SME

Métriques d'Évaluation

AUROC: Capacité discriminante du score de confiance
Précision (P): Taux de précision des réponses affichées
Rappel (R): Taux de rappel des réponses correctes
ROUGE-L: Évaluation de la qualité des réponses
Taux de Masquage: Proportion de réponses masquées
Latence: Temps de réponse moyen et P99

Méthodes de Comparaison

Vectara (HHEM2.1): Modèle de cohérence sémantique basé sur l'implication
VectaraFT: Version fine-tunée de Vectara
Basée sur Logits: Modèle d'incertitude basé sur les logits de tokens

Détails d'Implémentation

Modèle: Llama 3.1 8B
Couches d'activation: Couches 16 et 32
Taille du contexte: Top-1, Top-3, Top-5, Full (Top-7)
Framework d'inférence: Hugging Face, vLLM

Résultats Expérimentaux

Résultats Principaux

Méthode	AUROC
Vectara	0.590
VectaraFT	0.634
Basée sur Logits	0.663
Notre Modèle (sans calib.)	0.741
Notre Modèle (avec calib.)	0.772

Analyse du Seuil de Confiance

Seuil	Précision	Rappel	ROUGE-L (Affichée/Masquée)	Taux de Masquage
0.5	0.95	0.73	0.65/0.57	29.9%
0.7	0.96	0.65	0.66/0.57	38.6%
0.9	0.97	0.52	0.67/0.58	52.0%

Optimisation des Couches et du Contexte

Couche 16 vs Couche 32:

La couche 16 réduit significativement la latence (environ 42,5%) tout en maintenant des performances similaires
Avec le contexte Full, la couche 16 atteint une précision de 0.97 avec un taux de masquage de 31.3%

Analyse de Latence:

Framework	Couche	Contexte	Latence Moyenne (ms)	Latence P99 (ms)
vLLM	16	Full	127	267
vLLM	32	Full	206	354

Études d'Ablation

Rôle de la perte de Huber: Amélioration de 0.741 à 0.772 AUROC
Sélection de la couche d'activation: La couche 16 offre des performances proches de la couche 32 avec une latence plus faible
Impact de la taille du contexte: Un contexte plus large améliore la précision mais augmente la latence

Travaux Connexes

Classification des Méthodes de Quantification de l'Incertitude

Méthodes basées sur l'échantillonnage: Mesure de la cohérence par plusieurs générations, mais coût de calcul élevé
Méthodes basées sur les probabilités: Exploitation des probabilités de tokens et de l'entropie sémantique, mais efficacité limitée sur textes longs
Méthodes basées sur la classification: Comme HHEM, évitant les générations multiples mais dépendant de l'accès en boîte noire
Méthodes basées sur l'activation: Exploitation des représentations internes, direction principale de contribution de cet article

Avantages de Cet Article

Par rapport aux méthodes d'échantillonnage: Propagation avant unique, latence plus faible
Par rapport aux méthodes probabilistes: Préservation de la représentation interne complète, moins de perte d'information
Par rapport aux méthodes en boîte noire: Accès en boîte blanche pour obtenir des signaux plus riches

Conclusion et Discussion

Conclusions Principales

Efficacité: La méthode basée sur l'activation surpasse significativement les baselines existants avec un AUROC de 0.772
Praticité: Réalisation d'un bon équilibre entre précision de 0.95 et taux de masquage de 29.9% en environnement de production
Efficacité: Les activations de la couche 16 réduisent considérablement la latence tout en maintenant les performances
Robustesse: La perte de Huber améliore efficacement la robustesse face aux annotations bruitées

Limitations

Dépendance en Boîte Blanche: Nécessite l'accès aux activations internes du modèle, limitant la généralité
Spécificité Architecturale: La méthode est adaptée à une architecture de modèle spécifique, nécessitant une reconfiguration pour la transférabilité
Traitement en Deux Étapes: Nécessite une propagation avant supplémentaire pour calculer le score de confiance
Limitations des Données: Les données expérimentales ne peuvent pas être rendues publiques, affectant la reproductibilité

Directions Futures

Intégration Bout à Bout: Intégration directe de l'estimation de confiance dans le processus de génération
Indépendance Architecturale: Développement de méthodes génériques applicables à plusieurs architectures de LLM
Optimisation Computationnelle: Réduction supplémentaire des coûts de calcul de l'estimation de confiance
Analyse Théorique: Compréhension approfondie de la relation théorique entre les motifs d'activation et la confiance

Évaluation Approfondie

Points Forts

Innovation Technique: Première exploitation systématique des activations FFN pour l'estimation de confiance en RAG, évitant la perte d'information des probabilités de tokens
Valeur Pratique: Validation dans des scénarios financiers réels avec une forte orientation pratique
Expériences Complètes: Études d'ablation approfondies sous plusieurs dimensions (couches, contexte, latence)
Considérations Techniques: Prise en compte suffisante des contraintes de latence et des exigences de scalabilité en environnement de production

Insuffisances

Limitations de Généralité: La méthode dépend de l'accès en boîte blanche et d'une architecture spécifique, limitant la diffusion
Fondements Théoriques: Manque d'analyse théorique approfondie sur pourquoi les activations FFN peuvent prédire la confiance
Transparence des Données: L'ensemble de données propriétaire ne peut pas être rendu public, affectant la vérifiabilité des résultats
Comparaisons Limitées: Comparaisons insuffisantes avec d'autres méthodes récentes de quantification de l'incertitude

Impact

Contribution Académique: Fournit une nouvelle voie technique pour la recherche sur la fiabilité des systèmes RAG
Valeur Industrielle: Fournit une solution pratique pour le déploiement de LLM dans les domaines à haut risque
Inspiration Méthodologique: L'approche basée sur l'activation peut inspirer davantage de recherches sur l'exploitation des représentations internes

Scénarios Applicables

Domaines à Haut Risque: Scénarios financiers, médicaux, juridiques et autres nécessitant une exigence extrême de précision
Déploiement en Boîte Blanche: Applications d'entreprise avec accès aux paramètres internes du modèle
Systèmes Temps Réel: Scénarios nécessitant des réponses fiables sous contraintes de latence strictes
Bases de Connaissances Spécialisées: Applications RAG avec bases de connaissances structurées et spécialisées

Références

Cet article cite des travaux importants dans plusieurs domaines connexes incluant la quantification de l'incertitude, les systèmes RAG, et l'analyse d'activation, notamment:

Azaria and Mitchell (2023): États internes de LLM et détection de "mensonges"
Bakman et al. (2024): Notation de réponses basée sur le sens
Bao et al. (2024): Modèle d'implication HHEM
Dai et al. (2022): Neurones de connaissances dans les Transformers pré-entraînés

Évaluation Globale: Cet article est techniquement solide et possède une haute valeur pratique, proposant une solution innovante au problème important de l'estimation de confiance dans les systèmes RAG. Bien qu'il présente certaines limitations en termes de généralité et de profondeur théorique, son application réussie dans des scénarios réels et sa validation expérimentale complète lui confèrent une importance académique et industrielle significative.