2025-11-18T04:19:13.869286

Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation

Huang, Datla, Zhu et al.
We propose a method for confidence estimation in retrieval-augmented generation (RAG) systems that aligns closely with the correctness of large language model (LLM) outputs. Confidence estimation is especially critical in high-stakes domains such as finance and healthcare, where the cost of an incorrect answer outweighs that of not answering the question. Our approach extends prior uncertainty quantification methods by leveraging raw feed-forward network (FFN) activations as auto-regressive signals, avoiding the information loss inherent in token logits and probabilities after projection and softmax normalization. We model confidence prediction as a sequence classification task, and regularize training with a Huber loss term to improve robustness against noisy supervision. Applied in a real-world financial industry customer-support setting with complex knowledge bases, our method outperforms strong baselines and maintains high accuracy under strict latency constraints. Experiments on Llama 3.1 8B model show that using activations from only the 16th layer preserves accuracy while reducing response latency. Our results demonstrate that activation-based confidence modeling offers a scalable, architecture-aware path toward trustworthy RAG deployment.
academic

Abstinence de Réponse Basée sur la Confiance : Améliorer la Fiabilité des LLM via l'Estimation de l'Incertitude Basée sur l'Activation

Informations Fondamentales

  • ID de l'article: 2510.13750
  • Titre: Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation
  • Auteurs: Zhiqi Huang, Vivek Datla, Chenyang Zhu, Alfy Samuel, Daben Liu, Anoop Kumar, Ritesh Soni (Capital One)
  • Classification: cs.CL (Linguistique Informatique)
  • Date de publication: 16 octobre 2025 (arXiv v2)
  • Lien de l'article: https://arxiv.org/abs/2510.13750v2

Résumé

Cet article propose une méthode d'estimation de la confiance pour les systèmes de génération augmentée par récupération (RAG) qui est fortement corrélée à la justesse des résultats des grands modèles de langage (LLM). L'estimation de la confiance est particulièrement importante dans les domaines à haut risque tels que la finance et la médecine, où le coût d'une réponse incorrecte dépasse largement celui de l'absence de réponse. La méthode étend les approches existantes de quantification de l'incertitude en exploitant les activations brutes du réseau de rétroaction (FFN) comme signaux d'autorégression, évitant ainsi la perte d'information inhérente aux logits de tokens et aux probabilités après projection et normalisation softmax. Les auteurs modélisent la prédiction de confiance comme une tâche de classification de séquences et utilisent la perte de Huber pour régulariser l'entraînement afin d'améliorer la robustesse face aux annotations bruitées. Dans des scénarios réels de support client dans le secteur financier avec des bases de connaissances complexes, la méthode surpasse les baselines solides tout en maintenant une haute précision sous des contraintes de latence strictes.

Contexte et Motivation de la Recherche

Définition du Problème

Dans les scénarios d'application à haut risque, les systèmes RAG devraient refuser de répondre plutôt que de fournir des réponses incorrectes. Cela nécessite une mesure de confiance fortement corrélée à la justesse de la réponse, qui masque les réponses lorsque le score de confiance est inférieur à un seuil.

Importance du Problème

  1. Besoins des domaines à haut risque: Dans les secteurs strictement réglementés tels que la finance et la médecine, le coût réputationnel et financier de fournir une réponse incorrecte dépasse largement celui de ne pas fournir de réponse
  2. Défis du déploiement en temps réel: Les méthodes existantes fonctionnent mal avec les réponses narratives longues et les exigences de latence en environnement de production
  3. Sources d'incertitude: Principalement l'incertitude épistémique (connaissances insuffisantes du modèle) plutôt que l'incertitude aléatoire (caractère aléatoire inhérent aux données)

Limitations des Approches Existantes

  1. Méthodes basées sur l'échantillonnage: Nécessitent plusieurs générations, introduisant des coûts de calcul et une latence excessifs en environnement de production
  2. Méthodes basées sur les probabilités de tokens: Fonctionnent mal avec les réponses longues, un seul mot à faible probabilité pouvant réduire de manière disproportionnée le score global de la séquence
  3. Perte d'information: Les probabilités de tokens perdent des informations de représentation interne riche après projection linéaire et transformation softmax

Contributions Principales

  1. Proposition d'une méthode d'estimation de confiance basée sur l'activation: Exploitation des activations FFN brutes comme signaux d'autorégression, évitant la perte d'information des logits de tokens
  2. Cadre de classification de séquences: Modélisation de la prédiction de confiance comme une tâche de classification de séquences utilisant LSTM pour traiter les séquences d'activation
  3. Régularisation par perte de Huber: Introduction de la perte de Huber pour améliorer la robustesse face aux annotations bruitées de la phase de récupération
  4. Validation en environnement de production: Vérification de l'efficacité et de la scalabilité de la méthode dans des scénarios réels de support client financier
  5. Optimisation de l'efficacité: Démonstration que l'utilisation uniquement des activations de la couche 16 réduit significativement la latence tout en maintenant la précision

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une entrée x et une séquence générée s, l'objectif est d'estimer un score de confiance c fortement corrélé à la justesse de la réponse. Lorsque c est inférieur à un seuil, le système refuse d'afficher la réponse.

Architecture du Modèle

Cadre Global

La construction de la séquence d'entrée est:

x = xI ⊕ xQ ⊕ xC ⊕ s ⊕ xEOS

où xI (instruction), xQ (question), xC (contexte), s (réponse), xEOS (symbole de fin)

Extraction d'Activation

Extraction des activations d'état caché de la couche ℓ du Transformer:

Hℓ = (h¹ℓ, ..., h^(T+L+1)ℓ)

Conservation uniquement des activations correspondant à la partie réponse:

Sin = (h^(T+1)ℓ, h^(T+2)ℓ, ..., h^(T+L+1)ℓ)

Classificateur de Séquences

Utilisation d'un LSTM comme classificateur de séquences g(Sin), produisant un vecteur logit bidimensionnel z, le score de confiance étant:

c = softmax(z)₁ = e^z₁/(e^z₀ + e^z₁)

Stratégie d'Entraînement

Fonction de Perte

Combinaison de la perte d'entropie croisée et de la régularisation par perte de Huber:

LTotal = LCE + λLHuber

La perte de Huber est définie comme:

Hδ(x) = {
  ½x² pour |x| ≤ δ
  δ(|x| - ½δ) sinon
}

Perte de Huber au niveau du batch:

LHuber = Hδ(1/|B| Σci - 1/|B| ΣI(ŷi = yi))

Points d'Innovation Technique

  1. Activations brutes vs Probabilités de tokens: Évite la compression et la distorsion d'information causées par la projection linéaire et softmax
  2. Modélisation de séquences autorégressive: Utilisation de LSTM pour capturer les dépendances temporelles dans le processus de génération
  3. Régularisation de robustesse: La perte de Huber est plus robuste face aux étiquettes bruitées introduites par les erreurs de récupération
  4. Optimisation au niveau des couches: Détermination expérimentale de la couche optimale pour l'extraction d'activation

Configuration Expérimentale

Ensemble de Données

  • Source: Base de connaissances interne de support client financier de Capital One
  • Échelle: 8,5k documents, environ 45k chunks
  • Caractéristiques: Documents semi-structurés contenant des structures hiérarchiques complexes, des tableaux, des listes, etc.
  • Annotation: Mécanisme de validation à deux niveaux via retour en temps réel et évaluation d'experts SME

Métriques d'Évaluation

  • AUROC: Capacité discriminante du score de confiance
  • Précision (P): Taux de précision des réponses affichées
  • Rappel (R): Taux de rappel des réponses correctes
  • ROUGE-L: Évaluation de la qualité des réponses
  • Taux de Masquage: Proportion de réponses masquées
  • Latence: Temps de réponse moyen et P99

Méthodes de Comparaison

  • Vectara (HHEM2.1): Modèle de cohérence sémantique basé sur l'implication
  • VectaraFT: Version fine-tunée de Vectara
  • Basée sur Logits: Modèle d'incertitude basé sur les logits de tokens

Détails d'Implémentation

  • Modèle: Llama 3.1 8B
  • Couches d'activation: Couches 16 et 32
  • Taille du contexte: Top-1, Top-3, Top-5, Full (Top-7)
  • Framework d'inférence: Hugging Face, vLLM

Résultats Expérimentaux

Résultats Principaux

MéthodeAUROC
Vectara0.590
VectaraFT0.634
Basée sur Logits0.663
Notre Modèle (sans calib.)0.741
Notre Modèle (avec calib.)0.772

Analyse du Seuil de Confiance

SeuilPrécisionRappelROUGE-L (Affichée/Masquée)Taux de Masquage
0.50.950.730.65/0.5729.9%
0.70.960.650.66/0.5738.6%
0.90.970.520.67/0.5852.0%

Optimisation des Couches et du Contexte

Couche 16 vs Couche 32:

  • La couche 16 réduit significativement la latence (environ 42,5%) tout en maintenant des performances similaires
  • Avec le contexte Full, la couche 16 atteint une précision de 0.97 avec un taux de masquage de 31.3%

Analyse de Latence:

FrameworkCoucheContexteLatence Moyenne (ms)Latence P99 (ms)
vLLM16Full127267
vLLM32Full206354

Études d'Ablation

  1. Rôle de la perte de Huber: Amélioration de 0.741 à 0.772 AUROC
  2. Sélection de la couche d'activation: La couche 16 offre des performances proches de la couche 32 avec une latence plus faible
  3. Impact de la taille du contexte: Un contexte plus large améliore la précision mais augmente la latence

Travaux Connexes

Classification des Méthodes de Quantification de l'Incertitude

  1. Méthodes basées sur l'échantillonnage: Mesure de la cohérence par plusieurs générations, mais coût de calcul élevé
  2. Méthodes basées sur les probabilités: Exploitation des probabilités de tokens et de l'entropie sémantique, mais efficacité limitée sur textes longs
  3. Méthodes basées sur la classification: Comme HHEM, évitant les générations multiples mais dépendant de l'accès en boîte noire
  4. Méthodes basées sur l'activation: Exploitation des représentations internes, direction principale de contribution de cet article

Avantages de Cet Article

  • Par rapport aux méthodes d'échantillonnage: Propagation avant unique, latence plus faible
  • Par rapport aux méthodes probabilistes: Préservation de la représentation interne complète, moins de perte d'information
  • Par rapport aux méthodes en boîte noire: Accès en boîte blanche pour obtenir des signaux plus riches

Conclusion et Discussion

Conclusions Principales

  1. Efficacité: La méthode basée sur l'activation surpasse significativement les baselines existants avec un AUROC de 0.772
  2. Praticité: Réalisation d'un bon équilibre entre précision de 0.95 et taux de masquage de 29.9% en environnement de production
  3. Efficacité: Les activations de la couche 16 réduisent considérablement la latence tout en maintenant les performances
  4. Robustesse: La perte de Huber améliore efficacement la robustesse face aux annotations bruitées

Limitations

  1. Dépendance en Boîte Blanche: Nécessite l'accès aux activations internes du modèle, limitant la généralité
  2. Spécificité Architecturale: La méthode est adaptée à une architecture de modèle spécifique, nécessitant une reconfiguration pour la transférabilité
  3. Traitement en Deux Étapes: Nécessite une propagation avant supplémentaire pour calculer le score de confiance
  4. Limitations des Données: Les données expérimentales ne peuvent pas être rendues publiques, affectant la reproductibilité

Directions Futures

  1. Intégration Bout à Bout: Intégration directe de l'estimation de confiance dans le processus de génération
  2. Indépendance Architecturale: Développement de méthodes génériques applicables à plusieurs architectures de LLM
  3. Optimisation Computationnelle: Réduction supplémentaire des coûts de calcul de l'estimation de confiance
  4. Analyse Théorique: Compréhension approfondie de la relation théorique entre les motifs d'activation et la confiance

Évaluation Approfondie

Points Forts

  1. Innovation Technique: Première exploitation systématique des activations FFN pour l'estimation de confiance en RAG, évitant la perte d'information des probabilités de tokens
  2. Valeur Pratique: Validation dans des scénarios financiers réels avec une forte orientation pratique
  3. Expériences Complètes: Études d'ablation approfondies sous plusieurs dimensions (couches, contexte, latence)
  4. Considérations Techniques: Prise en compte suffisante des contraintes de latence et des exigences de scalabilité en environnement de production

Insuffisances

  1. Limitations de Généralité: La méthode dépend de l'accès en boîte blanche et d'une architecture spécifique, limitant la diffusion
  2. Fondements Théoriques: Manque d'analyse théorique approfondie sur pourquoi les activations FFN peuvent prédire la confiance
  3. Transparence des Données: L'ensemble de données propriétaire ne peut pas être rendu public, affectant la vérifiabilité des résultats
  4. Comparaisons Limitées: Comparaisons insuffisantes avec d'autres méthodes récentes de quantification de l'incertitude

Impact

  1. Contribution Académique: Fournit une nouvelle voie technique pour la recherche sur la fiabilité des systèmes RAG
  2. Valeur Industrielle: Fournit une solution pratique pour le déploiement de LLM dans les domaines à haut risque
  3. Inspiration Méthodologique: L'approche basée sur l'activation peut inspirer davantage de recherches sur l'exploitation des représentations internes

Scénarios Applicables

  1. Domaines à Haut Risque: Scénarios financiers, médicaux, juridiques et autres nécessitant une exigence extrême de précision
  2. Déploiement en Boîte Blanche: Applications d'entreprise avec accès aux paramètres internes du modèle
  3. Systèmes Temps Réel: Scénarios nécessitant des réponses fiables sous contraintes de latence strictes
  4. Bases de Connaissances Spécialisées: Applications RAG avec bases de connaissances structurées et spécialisées

Références

Cet article cite des travaux importants dans plusieurs domaines connexes incluant la quantification de l'incertitude, les systèmes RAG, et l'analyse d'activation, notamment:

  • Azaria and Mitchell (2023): États internes de LLM et détection de "mensonges"
  • Bakman et al. (2024): Notation de réponses basée sur le sens
  • Bao et al. (2024): Modèle d'implication HHEM
  • Dai et al. (2022): Neurones de connaissances dans les Transformers pré-entraînés

Évaluation Globale: Cet article est techniquement solide et possède une haute valeur pratique, proposant une solution innovante au problème important de l'estimation de confiance dans les systèmes RAG. Bien qu'il présente certaines limitations en termes de généralité et de profondeur théorique, son application réussie dans des scénarios réels et sa validation expérimentale complète lui confèrent une importance académique et industrielle significative.