2025-11-24T21:40:17.139858

Uncertainty Quantification for Retrieval-Augmented Reasoning

Soudani, Zamani, Hasibi

Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.

academic

Quantification de l'Incertitude pour le Raisonnement Augmenté par Récupération

Informations de Base

ID de l'article : 2510.11483
Titre : Uncertainty Quantification for Retrieval-Augmented Reasoning
Auteurs : Heydar Soudani (Université Radboud), Hamed Zamani (Université du Massachusetts Amherst), Faegheh Hasibi (Université Radboud)
Classification : cs.IR
Date de soumission/Conférence : Soumis à arXiv le 13 octobre 2024
Lien de l'article : https://arxiv.org/abs/2510.11483

Résumé

Le raisonnement augmenté par récupération (RAR) représente l'évolution la plus récente de la génération augmentée par récupération (RAG), employant un raisonnement multi-étapes pour la récupération et la génération. Bien qu'efficace pour certaines requêtes complexes, le RAR reste sujet à la production de résultats erronés et trompeurs. La quantification de l'incertitude (QI) fournit une méthode pour évaluer le degré de confiance des résultats du système. Cependant, ces méthodes traitent généralement des requêtes simples sans récupération ou avec récupération mono-étape, et ne peuvent pas gérer correctement les paramètres RAR. L'estimation précise de la QI pour le RAR nécessite de considérer toutes les sources d'incertitude, y compris celles générées par la récupération et la génération. Cet article considère toutes ces sources et introduit la Cohérence du Raisonnement Augmenté par Récupération (R2C) — une nouvelle méthode de quantification de l'incertitude pour le RAR. L'idée centrale de R2C est de perturber le processus de raisonnement multi-étapes en appliquant diverses actions aux étapes de raisonnement. Ces perturbations modifient l'entrée du récupérateur, altérant ainsi sa sortie, et modifient l'entrée du générateur à l'étape suivante. Par cette boucle de rétroaction itérative, le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre, nous permettant de capturer l'incertitude provenant des deux composants.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est comment quantifier avec précision l'incertitude des systèmes de raisonnement augmenté par récupération (RAR). Les systèmes RAR combinent la récupération et la génération par un processus de raisonnement multi-étapes, et bien qu'ils démontrent une excellente performance dans le traitement de requêtes complexes, ils restent sujets à la production de résultats erronés et trompeurs.

Importance du Problème

Assurance de la fiabilité : Dans les tâches à forte intensité de connaissances, la fiabilité du système est cruciale, et les utilisateurs doivent savoir quand faire confiance aux résultats du système
Détection d'erreurs : Les systèmes RAR peuvent récupérer des documents non pertinents aux étapes initiales, mal interpréter le contenu récupéré ou mal utiliser les connaissances internes
Besoins d'applications pratiques : Dans les domaines à haut risque tels que la médecine et le droit, la quantification de l'incertitude est essentielle pour les systèmes d'aide à la décision

Limitations des Méthodes Existantes

Source unique d'incertitude : Les méthodes QI existantes se concentrent principalement sur le processus de génération du LLM, ignorant l'incertitude du récupérateur
Hypothèses de scénarios simples : La plupart des méthodes supposent que l'entrée ne contient que la requête, incapables de gérer les scénarios complexes de récupération multi-étapes
Limitations du RAG : Les travaux limités sur la quantification de l'incertitude du RAG ne s'appliquent qu'aux scénarios simples de récupération unique

Motivation de la Recherche

Les auteurs estiment qu'une méthode QI efficace devrait considérer plusieurs sources d'incertitude dans les systèmes RAR : le récupérateur (qui peut fournir des documents non pertinents ou partiellement pertinents) et le générateur (dont le raisonnement peut s'écarter de l'intention de la requête de l'utilisateur). Par conséquent, ils proposent un cadre complet de quantification de l'incertitude.

Contributions Principales

Proposition de la méthode R2C : Première méthode QI basée sur des fondations théoriques de processus de décision markoviens (PDM), capable de capturer différentes sources d'incertitude dans le RAR
Vérification expérimentale complète : Expériences approfondies sur trois ensembles de données et cinq méthodes RAR, avec une amélioration moyenne de l'AUROC supérieure à 5%
Vérification sur tâches en aval : Démonstration de l'efficacité de la méthode sur les tâches d'abstention de réponse et de sélection de modèle
Amélioration de l'efficacité : Amélioration d'environ 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
Analyse de la diversité : Démonstration que la génération diversifiée de requêtes et de documents peut améliorer la QI en capturant plusieurs sources d'incertitude

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête utilisateur x, le système RAR génère une réponse r par un processus de raisonnement multi-étapes. L'objectif de la quantification de l'incertitude est d'estimer le degré de confiance du système dans sa sortie, exprimé par un score d'incertitude U(x,r).

Architecture du Modèle

Modélisation PDM

R2C modélise le RAR comme un processus de décision markovien (S,A,P,R) :

États S : Chaque état intermédiaire st = ⟨τt, qt⟩ contient la pensée τt et la requête de recherche qt
Actions A : L'ensemble principal d'actions A = {aret, aans}, où aret représente l'action de récupération et aans l'action d'arrêt
Actions de perturbation A* : A* = {aqp, acr, aav}, incluant la paraphrase de requête, la reconsidération critique et la validation de réponse

Flux d'Algorithme Principal

Génération la plus probable : Générer d'abord le chemin de raisonnement et la réponse les plus probables
Génération diversifiée : Générer B réponses différentes par des actions de perturbation
Score de cohérence : Calculer le score d'incertitude en utilisant le vote majoritaire

Conception des Actions de Perturbation

A1 : Paraphrase de Requête (Query Paraphrasing, QP)

Objectif : Explorer différentes formulations sémantiques de la requête originale
Implémentation : Maintenir la pensée τt inchangée, modifier uniquement la requête qt
Principe : Tester si le chemin de raisonnement est sensible à la paraphrase de requête

A2 : Reconsidération Critique (Critical Rethinking, CR)

Objectif : Résoudre le problème du manque d'autocritique du modèle RAR
Implémentation : Générer un nouvel état qui rejette explicitement les informations récupérées précédemment
Principe : Si le chemin de raisonnement est erroné, cette action peut l'ajuster vers une trajectoire plus fiable

A3 : Validation de Réponse (Answer Validation, AV)

Objectif : Vérifier l'exactitude de la réponse finale
Implémentation : Évaluer la réponse selon deux critères : (1) fondation : la réponse est-elle soutenue par les documents récupérés ; (2) exactitude : la réponse répond-elle adéquatement à la requête
Principe : Améliorer la qualité de la réponse par une vérification a posteriori

Points d'Innovation Technique

Capture d'incertitude multi-sources : Première considération simultanée de l'incertitude du récupérateur et du générateur
Cadre théorique PDM : Formalisation du RAR comme PDM, fournissant une base théorique pour la quantification de l'incertitude
Perturbations contrôlées : Exploration de chemins de raisonnement diversifiés par des actions de perturbation soigneusement conçues
Mécanisme de rétroaction itérative : Le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre par perturbation

Configuration Expérimentale

Ensembles de Données

PopQA : Tâche de réponse à questions mono-saut, 500 requêtes échantillonnées aléatoirement
HotpotQA : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
Musique : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
Corpus de récupération : Vidage Wikipedia 2018

Métriques d'Évaluation

Évaluation directe : AUROC (Aire sous la courbe des caractéristiques de fonctionnement du récepteur)
Tâche d'abstention de réponse : AbstainAccuracy et AbstainF1
Tâche de sélection de modèle : Correspondance exacte (Exact Match)

Méthodes de Comparaison

Méthodes basées sur le chemin : SelfC, ReaC, RrrC
Méthodes basées sur l'estimation :
- Méthodes boîte blanche : PE, SE, MARS, SAR, LARS
- Méthodes boîte noire : NumSS, EigV, ECC, Deg, P(true)

Détails d'Implémentation

Modèle de génération : Qwen-2.5-7B-Instruct
Méthode de récupération : Récupération initiale BM25 + réclassement ms-marco-MiniLM-L-6-v2
Configuration d'échantillonnage : Température T=1.0 pour la tâche QI, T=0.7 pour l'évaluation d'exactitude
Quantité de génération : 10 réponses échantillonnées par requête

Résultats Expérimentaux

Résultats Principaux

Performance de Quantification de l'Incertitude

R2C a obtenu les meilleures performances sur tous les systèmes RAR testés :

AUROC moyen : 81,99%, amélioration supérieure à 5% par rapport à la meilleure méthode de base
Signification statistique : Vérifiée par le test de DeLong, avec signification statistique dans la plupart des configurations
Avantage de cohérence : Performance cohérente sur différents ensembles de données et modèles

Performance sur Tâches en Aval

Tâche d'abstention de réponse :

AbstainAccuracy : Amélioration moyenne d'environ 5% (80,25% vs 75,44%)
AbstainF1 : Amélioration moyenne d'environ 5% (85,82% vs 80,79%)
Métrique AUARC : 47,15% vs 43,83%, démontrant la rationalité de la sélection de seuil

Tâche de sélection de modèle :

Par rapport au modèle unique : Amélioration moyenne d'environ 7% (39,9% vs 33,0%)
Par rapport aux méthodes de sélection : Amélioration moyenne d'environ 3% (39,9% vs 37,0%)
Proximité avec la performance idéale : Atteint 84,2% de la performance de sélection de modèle idéale

Études d'Ablation

Analyse de la Sélection d'Actions

Actions uniques : Différentes actions montrent des performances variables sur différents systèmes
Effet de combinaison : L'ensemble complet d'actions surpasse généralement les actions uniques
Spécificité du système : Certaines configurations d'actions peuvent être mieux adaptées à des systèmes RAR spécifiques

Impact de la Quantité de Génération

Avantage d'efficacité : R2C n'a besoin que de 3 générations pour atteindre la performance de 10 générations des méthodes de base
Stabilité de la performance : La performance se stabilise avec l'augmentation du nombre de générations

Analyse de la Diversité

Diversité des Documents

R2C : Moyenne de 24,71 documents uniques récupérés
Méthodes de base : RrrC(5,81), SelfC(15,35), ReaC(16,4)

Diversité des Requêtes

R2C : Score de diversité des requêtes de 0,35
Méthodes de base : RrrC(0,20), SelfC(0,28), ReaC(0,30)

Analyse d'Efficacité

Efficacité des jetons : R2C atteint environ 700 jetons la performance que les méthodes de base atteignent avec 1700 jetons
Amélioration d'efficacité : Amélioration d'environ 2,5 fois de l'efficacité de génération de jetons
Ressources de calcul : Total d'environ 1500 heures GPU (4×Nvidia A100 40GB)

Travaux Connexes

Modèles Augmentés par Récupération

Cadre RAG : Combinaison des avantages des modèles de récupération et de génération
Modes d'implémentation : Récupération puis génération vs RAG actif
Développement du RAR : Méthodes telles que Self-Ask, ReAct, ReSearch, Search-R1, etc.

Quantification de l'Incertitude

Méthodes boîte blanche : Utilisation des probabilités au niveau des jetons et de l'entropie
Méthodes boîte noire : Dépendance uniquement de la sortie textuelle finale
Méthodes de cohérence : Évaluation de l'incertitude par la cohérence de générations multiples
QI dans le RAG : Recherches limitées se concentrant principalement sur les relations document-réponse

Incertitude dans les Décisions Multi-Étapes

Méthode SAUP : Apprentissage de poids d'agrégation pour fusionner l'incertitude étape par étape
Limitations : Dépendance des étiquettes de vérité du domaine de test

Conclusion et Discussion

Conclusions Principales

Efficacité de la méthode : R2C surpasse significativement les méthodes QI existantes, avec une amélioration moyenne de l'AUROC supérieure à 5%
Valeur pratique : Améliorations significatives sur les tâches d'abstention de réponse et de sélection de modèle
Avantage d'efficacité : Amélioration de 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
Contribution théorique : Premier cadre de quantification de l'incertitude du RAR basé sur le PDM

Limitations

Limitation des QA de forme courte : Concentration principale sur les réponses courtes au niveau des entités, sans exploration de la génération de texte long
Conception des actions : La conception des actions de perturbation peut nécessiter une optimisation pour des systèmes RAR spécifiques
Surcharge de calcul : Bien que l'efficacité soit améliorée, plusieurs générations sont toujours nécessaires
Généralisation de domaine : La capacité de généralisation dans des domaines spécifiques nécessite une vérification supplémentaire

Directions Futures

Génération de texte long : Extension à la quantification de l'incertitude pour la génération de texte de forme longue
Applications multimodales : Extension de la méthode à des scénarios multimodaux tels que les modèles vision-langage
Optimisation des actions : Conception d'actions de perturbation plus optimales pour différents systèmes RAR
Analyse théorique : Analyse approfondie des mécanismes de propagation de l'incertitude

Évaluation Approfondie

Points Forts

Innovation forte : Première résolution systématique du problème de quantification de l'incertitude dans le RAR
Fondations théoriques solides : Le cadre formalisé basé sur le PDM fournit un soutien théorique
Expériences complètes : Vérification suffisante sur plusieurs ensembles de données, modèles et tâches en aval
Valeur pratique élevée : Méthode simple à mettre en œuvre avec de bonnes perspectives d'application pratique
Analyse approfondie : Fournit une analyse détaillée de la diversité et de l'efficacité

Insuffisances

Conception des actions de perturbation : La conception des actions est plutôt heuristique, manquant de guidance théorique
Coût de calcul : Bien que relativement efficace, plusieurs inférences sont toujours nécessaires
Portée d'applicabilité : Vérification principale sur les tâches de QA de forme courte
Sélection des méthodes de base : Certaines méthodes de base peuvent ne pas être les objets de comparaison optimaux

Impact

Contribution académique : Fournit une nouvelle perspective pour l'évaluation de la fiabilité des systèmes RAR
Valeur pratique : Peut être directement appliquée aux systèmes RAR existants
Reproductibilité : Les auteurs s'engagent à rendre le code et les données accessibles
Signification inspirante : Fournit un paradigme pour la quantification de l'incertitude dans les systèmes de raisonnement multi-étapes

Scénarios d'Application

Applications à haut risque : Diagnostic médical, consultation juridique et autres scénarios nécessitant une évaluation de fiabilité
Réponse à questions basée sur les connaissances : Systèmes complexes de réponse à questions avec raisonnement multi-sauts
Intégration de modèles : Scénarios nécessitant la sélection de la meilleure réponse parmi plusieurs modèles
Interaction utilisateur : Systèmes de dialogue nécessitant de fournir des informations de confiance aux utilisateurs

Références

L'article cite 67 références connexes, couvrant plusieurs domaines de recherche importants incluant la génération augmentée par récupération, la quantification de l'incertitude, et la cohérence du raisonnement, fournissant une base théorique solide et des points de référence de comparaison pour cette recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité qui a réalisé des progrès significatifs sur un problème important et stimulant. La méthode est fortement innovante, la conception expérimentale est rationnelle, et les résultats sont convaincants. L'article contribue non seulement techniquement mais possède également une valeur pratique importante, fournissant une solution efficace pour l'évaluation de la fiabilité des systèmes RAR.