Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
- ID de l'article : 2510.11483
- Titre : Uncertainty Quantification for Retrieval-Augmented Reasoning
- Auteurs : Heydar Soudani (Université Radboud), Hamed Zamani (Université du Massachusetts Amherst), Faegheh Hasibi (Université Radboud)
- Classification : cs.IR
- Date de soumission/Conférence : Soumis à arXiv le 13 octobre 2024
- Lien de l'article : https://arxiv.org/abs/2510.11483
Le raisonnement augmenté par récupération (RAR) représente l'évolution la plus récente de la génération augmentée par récupération (RAG), employant un raisonnement multi-étapes pour la récupération et la génération. Bien qu'efficace pour certaines requêtes complexes, le RAR reste sujet à la production de résultats erronés et trompeurs. La quantification de l'incertitude (QI) fournit une méthode pour évaluer le degré de confiance des résultats du système. Cependant, ces méthodes traitent généralement des requêtes simples sans récupération ou avec récupération mono-étape, et ne peuvent pas gérer correctement les paramètres RAR. L'estimation précise de la QI pour le RAR nécessite de considérer toutes les sources d'incertitude, y compris celles générées par la récupération et la génération. Cet article considère toutes ces sources et introduit la Cohérence du Raisonnement Augmenté par Récupération (R2C) — une nouvelle méthode de quantification de l'incertitude pour le RAR. L'idée centrale de R2C est de perturber le processus de raisonnement multi-étapes en appliquant diverses actions aux étapes de raisonnement. Ces perturbations modifient l'entrée du récupérateur, altérant ainsi sa sortie, et modifient l'entrée du générateur à l'étape suivante. Par cette boucle de rétroaction itérative, le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre, nous permettant de capturer l'incertitude provenant des deux composants.
Le problème fondamental que cette recherche vise à résoudre est comment quantifier avec précision l'incertitude des systèmes de raisonnement augmenté par récupération (RAR). Les systèmes RAR combinent la récupération et la génération par un processus de raisonnement multi-étapes, et bien qu'ils démontrent une excellente performance dans le traitement de requêtes complexes, ils restent sujets à la production de résultats erronés et trompeurs.
- Assurance de la fiabilité : Dans les tâches à forte intensité de connaissances, la fiabilité du système est cruciale, et les utilisateurs doivent savoir quand faire confiance aux résultats du système
- Détection d'erreurs : Les systèmes RAR peuvent récupérer des documents non pertinents aux étapes initiales, mal interpréter le contenu récupéré ou mal utiliser les connaissances internes
- Besoins d'applications pratiques : Dans les domaines à haut risque tels que la médecine et le droit, la quantification de l'incertitude est essentielle pour les systèmes d'aide à la décision
- Source unique d'incertitude : Les méthodes QI existantes se concentrent principalement sur le processus de génération du LLM, ignorant l'incertitude du récupérateur
- Hypothèses de scénarios simples : La plupart des méthodes supposent que l'entrée ne contient que la requête, incapables de gérer les scénarios complexes de récupération multi-étapes
- Limitations du RAG : Les travaux limités sur la quantification de l'incertitude du RAG ne s'appliquent qu'aux scénarios simples de récupération unique
Les auteurs estiment qu'une méthode QI efficace devrait considérer plusieurs sources d'incertitude dans les systèmes RAR : le récupérateur (qui peut fournir des documents non pertinents ou partiellement pertinents) et le générateur (dont le raisonnement peut s'écarter de l'intention de la requête de l'utilisateur). Par conséquent, ils proposent un cadre complet de quantification de l'incertitude.
- Proposition de la méthode R2C : Première méthode QI basée sur des fondations théoriques de processus de décision markoviens (PDM), capable de capturer différentes sources d'incertitude dans le RAR
- Vérification expérimentale complète : Expériences approfondies sur trois ensembles de données et cinq méthodes RAR, avec une amélioration moyenne de l'AUROC supérieure à 5%
- Vérification sur tâches en aval : Démonstration de l'efficacité de la méthode sur les tâches d'abstention de réponse et de sélection de modèle
- Amélioration de l'efficacité : Amélioration d'environ 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
- Analyse de la diversité : Démonstration que la génération diversifiée de requêtes et de documents peut améliorer la QI en capturant plusieurs sources d'incertitude
Étant donné une requête utilisateur x, le système RAR génère une réponse r par un processus de raisonnement multi-étapes. L'objectif de la quantification de l'incertitude est d'estimer le degré de confiance du système dans sa sortie, exprimé par un score d'incertitude U(x,r).
R2C modélise le RAR comme un processus de décision markovien (S,A,P,R) :
- États S : Chaque état intermédiaire st = ⟨τt, qt⟩ contient la pensée τt et la requête de recherche qt
- Actions A : L'ensemble principal d'actions A = {aret, aans}, où aret représente l'action de récupération et aans l'action d'arrêt
- Actions de perturbation A* : A* = {aqp, acr, aav}, incluant la paraphrase de requête, la reconsidération critique et la validation de réponse
- Génération la plus probable : Générer d'abord le chemin de raisonnement et la réponse les plus probables
- Génération diversifiée : Générer B réponses différentes par des actions de perturbation
- Score de cohérence : Calculer le score d'incertitude en utilisant le vote majoritaire
- Objectif : Explorer différentes formulations sémantiques de la requête originale
- Implémentation : Maintenir la pensée τt inchangée, modifier uniquement la requête qt
- Principe : Tester si le chemin de raisonnement est sensible à la paraphrase de requête
- Objectif : Résoudre le problème du manque d'autocritique du modèle RAR
- Implémentation : Générer un nouvel état qui rejette explicitement les informations récupérées précédemment
- Principe : Si le chemin de raisonnement est erroné, cette action peut l'ajuster vers une trajectoire plus fiable
- Objectif : Vérifier l'exactitude de la réponse finale
- Implémentation : Évaluer la réponse selon deux critères : (1) fondation : la réponse est-elle soutenue par les documents récupérés ; (2) exactitude : la réponse répond-elle adéquatement à la requête
- Principe : Améliorer la qualité de la réponse par une vérification a posteriori
- Capture d'incertitude multi-sources : Première considération simultanée de l'incertitude du récupérateur et du générateur
- Cadre théorique PDM : Formalisation du RAR comme PDM, fournissant une base théorique pour la quantification de l'incertitude
- Perturbations contrôlées : Exploration de chemins de raisonnement diversifiés par des actions de perturbation soigneusement conçues
- Mécanisme de rétroaction itérative : Le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre par perturbation
- PopQA : Tâche de réponse à questions mono-saut, 500 requêtes échantillonnées aléatoirement
- HotpotQA : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
- Musique : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
- Corpus de récupération : Vidage Wikipedia 2018
- Évaluation directe : AUROC (Aire sous la courbe des caractéristiques de fonctionnement du récepteur)
- Tâche d'abstention de réponse : AbstainAccuracy et AbstainF1
- Tâche de sélection de modèle : Correspondance exacte (Exact Match)
- Méthodes basées sur le chemin : SelfC, ReaC, RrrC
- Méthodes basées sur l'estimation :
- Méthodes boîte blanche : PE, SE, MARS, SAR, LARS
- Méthodes boîte noire : NumSS, EigV, ECC, Deg, P(true)
- Modèle de génération : Qwen-2.5-7B-Instruct
- Méthode de récupération : Récupération initiale BM25 + réclassement ms-marco-MiniLM-L-6-v2
- Configuration d'échantillonnage : Température T=1.0 pour la tâche QI, T=0.7 pour l'évaluation d'exactitude
- Quantité de génération : 10 réponses échantillonnées par requête
R2C a obtenu les meilleures performances sur tous les systèmes RAR testés :
- AUROC moyen : 81,99%, amélioration supérieure à 5% par rapport à la meilleure méthode de base
- Signification statistique : Vérifiée par le test de DeLong, avec signification statistique dans la plupart des configurations
- Avantage de cohérence : Performance cohérente sur différents ensembles de données et modèles
Tâche d'abstention de réponse :
- AbstainAccuracy : Amélioration moyenne d'environ 5% (80,25% vs 75,44%)
- AbstainF1 : Amélioration moyenne d'environ 5% (85,82% vs 80,79%)
- Métrique AUARC : 47,15% vs 43,83%, démontrant la rationalité de la sélection de seuil
Tâche de sélection de modèle :
- Par rapport au modèle unique : Amélioration moyenne d'environ 7% (39,9% vs 33,0%)
- Par rapport aux méthodes de sélection : Amélioration moyenne d'environ 3% (39,9% vs 37,0%)
- Proximité avec la performance idéale : Atteint 84,2% de la performance de sélection de modèle idéale
- Actions uniques : Différentes actions montrent des performances variables sur différents systèmes
- Effet de combinaison : L'ensemble complet d'actions surpasse généralement les actions uniques
- Spécificité du système : Certaines configurations d'actions peuvent être mieux adaptées à des systèmes RAR spécifiques
- Avantage d'efficacité : R2C n'a besoin que de 3 générations pour atteindre la performance de 10 générations des méthodes de base
- Stabilité de la performance : La performance se stabilise avec l'augmentation du nombre de générations
- R2C : Moyenne de 24,71 documents uniques récupérés
- Méthodes de base : RrrC(5,81), SelfC(15,35), ReaC(16,4)
- R2C : Score de diversité des requêtes de 0,35
- Méthodes de base : RrrC(0,20), SelfC(0,28), ReaC(0,30)
- Efficacité des jetons : R2C atteint environ 700 jetons la performance que les méthodes de base atteignent avec 1700 jetons
- Amélioration d'efficacité : Amélioration d'environ 2,5 fois de l'efficacité de génération de jetons
- Ressources de calcul : Total d'environ 1500 heures GPU (4×Nvidia A100 40GB)
- Cadre RAG : Combinaison des avantages des modèles de récupération et de génération
- Modes d'implémentation : Récupération puis génération vs RAG actif
- Développement du RAR : Méthodes telles que Self-Ask, ReAct, ReSearch, Search-R1, etc.
- Méthodes boîte blanche : Utilisation des probabilités au niveau des jetons et de l'entropie
- Méthodes boîte noire : Dépendance uniquement de la sortie textuelle finale
- Méthodes de cohérence : Évaluation de l'incertitude par la cohérence de générations multiples
- QI dans le RAG : Recherches limitées se concentrant principalement sur les relations document-réponse
- Méthode SAUP : Apprentissage de poids d'agrégation pour fusionner l'incertitude étape par étape
- Limitations : Dépendance des étiquettes de vérité du domaine de test
- Efficacité de la méthode : R2C surpasse significativement les méthodes QI existantes, avec une amélioration moyenne de l'AUROC supérieure à 5%
- Valeur pratique : Améliorations significatives sur les tâches d'abstention de réponse et de sélection de modèle
- Avantage d'efficacité : Amélioration de 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
- Contribution théorique : Premier cadre de quantification de l'incertitude du RAR basé sur le PDM
- Limitation des QA de forme courte : Concentration principale sur les réponses courtes au niveau des entités, sans exploration de la génération de texte long
- Conception des actions : La conception des actions de perturbation peut nécessiter une optimisation pour des systèmes RAR spécifiques
- Surcharge de calcul : Bien que l'efficacité soit améliorée, plusieurs générations sont toujours nécessaires
- Généralisation de domaine : La capacité de généralisation dans des domaines spécifiques nécessite une vérification supplémentaire
- Génération de texte long : Extension à la quantification de l'incertitude pour la génération de texte de forme longue
- Applications multimodales : Extension de la méthode à des scénarios multimodaux tels que les modèles vision-langage
- Optimisation des actions : Conception d'actions de perturbation plus optimales pour différents systèmes RAR
- Analyse théorique : Analyse approfondie des mécanismes de propagation de l'incertitude
- Innovation forte : Première résolution systématique du problème de quantification de l'incertitude dans le RAR
- Fondations théoriques solides : Le cadre formalisé basé sur le PDM fournit un soutien théorique
- Expériences complètes : Vérification suffisante sur plusieurs ensembles de données, modèles et tâches en aval
- Valeur pratique élevée : Méthode simple à mettre en œuvre avec de bonnes perspectives d'application pratique
- Analyse approfondie : Fournit une analyse détaillée de la diversité et de l'efficacité
- Conception des actions de perturbation : La conception des actions est plutôt heuristique, manquant de guidance théorique
- Coût de calcul : Bien que relativement efficace, plusieurs inférences sont toujours nécessaires
- Portée d'applicabilité : Vérification principale sur les tâches de QA de forme courte
- Sélection des méthodes de base : Certaines méthodes de base peuvent ne pas être les objets de comparaison optimaux
- Contribution académique : Fournit une nouvelle perspective pour l'évaluation de la fiabilité des systèmes RAR
- Valeur pratique : Peut être directement appliquée aux systèmes RAR existants
- Reproductibilité : Les auteurs s'engagent à rendre le code et les données accessibles
- Signification inspirante : Fournit un paradigme pour la quantification de l'incertitude dans les systèmes de raisonnement multi-étapes
- Applications à haut risque : Diagnostic médical, consultation juridique et autres scénarios nécessitant une évaluation de fiabilité
- Réponse à questions basée sur les connaissances : Systèmes complexes de réponse à questions avec raisonnement multi-sauts
- Intégration de modèles : Scénarios nécessitant la sélection de la meilleure réponse parmi plusieurs modèles
- Interaction utilisateur : Systèmes de dialogue nécessitant de fournir des informations de confiance aux utilisateurs
L'article cite 67 références connexes, couvrant plusieurs domaines de recherche importants incluant la génération augmentée par récupération, la quantification de l'incertitude, et la cohérence du raisonnement, fournissant une base théorique solide et des points de référence de comparaison pour cette recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité qui a réalisé des progrès significatifs sur un problème important et stimulant. La méthode est fortement innovante, la conception expérimentale est rationnelle, et les résultats sont convaincants. L'article contribue non seulement techniquement mais possède également une valeur pratique importante, fournissant une solution efficace pour l'évaluation de la fiabilité des systèmes RAR.