2025-11-24T21:40:17.139858

Uncertainty Quantification for Retrieval-Augmented Reasoning

Soudani, Zamani, Hasibi
Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
academic

Quantification de l'Incertitude pour le Raisonnement Augmenté par Récupération

Informations de Base

  • ID de l'article : 2510.11483
  • Titre : Uncertainty Quantification for Retrieval-Augmented Reasoning
  • Auteurs : Heydar Soudani (Université Radboud), Hamed Zamani (Université du Massachusetts Amherst), Faegheh Hasibi (Université Radboud)
  • Classification : cs.IR
  • Date de soumission/Conférence : Soumis à arXiv le 13 octobre 2024
  • Lien de l'article : https://arxiv.org/abs/2510.11483

Résumé

Le raisonnement augmenté par récupération (RAR) représente l'évolution la plus récente de la génération augmentée par récupération (RAG), employant un raisonnement multi-étapes pour la récupération et la génération. Bien qu'efficace pour certaines requêtes complexes, le RAR reste sujet à la production de résultats erronés et trompeurs. La quantification de l'incertitude (QI) fournit une méthode pour évaluer le degré de confiance des résultats du système. Cependant, ces méthodes traitent généralement des requêtes simples sans récupération ou avec récupération mono-étape, et ne peuvent pas gérer correctement les paramètres RAR. L'estimation précise de la QI pour le RAR nécessite de considérer toutes les sources d'incertitude, y compris celles générées par la récupération et la génération. Cet article considère toutes ces sources et introduit la Cohérence du Raisonnement Augmenté par Récupération (R2C) — une nouvelle méthode de quantification de l'incertitude pour le RAR. L'idée centrale de R2C est de perturber le processus de raisonnement multi-étapes en appliquant diverses actions aux étapes de raisonnement. Ces perturbations modifient l'entrée du récupérateur, altérant ainsi sa sortie, et modifient l'entrée du générateur à l'étape suivante. Par cette boucle de rétroaction itérative, le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre, nous permettant de capturer l'incertitude provenant des deux composants.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est comment quantifier avec précision l'incertitude des systèmes de raisonnement augmenté par récupération (RAR). Les systèmes RAR combinent la récupération et la génération par un processus de raisonnement multi-étapes, et bien qu'ils démontrent une excellente performance dans le traitement de requêtes complexes, ils restent sujets à la production de résultats erronés et trompeurs.

Importance du Problème

  1. Assurance de la fiabilité : Dans les tâches à forte intensité de connaissances, la fiabilité du système est cruciale, et les utilisateurs doivent savoir quand faire confiance aux résultats du système
  2. Détection d'erreurs : Les systèmes RAR peuvent récupérer des documents non pertinents aux étapes initiales, mal interpréter le contenu récupéré ou mal utiliser les connaissances internes
  3. Besoins d'applications pratiques : Dans les domaines à haut risque tels que la médecine et le droit, la quantification de l'incertitude est essentielle pour les systèmes d'aide à la décision

Limitations des Méthodes Existantes

  1. Source unique d'incertitude : Les méthodes QI existantes se concentrent principalement sur le processus de génération du LLM, ignorant l'incertitude du récupérateur
  2. Hypothèses de scénarios simples : La plupart des méthodes supposent que l'entrée ne contient que la requête, incapables de gérer les scénarios complexes de récupération multi-étapes
  3. Limitations du RAG : Les travaux limités sur la quantification de l'incertitude du RAG ne s'appliquent qu'aux scénarios simples de récupération unique

Motivation de la Recherche

Les auteurs estiment qu'une méthode QI efficace devrait considérer plusieurs sources d'incertitude dans les systèmes RAR : le récupérateur (qui peut fournir des documents non pertinents ou partiellement pertinents) et le générateur (dont le raisonnement peut s'écarter de l'intention de la requête de l'utilisateur). Par conséquent, ils proposent un cadre complet de quantification de l'incertitude.

Contributions Principales

  1. Proposition de la méthode R2C : Première méthode QI basée sur des fondations théoriques de processus de décision markoviens (PDM), capable de capturer différentes sources d'incertitude dans le RAR
  2. Vérification expérimentale complète : Expériences approfondies sur trois ensembles de données et cinq méthodes RAR, avec une amélioration moyenne de l'AUROC supérieure à 5%
  3. Vérification sur tâches en aval : Démonstration de l'efficacité de la méthode sur les tâches d'abstention de réponse et de sélection de modèle
  4. Amélioration de l'efficacité : Amélioration d'environ 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
  5. Analyse de la diversité : Démonstration que la génération diversifiée de requêtes et de documents peut améliorer la QI en capturant plusieurs sources d'incertitude

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une requête utilisateur x, le système RAR génère une réponse r par un processus de raisonnement multi-étapes. L'objectif de la quantification de l'incertitude est d'estimer le degré de confiance du système dans sa sortie, exprimé par un score d'incertitude U(x,r).

Architecture du Modèle

Modélisation PDM

R2C modélise le RAR comme un processus de décision markovien (S,A,P,R) :

  • États S : Chaque état intermédiaire st = ⟨τt, qt⟩ contient la pensée τt et la requête de recherche qt
  • Actions A : L'ensemble principal d'actions A = {aret, aans}, où aret représente l'action de récupération et aans l'action d'arrêt
  • Actions de perturbation A* : A* = {aqp, acr, aav}, incluant la paraphrase de requête, la reconsidération critique et la validation de réponse

Flux d'Algorithme Principal

  1. Génération la plus probable : Générer d'abord le chemin de raisonnement et la réponse les plus probables
  2. Génération diversifiée : Générer B réponses différentes par des actions de perturbation
  3. Score de cohérence : Calculer le score d'incertitude en utilisant le vote majoritaire

Conception des Actions de Perturbation

A1 : Paraphrase de Requête (Query Paraphrasing, QP)

  • Objectif : Explorer différentes formulations sémantiques de la requête originale
  • Implémentation : Maintenir la pensée τt inchangée, modifier uniquement la requête qt
  • Principe : Tester si le chemin de raisonnement est sensible à la paraphrase de requête

A2 : Reconsidération Critique (Critical Rethinking, CR)

  • Objectif : Résoudre le problème du manque d'autocritique du modèle RAR
  • Implémentation : Générer un nouvel état qui rejette explicitement les informations récupérées précédemment
  • Principe : Si le chemin de raisonnement est erroné, cette action peut l'ajuster vers une trajectoire plus fiable

A3 : Validation de Réponse (Answer Validation, AV)

  • Objectif : Vérifier l'exactitude de la réponse finale
  • Implémentation : Évaluer la réponse selon deux critères : (1) fondation : la réponse est-elle soutenue par les documents récupérés ; (2) exactitude : la réponse répond-elle adéquatement à la requête
  • Principe : Améliorer la qualité de la réponse par une vérification a posteriori

Points d'Innovation Technique

  1. Capture d'incertitude multi-sources : Première considération simultanée de l'incertitude du récupérateur et du générateur
  2. Cadre théorique PDM : Formalisation du RAR comme PDM, fournissant une base théorique pour la quantification de l'incertitude
  3. Perturbations contrôlées : Exploration de chemins de raisonnement diversifiés par des actions de perturbation soigneusement conçues
  4. Mécanisme de rétroaction itérative : Le récupérateur et le générateur remodelent continuellement les entrées l'un de l'autre par perturbation

Configuration Expérimentale

Ensembles de Données

  • PopQA : Tâche de réponse à questions mono-saut, 500 requêtes échantillonnées aléatoirement
  • HotpotQA : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
  • Musique : Tâche de réponse à questions multi-sauts, 500 requêtes échantillonnées aléatoirement
  • Corpus de récupération : Vidage Wikipedia 2018

Métriques d'Évaluation

  • Évaluation directe : AUROC (Aire sous la courbe des caractéristiques de fonctionnement du récepteur)
  • Tâche d'abstention de réponse : AbstainAccuracy et AbstainF1
  • Tâche de sélection de modèle : Correspondance exacte (Exact Match)

Méthodes de Comparaison

  1. Méthodes basées sur le chemin : SelfC, ReaC, RrrC
  2. Méthodes basées sur l'estimation :
    • Méthodes boîte blanche : PE, SE, MARS, SAR, LARS
    • Méthodes boîte noire : NumSS, EigV, ECC, Deg, P(true)

Détails d'Implémentation

  • Modèle de génération : Qwen-2.5-7B-Instruct
  • Méthode de récupération : Récupération initiale BM25 + réclassement ms-marco-MiniLM-L-6-v2
  • Configuration d'échantillonnage : Température T=1.0 pour la tâche QI, T=0.7 pour l'évaluation d'exactitude
  • Quantité de génération : 10 réponses échantillonnées par requête

Résultats Expérimentaux

Résultats Principaux

Performance de Quantification de l'Incertitude

R2C a obtenu les meilleures performances sur tous les systèmes RAR testés :

  • AUROC moyen : 81,99%, amélioration supérieure à 5% par rapport à la meilleure méthode de base
  • Signification statistique : Vérifiée par le test de DeLong, avec signification statistique dans la plupart des configurations
  • Avantage de cohérence : Performance cohérente sur différents ensembles de données et modèles

Performance sur Tâches en Aval

Tâche d'abstention de réponse :

  • AbstainAccuracy : Amélioration moyenne d'environ 5% (80,25% vs 75,44%)
  • AbstainF1 : Amélioration moyenne d'environ 5% (85,82% vs 80,79%)
  • Métrique AUARC : 47,15% vs 43,83%, démontrant la rationalité de la sélection de seuil

Tâche de sélection de modèle :

  • Par rapport au modèle unique : Amélioration moyenne d'environ 7% (39,9% vs 33,0%)
  • Par rapport aux méthodes de sélection : Amélioration moyenne d'environ 3% (39,9% vs 37,0%)
  • Proximité avec la performance idéale : Atteint 84,2% de la performance de sélection de modèle idéale

Études d'Ablation

Analyse de la Sélection d'Actions

  • Actions uniques : Différentes actions montrent des performances variables sur différents systèmes
  • Effet de combinaison : L'ensemble complet d'actions surpasse généralement les actions uniques
  • Spécificité du système : Certaines configurations d'actions peuvent être mieux adaptées à des systèmes RAR spécifiques

Impact de la Quantité de Génération

  • Avantage d'efficacité : R2C n'a besoin que de 3 générations pour atteindre la performance de 10 générations des méthodes de base
  • Stabilité de la performance : La performance se stabilise avec l'augmentation du nombre de générations

Analyse de la Diversité

Diversité des Documents

  • R2C : Moyenne de 24,71 documents uniques récupérés
  • Méthodes de base : RrrC(5,81), SelfC(15,35), ReaC(16,4)

Diversité des Requêtes

  • R2C : Score de diversité des requêtes de 0,35
  • Méthodes de base : RrrC(0,20), SelfC(0,28), ReaC(0,30)

Analyse d'Efficacité

  • Efficacité des jetons : R2C atteint environ 700 jetons la performance que les méthodes de base atteignent avec 1700 jetons
  • Amélioration d'efficacité : Amélioration d'environ 2,5 fois de l'efficacité de génération de jetons
  • Ressources de calcul : Total d'environ 1500 heures GPU (4×Nvidia A100 40GB)

Travaux Connexes

Modèles Augmentés par Récupération

  1. Cadre RAG : Combinaison des avantages des modèles de récupération et de génération
  2. Modes d'implémentation : Récupération puis génération vs RAG actif
  3. Développement du RAR : Méthodes telles que Self-Ask, ReAct, ReSearch, Search-R1, etc.

Quantification de l'Incertitude

  1. Méthodes boîte blanche : Utilisation des probabilités au niveau des jetons et de l'entropie
  2. Méthodes boîte noire : Dépendance uniquement de la sortie textuelle finale
  3. Méthodes de cohérence : Évaluation de l'incertitude par la cohérence de générations multiples
  4. QI dans le RAG : Recherches limitées se concentrant principalement sur les relations document-réponse

Incertitude dans les Décisions Multi-Étapes

  • Méthode SAUP : Apprentissage de poids d'agrégation pour fusionner l'incertitude étape par étape
  • Limitations : Dépendance des étiquettes de vérité du domaine de test

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la méthode : R2C surpasse significativement les méthodes QI existantes, avec une amélioration moyenne de l'AUROC supérieure à 5%
  2. Valeur pratique : Améliorations significatives sur les tâches d'abstention de réponse et de sélection de modèle
  3. Avantage d'efficacité : Amélioration de 2,5 fois de l'efficacité des jetons par rapport aux méthodes de base
  4. Contribution théorique : Premier cadre de quantification de l'incertitude du RAR basé sur le PDM

Limitations

  1. Limitation des QA de forme courte : Concentration principale sur les réponses courtes au niveau des entités, sans exploration de la génération de texte long
  2. Conception des actions : La conception des actions de perturbation peut nécessiter une optimisation pour des systèmes RAR spécifiques
  3. Surcharge de calcul : Bien que l'efficacité soit améliorée, plusieurs générations sont toujours nécessaires
  4. Généralisation de domaine : La capacité de généralisation dans des domaines spécifiques nécessite une vérification supplémentaire

Directions Futures

  1. Génération de texte long : Extension à la quantification de l'incertitude pour la génération de texte de forme longue
  2. Applications multimodales : Extension de la méthode à des scénarios multimodaux tels que les modèles vision-langage
  3. Optimisation des actions : Conception d'actions de perturbation plus optimales pour différents systèmes RAR
  4. Analyse théorique : Analyse approfondie des mécanismes de propagation de l'incertitude

Évaluation Approfondie

Points Forts

  1. Innovation forte : Première résolution systématique du problème de quantification de l'incertitude dans le RAR
  2. Fondations théoriques solides : Le cadre formalisé basé sur le PDM fournit un soutien théorique
  3. Expériences complètes : Vérification suffisante sur plusieurs ensembles de données, modèles et tâches en aval
  4. Valeur pratique élevée : Méthode simple à mettre en œuvre avec de bonnes perspectives d'application pratique
  5. Analyse approfondie : Fournit une analyse détaillée de la diversité et de l'efficacité

Insuffisances

  1. Conception des actions de perturbation : La conception des actions est plutôt heuristique, manquant de guidance théorique
  2. Coût de calcul : Bien que relativement efficace, plusieurs inférences sont toujours nécessaires
  3. Portée d'applicabilité : Vérification principale sur les tâches de QA de forme courte
  4. Sélection des méthodes de base : Certaines méthodes de base peuvent ne pas être les objets de comparaison optimaux

Impact

  1. Contribution académique : Fournit une nouvelle perspective pour l'évaluation de la fiabilité des systèmes RAR
  2. Valeur pratique : Peut être directement appliquée aux systèmes RAR existants
  3. Reproductibilité : Les auteurs s'engagent à rendre le code et les données accessibles
  4. Signification inspirante : Fournit un paradigme pour la quantification de l'incertitude dans les systèmes de raisonnement multi-étapes

Scénarios d'Application

  1. Applications à haut risque : Diagnostic médical, consultation juridique et autres scénarios nécessitant une évaluation de fiabilité
  2. Réponse à questions basée sur les connaissances : Systèmes complexes de réponse à questions avec raisonnement multi-sauts
  3. Intégration de modèles : Scénarios nécessitant la sélection de la meilleure réponse parmi plusieurs modèles
  4. Interaction utilisateur : Systèmes de dialogue nécessitant de fournir des informations de confiance aux utilisateurs

Références

L'article cite 67 références connexes, couvrant plusieurs domaines de recherche importants incluant la génération augmentée par récupération, la quantification de l'incertitude, et la cohérence du raisonnement, fournissant une base théorique solide et des points de référence de comparaison pour cette recherche.


Évaluation Globale : Ceci est un article de recherche de haute qualité qui a réalisé des progrès significatifs sur un problème important et stimulant. La méthode est fortement innovante, la conception expérimentale est rationnelle, et les résultats sont convaincants. L'article contribue non seulement techniquement mais possède également une valeur pratique importante, fournissant une solution efficace pour l'évaluation de la fiabilité des systèmes RAR.