Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
- ID Articolo: 2510.11483
- Titolo: Uncertainty Quantification for Retrieval-Augmented Reasoning
- Autori: Heydar Soudani (Radboud University), Hamed Zamani (University of Massachusetts Amherst), Faegheh Hasibi (Radboud University)
- Classificazione: cs.IR
- Data di Pubblicazione/Conferenza: Sottomesso ad arXiv il 13 ottobre 2024
- Link dell'Articolo: https://arxiv.org/abs/2510.11483
Il ragionamento aumentato da recupero (RAR) rappresenta lo sviluppo più recente della generazione aumentata da recupero (RAG), impiegando un ragionamento multi-step per il recupero e la generazione. Sebbene efficace per determinate query complesse, RAR rimane soggetto a errori e output fuorvianti. La quantificazione dell'incertezza (UQ) fornisce metodologie per valutare il grado di confidenza degli output del sistema. Tuttavia, questi metodi affrontano tipicamente query semplici senza recupero o con recupero mono-step, risultando inadeguati nel contesto RAR. La stima accurata dell'UQ per RAR richiede la considerazione di tutte le fonti di incertezza, inclusa quella generata dal recupero e dalla generazione. Questo articolo considera tutte queste fonti e introduce la Coerenza del Ragionamento Aumentato da Recupero (R2C), un metodo innovativo di quantificazione dell'incertezza per RAR. L'idea centrale di R2C consiste nel perturbare il processo di ragionamento multi-step applicando diverse azioni ai passaggi di ragionamento. Queste perturbazioni modificano l'input del recuperatore, alterandone l'output, e modificano successivamente l'input del generatore nel passaggio successivo. Attraverso questo ciclo di retroazione iterativa, il recuperatore e il generatore continuamente rimodellano l'input reciproco, consentendoci di catturare l'incertezza da entrambi i componenti.
Il problema centrale affrontato da questa ricerca riguarda come quantificare accuratamente l'incertezza nei sistemi di ragionamento aumentato da recupero (RAR). I sistemi RAR combinano il recupero e la generazione attraverso un processo di ragionamento multi-step, e sebbene dimostrino eccellenza nel trattamento di query complesse, rimangono soggetti a errori e output fuorvianti.
- Garanzia di Affidabilità: Nei compiti ad alta intensità di conoscenza, l'affidabilità del sistema è cruciale, poiché gli utenti necessitano di sapere quando possono fidarsi degli output del sistema
- Rilevamento di Errori: I sistemi RAR possono recuperare documenti non rilevanti nei passaggi iniziali, fraintendere il contenuto recuperato o utilizzare erroneamente la conoscenza interna
- Esigenze di Applicazioni Pratiche: In settori ad alto rischio come medicina e diritto, la quantificazione dell'incertezza è essenziale per i sistemi di supporto alle decisioni
- Fonte Singola di Incertezza: I metodi UQ esistenti si concentrano principalmente sul processo di generazione dell'LLM, trascurando l'incertezza del recuperatore
- Assunzioni di Scenari Semplici: La maggior parte dei metodi presuppone che l'input contenga solo la query, risultando inadeguati per scenari complessi con recupero multi-step
- Limitazioni di RAG: Il lavoro limitato sulla quantificazione dell'incertezza in RAG si applica solo a scenari semplici di recupero una tantum
Gli autori sostengono che un metodo UQ efficace dovrebbe considerare molteplici fonti di incertezza nel sistema RAR: il recuperatore (che potrebbe fornire documenti non rilevanti o parzialmente rilevanti) e il generatore (il cui ragionamento potrebbe deviare dall'intenzione della query dell'utente), proponendo quindi un framework di quantificazione dell'incertezza complessivo.
- Proposta del Metodo R2C: Primo metodo UQ con fondamenti teorici basati su processi decisionali di Markov (MDP), capace di catturare diverse fonti di incertezza in RAR
- Verifica Sperimentale Complessiva: Esperimenti estesi su tre dataset e cinque metodi RAR, con miglioramento medio dell'AUROC superiore al 5%
- Verifica su Compiti Downstream: Dimostrazione dell'efficacia del metodo su compiti di astensione (Abstention) e selezione di modelli (Model Selection)
- Miglioramento dell'Efficienza: Miglioramento di circa 2,5 volte nell'efficienza dei token rispetto ai metodi baseline
- Analisi della Diversità: Dimostrazione che la generazione diversificata di query e documenti può migliorare l'UQ catturando molteplici fonti di incertezza
Data una query dell'utente x, il sistema RAR genera una risposta r attraverso un processo di ragionamento multi-step. L'obiettivo della quantificazione dell'incertezza è stimare il grado di confidenza del sistema nel suo output, espresso mediante un punteggio di incertezza U(x,r).
R2C modella RAR come un processo decisionale di Markov (S,A,P,R):
- Stati S: Ogni stato intermedio st = ⟨τt, qt⟩ contiene il pensiero τt e la query di ricerca qt
- Azioni A: L'insieme principale di azioni A = {aret, aans}, dove aret rappresenta l'azione di recupero e aans rappresenta l'azione di arresto
- Azioni di Perturbazione A*: A* = {aqp, acr, aav}, includendo riformulazione della query, ripensamento critico e validazione della risposta
- Generazione Più Probabile: Generare innanzitutto il percorso di ragionamento e la risposta più probabili
- Generazione Diversificata: Generare B risposte diverse attraverso azioni di perturbazione
- Punteggio di Coerenza: Utilizzare il voto di maggioranza per calcolare il punteggio di incertezza
- Scopo: Esplorare diverse formulazioni semantiche della query originale
- Implementazione: Mantenere il pensiero τt invariato, modificando solo la query qt
- Principio: Testare se il percorso di ragionamento è sensibile alla riformulazione della query
- Scopo: Affrontare la mancanza di autocritica nel modello RAR
- Implementazione: Generare uno stato nuovo che esplicitamente rifiuta le informazioni recuperate precedentemente
- Principio: Se il percorso di ragionamento è errato, questa azione può regolarlo verso una traiettoria più affidabile
- Scopo: Verificare la correttezza della risposta finale
- Implementazione: Valutare la risposta secondo due criteri: (1) fondatezza: la risposta è supportata dai documenti recuperati; (2) correttezza: la risposta risponde adeguatamente alla query
- Principio: Migliorare la qualità della risposta attraverso verifica posteriore
- Cattura di Incertezza Multi-Fonte: Prima volta che si considerano simultaneamente l'incertezza del recuperatore e del generatore
- Framework Teorico MDP: Formalizzazione di RAR come MDP, fornendo base teorica per la quantificazione dell'incertezza
- Perturbazioni Controllate: Esplorazione di percorsi di ragionamento diversificati attraverso azioni di perturbazione accuratamente progettate
- Meccanismo di Retroazione Iterativa: Recuperatore e generatore continuamente rimodellano l'input reciproco attraverso perturbazioni
- PopQA: Compito di risposta a domande a un salto, campionamento casuale di 500 query
- HotpotQA: Compito di risposta a domande a più salti, campionamento casuale di 500 query
- Musique: Compito di risposta a domande a più salti, campionamento casuale di 500 query
- Corpus di Recupero: Dump di Wikipedia 2018
- Valutazione Diretta: AUROC (Area Under the Receiver Operating Characteristic Curve)
- Compito di Astensione: AbstainAccuracy e AbstainF1
- Compito di Selezione di Modelli: Corrispondenza Esatta (Exact Match)
- Metodi Basati su Percorso: SelfC, ReaC, RrrC
- Metodi Basati su Stima:
- Metodi White-box: PE, SE, MARS, SAR, LARS
- Metodi Black-box: NumSS, EigV, ECC, Deg, P(true)
- Modello di Generazione: Qwen-2.5-7B-Instruct
- Metodo di Recupero: Recupero iniziale BM25 + rirrangiamento ms-marco-MiniLM-L-6-v2
- Configurazione di Campionamento: Temperatura T=1.0 per compiti UQ, T=0.7 per valutazione di correttezza
- Quantità di Generazione: 10 risposte campionate per query
R2C ha raggiunto le migliori prestazioni su tutti i sistemi RAR testati:
- AUROC Medio: 81,99%, con miglioramento superiore al 5% rispetto al miglior metodo baseline
- Significatività Statistica: Verificata attraverso il test DeLong, con significatività statistica nella maggior parte delle configurazioni
- Vantaggio di Coerenza: Prestazioni coerenti su diversi dataset e modelli
Compito di Astensione:
- AbstainAccuracy: Miglioramento medio di circa il 5% (80,25% vs 75,44%)
- AbstainF1: Miglioramento medio di circa il 5% (85,82% vs 80,79%)
- Metrica AUARC: 47,15% vs 43,83%, dimostrando la ragionevolezza della selezione della soglia
Compito di Selezione di Modelli:
- Rispetto a Modello Singolo: Miglioramento medio di circa il 7% (39,9% vs 33,0%)
- Rispetto a Metodi di Selezione: Miglioramento medio di circa il 3% (39,9% vs 37,0%)
- Prossimità alle Prestazioni Ideali: Raggiungimento dell'84,2% delle prestazioni di selezione di modelli ideale
- Azioni Singole: Diverse azioni mostrano prestazioni variabili su diversi sistemi
- Effetto di Combinazione: L'insieme completo di azioni generalmente supera le azioni singole
- Specificità del Sistema: Determinate configurazioni di azioni potrebbero essere più adatte a specifici sistemi RAR
- Vantaggio di Efficienza: R2C richiede solo 3 generazioni per raggiungere le prestazioni di 10 generazioni del metodo baseline
- Stabilità delle Prestazioni: Le prestazioni tendono a stabilizzarsi con l'aumento del numero di generazioni
- R2C: Media di 24,71 documenti unici recuperati
- Metodi Baseline: RrrC(5,81), SelfC(15,35), ReaC(16,4)
- R2C: Punteggio di diversità della query 0,35
- Metodi Baseline: RrrC(0,20), SelfC(0,28), ReaC(0,30)
- Efficienza dei Token: R2C raggiunge circa 700 token le prestazioni di 1700 token del baseline
- Miglioramento dell'Efficienza: Miglioramento di circa 2,5 volte nell'efficienza della generazione di token
- Risorse Computazionali: Totale di circa 1500 ore GPU (4×Nvidia A100 40GB)
- Framework RAG: Combinazione dei vantaggi dei modelli di recupero e generazione
- Modalità di Implementazione: Recupero seguito da generazione vs RAG attivo
- Sviluppo di RAR: Metodi come Self-Ask, ReAct, ReSearch, Search-R1 e altri
- Metodi White-box: Utilizzo di probabilità a livello di token ed entropia
- Metodi Black-box: Dipendenza solo dall'output testuale finale
- Metodi di Coerenza: Valutazione dell'incertezza attraverso la coerenza di generazioni multiple
- UQ in RAG: Ricerca limitata principalmente focalizzata sulla relazione documento-risposta
- Metodo SAUP: Apprendimento di pesi di aggregazione per unire l'incertezza progressiva
- Limitazioni: Dipendenza da etichette di verità nel dominio di test
- Efficacia del Metodo: R2C supera significativamente i metodi UQ esistenti, con miglioramento medio dell'AUROC superiore al 5%
- Valore Pratico: Miglioramenti significativi nei compiti di astensione e selezione di modelli
- Vantaggio di Efficienza: Miglioramento di 2,5 volte nell'efficienza dei token rispetto ai metodi baseline
- Contributo Teorico: Primo framework di quantificazione dell'incertezza per RAR basato su MDP
- Limitazione QA a Forma Breve: Focalizzazione principale su risposte brevi a livello di entità, senza esplorazione della generazione di testo lungo
- Progettazione di Azioni: La progettazione delle azioni di perturbazione potrebbe richiedere ottimizzazione per specifici sistemi RAR
- Costo Computazionale: Sebbene l'efficienza sia migliorata, rimane necessaria la generazione multipla
- Generalizzazione di Dominio: La capacità di generalizzazione in domini specifici richiede ulteriore verifica
- Generazione di Testo Lungo: Estensione alla quantificazione dell'incertezza per la generazione di testo di forma lunga
- Applicazioni Multimodali: Estensione del metodo a scenari multimodali come modelli visione-linguaggio
- Ottimizzazione di Azioni: Progettazione di azioni di perturbazione più ottimali per diversi sistemi RAR
- Analisi Teorica: Analisi approfondita dei meccanismi di propagazione dell'incertezza
- Forte Innovatività: Primo affrontamento sistematico della quantificazione dell'incertezza in RAR
- Fondamenti Teorici Solidi: Il framework formalizzato basato su MDP fornisce supporto teorico
- Esperimenti Complessivi: Verifica sufficiente su molteplici dataset, modelli e compiti downstream
- Alto Valore Pratico: Il metodo è semplice da implementare e ha buone prospettive di applicazione pratica
- Analisi Approfondita: Fornisce analisi dettagliate di diversità ed efficienza
- Progettazione di Azioni di Perturbazione: La progettazione delle azioni è piuttosto euristica, mancando di guida teorica
- Costo Computazionale: Sebbene relativamente efficiente, rimane necessaria l'inferenza multipla
- Ambito di Applicabilità: La verifica principale riguarda compiti QA a risposta breve
- Selezione di Baseline: Alcuni metodi baseline potrebbero non essere i migliori oggetti di confronto
- Contributo Accademico: Fornisce nuove prospettive per la valutazione dell'affidabilità dei sistemi RAR
- Valore Pratico: Applicabile direttamente ai sistemi RAR esistenti
- Riproducibilità: Gli autori si impegnano a rendere open source il codice e i dati
- Significato Ispirativo: Fornisce un paradigma per la quantificazione dell'incertezza in sistemi di ragionamento multi-step
- Applicazioni ad Alto Rischio: Scenari come diagnosi medica, consulenza legale che richiedono valutazione dell'affidabilità
- Risposta a Domande Conoscitive: Sistemi di risposta a domande con ragionamento multi-salto complesso
- Integrazione di Modelli: Scenari che richiedono la selezione della migliore risposta da molteplici modelli
- Sistemi Interattivi: Sistemi di dialogo che necessitano di fornire informazioni di confidenza agli utenti
L'articolo cita 67 lavori correlati, coprendo importanti contributi in molteplici aree di ricerca inclusi generazione aumentata da recupero, quantificazione dell'incertezza, coerenza del ragionamento e altri, fornendo una base teorica solida e benchmark di confronto per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che ha raggiunto progressi significativi su un problema importante e impegnativo. Il metodo è fortemente innovativo, la progettazione sperimentale è ragionevole e i risultati sono convincenti. L'articolo non solo contribuisce tecnicamente, ma possiede anche importante valore pratico, fornendo una soluzione efficace per la valutazione dell'affidabilità dei sistemi RAR.