2025-11-24T21:40:17.139858

Uncertainty Quantification for Retrieval-Augmented Reasoning

Soudani, Zamani, Hasibi
Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
academic

검색 증강 추론을 위한 불확실성 정량화

기본 정보

  • 논문 ID: 2510.11483
  • 제목: Uncertainty Quantification for Retrieval-Augmented Reasoning
  • 저자: Heydar Soudani (Radboud University), Hamed Zamani (University of Massachusetts Amherst), Faegheh Hasibi (Radboud University)
  • 분류: cs.IR
  • 발표 시간/학회: 2024년 10월 13일 arXiv 제출
  • 논문 링크: https://arxiv.org/abs/2510.11483

초록

검색 증강 추론(RAR)은 검색 증강 생성(RAG)의 최신 발전으로, 다단계 추론을 통한 검색과 생성을 채택합니다. 특정 복잡한 쿼리에 효과적이지만, RAR은 여전히 오류와 오도하는 출력을 생성하기 쉽습니다. 불확실성 정량화(UQ)는 시스템 출력의 신뢰도를 평가하는 방법을 제공합니다. 그러나 이러한 방법들은 일반적으로 검색이 없거나 단일 단계 검색의 단순한 쿼리를 처리하며, RAR 설정을 올바르게 처리할 수 없습니다. RAR의 정확한 UQ 추정은 검색과 생성으로 인한 불확실성을 포함한 모든 불확실성 원인을 고려해야 합니다. 본 논문은 이러한 모든 원인을 고려하고 검색 증강 추론 일관성(R2C)을 도입합니다. R2C는 RAR을 위한 새로운 불확실성 정량화 방법입니다. R2C의 핵심 아이디어는 추론 단계에 다양한 동작을 적용하여 다단계 추론 프로세스를 교란시키는 것입니다. 이러한 교란은 검색기의 입력을 변경하여 그 출력을 변경하고 다음 단계에서 생성기의 입력을 수정합니다. 이러한 반복적 피드백 루프를 통해 검색기와 생성기는 서로의 입력을 지속적으로 재형성하여 두 구성 요소로부터의 불확실성을 포착할 수 있게 합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 검색 증강 추론(RAR) 시스템의 불확실성을 정확하게 정량화하는 방법입니다. RAR 시스템은 다단계 추론 프로세스를 통해 검색과 생성을 결합하며, 복잡한 쿼리 처리에 우수한 성능을 보이지만 여전히 오류와 오도하는 출력을 생성하기 쉽습니다.

문제의 중요성

  1. 신뢰도 보장: 지식 집약적 작업에서 시스템의 신뢰도는 매우 중요하며, 사용자는 시스템 출력을 언제 신뢰할 수 있는지 알아야 합니다
  2. 오류 감지: RAR 시스템은 초기 단계에서 관련 없는 문서를 검색하거나, 검색된 내용을 오해하거나, 내부 지식을 잘못 사용할 수 있습니다
  3. 실제 응용 요구: 의료, 법률 등 고위험 분야에서 불확실성 정량화는 의사결정 지원 시스템에 필수적입니다

기존 방법의 한계

  1. 단일 불확실성 원인: 기존 UQ 방법은 주로 LLM의 생성 프로세스에 초점을 맞추고 검색기의 불확실성을 무시합니다
  2. 단순 시나리오 가정: 대부분의 방법은 입력이 쿼리만 포함한다고 가정하며 다단계 검색의 복잡한 시나리오를 처리할 수 없습니다
  3. RAG 한계: 제한된 RAG 불확실성 정량화 연구는 단순한 일회성 검색 시나리오에만 적용됩니다

연구 동기

저자들은 효과적인 UQ 방법이 RAR 시스템의 여러 불확실성 원인을 고려해야 한다고 생각합니다: 검색기(관련 없거나 부분적으로 관련된 문서를 제공할 수 있음)와 생성기(추론이 사용자 쿼리 의도에서 벗어날 수 있음). 따라서 포괄적인 불확실성 정량화 프레임워크를 제안합니다.

핵심 기여

  1. R2C 방법 제안: 마르코프 결정 프로세스(MDP)의 이론적 기초를 기반으로 한 첫 번째 UQ 방법으로, RAR의 다양한 불확실성 원인을 포착할 수 있습니다
  2. 포괄적 실험 검증: 세 개의 데이터셋과 다섯 개의 RAR 방법에 대한 광범위한 실험으로 평균 AUROC 5% 이상 향상
  3. 하위 작업 검증: 거절 응답(Abstention)과 모델 선택(Model Selection) 작업에서 방법의 효과성 입증
  4. 효율성 향상: 기준 방법 대비 토큰 효율성 약 2.5배 향상
  5. 다양성 분석: 다양화된 쿼리 및 문서 생성이 여러 불확실성 원인을 포착하여 UQ를 향상시킬 수 있음을 입증

방법 상세 설명

작업 정의

사용자 쿼리 x가 주어지면, RAR 시스템은 다단계 추론 프로세스를 통해 응답 r을 생성합니다. 불확실성 정량화의 목표는 시스템이 출력에 대해 갖는 신뢰도를 추정하는 것이며, 불확실성 점수 U(x,r)로 표현됩니다.

모델 아키텍처

MDP 모델링

R2C는 RAR을 마르코프 결정 프로세스(S,A,P,R)로 모델링합니다:

  • 상태 S: 각 중간 상태 st = ⟨τt, qt⟩는 생각 τt와 검색 쿼리 qt를 포함합니다
  • 동작 A: 주요 동작 집합 A = {aret, aans}로, aret는 검색 동작을 나타내고 aans는 중지 동작을 나타냅니다
  • 교란 동작 A*: A* = {aqp, acr, aav}로, 쿼리 재표현, 비판적 재사고, 답변 검증을 포함합니다

핵심 알고리즘 흐름

  1. 가장 가능성 높은 생성: 먼저 가장 가능성 높은 추론 경로와 응답을 생성합니다
  2. 다양화 생성: 교란 동작을 통해 B개의 다른 응답을 생성합니다
  3. 일관성 점수 매기기: 다수결 투표를 사용하여 불확실성 점수를 계산합니다

교란 동작 설계

A1: 쿼리 재표현(Query Paraphrasing, QP)

  • 목적: 원본 쿼리의 다양한 의미론적 표현 탐색
  • 구현: 생각 τt는 유지하고 쿼리 qt만 변경
  • 원리: 추론 경로가 쿼리 재표현에 민감한지 테스트

A2: 비판적 재사고(Critical Rethinking, CR)

  • 목적: RAR 모델의 자기 비판 부족 문제 해결
  • 구현: 이전에 검색된 정보를 명시적으로 거부하는 새로운 상태 생성
  • 원리: 추론 경로가 오류가 있으면 이 동작이 더 신뢰할 수 있는 궤적으로 조정할 수 있습니다

A3: 답변 검증(Answer Validation, AV)

  • 목적: 최종 응답의 정확성 검증
  • 구현: 두 가지 기준에 따라 응답 평가: (1) 기초성: 응답이 검색된 문서로 지원되는가; (2) 정확성: 응답이 쿼리를 충분히 답변하는가
  • 원리: 사후 검증을 통해 응답 품질 향상

기술 혁신 포인트

  1. 다중 원인 불확실성 포착: 검색기와 생성기의 불확실성을 동시에 고려한 첫 번째 방법
  2. MDP 이론 프레임워크: RAR을 MDP로 형식화하여 불확실성 정량화에 이론적 기초 제공
  3. 제어된 교란: 신중하게 설계된 교란 동작을 통해 다양한 추론 경로 탐색
  4. 반복적 피드백 메커니즘: 검색기와 생성기가 교란을 통해 서로의 입력을 지속적으로 재형성

실험 설정

데이터셋

  • PopQA: 단일 홉 질의응답 작업, 500개 쿼리 무작위 샘플링
  • HotpotQA: 다중 홉 질의응답 작업, 500개 쿼리 무작위 샘플링
  • Musique: 다중 홉 질의응답 작업, 500개 쿼리 무작위 샘플링
  • 검색 코퍼스: 2018년 Wikipedia 덤프

평가 지표

  • 직접 평가: AUROC(수신자 작동 특성 곡선 아래 면적)
  • 거절 응답 작업: AbstainAccuracy 및 AbstainF1
  • 모델 선택 작업: 정확 일치(Exact Match)

비교 방법

  1. 경로 기반 방법: SelfC, ReaC, RrrC
  2. 추정 기반 방법:
    • 화이트박스 방법: PE, SE, MARS, SAR, LARS
    • 블랙박스 방법: NumSS, EigV, ECC, Deg, P(true)

구현 세부사항

  • 생성 모델: Qwen-2.5-7B-Instruct
  • 검색 방법: BM25 초기 검색 + ms-marco-MiniLM-L-6-v2 재순위 지정
  • 샘플링 설정: UQ 작업 온도 T=1.0, 정확성 평가 T=0.7
  • 생성 수량: 각 쿼리당 10개 응답 샘플링

실험 결과

주요 결과

불확실성 정량화 성능

R2C는 테스트된 모든 RAR 시스템에서 최고 성능을 달성했습니다:

  • 평균 AUROC: 81.99%, 최고 기준 방법 대비 5% 이상 향상
  • 통계적 유의성: DeLong 테스트를 통해 검증되었으며, 대부분의 설정에서 통계적으로 유의함
  • 일관된 우위: 다양한 데이터셋 및 모델에서 일관된 성능

하위 작업 성능

거절 응답 작업:

  • AbstainAccuracy: 평균 약 5% 향상 (80.25% vs 75.44%)
  • AbstainF1: 평균 약 5% 향상 (85.82% vs 80.79%)
  • AUARC 지표: 47.15% vs 43.83%, 임계값 선택의 합리성 입증

모델 선택 작업:

  • 단일 모델 대비: 평균 약 7% 향상 (39.9% vs 33.0%)
  • 선택 방법 대비: 평균 약 3% 향상 (39.9% vs 37.0%)
  • 이상적 성능에 근접: 이상적 모델 선택 성능의 84.2% 달성

제거 실험

동작 선택 분석

  • 단일 동작: 다양한 동작이 다양한 시스템에서 다르게 성능을 발휘
  • 조합 효과: 완전한 동작 집합이 일반적으로 단일 동작보다 우수
  • 시스템 특이성: 특정 동작 구성이 특정 RAR 시스템에 더 적합할 수 있음

생성 수량의 영향

  • 효율성 우위: R2C는 기준 방법의 10개 생성 성능에 도달하기 위해 3개 생성만 필요
  • 성능 안정성: 생성 수량 증가에 따라 성능 향상이 안정화 추세

다양성 분석

문서 다양성

  • R2C: 평균 24.71개 고유 문서 검색
  • 기준 방법: RrrC(5.81), SelfC(15.35), ReaC(16.4)

쿼리 다양성

  • R2C: 쿼리 다양성 점수 0.35
  • 기준 방법: RrrC(0.20), SelfC(0.28), ReaC(0.30)

효율성 분석

  • 토큰 효율성: R2C는 약 700개 토큰으로 기준 1700개 토큰의 성능 달성
  • 효율성 향상: 약 2.5배의 토큰 생성 효율성 향상
  • 계산 자원: 총 약 1500 GPU 시간 (4×Nvidia A100 40GB)

관련 연구

검색 증강 모델

  1. RAG 프레임워크: 검색 모델과 생성 모델의 장점 결합
  2. 구현 방식: 검색 후 생성 vs 능동적 RAG
  3. RAR 발전: Self-Ask, ReAct, ReSearch, Search-R1 등의 방법

불확실성 정량화

  1. 화이트박스 방법: 토큰 수준 확률 및 엔트로피 활용
  2. 블랙박스 방법: 최종 텍스트 출력에만 의존
  3. 일관성 방법: 다중 생성의 일관성을 통한 불확실성 평가
  4. RAG의 UQ: 제한된 연구로 주로 문서-응답 관계에 초점

다단계 결정에서의 불확실성

  • SAUP 방법: 단계별 불확실성을 병합하기 위한 가중치 학습
  • 한계: 테스트 도메인의 실제 레이블에 의존

결론 및 논의

주요 결론

  1. 방법 효과성: R2C는 기존 UQ 방법을 크게 능가하며 평균 AUROC 5% 이상 향상
  2. 실용적 가치: 거절 응답 및 모델 선택 작업에서 현저한 개선 달성
  3. 효율성 우위: 기준 방법 대비 2.5배의 토큰 효율성 향상
  4. 이론적 기여: MDP 기반의 첫 번째 RAR 불확실성 정량화 프레임워크

한계

  1. 단문형 QA 제한: 주로 엔티티 수준의 단답형에 초점하며 장문 생성 미탐색
  2. 동작 설계: 교란 동작의 설계는 특정 RAR 시스템에 최적화 필요 가능
  3. 계산 오버헤드: 효율성 향상에도 불구하고 여전히 다중 생성 필요
  4. 도메인 일반화: 특정 도메인의 일반화 능력 추가 검증 필요

향후 방향

  1. 장문 생성: 장문 텍스트 생성의 불확실성 정량화로 확장
  2. 다중모달 응용: 시각-언어 모델 등 다중모달 시나리오로 방법 확장
  3. 동작 최적화: 다양한 RAR 시스템을 위한 더 나은 교란 동작 설계
  4. 이론 분석: 불확실성 전파 메커니즘의 심화 분석

심층 평가

장점

  1. 높은 창의성: RAR의 불확실성 정량화 문제를 처음으로 체계적으로 해결
  2. 견고한 이론 기초: MDP 기반 형식화 프레임워크가 이론적 지원 제공
  3. 포괄적 실험: 다양한 데이터셋, 모델, 하위 작업에서 충분한 검증
  4. 높은 실용적 가치: 방법이 단순하고 구현하기 쉬우며 좋은 실제 응용 전망
  5. 심화된 분석: 상세한 다양성 분석 및 효율성 분석 제공

부족한 점

  1. 교란 동작 설계: 동작 설계가 휴리스틱적이며 이론적 지도 부족
  2. 계산 비용: 상대적으로 효율적이지만 여전히 다중 추론 필요
  3. 적용 범위: 주로 단답형 QA 작업에서 검증됨
  4. 기준 선택: 일부 기준 방법이 최적의 비교 대상이 아닐 수 있음

영향력

  1. 학술적 기여: RAR 시스템의 신뢰도 평가에 새로운 관점 제공
  2. 실용적 가치: 기존 RAR 시스템에 직접 적용 가능
  3. 재현성: 저자가 코드 및 데이터 공개 약속
  4. 영감: 다단계 추론 시스템의 불확실성 정량화에 패러다임 제공

적용 시나리오

  1. 고위험 응용: 의료 진단, 법률 자문 등 신뢰도 평가가 필요한 시나리오
  2. 지식 질의응답: 복잡한 다중 홉 추론 질의응답 시스템
  3. 모델 통합: 여러 모델 중 최고의 답변을 선택해야 하는 시나리오
  4. 사용자 상호작용: 사용자에게 신뢰도 정보를 제공해야 하는 대화 시스템

참고문헌

논문은 검색 증강 생성, 불확실성 정량화, 추론 일관성 등 여러 연구 분야의 중요한 작업을 포함한 67개의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초와 비교 기준을 제공합니다.


종합 평가: 이것은 중요하고 도전적인 문제에서 현저한 진전을 이룬 고품질 연구 논문입니다. 방법의 창의성이 높고, 실험 설계가 합리적이며, 결과가 설득력 있습니다. 논문은 기술적 기여뿐만 아니라 중요한 실용적 가치를 가지며, RAR 시스템의 신뢰도 평가를 위한 효과적인 솔루션을 제공합니다.