2025-11-24T21:40:17.139858

Uncertainty Quantification for Retrieval-Augmented Reasoning

Soudani, Zamani, Hasibi

Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.

academic

Количественная оценка неопределённости для рассуждений, дополненных поиском

Основная информация

ID статьи: 2510.11483
Название: Uncertainty Quantification for Retrieval-Augmented Reasoning
Авторы: Heydar Soudani (Radboud University), Hamed Zamani (University of Massachusetts Amherst), Faegheh Hasibi (Radboud University)
Классификация: cs.IR
Дата публикации/конференция: Подана на arXiv 13 октября 2024 г.
Ссылка на статью: https://arxiv.org/abs/2510.11483

Аннотация

Рассуждения, дополненные поиском (RAR), представляют собой последнее развитие поколения, дополненного поиском (RAG), применяя многошаговое рассуждение для поиска и генерации. Хотя RAR эффективен для некоторых сложных запросов, он по-прежнему подвержен ошибкам и вводящим в заблуждение результатам. Количественная оценка неопределённости (UQ) предоставляет методы для оценки уверенности в выходных данных системы. Однако эти методы обычно работают с простыми запросами без поиска или с одношаговым поиском и не могут должным образом обрабатывать параметры RAR. Точная оценка UQ для RAR требует учёта всех источников неопределённости, включая неопределённость, возникающую из поиска и генерации. В данной работе рассматриваются все эти источники и вводится согласованность рассуждений, дополненных поиском (R2C) — новый метод количественной оценки неопределённости для RAR. Основная идея R2C заключается в возмущении многошагового процесса рассуждения путём применения различных действий к этапам рассуждения. Эти возмущения изменяют входные данные поисковой системы, тем самым изменяя её выходные данные и модифицируя входные данные генератора на следующем этапе. Благодаря этому итеративному циклу обратной связи поисковая система и генератор постоянно переформируют входные данные друг друга, позволяя нам захватить неопределённость из обоих компонентов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование, заключается в том, как точно количественно оценить неопределённость в системах рассуждений, дополненных поиском (RAR). Системы RAR объединяют поиск и генерацию посредством многошагового процесса рассуждения, и хотя они показывают отличные результаты при обработке сложных запросов, они всё ещё подвержены ошибкам и вводящим в заблуждение результатам.

Значимость проблемы

Обеспечение надёжности: В задачах, требующих интенсивного использования знаний, надёжность системы имеет решающее значение; пользователи должны знать, когда они могут доверять выходным данным системы
Обнаружение ошибок: Системы RAR могут получать нерелевантные документы на ранних этапах, неправильно интерпретировать полученную информацию или неправильно использовать внутренние знания
Требования практического применения: В высокорисковых областях, таких как медицина и право, количественная оценка неопределённости имеет решающее значение для систем поддержки принятия решений

Ограничения существующих методов

Единственный источник неопределённости: Существующие методы UQ в основном сосредоточены на процессе генерации LLM, игнорируя неопределённость поисковой системы
Предположения о простых сценариях: Большинство методов предполагают, что входные данные содержат только запрос, и не могут обрабатывать сложные сценарии многошагового поиска
Ограничения RAG: Ограниченные работы по количественной оценке неопределённости в RAG применимы только к простым сценариям одноразового поиска

Исследовательская мотивация

Авторы считают, что эффективный метод UQ должен учитывать несколько источников неопределённости в системах RAR: поисковую систему (которая может предоставлять нерелевантные или частично релевантные документы) и генератор (рассуждение может отклоняться от намерения пользователя), поэтому они предлагают комплексную базу для количественной оценки неопределённости.

Основные вклады

Предложение метода R2C: Первый метод UQ с теоретической основой на основе марковского процесса принятия решений (MDP), способный захватить различные источники неопределённости в RAR
Комплексная экспериментальная проверка: Обширные эксперименты на трёх наборах данных и пяти методах RAR с улучшением среднего AUROC более чем на 5%
Проверка на нижестоящих задачах: Демонстрация эффективности метода на задачах отказа от ответа (Abstention) и выбора модели (Model Selection)
Повышение эффективности: Улучшение эффективности токенов примерно на 2,5 раза по сравнению с методами-базовыми линиями
Анализ разнообразия: Демонстрация того, что разнообразное создание запросов и документов может улучшить UQ путём захвата нескольких источников неопределённости

Подробное описание методов

Определение задачи

Учитывая пользовательский запрос x, система RAR генерирует ответ r посредством многошагового процесса рассуждения. Цель количественной оценки неопределённости — оценить уверенность системы в её выходных данных, выраженную оценкой неопределённости U(x,r).

Архитектура модели

Моделирование MDP

R2C моделирует RAR как марковский процесс принятия решений (S,A,P,R):

Состояния S: Каждое промежуточное состояние st = ⟨τt, qt⟩ содержит размышление τt и поисковый запрос qt
Действия A: Основной набор действий A = {aret, aans}, где aret обозначает действие поиска, а aans обозначает действие остановки
Возмущающие действия A*: A* = {aqp, acr, aav}, включая переформулировку запроса, критическое переосмысление и проверку ответа

Основной алгоритм

Наиболее вероятное поколение: Сначала генерируется наиболее вероятный путь рассуждения и ответ
Разнообразное поколение: Генерируются B различных ответов посредством возмущающих действий
Оценка согласованности: Используется голосование большинством для вычисления оценки неопределённости

Проектирование возмущающих действий

A1: Переформулировка запроса (Query Paraphrasing, QP)

Цель: Исследование различных семантических выражений исходного запроса
Реализация: Размышление τt остаётся неизменным, изменяется только запрос qt
Принцип: Проверка чувствительности пути рассуждения к переформулировке запроса

A2: Критическое переосмысление (Critical Rethinking, CR)

Цель: Решение проблемы отсутствия самокритики в модели RAR
Реализация: Генерируется новое состояние, явно отвергающее ранее полученную информацию
Принцип: Если путь рассуждения ошибочен, это действие может скорректировать траекторию на более надёжный путь

A3: Проверка ответа (Answer Validation, AV)

Цель: Проверка корректности окончательного ответа
Реализация: Оценка ответа по двум критериям: (1) обоснованность — поддерживается ли ответ полученными документами; (2) корректность — достаточно ли ответ отвечает на запрос
Принцип: Повышение качества ответа посредством апостериорной проверки

Технические инновации

Захват неопределённости из нескольких источников: Впервые одновременно рассматривается неопределённость как поисковой системы, так и генератора
Теоретическая база MDP: Формализация RAR как MDP обеспечивает теоретическую основу для количественной оценки неопределённости
Контролируемые возмущения: Исследование разнообразных путей рассуждения посредством тщательно разработанных возмущающих действий
Механизм итеративной обратной связи: Поисковая система и генератор постоянно переформируют входные данные друг друга посредством возмущений

Экспериментальная установка

Наборы данных

PopQA: Задача вопросно-ответного взаимодействия с одним переходом, случайная выборка 500 запросов
HotpotQA: Задача вопросно-ответного взаимодействия с несколькими переходами, случайная выборка 500 запросов
Musique: Задача вопросно-ответного взаимодействия с несколькими переходами, случайная выборка 500 запросов
Корпус поиска: Дамп Wikipedia 2018 года

Метрики оценки

Прямая оценка: AUROC (площадь под кривой рабочей характеристики приёмника)
Задача отказа от ответа: AbstainAccuracy и AbstainF1
Задача выбора модели: Точное совпадение (Exact Match)

Методы сравнения

Методы на основе пути: SelfC, ReaC, RrrC
Методы на основе оценки:
- Методы белого ящика: PE, SE, MARS, SAR, LARS
- Методы чёрного ящика: NumSS, EigV, ECC, Deg, P(true)

Детали реализации

Модель генерации: Qwen-2.5-7B-Instruct
Метод поиска: Начальный поиск BM25 + переранжирование ms-marco-MiniLM-L-6-v2
Параметры выборки: Температура T=1.0 для задачи UQ, T=0.7 для оценки корректности
Количество поколений: Выборка 10 ответов для каждого запроса

Результаты экспериментов

Основные результаты

Производительность количественной оценки неопределённости

R2C достигает лучшей производительности на всех протестированных системах RAR:

Средний AUROC: 81,99%, улучшение более чем на 5% по сравнению с лучшим методом-базовой линией
Статистическая значимость: Проверено тестом DeLong, статистически значимо в большинстве параметров
Последовательное преимущество: Последовательная производительность на различных наборах данных и моделях

Производительность на нижестоящих задачах

Задача отказа от ответа:

AbstainAccuracy: Среднее улучшение примерно на 5% (80,25% против 75,44%)
AbstainF1: Среднее улучшение примерно на 5% (85,82% против 80,79%)
Метрика AUARC: 47,15% против 43,83%, демонстрирующая разумность выбора порога

Задача выбора модели:

По сравнению с одной моделью: Среднее улучшение примерно на 7% (39,9% против 33,0%)
По сравнению с методами выбора: Среднее улучшение примерно на 3% (39,9% против 37,0%)
Близко к идеальной производительности: Достижение 84,2% идеальной производительности выбора модели

Абляционные исследования

Анализ выбора действий

Одиночные действия: Различные действия показывают различную производительность на разных системах
Эффект комбинации: Полный набор действий обычно превосходит одиночные действия
Специфичность системы: Некоторые конфигурации действий могут быть более подходящими для конкретных систем RAR

Влияние количества поколений

Преимущество эффективности: R2C требует только 3 поколения для достижения производительности методов-базовых линий с 10 поколениями
Стабильность производительности: Улучшение производительности стабилизируется с увеличением количества поколений

Анализ разнообразия

Разнообразие документов

R2C: Среднее получение 24,71 уникального документа
Методы-базовые линии: RrrC(5,81), SelfC(15,35), ReaC(16,4)

Разнообразие запросов

R2C: Оценка разнообразия запросов 0,35
Методы-базовые линии: RrrC(0,20), SelfC(0,28), ReaC(0,30)

Анализ эффективности

Эффективность токенов: R2C достигает примерно 700 токенов производительности методов-базовых линий с 1700 токенами
Улучшение эффективности: Примерно 2,5-кратное улучшение эффективности генерации токенов
Вычислительные ресурсы: Всего примерно 1500 часов GPU (4×Nvidia A100 40GB)

Связанные работы

Модели, дополненные поиском

Фреймворк RAG: Объединение преимуществ моделей поиска и генерации
Способы реализации: Поиск после генерации против активного RAG
Развитие RAR: Методы Self-Ask, ReAct, ReSearch, Search-R1 и другие

Количественная оценка неопределённости

Методы белого ящика: Использование вероятностей уровня токена и энтропии
Методы чёрного ящика: Зависимость только от окончательного текстового выхода
Методы согласованности: Оценка неопределённости посредством согласованности нескольких поколений
UQ в RAG: Ограниченные исследования в основном сосредоточены на отношениях документ-ответ

Неопределённость в многошаговом принятии решений

Метод SAUP: Обучение весам агрегирования для объединения пошаговой неопределённости
Ограничения: Зависимость от истинных меток в тестовом домене

Заключение и обсуждение

Основные выводы

Эффективность метода: R2C значительно превосходит существующие методы UQ с улучшением среднего AUROC более чем на 5%
Практическая ценность: Достижение значительных улучшений на задачах отказа от ответа и выбора модели
Преимущество эффективности: Улучшение эффективности токенов в 2,5 раза по сравнению с методами-базовыми линиями
Теоретический вклад: Первая база для количественной оценки неопределённости RAR на основе MDP

Ограничения

Ограничение коротких вопросов-ответов: Основное внимание уделяется коротким ответам на уровне сущности, не исследуется генерация длинного текста
Проектирование действий: Проектирование возмущающих действий может потребовать оптимизации для конкретных систем RAR
Вычислительные затраты: Хотя эффективность улучшена, всё ещё требуется несколько поколений
Обобщение в домене: Способность обобщения в конкретных доменах требует дальнейшей проверки

Будущие направления

Генерация длинного текста: Расширение на количественную оценку неопределённости для генерации длинного текста
Мультимодальные приложения: Расширение метода на мультимодальные сценарии, такие как визуально-языковые модели
Оптимизация действий: Проектирование более оптимальных возмущающих действий для различных систем RAR
Теоретический анализ: Глубокий анализ механизма распространения неопределённости

Глубокая оценка

Преимущества

Сильная инновационность: Первое систематическое решение проблемы количественной оценки неопределённости в RAR
Прочная теоретическая основа: Формализованная база на основе MDP обеспечивает теоретическую поддержку
Комплексные эксперименты: Достаточная проверка на нескольких наборах данных, моделях и нижестоящих задачах
Высокая практическая ценность: Метод простой в реализации с хорошими перспективами практического применения
Глубокий анализ: Предоставление подробного анализа разнообразия и эффективности

Недостатки

Проектирование возмущающих действий: Проектирование действий в значительной степени эвристично, не хватает теоретического руководства
Вычислительные затраты: Хотя относительно эффективно, всё ещё требуется несколько итераций рассуждения
Область применения: Основная проверка на задачах коротких вопросов-ответов
Выбор методов-базовых линий: Некоторые методы-базовые линии могут быть не оптимальными объектами сравнения

Влияние

Академический вклад: Предоставление новых идей для оценки надёжности систем RAR
Практическая ценность: Прямое применение к существующим системам RAR
Воспроизводимость: Авторы обещают открыть исходный код и данные
Вдохновляющее значение: Предоставление парадигмы для количественной оценки неопределённости в системах многошагового рассуждения

Применимые сценарии

Высокорисковые приложения: Сценарии, требующие оценки надёжности, такие как медицинская диагностика и юридические консультации
Вопросно-ответное взаимодействие на основе знаний: Сложные системы многошагового рассуждения вопросно-ответного взаимодействия
Интеграция моделей: Сценарии, требующие выбора лучшего ответа из нескольких моделей
Взаимодействие с пользователем: Диалоговые системы, требующие предоставления информации о уверенности пользователям

Библиография

Статья цитирует 67 связанных работ, охватывающих важные работы в нескольких областях исследований, включая поколение, дополненное поиском, количественную оценку неопределённости, согласованность рассуждений и другие, обеспечивая прочную теоретическую основу и базовые линии для сравнения для данного исследования.

Общая оценка: Это высококачественная исследовательская статья, достигшая значительного прогресса в важной и сложной проблеме. Метод обладает сильной инновационностью, экспериментальный дизайн разумен, результаты убедительны. Статья не только вносит технический вклад, но и обладает важной практической ценностью, предоставляя эффективное решение для оценки надёжности систем RAR.