Retrieval-augmented reasoning (RAR) is a recent evolution of retrieval-augmented generation (RAG) that employs multiple reasoning steps for retrieval and generation. While effective for some complex queries, RAR remains vulnerable to errors and misleading outputs. Uncertainty quantification (UQ) offers methods to estimate the confidence of systems' outputs. These methods, however, often handle simple queries with no retrieval or single-step retrieval, without properly handling RAR setup. Accurate estimation of UQ for RAR requires accounting for all sources of uncertainty, including those arising from retrieval and generation. In this paper, we account for all these sources and introduce Retrieval-Augmented Reasoning Consistency (R2C)--a novel UQ method for RAR. The core idea of R2C is to perturb the multi-step reasoning process by applying various actions to reasoning steps. These perturbations alter the retriever's input, which shifts its output and consequently modifies the generator's input at the next step. Through this iterative feedback loop, the retriever and generator continuously reshape one another's inputs, enabling us to capture uncertainty arising from both components. Experiments on five popular RAR systems across diverse QA datasets show that R2C improves AUROC by over 5% on average compared to the state-of-the-art UQ baselines. Extrinsic evaluations using R2C as an external signal further confirm its effectiveness for two downstream tasks: in Abstention, it achieves ~5% gains in both F1Abstain and AccAbstain; in Model Selection, it improves the exact match by ~7% over single models and ~3% over selection methods.
- ID статьи: 2510.11483
- Название: Uncertainty Quantification for Retrieval-Augmented Reasoning
- Авторы: Heydar Soudani (Radboud University), Hamed Zamani (University of Massachusetts Amherst), Faegheh Hasibi (Radboud University)
- Классификация: cs.IR
- Дата публикации/конференция: Подана на arXiv 13 октября 2024 г.
- Ссылка на статью: https://arxiv.org/abs/2510.11483
Рассуждения, дополненные поиском (RAR), представляют собой последнее развитие поколения, дополненного поиском (RAG), применяя многошаговое рассуждение для поиска и генерации. Хотя RAR эффективен для некоторых сложных запросов, он по-прежнему подвержен ошибкам и вводящим в заблуждение результатам. Количественная оценка неопределённости (UQ) предоставляет методы для оценки уверенности в выходных данных системы. Однако эти методы обычно работают с простыми запросами без поиска или с одношаговым поиском и не могут должным образом обрабатывать параметры RAR. Точная оценка UQ для RAR требует учёта всех источников неопределённости, включая неопределённость, возникающую из поиска и генерации. В данной работе рассматриваются все эти источники и вводится согласованность рассуждений, дополненных поиском (R2C) — новый метод количественной оценки неопределённости для RAR. Основная идея R2C заключается в возмущении многошагового процесса рассуждения путём применения различных действий к этапам рассуждения. Эти возмущения изменяют входные данные поисковой системы, тем самым изменяя её выходные данные и модифицируя входные данные генератора на следующем этапе. Благодаря этому итеративному циклу обратной связи поисковая система и генератор постоянно переформируют входные данные друг друга, позволяя нам захватить неопределённость из обоих компонентов.
Основная проблема, которую решает данное исследование, заключается в том, как точно количественно оценить неопределённость в системах рассуждений, дополненных поиском (RAR). Системы RAR объединяют поиск и генерацию посредством многошагового процесса рассуждения, и хотя они показывают отличные результаты при обработке сложных запросов, они всё ещё подвержены ошибкам и вводящим в заблуждение результатам.
- Обеспечение надёжности: В задачах, требующих интенсивного использования знаний, надёжность системы имеет решающее значение; пользователи должны знать, когда они могут доверять выходным данным системы
- Обнаружение ошибок: Системы RAR могут получать нерелевантные документы на ранних этапах, неправильно интерпретировать полученную информацию или неправильно использовать внутренние знания
- Требования практического применения: В высокорисковых областях, таких как медицина и право, количественная оценка неопределённости имеет решающее значение для систем поддержки принятия решений
- Единственный источник неопределённости: Существующие методы UQ в основном сосредоточены на процессе генерации LLM, игнорируя неопределённость поисковой системы
- Предположения о простых сценариях: Большинство методов предполагают, что входные данные содержат только запрос, и не могут обрабатывать сложные сценарии многошагового поиска
- Ограничения RAG: Ограниченные работы по количественной оценке неопределённости в RAG применимы только к простым сценариям одноразового поиска
Авторы считают, что эффективный метод UQ должен учитывать несколько источников неопределённости в системах RAR: поисковую систему (которая может предоставлять нерелевантные или частично релевантные документы) и генератор (рассуждение может отклоняться от намерения пользователя), поэтому они предлагают комплексную базу для количественной оценки неопределённости.
- Предложение метода R2C: Первый метод UQ с теоретической основой на основе марковского процесса принятия решений (MDP), способный захватить различные источники неопределённости в RAR
- Комплексная экспериментальная проверка: Обширные эксперименты на трёх наборах данных и пяти методах RAR с улучшением среднего AUROC более чем на 5%
- Проверка на нижестоящих задачах: Демонстрация эффективности метода на задачах отказа от ответа (Abstention) и выбора модели (Model Selection)
- Повышение эффективности: Улучшение эффективности токенов примерно на 2,5 раза по сравнению с методами-базовыми линиями
- Анализ разнообразия: Демонстрация того, что разнообразное создание запросов и документов может улучшить UQ путём захвата нескольких источников неопределённости
Учитывая пользовательский запрос x, система RAR генерирует ответ r посредством многошагового процесса рассуждения. Цель количественной оценки неопределённости — оценить уверенность системы в её выходных данных, выраженную оценкой неопределённости U(x,r).
R2C моделирует RAR как марковский процесс принятия решений (S,A,P,R):
- Состояния S: Каждое промежуточное состояние st = ⟨τt, qt⟩ содержит размышление τt и поисковый запрос qt
- Действия A: Основной набор действий A = {aret, aans}, где aret обозначает действие поиска, а aans обозначает действие остановки
- Возмущающие действия A*: A* = {aqp, acr, aav}, включая переформулировку запроса, критическое переосмысление и проверку ответа
- Наиболее вероятное поколение: Сначала генерируется наиболее вероятный путь рассуждения и ответ
- Разнообразное поколение: Генерируются B различных ответов посредством возмущающих действий
- Оценка согласованности: Используется голосование большинством для вычисления оценки неопределённости
- Цель: Исследование различных семантических выражений исходного запроса
- Реализация: Размышление τt остаётся неизменным, изменяется только запрос qt
- Принцип: Проверка чувствительности пути рассуждения к переформулировке запроса
- Цель: Решение проблемы отсутствия самокритики в модели RAR
- Реализация: Генерируется новое состояние, явно отвергающее ранее полученную информацию
- Принцип: Если путь рассуждения ошибочен, это действие может скорректировать траекторию на более надёжный путь
- Цель: Проверка корректности окончательного ответа
- Реализация: Оценка ответа по двум критериям: (1) обоснованность — поддерживается ли ответ полученными документами; (2) корректность — достаточно ли ответ отвечает на запрос
- Принцип: Повышение качества ответа посредством апостериорной проверки
- Захват неопределённости из нескольких источников: Впервые одновременно рассматривается неопределённость как поисковой системы, так и генератора
- Теоретическая база MDP: Формализация RAR как MDP обеспечивает теоретическую основу для количественной оценки неопределённости
- Контролируемые возмущения: Исследование разнообразных путей рассуждения посредством тщательно разработанных возмущающих действий
- Механизм итеративной обратной связи: Поисковая система и генератор постоянно переформируют входные данные друг друга посредством возмущений
- PopQA: Задача вопросно-ответного взаимодействия с одним переходом, случайная выборка 500 запросов
- HotpotQA: Задача вопросно-ответного взаимодействия с несколькими переходами, случайная выборка 500 запросов
- Musique: Задача вопросно-ответного взаимодействия с несколькими переходами, случайная выборка 500 запросов
- Корпус поиска: Дамп Wikipedia 2018 года
- Прямая оценка: AUROC (площадь под кривой рабочей характеристики приёмника)
- Задача отказа от ответа: AbstainAccuracy и AbstainF1
- Задача выбора модели: Точное совпадение (Exact Match)
- Методы на основе пути: SelfC, ReaC, RrrC
- Методы на основе оценки:
- Методы белого ящика: PE, SE, MARS, SAR, LARS
- Методы чёрного ящика: NumSS, EigV, ECC, Deg, P(true)
- Модель генерации: Qwen-2.5-7B-Instruct
- Метод поиска: Начальный поиск BM25 + переранжирование ms-marco-MiniLM-L-6-v2
- Параметры выборки: Температура T=1.0 для задачи UQ, T=0.7 для оценки корректности
- Количество поколений: Выборка 10 ответов для каждого запроса
R2C достигает лучшей производительности на всех протестированных системах RAR:
- Средний AUROC: 81,99%, улучшение более чем на 5% по сравнению с лучшим методом-базовой линией
- Статистическая значимость: Проверено тестом DeLong, статистически значимо в большинстве параметров
- Последовательное преимущество: Последовательная производительность на различных наборах данных и моделях
Задача отказа от ответа:
- AbstainAccuracy: Среднее улучшение примерно на 5% (80,25% против 75,44%)
- AbstainF1: Среднее улучшение примерно на 5% (85,82% против 80,79%)
- Метрика AUARC: 47,15% против 43,83%, демонстрирующая разумность выбора порога
Задача выбора модели:
- По сравнению с одной моделью: Среднее улучшение примерно на 7% (39,9% против 33,0%)
- По сравнению с методами выбора: Среднее улучшение примерно на 3% (39,9% против 37,0%)
- Близко к идеальной производительности: Достижение 84,2% идеальной производительности выбора модели
- Одиночные действия: Различные действия показывают различную производительность на разных системах
- Эффект комбинации: Полный набор действий обычно превосходит одиночные действия
- Специфичность системы: Некоторые конфигурации действий могут быть более подходящими для конкретных систем RAR
- Преимущество эффективности: R2C требует только 3 поколения для достижения производительности методов-базовых линий с 10 поколениями
- Стабильность производительности: Улучшение производительности стабилизируется с увеличением количества поколений
- R2C: Среднее получение 24,71 уникального документа
- Методы-базовые линии: RrrC(5,81), SelfC(15,35), ReaC(16,4)
- R2C: Оценка разнообразия запросов 0,35
- Методы-базовые линии: RrrC(0,20), SelfC(0,28), ReaC(0,30)
- Эффективность токенов: R2C достигает примерно 700 токенов производительности методов-базовых линий с 1700 токенами
- Улучшение эффективности: Примерно 2,5-кратное улучшение эффективности генерации токенов
- Вычислительные ресурсы: Всего примерно 1500 часов GPU (4×Nvidia A100 40GB)
- Фреймворк RAG: Объединение преимуществ моделей поиска и генерации
- Способы реализации: Поиск после генерации против активного RAG
- Развитие RAR: Методы Self-Ask, ReAct, ReSearch, Search-R1 и другие
- Методы белого ящика: Использование вероятностей уровня токена и энтропии
- Методы чёрного ящика: Зависимость только от окончательного текстового выхода
- Методы согласованности: Оценка неопределённости посредством согласованности нескольких поколений
- UQ в RAG: Ограниченные исследования в основном сосредоточены на отношениях документ-ответ
- Метод SAUP: Обучение весам агрегирования для объединения пошаговой неопределённости
- Ограничения: Зависимость от истинных меток в тестовом домене
- Эффективность метода: R2C значительно превосходит существующие методы UQ с улучшением среднего AUROC более чем на 5%
- Практическая ценность: Достижение значительных улучшений на задачах отказа от ответа и выбора модели
- Преимущество эффективности: Улучшение эффективности токенов в 2,5 раза по сравнению с методами-базовыми линиями
- Теоретический вклад: Первая база для количественной оценки неопределённости RAR на основе MDP
- Ограничение коротких вопросов-ответов: Основное внимание уделяется коротким ответам на уровне сущности, не исследуется генерация длинного текста
- Проектирование действий: Проектирование возмущающих действий может потребовать оптимизации для конкретных систем RAR
- Вычислительные затраты: Хотя эффективность улучшена, всё ещё требуется несколько поколений
- Обобщение в домене: Способность обобщения в конкретных доменах требует дальнейшей проверки
- Генерация длинного текста: Расширение на количественную оценку неопределённости для генерации длинного текста
- Мультимодальные приложения: Расширение метода на мультимодальные сценарии, такие как визуально-языковые модели
- Оптимизация действий: Проектирование более оптимальных возмущающих действий для различных систем RAR
- Теоретический анализ: Глубокий анализ механизма распространения неопределённости
- Сильная инновационность: Первое систематическое решение проблемы количественной оценки неопределённости в RAR
- Прочная теоретическая основа: Формализованная база на основе MDP обеспечивает теоретическую поддержку
- Комплексные эксперименты: Достаточная проверка на нескольких наборах данных, моделях и нижестоящих задачах
- Высокая практическая ценность: Метод простой в реализации с хорошими перспективами практического применения
- Глубокий анализ: Предоставление подробного анализа разнообразия и эффективности
- Проектирование возмущающих действий: Проектирование действий в значительной степени эвристично, не хватает теоретического руководства
- Вычислительные затраты: Хотя относительно эффективно, всё ещё требуется несколько итераций рассуждения
- Область применения: Основная проверка на задачах коротких вопросов-ответов
- Выбор методов-базовых линий: Некоторые методы-базовые линии могут быть не оптимальными объектами сравнения
- Академический вклад: Предоставление новых идей для оценки надёжности систем RAR
- Практическая ценность: Прямое применение к существующим системам RAR
- Воспроизводимость: Авторы обещают открыть исходный код и данные
- Вдохновляющее значение: Предоставление парадигмы для количественной оценки неопределённости в системах многошагового рассуждения
- Высокорисковые приложения: Сценарии, требующие оценки надёжности, такие как медицинская диагностика и юридические консультации
- Вопросно-ответное взаимодействие на основе знаний: Сложные системы многошагового рассуждения вопросно-ответного взаимодействия
- Интеграция моделей: Сценарии, требующие выбора лучшего ответа из нескольких моделей
- Взаимодействие с пользователем: Диалоговые системы, требующие предоставления информации о уверенности пользователям
Статья цитирует 67 связанных работ, охватывающих важные работы в нескольких областях исследований, включая поколение, дополненное поиском, количественную оценку неопределённости, согласованность рассуждений и другие, обеспечивая прочную теоретическую основу и базовые линии для сравнения для данного исследования.
Общая оценка: Это высококачественная исследовательская статья, достигшая значительного прогресса в важной и сложной проблеме. Метод обладает сильной инновационностью, экспериментальный дизайн разумен, результаты убедительны. Статья не только вносит технический вклад, но и обладает важной практической ценностью, предоставляя эффективное решение для оценки надёжности систем RAR.