MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity
Tang, Gao, Li et al.
Retrieval Augmented Generation (RAG) has proven to be highly effective in boosting the generative performance of language model in knowledge-intensive tasks. However, existing RAG framework either indiscriminately perform retrieval or rely on rigid single-class classifiers to select retrieval methods, leading to inefficiencies and suboptimal performance across queries of varying complexity. To address these challenges, we propose a reinforcement learning-based framework that dynamically selects the most suitable retrieval strategy based on query complexity. % our solution Our approach leverages a multi-armed bandit algorithm, which treats each retrieval method as a distinct ``arm'' and adapts the selection process by balancing exploration and exploitation. Additionally, we introduce a dynamic reward function that balances accuracy and efficiency, penalizing methods that require more retrieval steps, even if they lead to a correct result. Our method achieves new state of the art results on multiple single-hop and multi-hop datasets while reducing retrieval costs. Our code are available at https://github.com/FUTUREEEEEE/MBA .
academic
MBA-RAG: Подход на основе многорукого бандита для адаптивной генерации с дополнением поиском через сложность вопроса
Генерация с дополнением поиском (RAG) значительно улучшает производительность языковых моделей в задачах, требующих знаний. Однако существующие системы RAG либо выполняют поиск без дифференциации, либо полагаются на жесткие однокласовые классификаторы для выбора методов поиска, что приводит к неэффективности и субоптимальной производительности при запросах различной сложности. Для решения этих проблем в статье предлагается фреймворк на основе обучения с подкреплением, который динамически выбирает наиболее подходящую стратегию поиска в зависимости от сложности запроса. Метод использует алгоритм многорукого бандита, рассматривая каждый метод поиска как различное "плечо", и балансирует исследование и эксплуатацию для адаптации процесса выбора. Кроме того, вводится динамическая функция вознаграждения, которая балансирует точность и эффективность, штрафуя методы, требующие большего количества шагов поиска, даже при получении правильного результата. Метод достигает новых результатов SOTA на нескольких наборах данных с одним и несколькими переходами, одновременно снижая стоимость поиска.
Существующие системы RAG имеют следующие основные проблемы:
Неправильный выбор стратегии поиска: Большинство фреймворков RAG выполняют поиск без дифференциации для всех запросов, что может привести к введению ненужных или не относящихся к делу фрагментов
Ограничения единого метода: Использование единого метода поиска для всех запросов неэффективно; простые запросы создают ненужные вычислительные затраты, а сложные запросы могут быть недостаточно обработаны
Неточные сигналы контроля: Существующие адаптивные методы, такие как AdaptiveRAG, используют эвристический контроль, предполагая, что для каждого запроса существует только одна оптимальная стратегия, и склонны выбирать пути с наименьшей стоимостью поиска
Основная мотивация этой работы заключается в разработке фреймворка, который может:
Динамически адаптироваться к сложности запроса: Интеллектуально выбирать стратегию поиска в зависимости от сложности проблемы
Балансировать точность и эффективность: Минимизировать вычислительные затраты при сохранении качества ответов
Поддерживать исследование нескольких стратегий: Позволить нескольким стратегиям производить правильные ответы вместо принудительного выбора единого "оптимального" пути
Предложение фреймворка MBA-RAG: Первое применение алгоритма многорукого бандита к выбору стратегии поиска в системах RAG, реализующее динамическую адаптивную выборку
Разработка динамической функции вознаграждения: Инновационное объединение точности и вычислительной эффективности путем штрафования методов с высокой стоимостью для оптимизации использования ресурсов
Достижение производительности SOTA: Получение лучших результатов на 6 наборах данных при одновременном снижении стоимости поиска на 20%
Предоставление гибкого механизма контроля: Использование частичного информационного контроля вместо строгого однозначного контроля, позволяя модели исследовать несколько эффективных стратегий
Этап поиска: Модуль R извлекает релевантные документы D для запроса x
Этап генерации: LLM использует x и D для генерации ответа ā = LLM(yt|x,D)
В данной работе это переформулируется как задача многорукого бандита, где каждый метод поиска (без поиска, одиночный поиск, множественный поиск) рассматривается как "плечо".
Сравнение с результатами многоклассового классификатора показывает, что хотя традиционные многоклассовые методы демонстрируют хорошую производительность, стоимость поиска слишком высока (Step достигает 4.514), в то время как MBA-RAG достигает оптимального баланса между производительностью и эффективностью.
Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. NeurIPS.
Jeong, S., et al. (2024). Adaptive-rag: Learning to adapt retrieval-augmented large language models through question complexity. arXiv preprint.
Katehakis, M. N., & Veinott Jr, A. F. (1987). The multi-armed bandit problem: decomposition and computation. Mathematics of Operations Research.
Общая оценка: В данной статье предлагается инновационный и практичный фреймворк для оптимизации RAG, реализующий динамический выбор стратегии поиска через алгоритм многорукого бандита, значительно снижающий вычислительные затраты при сохранении высокой точности. Метод имеет прочную теоретическую основу, убедительные экспериментальные результаты и предоставляет ценные идеи для дальнейшего развития систем RAG.