iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic
iTool: Усиленная тонкая настройка с динамической калибровкой дефицитов для продвинутого использования инструментов
Учреждения: Исследовательский центр социальных вычислений и поиска информации Харбинского технологического университета, Huawei Technologies Co., Ltd., Шанхайский университет Цзяо Тун, Университет науки и технологии Китая
Интеграция больших языковых моделей (LLM) с внешними инструментами является эффективным методом расширения их возможностей, особенно в сложных задачах. Создание синтетических данных об использовании инструментов посредством моделирования реальных сценариев является эффективным подходом к достижению этой цели. Однако исследования показывают, что с увеличением объема синтетических данных выгода от обучения значительно снижается. Модели испытывают трудности при извлечении пользы из дополнительных синтетических данных и не могут достичь продвинутых навыков использования инструментов в сложных сценариях. Авторы обнаружили, что это ограничение обычно проявляется как фрагментарные дефекты в ответах (т.е. ошибки параметров). Для решения этой проблемы предложена итеративная стратегия усиленной тонкой настройки, включающая: (1) повышение разнообразия ответов синтетических данных посредством исследования путей с использованием поиска дерева Монте-Карло; (2) итеративное выявление дефектов модели путем построения детальных пар предпочтений и целевое улучшение посредством алгоритмов оптимизации предпочтений. Экспериментальные результаты показывают, что метод обеспечивает улучшение производительности на 13,11% по сравнению с базовой моделью аналогичного размера, улучшение на 6,5% в сложных сценариях по сравнению с базовыми методами и превосходит более крупные открытые и закрытые модели.
Основная проблема: Существующие методы обучения использованию инструментов демонстрируют проблему снижения выгоды от обучения при работе с синтетическими данными; модели не могут эффективно учиться на увеличенных синтетических данных
Значимость: Способность использовать инструменты является ключевым навыком LLM в практических приложениях, охватывая важные функции, такие как поиск информации, точные вычисления и снижение галлюцинаций
Ограничения существующих методов:
Традиционная контролируемая тонкая настройка (SFT) показывает плохие результаты в сложных сценариях использования инструментов
По мере увеличения объема синтетических данных предельное увеличение производительности снижается
Модели демонстрируют систематические дефекты в извлечении параметров и рассуждениях
Выявление и анализ проблемы снижения выгоды от обучения при использовании синтетических данных об использовании инструментов, обнаружение того, что ошибки сосредоточены на фрагментарных дефектах, связанных с параметрами
Предложение фреймворка iTool, включающего два основных компонента: прогрессивное обучение с разминкой и итеративное усиленное обучение
Разработка метода генерации детальных данных о предпочтениях на основе MCTS, способного эффективно выявлять и исправлять ошибочные фрагменты в ответах
Достижение значительного улучшения на нескольких эталонных тестах, превосходство 8B-параметровой модели над более крупными открытыми и закрытыми моделями
В задаче использования инструментов LLM получает пользовательский запрос q и набор кандидатов инструментов T = {t₀, t₁, ..., t|T|}, целью является удовлетворение намерения пользователя путем выполнения определенной последовательности инструментов. Процесс принятия решения может быть описан как y ~ π(y | s₀, q, T), где π(·) обозначает модель политики, s₀ обозначает начальное состояние задачи, y обозначает действие, предпринятое моделью.
Выявление ошибок на уровне фрагментов: Генерация детальных пар предпочтений через MCTS позволяет точно локализовать ошибочные фрагменты в ответах
Динамическая калибровка сложности: Динамический выбор сложных образцов на основе перплексии генерации повышает эффективность обучения
Итеративная стратегия оптимизации: Комбинирование обучения по учебному плану и усиленного обучения постепенно повышает производительность модели в сложных сценариях
Выявление ключевой проблемы при обучении с использованием синтетических данных об использовании инструментов: снижение выгоды от обучения в основном вызвано фрагментарными ошибками, связанными с параметрами
Предложение эффективного решения: Повышение разнообразия данных через MCTS и итеративное усиленное обучение для исправления ошибочных фрагментов
Достижение значительного улучшения производительности: 8B-параметровая модель превосходит более крупные модели на нескольких эталонах
Статья цитирует важные работы в областях использования инструментов, усиленного обучения и оптимизации предпочтений, включая:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Работы, связанные с MCTS (Coulom, 2006; Grill et al., 2020)
Общая оценка: Это высококачественная исследовательская статья, которая точно выявляет ключевую проблему при обучении использованию инструментов, предлагает инновационное и эффективное решение и подтверждает эффективность метода посредством полных экспериментов. Несмотря на ограничение в виде высоких вычислительных затрат, его академический вклад и практическая ценность весьма значительны.