2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool: Усиленная тонкая настройка с динамической калибровкой дефицитов для продвинутого использования инструментов

Основная информация

ID статьи: 2501.09766
Название: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Авторы: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
Учреждения: Исследовательский центр социальных вычислений и поиска информации Харбинского технологического университета, Huawei Technologies Co., Ltd., Шанхайский университет Цзяо Тун, Университет науки и технологии Китая
Классификация: cs.CL cs.AI cs.LG
Дата публикации: Январь 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.09766

Аннотация

Интеграция больших языковых моделей (LLM) с внешними инструментами является эффективным методом расширения их возможностей, особенно в сложных задачах. Создание синтетических данных об использовании инструментов посредством моделирования реальных сценариев является эффективным подходом к достижению этой цели. Однако исследования показывают, что с увеличением объема синтетических данных выгода от обучения значительно снижается. Модели испытывают трудности при извлечении пользы из дополнительных синтетических данных и не могут достичь продвинутых навыков использования инструментов в сложных сценариях. Авторы обнаружили, что это ограничение обычно проявляется как фрагментарные дефекты в ответах (т.е. ошибки параметров). Для решения этой проблемы предложена итеративная стратегия усиленной тонкой настройки, включающая: (1) повышение разнообразия ответов синтетических данных посредством исследования путей с использованием поиска дерева Монте-Карло; (2) итеративное выявление дефектов модели путем построения детальных пар предпочтений и целевое улучшение посредством алгоритмов оптимизации предпочтений. Экспериментальные результаты показывают, что метод обеспечивает улучшение производительности на 13,11% по сравнению с базовой моделью аналогичного размера, улучшение на 6,5% в сложных сценариях по сравнению с базовыми методами и превосходит более крупные открытые и закрытые модели.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Существующие методы обучения использованию инструментов демонстрируют проблему снижения выгоды от обучения при работе с синтетическими данными; модели не могут эффективно учиться на увеличенных синтетических данных
Значимость: Способность использовать инструменты является ключевым навыком LLM в практических приложениях, охватывая важные функции, такие как поиск информации, точные вычисления и снижение галлюцинаций
Ограничения существующих методов:
- Традиционная контролируемая тонкая настройка (SFT) показывает плохие результаты в сложных сценариях использования инструментов
- По мере увеличения объема синтетических данных предельное увеличение производительности снижается
- Модели демонстрируют систематические дефекты в извлечении параметров и рассуждениях

Исследовательские находки

Предварительное исследование выявило:

При оценке BFCL 51% ошибок происходят из-за неправильных значений параметров, 26% из-за неправильных имен параметров
Ошибки обычно влияют только на небольшие фрагменты ответов, тогда как большая часть содержания совпадает с истинным ответом
Традиционный метод SFT показывает значительное замедление улучшения производительности после использования 30% данных

Основные вклады

Выявление и анализ проблемы снижения выгоды от обучения при использовании синтетических данных об использовании инструментов, обнаружение того, что ошибки сосредоточены на фрагментарных дефектах, связанных с параметрами
Предложение фреймворка iTool, включающего два основных компонента: прогрессивное обучение с разминкой и итеративное усиленное обучение
Разработка метода генерации детальных данных о предпочтениях на основе MCTS, способного эффективно выявлять и исправлять ошибочные фрагменты в ответах
Достижение значительного улучшения на нескольких эталонных тестах, превосходство 8B-параметровой модели над более крупными открытыми и закрытыми моделями

Подробное описание методов

Определение задачи

В задаче использования инструментов LLM получает пользовательский запрос q и набор кандидатов инструментов T = {t₀, t₁, ..., t|T|}, целью является удовлетворение намерения пользователя путем выполнения определенной последовательности инструментов. Процесс принятия решения может быть описан как y ~ π(y | s₀, q, T), где π(·) обозначает модель политики, s₀ обозначает начальное состояние задачи, y обозначает действие, предпринятое моделью.

Архитектура модели

1. Прогрессивное обучение с разминкой (Warm-up Training)

Применяется стратегия обучения по учебному плану от простого к сложному:

Критерии классификации данных:

Простые: количество инструментов ≤1, длина строки набора инструментов <1000, требуемое количество вызовов инструментов ≤1
Средние: 1<количество инструментов<4, длина строки <2000, количество вызовов инструментов <4
Сложные: количество инструментов ≥4, длина строки >2000, количество вызовов инструментов ≥4

Функция потерь обучения:

L_warm-up = Σ(i=1 to 3) L_i
где L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Итеративное усиленное обучение на основе MCTS

Выборка сложных данных: Использование перплексии генерации для измерения сложности образца:

h = ⁿ√(1/P_M(y | q, T))

На каждой итерации выбираются 10% данных с наивысшей перплексией для последующей обработки.

Генерация предпочтений на уровне шагов MCTS:

Фаза выбора: Использование алгоритма PUCT для балансировки исследования и использования
```
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
```
Фаза расширения: Интеграция новых узлов в листовом узле и оценка вознаграждения
```
R(s_t) = O(s_t) + C(s_t)
```
Фаза обратного распространения: Обновление снизу вверх счетчиков посещений и значений состояния

Итеративная оптимизация предпочтений: Применение алгоритма SimPO для оптимизации предпочтений:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Технические инновации

Выявление ошибок на уровне фрагментов: Генерация детальных пар предпочтений через MCTS позволяет точно локализовать ошибочные фрагменты в ответах
Динамическая калибровка сложности: Динамический выбор сложных образцов на основе перплексии генерации повышает эффективность обучения
Итеративная стратегия оптимизации: Комбинирование обучения по учебному плану и усиленного обучения постепенно повышает производительность модели в сложных сценариях

Экспериментальная установка

Наборы данных

Данные обучения: Набор данных ToolACE, содержащий 100K образцов универсальных данных об использовании инструментов
Наборы данных оценки:
- Berkeley Function-Calling Leaderboard (BFCL): 4K+ экземпляров, включая Non-live (простые), Live (сложные), Multi-turn (многоходовые) и Hallucination (обнаружение галлюцинаций)
- API-Bank: 314 диалогов об использовании инструментов, 753 вызова API

Метрики оценки

Точность: Производительность точности на различных подзадачах
Общая производительность: Взвешенный средний балл по нескольким измерениям

Методы сравнения

Закрытые модели: Серия GPT-4, серия Gemini, o1-mini и т.д.
Открытые базовые модели: Серия LLaMA-3.1, серия Qwen2.5 и т.д.
Тонко настроенные модели: ToolACE-8B, серия xLAM, серия Hammer и т.д.

Детали реализации

Базовая модель: LLaMA3.1-8B-Instruct
Стратегия обучения: Использование LoRA на этапе разминки, QLoRA на этапе усиленного обучения
Конфигурация оборудования: 8×32GB V100 GPU, общее время обучения 28 часов

Экспериментальные результаты

Основные результаты

Результаты эталонного теста BFCL:

iTool-8B достигает 63,26% общей точности, занимая первое место
Достигает 78,29% в Live (сложные сценарии), превосходя GPT-4o-2024-08-06 с 75,43%
Достигает 23,84% в задачах Multi-turn, значительно превосходя другие модели аналогичного размера

Результаты API-Bank:

Задача L1: 78,89% (против 75,94% для ToolACE-8B)
Задача L2: 52,87% (против 47,41% для ToolACE-8B)

Абляционные исследования

Анализ вклада компонентов:

Компонент	Non-live	Live	Multi-turn
Base Model	81.15	57.93	11.38
+ SFT	+7.8	+17.0	+6.0
+ Warm-up	+7.2	+17.9	+8.3
+ IRL (iTool)	+9.5	+21.2	+12.5

Ключевые находки:

Обучение с разминкой и итеративное усиленное обучение вносят соответственно 2,3 и 4,2 пункта улучшения
Улучшение наиболее значительно в сложных сценариях (Live и Multi-turn)

Анализ выгоды от обучения

По сравнению с традиционным методом SFT, iTool демонстрирует лучшую кривую выгоды при увеличении объема данных:

Метод SFT показывает выравнивание выгоды после 30% данных
iTool сохраняет более крутую кривую улучшения по метрике Live

Проверка обобщаемости

Производительность на различных наборах данных и архитектурах моделей:

Синтетические наборы данных (ToolACE, xLAM): улучшение +4,42 до +6,49
Несинтетические наборы данных (BFCL-half): улучшение +2,17 до +3,65
Демонстрирует последовательное улучшение на моделях различных размеров от 3B до 8B

Связанные работы

Исследования использования инструментов

Ранние работы: Toolformer, ToolAlpaca и другие исследовали потенциал использования инструментов LLM
Методы без настройки: Разблокировка внутренних возможностей посредством инженерии подсказок (ReAct, RestGPT)
Методы на основе настройки: ToolLLaMA расширила набор инструментов и исследовала влияние объема данных

Методы усиленного обучения

Традиционные методы: Онлайн-алгоритмы усиленного обучения, такие как PPO, сложны и трудны в оптимизации
Оптимизация прямых предпочтений: DPO и его варианты (SimPO, IPO, ORPO) предоставляют более простые автономные алгоритмы
Итеративное обучение: Непрерывное обновление эталонной модели и генерация новых пар предпочтений для улучшения производительности

Заключение и обсуждение

Основные выводы

Выявление ключевой проблемы при обучении с использованием синтетических данных об использовании инструментов: снижение выгоды от обучения в основном вызвано фрагментарными ошибками, связанными с параметрами
Предложение эффективного решения: Повышение разнообразия данных через MCTS и итеративное усиленное обучение для исправления ошибочных фрагментов
Достижение значительного улучшения производительности: 8B-параметровая модель превосходит более крупные модели на нескольких эталонах

Ограничения

Требования к вычислительным ресурсам: Процесс MCTS требует значительных вычислительных ресурсов (каждая итерация требует 7 часов работы на 8 V100 GPU)
Ограничения масштаба: Из-за ограничений ресурсов метод не проверен на более крупных моделях размером 30B или 70B
Охват наборов данных: Подробный анализ проведен только на одном синтетическом наборе данных

Направления будущих исследований

Оптимизация эффективности: Разработка более эффективных методов генерации данных о предпочтениях
Расширение масштаба: Проверка эффективности метода на более крупных моделях
Разнообразие данных: Тестирование способности метода к обобщению на большем количестве открытых наборов данных

Глубокая оценка

Преимущества

Точное выявление проблемы: Посредством детального анализа типов ошибок точно выявлена коренная причина снижения выгоды от обучения
Разумный дизайн методов: Стратегия комбинирования обучения по учебному плану и усиленного обучения соответствует принципам человеческого обучения
Полные эксперименты: Включает комплексные абляционные исследования, проверку обобщаемости и анализ затрат-выгод
Значительные результаты: Достигнуты значительные и последовательные улучшения на нескольких эталонах

Недостатки

Высокие вычислительные затраты: Вычислительные издержки процесса MCTS могут ограничить его практическую применимость
Недостаточный теоретический анализ: Отсутствует теоретическое объяснение того, почему MCTS эффективно решает проблему фрагментарных ошибок
Неполное сравнение: Сравнение с другими методами решения проблемы снижения выгоды от обучения ограничено

Влияние

Академический вклад: Предоставляет новый подход к решению проблемы снижения выгоды от обучения при обучении использованию инструментов
Практическая ценность: Метод достигает значительного улучшения при сохранении вычислительной осуществимости
Воспроизводимость: Предоставляет подробные детали реализации и открытый исходный код

Применимые сценарии

Сложные сценарии использования инструментов: Особенно подходит для задач, требующих координации нескольких инструментов и сложного вывода параметров
Обучение на синтетических данных: Предоставляет эффективное решение для использования синтетических данных для повышения способностей модели
Исследовательские среды с достаточными ресурсами: Требует определенных вычислительных ресурсов для поддержки процесса MCTS

Библиография

Статья цитирует важные работы в областях использования инструментов, усиленного обучения и оптимизации предпочтений, включая:

Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Работы, связанные с MCTS (Coulom, 2006; Grill et al., 2020)

Общая оценка: Это высококачественная исследовательская статья, которая точно выявляет ключевую проблему при обучении использованию инструментов, предлагает инновационное и эффективное решение и подтверждает эффективность метода посредством полных экспериментов. Несмотря на ограничение в виде высоких вычислительных затрат, его академический вклад и практическая ценность весьма значительны.