2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

基本信息

论文ID: 2501.09766
标题: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
作者: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
机构: 哈尔滨工业大学社会计算与信息检索研究中心、华为技术有限公司、上海交通大学、中国科学技术大学
分类: cs.CL cs.AI cs.LG
发表时间: 2025年1月（arXiv预印本）
论文链接: https://arxiv.org/abs/2501.09766

摘要

大型语言模型（LLMs）与外部工具的集成是增强其能力的有效方法，特别是在复杂任务中。通过真实世界模拟合成工具使用数据是实现这一目标的有效途径。然而，研究发现随着合成数据的增加，训练收益显著衰减。模型难以从额外的合成数据中受益，无法在复杂场景中获得高级工具使用能力。作者发现这种限制通常表现为响应中的片段缺陷（即参数错误）。为此，提出了一种迭代强化微调策略来缓解这一限制，包括：(1)通过蒙特卡洛树搜索的路径探索增强合成数据响应的多样性；(2)通过构建细粒度偏好对迭代定位模型缺陷，并通过偏好优化算法进行有针对性的改进。实验表明，该方法比同规模基础模型性能提升13.11%，在复杂场景中比基线提升6.5%，并优于更大规模的开源和闭源模型。

研究背景与动机

问题定义

核心问题：现有的工具使用训练方法在处理合成数据时存在训练收益衰减问题，模型无法从增加的合成数据中有效学习
重要性：工具使用能力是LLMs在实际应用中的关键能力，涉及信息检索、精确计算、减少幻觉等重要功能
现有方法局限性：
- 传统的监督微调（SFT）在复杂工具使用场景中表现不佳
- 随着合成数据规模增加，性能提升边际递减
- 模型在参数提取和推理方面存在系统性缺陷

研究发现

通过初步研究发现：

在BFCL评估中，51%的错误来自参数值错误，26%来自参数名称错误
错误通常只影响响应的小片段，而大部分内容与真实答案一致
传统SFT方法在使用30%数据后性能提升显著放缓

核心贡献

识别并分析了合成工具使用数据训练中的收益衰减问题，发现错误主要集中在参数相关的片段缺陷上
提出了iTool框架，包含渐进式热身训练和迭代强化学习两个核心组件
设计了基于MCTS的细粒度偏好数据生成方法，能够有效识别和纠正响应中的错误片段
在多个基准测试中取得显著提升，8B参数模型超越了更大规模的开源和闭源模型

方法详解

任务定义

在工具使用任务中，LLM接收用户查询q和候选工具集合T = {t₀, t₁, ..., t|T|}，目标是通过执行特定的工具序列来满足用户意图。决策过程可描述为y ~ π(y | s₀, q, T)，其中π(·)表示策略模型，s₀表示初始任务状态，y表示模型采取的动作。

模型架构

1. 渐进式热身训练（Warm-up Training）

采用从易到难的课程学习策略：

数据分级标准：

简单：工具数≤1，工具集字符串长度<1000，需要的工具调用数≤1
中等：1<工具数<4，字符串长度<2000，工具调用数<4
困难：工具数≥4，字符串长度>2000，工具调用数≥4

训练损失：

L_warm-up = Σ(i=1 to 3) L_i
其中 L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. 基于MCTS的迭代强化学习

复杂数据采样：使用生成困惑度衡量样本复杂性：

h = ⁿ√(1/P_M(y | q, T))

每次迭代选择困惑度最高的10%数据进行后续处理。

MCTS步骤级偏好生成：

选择阶段：使用PUCT算法平衡探索与利用

s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]

扩展阶段：在叶节点集成新节点并评估奖励
```
R(s_t) = O(s_t) + C(s_t)
```
回溯阶段：自底向上更新访问计数和状态值

迭代偏好优化：采用SimPO算法进行偏好优化：

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

技术创新点

片段级错误识别：通过MCTS生成细粒度的偏好对，能够精确定位响应中的错误片段
动态复杂性校准：基于生成困惑度动态选择复杂样本，提高训练效率
迭代优化策略：结合课程学习和强化学习，逐步提升模型在复杂场景中的表现

实验设置

数据集

训练数据：ToolACE数据集，包含100K样本的通用工具使用数据
评估数据集：
- Berkeley Function-Calling Leaderboard (BFCL)：4K+实例，包含Non-live（简单）、Live（复杂）、Multi-turn（多轮）和Hallucination（幻觉检测）
- API-Bank：314个工具使用对话，753个API调用