2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

基本信息

  • 论文ID: 2501.09766
  • 标题: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • 作者: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • 机构: 哈尔滨工业大学社会计算与信息检索研究中心、华为技术有限公司、上海交通大学、中国科学技术大学
  • 分类: cs.CL cs.AI cs.LG
  • 发表时间: 2025年1月(arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.09766

摘要

大型语言模型(LLMs)与外部工具的集成是增强其能力的有效方法,特别是在复杂任务中。通过真实世界模拟合成工具使用数据是实现这一目标的有效途径。然而,研究发现随着合成数据的增加,训练收益显著衰减。模型难以从额外的合成数据中受益,无法在复杂场景中获得高级工具使用能力。作者发现这种限制通常表现为响应中的片段缺陷(即参数错误)。为此,提出了一种迭代强化微调策略来缓解这一限制,包括:(1)通过蒙特卡洛树搜索的路径探索增强合成数据响应的多样性;(2)通过构建细粒度偏好对迭代定位模型缺陷,并通过偏好优化算法进行有针对性的改进。实验表明,该方法比同规模基础模型性能提升13.11%,在复杂场景中比基线提升6.5%,并优于更大规模的开源和闭源模型。

研究背景与动机

问题定义

  1. 核心问题:现有的工具使用训练方法在处理合成数据时存在训练收益衰减问题,模型无法从增加的合成数据中有效学习
  2. 重要性:工具使用能力是LLMs在实际应用中的关键能力,涉及信息检索、精确计算、减少幻觉等重要功能
  3. 现有方法局限性
    • 传统的监督微调(SFT)在复杂工具使用场景中表现不佳
    • 随着合成数据规模增加,性能提升边际递减
    • 模型在参数提取和推理方面存在系统性缺陷

研究发现

通过初步研究发现:

  • 在BFCL评估中,51%的错误来自参数值错误,26%来自参数名称错误
  • 错误通常只影响响应的小片段,而大部分内容与真实答案一致
  • 传统SFT方法在使用30%数据后性能提升显著放缓

核心贡献

  1. 识别并分析了合成工具使用数据训练中的收益衰减问题,发现错误主要集中在参数相关的片段缺陷上
  2. 提出了iTool框架,包含渐进式热身训练和迭代强化学习两个核心组件
  3. 设计了基于MCTS的细粒度偏好数据生成方法,能够有效识别和纠正响应中的错误片段
  4. 在多个基准测试中取得显著提升,8B参数模型超越了更大规模的开源和闭源模型

方法详解

任务定义

在工具使用任务中,LLM接收用户查询q和候选工具集合T = {t₀, t₁, ..., t|T|},目标是通过执行特定的工具序列来满足用户意图。决策过程可描述为y ~ π(y | s₀, q, T),其中π(·)表示策略模型,s₀表示初始任务状态,y表示模型采取的动作。

模型架构

1. 渐进式热身训练(Warm-up Training)

采用从易到难的课程学习策略:

数据分级标准

  • 简单:工具数≤1,工具集字符串长度<1000,需要的工具调用数≤1
  • 中等:1<工具数<4,字符串长度<2000,工具调用数<4
  • 困难:工具数≥4,字符串长度>2000,工具调用数≥4

训练损失

L_warm-up = Σ(i=1 to 3) L_i
其中 L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. 基于MCTS的迭代强化学习

复杂数据采样: 使用生成困惑度衡量样本复杂性:

h = ⁿ√(1/P_M(y | q, T))

每次迭代选择困惑度最高的10%数据进行后续处理。

MCTS步骤级偏好生成

  • 选择阶段:使用PUCT算法平衡探索与利用
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • 扩展阶段:在叶节点集成新节点并评估奖励
    R(s_t) = O(s_t) + C(s_t)
    
  • 回溯阶段:自底向上更新访问计数和状态值

迭代偏好优化: 采用SimPO算法进行偏好优化:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

技术创新点

  1. 片段级错误识别:通过MCTS生成细粒度的偏好对,能够精确定位响应中的错误片段
  2. 动态复杂性校准:基于生成困惑度动态选择复杂样本,提高训练效率
  3. 迭代优化策略:结合课程学习和强化学习,逐步提升模型在复杂场景中的表现

实验设置

数据集

  • 训练数据:ToolACE数据集,包含100K样本的通用工具使用数据
  • 评估数据集
    • Berkeley Function-Calling Leaderboard (BFCL):4K+实例,包含Non-live(简单)、Live(复杂)、Multi-turn(多轮)和Hallucination(幻觉检测)
    • API-Bank:314个工具使用对话,753个API调用

评价指标

  • 准确率:在各个子任务上的准确性表现
  • 整体性能:综合多个维度的加权平均分数

对比方法

  • 闭源模型:GPT-4系列、Gemini系列、o1-mini等
  • 开源基础模型:LLaMA-3.1系列、Qwen2.5系列等
  • 微调模型:ToolACE-8B、xLAM系列、Hammer系列等

实现细节

  • 基础模型:LLaMA3.1-8B-Instruct
  • 训练策略:热身阶段使用LoRA,强化学习阶段使用QLoRA
  • 硬件配置:8×32GB V100 GPU,总训练时间28小时

实验结果

主要结果

BFCL基准测试结果

  • iTool-8B在整体准确率上达到63.26%,排名第一
  • 在Live(复杂场景)中达到78.29%,超过GPT-4o-2024-08-06的75.43%
  • 在Multi-turn任务中达到23.84%,显著优于其他同规模模型

API-Bank结果

  • L1任务:78.89%(vs ToolACE-8B的75.94%)
  • L2任务:52.87%(vs ToolACE-8B的47.41%)

消融实验

模块贡献分析

组件Non-liveLiveMulti-turn
Base Model81.1557.9311.38
+ SFT+7.8+17.0+6.0
+ Warm-up+7.2+17.9+8.3
+ IRL (iTool)+9.5+21.2+12.5

关键发现

  • 热身训练和迭代强化学习分别贡献2.3和4.2个点的提升
  • 在复杂场景(Live和Multi-turn)中改进最为显著

训练收益分析

与传统SFT相比,iTool在数据规模增加时表现出更好的收益曲线:

  • SFT方法在30%数据后收益趋于平缓
  • iTool在Live指标上保持更陡峭的提升曲线

泛化性验证

在不同数据集和模型架构上的表现:

  • 合成数据集(ToolACE、xLAM):+4.42到+6.49的提升
  • 非合成数据集(BFCL-half):+2.17到+3.65的提升
  • 在3B到8B不同规模模型上均表现出一致的改进

相关工作

工具使用研究

  • 早期工作:Toolformer、ToolAlpaca等探索了LLMs的工具使用潜力
  • 无需调优方法:通过提示工程(ReAct、RestGPT)解锁固有能力
  • 基于调优方法:ToolLLaMA扩展工具集并研究数据规模影响

强化学习方法

  • 传统方法:PPO等在线强化学习算法复杂且难以优化
  • 直接偏好优化:DPO及其变体(SimPO、IPO、ORPO)提供了更简单的离线算法
  • 迭代训练:通过持续更新参考模型和生成新偏好对来改进性能

结论与讨论

主要结论

  1. 识别了合成工具使用数据训练中的关键问题:训练收益衰减主要由参数相关的片段错误导致
  2. 提出了有效的解决方案:通过MCTS增强数据多样性和迭代强化学习纠正错误片段
  3. 取得了显著的性能提升:8B参数模型在多个基准上超越了更大规模的模型

局限性

  1. 计算资源需求:MCTS过程需要大量计算资源(每次迭代需要8个V100 GPU运行7小时)
  2. 规模限制:由于资源限制,未在30B或70B等更大模型上验证
  3. 数据集覆盖:仅在单一合成数据集上进行了深入分析

未来方向

  1. 效率优化:开发更高效的偏好数据生成方法
  2. 规模扩展:在更大规模模型上验证方法的有效性
  3. 数据多样性:在更多公开数据集上测试方法的泛化能力

深度评价

优点

  1. 问题识别准确:通过详细的错误类型分析,准确识别了训练收益衰减的根本原因
  2. 方法设计合理:结合课程学习和强化学习的策略符合人类学习规律
  3. 实验充分:包含全面的消融实验、泛化性验证和成本效益分析
  4. 结果显著:在多个基准上取得了显著且一致的改进

不足

  1. 计算成本高:MCTS过程的计算开销可能限制其在实际应用中的可行性
  2. 理论分析不足:缺乏对为什么MCTS能够有效解决片段错误问题的理论解释
  3. 对比不够全面:与其他处理训练收益衰减问题的方法对比较少

影响力

  1. 学术贡献:为工具使用训练中的收益衰减问题提供了新的解决思路
  2. 实用价值:方法在保持计算可行性的同时取得了显著改进
  3. 可复现性:提供了详细的实现细节和开源代码

适用场景

  • 复杂工具使用场景:特别适用于需要多工具协调和复杂参数推理的任务
  • 合成数据训练:为利用合成数据提升模型能力提供了有效方案
  • 资源充足的研究环境:需要一定的计算资源支持MCTS过程

参考文献

论文引用了工具使用、强化学习和偏好优化等领域的重要工作,包括:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • MCTS相关工作 (Coulom, 2006; Grill et al., 2020)

总体评价:这是一篇高质量的研究论文,准确识别了工具使用训练中的关键问题,提出了创新且有效的解决方案,并通过充分的实验验证了方法的有效性。尽管存在计算成本较高的局限性,但其学术贡献和实用价值都很显著。