Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
論文ID : 2501.09766タイトル : iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use著者 : Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu所属機関 : ハルビン工業大学社会計算・情報検索研究センター、華為技術有限公司、上海交通大学、中国科学技術大学分類 : cs.CL cs.AI cs.LG発表時期 : 2025年1月(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2501.09766 大規模言語モデル(LLMs)と外部ツールの統合は、特に複雑なタスクにおいてその能力を強化する有効な方法である。実世界シミュレーションによる合成ツール使用データの生成はこの目標を達成するための有効な手段である。しかし、合成データの増加に伴い、訓練利得が著しく減衰することが判明した。モデルは追加の合成データから利益を得られず、複雑なシナリオにおいて高度なツール使用能力を獲得できない。著者らは、この制限が通常、応答における断片的欠陥(すなわちパラメータエラー)として現れることを発見した。これに対応するため、この制限を緩和するための反復強化微調整戦略を提案した。これには以下が含まれる:(1)モンテカルロ木探索による経路探索を通じた合成データ応答の多様性の向上、(2)細粒度選好ペアの構築による反復的なモデル欠陥の特定と選好最適化アルゴリズムによる標的化された改善。実験結果は、本手法が同規模の基礎モデルと比較して13.11%の性能向上を達成し、複雑なシナリオではベースラインより6.5%向上し、より大規模なオープンソースおよびクローズドソースモデルを上回ることを示している。
中核的問題 :既存のツール使用訓練方法は合成データ処理時に訓練利得減衰問題を有し、モデルは増加した合成データから効果的に学習できない重要性 :ツール使用能力はLLMsの実用的応用における重要な能力であり、情報検索、正確な計算、幻覚の削減など重要な機能に関わる既存手法の限界 :
従来の教師あり微調整(SFT)は複雑なツール使用シナリオで不十分な性能を示す 合成データ規模の増加に伴い、性能向上の限界効用は逓減する モデルはパラメータ抽出と推論において体系的欠陥を有する 予備的研究を通じて以下が判明した:
BFCL評価において、エラーの51%はパラメータ値エラーに由来し、26%はパラメータ名エラーに由来する エラーは通常応答の小さな断片にのみ影響し、大部分の内容は正解と一致する 従来のSFT手法は30%のデータ使用後、性能向上が著しく鈍化する 合成ツール使用データ訓練における利得減衰問題を識別・分析 し、エラーが主にパラメータ関連の断片的欠陥に集中していることを発見iToolフレームワークを提案 。段階的ウォームアップ訓練と反復強化学習という2つの中核コンポーネントを含むMCTS基盤の細粒度選好データ生成手法を設計 。応答内のエラー断片を効果的に識別・修正できる複数のベンチマークで顕著な向上を達成 。8Bパラメータモデルがより大規模なオープンソースおよびクローズドソースモデルを上回るツール使用タスクにおいて、LLMはユーザークエリqと候補ツール集合T = {t₀, t₁, ..., t|T|}を受け取り、特定のツール列を実行することでユーザー意図を満たすことが目標である。決定プロセスはy ~ π(y | s₀, q, T)として記述できる。ここでπ(·)は方針モデル、s₀は初期タスク状態、yはモデルが採取した行動を表す。
易から難への課程学習戦略を採用:
データ分類基準 :
簡単:ツール数≤1、ツール集合文字列長<1000、必要なツール呼び出し数≤1 中程度:1<ツール数<4、文字列長<2000、ツール呼び出し数<4 困難:ツール数≥4、文字列長>2000、ツール呼び出し数≥4 訓練損失 :
L_warm-up = Σ(i=1 to 3) L_i
ここで L_i = -E_(q,y)~D_i [log P_M(y | q, T)]
複雑データサンプリング :
生成困惑度を用いてサンプル複雑性を測定:
各反復で困惑度が最も高い10%のデータを後続処理のために選択。
MCTS段階レベル選好生成 :
選択段階 :PUCT アルゴリズムを使用して探索と利用のバランスを取る
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
拡張段階 :葉ノードで新しいノードを統合し報酬を評価
バックプロパゲーション段階 :ボトムアップで訪問カウントと状態値を更新反復選好最適化 :
SimPOアルゴリズムを用いた選好最適化を採用:
ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]
断片レベルのエラー識別 :MCTSにより細粒度の選好ペアを生成し、応答内のエラー断片を正確に特定動的複雑性キャリブレーション :生成困惑度に基づいて動的に複雑なサンプルを選択し、訓練効率を向上反復最適化戦略 :課程学習と強化学習を組み合わせ、複雑なシナリオにおけるモデル性能を段階的に向上訓練データ :ToolACEデータセット、100Kサンプルの汎用ツール使用データを含む評価データセット :
Berkeley Function-Calling Leaderboard (BFCL):4K+インスタンス、Non-live(簡単)、Live(複雑)、Multi-turn(マルチターン)、Hallucination(幻覚検出)を含む API-Bank:314のツール使用対話、753のAPI呼び出し 正確度 :各サブタスクにおける正確性の性能全体性能 :複数の次元における加重平均スコアクローズドソースモデル :GPT-4シリーズ、Geminiシリーズ、o1-miniなどオープンソース基礎モデル :LLaMA-3.1シリーズ、Qwen2.5シリーズなど微調整モデル :ToolACE-8B、xLAMシリーズ、Hammerシリーズなど基礎モデル :LLaMA3.1-8B-Instruct訓練戦略 :ウォームアップ段階ではLoRA、強化学習段階ではQLoRAを使用ハードウェア構成 :8×32GB V100 GPU、総訓練時間28時間BFCLベンチマークテスト結果 :
iTool-8Bは全体正確度で63.26%に達し、第1位にランク Live(複雑シナリオ)で78.29%に達し、GPT-4o-2024-08-06の75.43%を超える Multi-turnタスクで23.84%に達し、他の同規模モデルを大幅に上回る API-Bank結果 :
L1タスク:78.89%(ToolACE-8Bの75.94%対比) L2タスク:52.87%(ToolACE-8Bの47.41%対比) モジュール貢献分析 :
コンポーネント Non-live Live Multi-turn Base Model 81.15 57.93 11.38 + SFT +7.8 +17.0 +6.0 + Warm-up +7.2 +17.9 +8.3 + IRL (iTool) +9.5 +21.2 +12.5
主要発見 :
ウォームアップ訓練と反復強化学習はそれぞれ2.3ポイントと4.2ポイントの向上に貢献 複雑なシナリオ(LiveおよびMulti-turn)における改善が最も顕著 従来のSFTと比較して、iToolはデータ規模増加時により良い利得曲線を示す:
SFT手法は30%のデータ後に利得が平坦化する傾向 iToolはLive指標でより急峻な向上曲線を維持 異なるデータセットとモデルアーキテクチャ上での性能:
合成データセット(ToolACE、xLAM):+4.42から+6.49の向上 非合成データセット(BFCL-half):+2.17から+3.65の向上 3Bから8Bの異なる規模モデルで一貫した改善を示す 初期の研究 :Toolformer、ToolAlpacaなどはLLMsのツール使用可能性を探索チューニング不要手法 :プロンプトエンジニアリング(ReAct、RestGPT)を通じた固有能力の解放チューニングベース手法 :ToolLLaMAはツール集合を拡張しデータ規模の影響を研究従来手法 :PPOなどのオンライン強化学習アルゴリズムは複雑で最適化が困難直接選好最適化 :DPOおよびその変種(SimPO、IPO、ORPO)はより単純なオフラインアルゴリズムを提供反復訓練 :参照モデルの継続的更新と新しい選好ペアの生成を通じた性能改善合成ツール使用データ訓練における重要な問題を識別 :訓練利得減衰は主にパラメータ関連の断片的エラーに起因効果的な解決策を提案 :MCTSによるデータ多様性の向上と反復強化学習によるエラー断片の修正顕著な性能向上を達成 :8Bパラメータモデルが複数のベンチマークでより大規模なモデルを上回る計算リソース要件 :MCTSプロセスは大量の計算リソースを必要とする(各反復で8個のV100 GPU上で7時間の実行が必要)規模制限 :リソース制限のため、30Bまたは70Bなどのより大規模なモデルでの検証が行われていないデータセットカバレッジ :単一の合成データセット上での深い分析のみが行われている効率最適化 :より効率的な選好データ生成手法の開発規模拡張 :より大規模なモデルでの手法の有効性の検証データ多様性 :より多くの公開データセット上での手法の汎化能力のテスト問題識別の正確性 :詳細なエラータイプ分析を通じて、訓練利得減衰の根本原因を正確に識別手法設計の合理性 :課程学習と強化学習の組み合わせ戦略は人間の学習法則に適合実験の充実 :包括的なアブレーション実験、汎化性検証、費用対効果分析を含む結果の顕著性 :複数のベンチマークで顕著かつ一貫した改善を達成計算コストが高い :MCTSプロセスの計算オーバーヘッドは実用的応用での実行可能性を制限する可能性がある理論分析の不足 :MCTSが断片的エラー問題を効果的に解決できる理由についての理論的説明が欠ける比較が十分でない :訓練利得減衰問題に対処する他の手法との比較が少ない学術的貢献 :ツール使用訓練における利得減衰問題に新しい解決策を提供実用的価値 :計算可行性を維持しながら顕著な改善を達成再現性 :詳細な実装詳細とオープンソースコードを提供複雑なツール使用シナリオ :特に複数ツール協調と複雑なパラメータ推論が必要なタスクに適用合成データ訓練 :合成データを利用したモデル能力向上に有効なソリューションを提供リソース充足の研究環境 :MCTSプロセスをサポートするための一定の計算リソースが必要論文はツール使用、強化学習、選好最適化分野の重要な研究を引用している。これには以下が含まれる:
Toolformer (Schick et al., 2023) DPO (Rafailov et al., 2024) SimPO (Meng et al., 2024) ToolLLaMA (Qin et al., 2023) MCTS関連研究 (Coulom, 2006; Grill et al., 2020) 総合評価 :これは高品質の研究論文であり、ツール使用訓練における重要な問題を正確に識別し、革新的で効果的な解決策を提案し、十分な実験を通じて手法の有効性を検証している。計算コストが高いという限界があるにもかかわらず、その学術的貢献と実用的価値は非常に顕著である。