iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
대규모 언어 모델(LLMs)과 외부 도구의 통합은 특히 복잡한 작업에서 그 능력을 향상시키는 효과적인 방법입니다. 실제 세계 시뮬레이션을 통한 합성 도구 사용 데이터 생성은 이를 달성하기 위한 효과적인 경로입니다. 그러나 연구 결과 합성 데이터의 증가에 따라 훈련 수익이 현저히 감소함을 발견했습니다. 모델은 추가 합성 데이터로부터 이익을 얻기 어려우며, 복잡한 시나리오에서 고급 도구 사용 능력을 획득하지 못합니다. 저자들은 이러한 제한이 일반적으로 응답의 단편적 결함(즉, 매개변수 오류)으로 나타남을 발견했습니다. 이를 위해 반복적 강화 미세조정 전략을 제안했으며, 여기에는 다음이 포함됩니다: (1) 몬테카를로 트리 탐색을 통한 경로 탐색으로 합성 데이터 응답의 다양성 향상; (2) 세분화된 선호도 쌍 구성을 통한 반복적 모델 결함 위치 파악 및 선호도 최적화 알고리즘을 통한 목표 지향적 개선. 실험 결과 이 방법은 동일 규모 기초 모델 대비 13.11% 성능 향상, 복잡한 시나리오에서 기준선 대비 6.5% 향상을 보였으며, 더 큰 규모의 오픈소스 및 폐쇄소스 모델을 능가합니다.
도구 사용 작업에서 LLM은 사용자 쿼리 q와 후보 도구 집합 T = {t₀, t₁, ..., t|T|}를 수신하며, 목표는 특정 도구 시퀀스를 실행하여 사용자 의도를 만족시키는 것입니다. 의사결정 과정은 y ~ π(y | s₀, q, T)로 설명할 수 있으며, 여기서 π(·)는 정책 모델, s₀는 초기 작업 상태, y는 모델이 취한 동작을 나타냅니다.
논문은 도구 사용, 강화학습 및 선호도 최적화 분야의 중요한 연구를 인용했으며, 다음을 포함합니다:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
MCTS 관련 연구 (Coulom, 2006; Grill et al., 2020)
종합 평가: 이는 높은 품질의 연구 논문으로, 도구 사용 훈련의 핵심 문제를 정확히 식별하고, 혁신적이고 효과적인 해결책을 제안하며, 충분한 실험을 통해 방법의 효과성을 검증했습니다. 높은 계산 비용의 한계가 있음에도 불구하고, 학술 기여와 실용 가치가 모두 매우 의미 있습니다.