2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: 동적 결함 보정을 통한 강화 미세조정 고급 도구 사용

기본 정보

  • 논문 ID: 2501.09766
  • 제목: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • 저자: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • 기관: 하얼빈공업대학교 사회계산 및 정보검색 연구센터, 화웨이 기술 유한공사, 상하이교통대학교, 중국과학기술대학교
  • 분류: cs.CL cs.AI cs.LG
  • 발표 시간: 2025년 1월 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2501.09766

초록

대규모 언어 모델(LLMs)과 외부 도구의 통합은 특히 복잡한 작업에서 그 능력을 향상시키는 효과적인 방법입니다. 실제 세계 시뮬레이션을 통한 합성 도구 사용 데이터 생성은 이를 달성하기 위한 효과적인 경로입니다. 그러나 연구 결과 합성 데이터의 증가에 따라 훈련 수익이 현저히 감소함을 발견했습니다. 모델은 추가 합성 데이터로부터 이익을 얻기 어려우며, 복잡한 시나리오에서 고급 도구 사용 능력을 획득하지 못합니다. 저자들은 이러한 제한이 일반적으로 응답의 단편적 결함(즉, 매개변수 오류)으로 나타남을 발견했습니다. 이를 위해 반복적 강화 미세조정 전략을 제안했으며, 여기에는 다음이 포함됩니다: (1) 몬테카를로 트리 탐색을 통한 경로 탐색으로 합성 데이터 응답의 다양성 향상; (2) 세분화된 선호도 쌍 구성을 통한 반복적 모델 결함 위치 파악 및 선호도 최적화 알고리즘을 통한 목표 지향적 개선. 실험 결과 이 방법은 동일 규모 기초 모델 대비 13.11% 성능 향상, 복잡한 시나리오에서 기준선 대비 6.5% 향상을 보였으며, 더 큰 규모의 오픈소스 및 폐쇄소스 모델을 능가합니다.

연구 배경 및 동기

문제 정의

  1. 핵심 문제: 기존 도구 사용 훈련 방법은 합성 데이터 처리 시 훈련 수익 감소 문제가 존재하며, 모델은 증가된 합성 데이터로부터 효과적으로 학습하지 못합니다
  2. 중요성: 도구 사용 능력은 실제 응용에서 LLMs의 핵심 능력으로, 정보 검색, 정확한 계산, 환각 감소 등 중요한 기능을 포함합니다
  3. 기존 방법의 한계:
    • 전통적 감독 미세조정(SFT)은 복잡한 도구 사용 시나리오에서 성능이 저조합니다
    • 합성 데이터 규모 증가에 따라 성능 향상의 한계 수익이 감소합니다
    • 모델은 매개변수 추출 및 추론에서 체계적 결함을 보입니다

연구 발견

초기 연구를 통한 발견:

  • BFCL 평가에서 오류의 51%는 매개변수 값 오류, 26%는 매개변수 이름 오류에서 비롯됩니다
  • 오류는 일반적으로 응답의 작은 단편에만 영향을 미치며, 대부분의 내용은 실제 답변과 일치합니다
  • 전통적 SFT 방법은 30% 데이터 사용 후 성능 향상이 현저히 둔화됩니다

핵심 기여

  1. 합성 도구 사용 데이터 훈련의 수익 감소 문제를 식별 및 분석하였으며, 오류가 주로 매개변수 관련 단편적 결함에 집중됨을 발견했습니다
  2. iTool 프레임워크를 제안하였으며, 점진적 워밍업 훈련과 반복적 강화학습이라는 두 가지 핵심 구성요소를 포함합니다
  3. MCTS 기반 세분화된 선호도 데이터 생성 방법을 설계하여 응답의 오류 단편을 효과적으로 식별하고 수정할 수 있습니다
  4. 여러 벤치마크에서 현저한 향상을 달성하였으며, 8B 매개변수 모델이 더 큰 규모의 오픈소스 및 폐쇄소스 모델을 능가합니다

방법 상세 설명

작업 정의

도구 사용 작업에서 LLM은 사용자 쿼리 q와 후보 도구 집합 T = {t₀, t₁, ..., t|T|}를 수신하며, 목표는 특정 도구 시퀀스를 실행하여 사용자 의도를 만족시키는 것입니다. 의사결정 과정은 y ~ π(y | s₀, q, T)로 설명할 수 있으며, 여기서 π(·)는 정책 모델, s₀는 초기 작업 상태, y는 모델이 취한 동작을 나타냅니다.

모델 아키텍처

1. 점진적 워밍업 훈련(Warm-up Training)

쉬운 것부터 어려운 것으로의 커리큘럼 학습 전략을 채택합니다:

데이터 분류 기준:

  • 간단: 도구 수≤1, 도구 집합 문자열 길이<1000, 필요한 도구 호출 수≤1
  • 중간: 1<도구 수<4, 문자열 길이<2000, 도구 호출 수<4
  • 어려움: 도구 수≥4, 문자열 길이>2000, 도구 호출 수≥4

훈련 손실:

L_warm-up = Σ(i=1 to 3) L_i
여기서 L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. MCTS 기반 반복적 강화학습

복잡 데이터 샘플링: 생성 혼동도를 사용하여 샘플 복잡성을 측정합니다:

h = ⁿ√(1/P_M(y | q, T))

각 반복에서 혼동도가 가장 높은 상위 10% 데이터를 선택하여 후속 처리를 진행합니다.

MCTS 단계 수준 선호도 생성:

  • 선택 단계: PUCT 알고리즘을 사용하여 탐색과 활용의 균형을 맞춥니다
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • 확장 단계: 리프 노드에서 새 노드를 통합하고 보상을 평가합니다
    R(s_t) = O(s_t) + C(s_t)
    
  • 역추적 단계: 하향식으로 방문 횟수 및 상태 값을 업데이트합니다

반복적 선호도 최적화: SimPO 알고리즘을 사용하여 선호도 최적화를 수행합니다:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

기술 혁신점

  1. 단편 수준 오류 식별: MCTS를 통해 세분화된 선호도 쌍을 생성하여 응답의 오류 단편을 정확히 위치시킬 수 있습니다
  2. 동적 복잡성 보정: 생성 혼동도를 기반으로 복잡한 샘플을 동적으로 선택하여 훈련 효율을 향상시킵니다
  3. 반복적 최적화 전략: 커리큘럼 학습과 강화학습을 결합하여 복잡한 시나리오에서 모델 성능을 점진적으로 향상시킵니다

실험 설정

데이터셋

  • 훈련 데이터: ToolACE 데이터셋, 100K 샘플의 범용 도구 사용 데이터 포함
  • 평가 데이터셋:
    • Berkeley Function-Calling Leaderboard (BFCL): 4K+ 인스턴스, Non-live(간단), Live(복잡), Multi-turn(다중 턴), Hallucination(환각 탐지) 포함
    • API-Bank: 314개 도구 사용 대화, 753개 API 호출

평가 지표

  • 정확도: 각 부분 작업의 정확성 성능
  • 전체 성능: 여러 차원의 가중 평균 점수

비교 방법

  • 폐쇄소스 모델: GPT-4 시리즈, Gemini 시리즈, o1-mini 등
  • 오픈소스 기초 모델: LLaMA-3.1 시리즈, Qwen2.5 시리즈 등
  • 미세조정 모델: ToolACE-8B, xLAM 시리즈, Hammer 시리즈 등

구현 세부사항

  • 기초 모델: LLaMA3.1-8B-Instruct
  • 훈련 전략: 워밍업 단계에서 LoRA 사용, 강화학습 단계에서 QLoRA 사용
  • 하드웨어 구성: 8×32GB V100 GPU, 총 훈련 시간 28시간

실험 결과

주요 결과

BFCL 벤치마크 테스트 결과:

  • iTool-8B는 전체 정확도에서 63.26%에 도달하여 1위를 차지했습니다
  • Live(복잡한 시나리오)에서 78.29%에 도달하여 GPT-4o-2024-08-06의 75.43%를 초과했습니다
  • Multi-turn 작업에서 23.84%에 도달하여 다른 동일 규모 모델을 현저히 능가합니다

API-Bank 결과:

  • L1 작업: 78.89% (vs ToolACE-8B의 75.94%)
  • L2 작업: 52.87% (vs ToolACE-8B의 47.41%)

제거 실험

모듈 기여도 분석:

구성요소Non-liveLiveMulti-turn
Base Model81.1557.9311.38
+ SFT+7.8+17.0+6.0
+ Warm-up+7.2+17.9+8.3
+ IRL (iTool)+9.5+21.2+12.5

주요 발견:

  • 워밍업 훈련과 반복적 강화학습은 각각 2.3포인트와 4.2포인트의 향상에 기여합니다
  • 복잡한 시나리오(Live 및 Multi-turn)에서 개선이 가장 두드러집니다

훈련 수익 분석

전통적 SFT와 비교하여 iTool은 데이터 규모 증가 시 더 나은 수익 곡선을 보입니다:

  • SFT 방법은 30% 데이터 후 수익이 평탄화됩니다
  • iTool은 Live 지표에서 더 가파른 향상 곡선을 유지합니다

일반화 성능 검증

다양한 데이터셋 및 모델 아키텍처에서의 성능:

  • 합성 데이터셋(ToolACE, xLAM): +4.42~+6.49의 향상
  • 비합성 데이터셋(BFCL-half): +2.17~+3.65의 향상
  • 3B~8B의 다양한 규모 모델에서 일관된 개선을 보입니다

관련 연구

도구 사용 연구

  • 초기 연구: Toolformer, ToolAlpaca 등이 LLMs의 도구 사용 잠재력을 탐색했습니다
  • 미세조정 불필요 방법: 프롬프트 엔지니어링(ReAct, RestGPT)을 통해 고유 능력을 해제합니다
  • 미세조정 기반 방법: ToolLLaMA가 도구 집합을 확장하고 데이터 규모 영향을 연구했습니다

강화학습 방법

  • 전통적 방법: PPO 등의 온라인 강화학습 알고리즘은 복잡하고 최적화하기 어렵습니다
  • 직접 선호도 최적화: DPO 및 그 변형(SimPO, IPO, ORPO)은 더 간단한 오프라인 알고리즘을 제공합니다
  • 반복적 훈련: 참조 모델을 지속적으로 업데이트하고 새로운 선호도 쌍을 생성하여 성능을 개선합니다

결론 및 논의

주요 결론

  1. 합성 도구 사용 데이터 훈련의 핵심 문제를 식별했습니다: 훈련 수익 감소는 주로 매개변수 관련 단편적 오류로 인해 발생합니다
  2. 효과적인 해결책을 제안했습니다: MCTS를 통한 데이터 다양성 향상 및 반복적 강화학습을 통한 오류 단편 수정
  3. 현저한 성능 향상을 달성했습니다: 8B 매개변수 모델이 여러 벤치마크에서 더 큰 규모의 모델을 능가합니다

한계

  1. 계산 자원 요구: MCTS 과정은 많은 계산 자원이 필요합니다(각 반복마다 8개 V100 GPU에서 7시간 실행)
  2. 규모 제한: 자원 제한으로 인해 30B 또는 70B 등 더 큰 모델에서 검증하지 못했습니다
  3. 데이터셋 범위: 단일 합성 데이터셋에서만 심층 분석을 수행했습니다

향후 방향

  1. 효율성 최적화: 더 효율적인 선호도 데이터 생성 방법 개발
  2. 규모 확장: 더 큰 규모 모델에서 방법의 효과성 검증
  3. 데이터 다양성: 더 많은 공개 데이터셋에서 방법의 일반화 능력 테스트

심층 평가

장점

  1. 문제 식별 정확성: 상세한 오류 유형 분석을 통해 훈련 수익 감소의 근본 원인을 정확히 식별했습니다
  2. 방법 설계 합리성: 커리큘럼 학습과 강화학습을 결합한 전략은 인간 학습 규칙에 부합합니다
  3. 충분한 실험: 포괄적인 제거 실험, 일반화 성능 검증 및 비용-효율 분석을 포함합니다
  4. 현저한 결과: 여러 벤치마크에서 일관되고 현저한 개선을 달성했습니다

부족한 점

  1. 높은 계산 비용: MCTS 과정의 계산 오버헤드는 실제 응용에서의 실행 가능성을 제한할 수 있습니다
  2. 불충분한 이론 분석: MCTS가 단편적 오류 문제를 효과적으로 해결하는 이유에 대한 이론적 설명이 부족합니다
  3. 불완전한 비교: 훈련 수익 감소 문제를 처리하는 다른 방법과의 비교가 적습니다

영향력

  1. 학술 기여: 도구 사용 훈련의 수익 감소 문제에 대한 새로운 해결 사상을 제공합니다
  2. 실용 가치: 계산 실행 가능성을 유지하면서 현저한 개선을 달성합니다
  3. 재현성: 상세한 구현 세부사항 및 오픈소스 코드를 제공합니다

적용 시나리오

  • 복잡한 도구 사용 시나리오: 특히 다중 도구 협조 및 복잡한 매개변수 추론이 필요한 작업에 적합합니다
  • 합성 데이터 훈련: 합성 데이터를 활용하여 모델 능력을 향상시키기 위한 효과적인 솔루션을 제공합니다
  • 자원이 충분한 연구 환경: MCTS 과정을 지원하기 위한 일정한 계산 자원이 필요합니다

참고문헌

논문은 도구 사용, 강화학습 및 선호도 최적화 분야의 중요한 연구를 인용했으며, 다음을 포함합니다:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • MCTS 관련 연구 (Coulom, 2006; Grill et al., 2020)

종합 평가: 이는 높은 품질의 연구 논문으로, 도구 사용 훈련의 핵심 문제를 정확히 식별하고, 혁신적이고 효과적인 해결책을 제안하며, 충분한 실험을 통해 방법의 효과성을 검증했습니다. 높은 계산 비용의 한계가 있음에도 불구하고, 학술 기여와 실용 가치가 모두 매우 의미 있습니다.