2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: Ajuste Fino Reforzado con Calibración Dinámica de Deficiencias para Uso Avanzado de Herramientas

Información Básica

  • ID del Artículo: 2501.09766
  • Título: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • Autores: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • Instituciones: Centro de Investigación en Computación Social y Recuperación de Información de la Universidad Tecnológica de Harbin, Huawei Technologies Co., Ltd., Universidad Jiao Tong de Shanghai, Universidad de Ciencia y Tecnología de China
  • Clasificación: cs.CL cs.AI cs.LG
  • Fecha de Publicación: Enero de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.09766

Resumen

La integración de modelos de lenguaje grandes (LLMs) con herramientas externas es un método efectivo para mejorar sus capacidades, particularmente en tareas complejas. La generación de datos sintéticos de uso de herramientas mediante simulación del mundo real es un camino viable para lograr este objetivo. Sin embargo, la investigación revela que con el aumento de datos sintéticos, las ganancias de entrenamiento se deterioran significativamente. Los modelos tienen dificultades para beneficiarse de datos sintéticos adicionales y no pueden adquirir capacidades avanzadas de uso de herramientas en escenarios complejos. Los autores descubren que esta limitación generalmente se manifiesta como defectos fragmentarios en las respuestas (es decir, errores de parámetros). Para abordar esto, se propone una estrategia iterativa de ajuste fino reforzado que incluye: (1) mejora de la diversidad de respuestas de datos sintéticos mediante exploración de rutas a través de búsqueda de árbol de Monte Carlo; (2) localización iterativa de deficiencias del modelo mediante la construcción de pares de preferencia de grano fino y mejora dirigida mediante algoritmos de optimización de preferencias. Los experimentos demuestran que el método mejora el rendimiento en un 13.11% en comparación con modelos base del mismo tamaño, un 6.5% en escenarios complejos en comparación con la línea base, y supera a modelos de código abierto y propietarios de mayor escala.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: Los métodos de entrenamiento existentes para uso de herramientas presentan un problema de deterioro de ganancias de entrenamiento al procesar datos sintéticos, y los modelos no pueden aprender efectivamente de datos sintéticos aumentados
  2. Importancia: La capacidad de uso de herramientas es una habilidad clave para los LLMs en aplicaciones prácticas, involucrando recuperación de información, cálculo preciso y reducción de alucinaciones
  3. Limitaciones de Métodos Existentes:
    • El ajuste fino supervisado (SFT) tradicional tiene un desempeño deficiente en escenarios complejos de uso de herramientas
    • Con el aumento de la escala de datos sintéticos, las mejoras de rendimiento muestran rendimientos marginales decrecientes
    • Los modelos presentan defectos sistemáticos en extracción de parámetros e inferencia

Hallazgos de Investigación

A través de investigación preliminar se descubre que:

  • En la evaluación BFCL, el 51% de los errores provienen de valores de parámetros incorrectos, el 26% de nombres de parámetros incorrectos
  • Los errores generalmente afectan solo pequeños fragmentos de la respuesta, mientras que la mayoría del contenido coincide con la respuesta verdadera
  • El método SFT tradicional muestra una desaceleración significativa en la mejora de rendimiento después de usar el 30% de los datos

Contribuciones Principales

  1. Identificación y análisis del problema de deterioro de ganancias en el entrenamiento con datos sintéticos de uso de herramientas, descubriendo que los errores se concentran principalmente en defectos fragmentarios relacionados con parámetros
  2. Propuesta del marco iTool, que incluye dos componentes principales: entrenamiento de calentamiento progresivo y aprendizaje reforzado iterativo
  3. Diseño de un método de generación de datos de preferencia de grano fino basado en MCTS, que puede identificar y corregir efectivamente fragmentos de error en respuestas
  4. Logro de mejoras significativas en múltiples pruebas de referencia, con modelos de 8B parámetros superando modelos de código abierto y propietarios de mayor escala

Explicación Detallada del Método

Definición de la Tarea

En la tarea de uso de herramientas, el LLM recibe una consulta del usuario q y un conjunto de herramientas candidatas T = {t₀, t₁, ..., t|T|}, con el objetivo de satisfacer la intención del usuario ejecutando una secuencia específica de herramientas. El proceso de decisión puede describirse como y ~ π(y | s₀, q, T), donde π(·) representa el modelo de política, s₀ representa el estado inicial de la tarea, e y representa la acción tomada por el modelo.

Arquitectura del Modelo

1. Entrenamiento de Calentamiento Progresivo (Warm-up Training)

Adopta una estrategia de aprendizaje curricular de menor a mayor dificultad:

Criterios de Clasificación de Datos:

  • Simple: número de herramientas ≤ 1, longitud de cadena del conjunto de herramientas < 1000, número de llamadas de herramientas requeridas ≤ 1
  • Medio: 1 < número de herramientas < 4, longitud de cadena < 2000, número de llamadas de herramientas < 4
  • Difícil: número de herramientas ≥ 4, longitud de cadena > 2000, número de llamadas de herramientas ≥ 4

Pérdida de Entrenamiento:

L_warm-up = Σ(i=1 a 3) L_i
donde L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Aprendizaje Reforzado Iterativo Basado en MCTS

Muestreo de Datos Complejos: Utiliza perplejidad generativa para medir la complejidad de la muestra:

h = ⁿ√(1/P_M(y | q, T))

En cada iteración se selecciona el 10% de datos con mayor perplejidad para procesamiento posterior.

Generación de Preferencia a Nivel de Pasos MCTS:

  • Fase de Selección: Utiliza el algoritmo PUCT para equilibrar exploración y explotación
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • Fase de Expansión: Integra nuevos nodos en el nodo hoja y evalúa recompensas
    R(s_t) = O(s_t) + C(s_t)
    
  • Fase de Retropropagación: Actualiza de abajo hacia arriba los conteos de visitas y valores de estado

Optimización Iterativa de Preferencias: Adopta el algoritmo SimPO para optimización de preferencias:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Puntos de Innovación Técnica

  1. Identificación de Errores a Nivel de Fragmento: Mediante la generación de pares de preferencia de grano fino con MCTS, puede localizar con precisión fragmentos de error en respuestas
  2. Calibración Dinámica de Complejidad: Selecciona dinámicamente muestras complejas basadas en perplejidad generativa, mejorando la eficiencia del entrenamiento
  3. Estrategia de Optimización Iterativa: Combina aprendizaje curricular y aprendizaje reforzado, mejorando progresivamente el desempeño del modelo en escenarios complejos

Configuración Experimental

Conjuntos de Datos

  • Datos de Entrenamiento: Conjunto de datos ToolACE, que contiene 100K muestras de datos de uso de herramientas generales
  • Conjuntos de Datos de Evaluación:
    • Berkeley Function-Calling Leaderboard (BFCL): 4K+ instancias, que incluyen Non-live (simple), Live (complejo), Multi-turn (multiturno) y Hallucination (detección de alucinaciones)
    • API-Bank: 314 diálogos de uso de herramientas, 753 llamadas API

Métricas de Evaluación

  • Precisión: Desempeño de precisión en varias subtareas
  • Rendimiento General: Puntuación promedio ponderada que integra múltiples dimensiones

Métodos de Comparación

  • Modelos Propietarios: Series GPT-4, Gemini, o1-mini, etc.
  • Modelos Base de Código Abierto: Series LLaMA-3.1, Qwen2.5, etc.
  • Modelos Ajustados: ToolACE-8B, series xLAM, series Hammer, etc.

Detalles de Implementación

  • Modelo Base: LLaMA3.1-8B-Instruct
  • Estrategia de Entrenamiento: LoRA en fase de calentamiento, QLoRA en fase de aprendizaje reforzado
  • Configuración de Hardware: 8×32GB GPU V100, tiempo total de entrenamiento 28 horas

Resultados Experimentales

Resultados Principales

Resultados de la Prueba de Referencia BFCL:

  • iTool-8B alcanza una precisión general del 63.26%, clasificándose en primer lugar
  • En Live (escenarios complejos) alcanza 78.29%, superando a GPT-4o-2024-08-06 con 75.43%
  • En tareas Multi-turn alcanza 23.84%, significativamente superior a otros modelos del mismo tamaño

Resultados de API-Bank:

  • Tarea L1: 78.89% (vs 75.94% de ToolACE-8B)
  • Tarea L2: 52.87% (vs 47.41% de ToolACE-8B)

Experimentos de Ablación

Análisis de Contribución de Componentes:

ComponenteNon-liveLiveMulti-turn
Modelo Base81.1557.9311.38
+ SFT+7.8+17.0+6.0
+ Warm-up+7.2+17.9+8.3
+ IRL (iTool)+9.5+21.2+12.5

Hallazgos Clave:

  • El entrenamiento de calentamiento y el aprendizaje reforzado iterativo contribuyen respectivamente con 2.3 y 4.2 puntos de mejora
  • Las mejoras son más significativas en escenarios complejos (Live y Multi-turn)

Análisis de Ganancias de Entrenamiento

En comparación con SFT tradicional, iTool muestra una curva de ganancias mejor con el aumento de escala de datos:

  • El método SFT se estabiliza después del 30% de datos
  • iTool mantiene una curva de mejora más pronunciada en la métrica Live

Verificación de Generalización

Desempeño en diferentes conjuntos de datos y arquitecturas de modelos:

  • Conjuntos de datos sintéticos (ToolACE, xLAM): mejora de +4.42 a +6.49
  • Conjuntos de datos no sintéticos (BFCL-half): mejora de +2.17 a +3.65
  • Muestra mejoras consistentes en modelos de diferentes tamaños de 3B a 8B

Trabajo Relacionado

Investigación sobre Uso de Herramientas

  • Trabajos Tempranos: Toolformer, ToolAlpaca y otros exploraron el potencial de uso de herramientas de los LLMs
  • Métodos sin Ajuste: Desbloquean capacidades inherentes mediante ingeniería de prompts (ReAct, RestGPT)
  • Métodos Basados en Ajuste: ToolLLaMA expande conjuntos de herramientas e investiga el impacto de la escala de datos

Métodos de Aprendizaje Reforzado

  • Métodos Tradicionales: Algoritmos de aprendizaje reforzado en línea como PPO son complejos y difíciles de optimizar
  • Optimización Directa de Preferencias: DPO y sus variantes (SimPO, IPO, ORPO) proporcionan algoritmos offline más simples
  • Entrenamiento Iterativo: Mejora el rendimiento mediante actualización continua del modelo de referencia y generación de nuevos pares de preferencia

Conclusiones y Discusión

Conclusiones Principales

  1. Identificación de Problemas Clave: El deterioro de ganancias de entrenamiento en datos sintéticos de uso de herramientas es causado principalmente por errores fragmentarios relacionados con parámetros
  2. Propuesta de Solución Efectiva: Mediante MCTS para mejorar la diversidad de datos y aprendizaje reforzado iterativo para corregir fragmentos de error
  3. Logro de Mejoras Significativas: Modelos de 8B parámetros superan modelos de mayor escala en múltiples pruebas de referencia

Limitaciones

  1. Requisitos de Recursos Computacionales: El proceso MCTS requiere recursos computacionales sustanciales (7 horas con 8 GPU V100 por iteración)
  2. Limitaciones de Escala: Debido a limitaciones de recursos, no se ha verificado en modelos más grandes como 30B o 70B
  3. Cobertura de Conjuntos de Datos: Solo se realizó análisis profundo en un único conjunto de datos sintético

Direcciones Futuras

  1. Optimización de Eficiencia: Desarrollar métodos más eficientes para generación de datos de preferencia
  2. Expansión de Escala: Verificar la efectividad del método en modelos de mayor escala
  3. Diversidad de Datos: Probar la capacidad de generalización del método en más conjuntos de datos públicos

Evaluación Profunda

Fortalezas

  1. Identificación Precisa del Problema: Mediante análisis detallado de tipos de error, identifica con precisión la causa raíz del deterioro de ganancias de entrenamiento
  2. Diseño Razonable del Método: La estrategia que combina aprendizaje curricular y aprendizaje reforzado se alinea con los principios del aprendizaje humano
  3. Experimentos Exhaustivos: Incluye experimentos de ablación completos, verificación de generalización y análisis de costo-beneficio
  4. Resultados Significativos: Logra mejoras significativas y consistentes en múltiples pruebas de referencia

Deficiencias

  1. Costo Computacional Elevado: El costo computacional del proceso MCTS puede limitar su viabilidad en aplicaciones prácticas
  2. Análisis Teórico Insuficiente: Carece de explicación teórica sobre por qué MCTS puede resolver efectivamente el problema de errores fragmentarios
  3. Comparación Incompleta: Hay pocas comparaciones con otros métodos que abordan el problema de deterioro de ganancias de entrenamiento

Impacto

  1. Contribución Académica: Proporciona una nueva perspectiva para resolver el problema de deterioro de ganancias en entrenamiento de uso de herramientas
  2. Valor Práctico: El método logra mejoras significativas mientras mantiene la viabilidad computacional
  3. Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

  • Escenarios Complejos de Uso de Herramientas: Particularmente adecuado para tareas que requieren coordinación de múltiples herramientas e inferencia compleja de parámetros
  • Entrenamiento con Datos Sintéticos: Proporciona una solución efectiva para mejorar capacidades del modelo utilizando datos sintéticos
  • Entornos de Investigación con Recursos Suficientes: Requiere ciertos recursos computacionales para soportar el proceso MCTS

Referencias

El artículo cita trabajos importantes en los campos de uso de herramientas, aprendizaje reforzado y optimización de preferencias, incluyendo:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • Trabajos relacionados con MCTS (Coulom, 2006; Grill et al., 2020)

Evaluación General: Este es un artículo de investigación de alta calidad que identifica con precisión problemas clave en el entrenamiento de uso de herramientas, propone una solución innovadora y efectiva, y verifica la efectividad del método mediante experimentos exhaustivos. A pesar de la limitación del costo computacional relativamente alto, sus contribuciones académicas y valor práctico son significativos.