iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic
iTool: Ajuste Fino Reforzado con Calibración Dinámica de Deficiencias para Uso Avanzado de Herramientas
Instituciones: Centro de Investigación en Computación Social y Recuperación de Información de la Universidad Tecnológica de Harbin, Huawei Technologies Co., Ltd., Universidad Jiao Tong de Shanghai, Universidad de Ciencia y Tecnología de China
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación: Enero de 2025 (preimpresión en arXiv)
La integración de modelos de lenguaje grandes (LLMs) con herramientas externas es un método efectivo para mejorar sus capacidades, particularmente en tareas complejas. La generación de datos sintéticos de uso de herramientas mediante simulación del mundo real es un camino viable para lograr este objetivo. Sin embargo, la investigación revela que con el aumento de datos sintéticos, las ganancias de entrenamiento se deterioran significativamente. Los modelos tienen dificultades para beneficiarse de datos sintéticos adicionales y no pueden adquirir capacidades avanzadas de uso de herramientas en escenarios complejos. Los autores descubren que esta limitación generalmente se manifiesta como defectos fragmentarios en las respuestas (es decir, errores de parámetros). Para abordar esto, se propone una estrategia iterativa de ajuste fino reforzado que incluye: (1) mejora de la diversidad de respuestas de datos sintéticos mediante exploración de rutas a través de búsqueda de árbol de Monte Carlo; (2) localización iterativa de deficiencias del modelo mediante la construcción de pares de preferencia de grano fino y mejora dirigida mediante algoritmos de optimización de preferencias. Los experimentos demuestran que el método mejora el rendimiento en un 13.11% en comparación con modelos base del mismo tamaño, un 6.5% en escenarios complejos en comparación con la línea base, y supera a modelos de código abierto y propietarios de mayor escala.
Problema Central: Los métodos de entrenamiento existentes para uso de herramientas presentan un problema de deterioro de ganancias de entrenamiento al procesar datos sintéticos, y los modelos no pueden aprender efectivamente de datos sintéticos aumentados
Importancia: La capacidad de uso de herramientas es una habilidad clave para los LLMs en aplicaciones prácticas, involucrando recuperación de información, cálculo preciso y reducción de alucinaciones
Limitaciones de Métodos Existentes:
El ajuste fino supervisado (SFT) tradicional tiene un desempeño deficiente en escenarios complejos de uso de herramientas
Con el aumento de la escala de datos sintéticos, las mejoras de rendimiento muestran rendimientos marginales decrecientes
Los modelos presentan defectos sistemáticos en extracción de parámetros e inferencia
Identificación y análisis del problema de deterioro de ganancias en el entrenamiento con datos sintéticos de uso de herramientas, descubriendo que los errores se concentran principalmente en defectos fragmentarios relacionados con parámetros
Propuesta del marco iTool, que incluye dos componentes principales: entrenamiento de calentamiento progresivo y aprendizaje reforzado iterativo
Diseño de un método de generación de datos de preferencia de grano fino basado en MCTS, que puede identificar y corregir efectivamente fragmentos de error en respuestas
Logro de mejoras significativas en múltiples pruebas de referencia, con modelos de 8B parámetros superando modelos de código abierto y propietarios de mayor escala
En la tarea de uso de herramientas, el LLM recibe una consulta del usuario q y un conjunto de herramientas candidatas T = {t₀, t₁, ..., t|T|}, con el objetivo de satisfacer la intención del usuario ejecutando una secuencia específica de herramientas. El proceso de decisión puede describirse como y ~ π(y | s₀, q, T), donde π(·) representa el modelo de política, s₀ representa el estado inicial de la tarea, e y representa la acción tomada por el modelo.
Identificación de Errores a Nivel de Fragmento: Mediante la generación de pares de preferencia de grano fino con MCTS, puede localizar con precisión fragmentos de error en respuestas
Calibración Dinámica de Complejidad: Selecciona dinámicamente muestras complejas basadas en perplejidad generativa, mejorando la eficiencia del entrenamiento
Estrategia de Optimización Iterativa: Combina aprendizaje curricular y aprendizaje reforzado, mejorando progresivamente el desempeño del modelo en escenarios complejos
Datos de Entrenamiento: Conjunto de datos ToolACE, que contiene 100K muestras de datos de uso de herramientas generales
Conjuntos de Datos de Evaluación:
Berkeley Function-Calling Leaderboard (BFCL): 4K+ instancias, que incluyen Non-live (simple), Live (complejo), Multi-turn (multiturno) y Hallucination (detección de alucinaciones)
API-Bank: 314 diálogos de uso de herramientas, 753 llamadas API
Identificación de Problemas Clave: El deterioro de ganancias de entrenamiento en datos sintéticos de uso de herramientas es causado principalmente por errores fragmentarios relacionados con parámetros
Propuesta de Solución Efectiva: Mediante MCTS para mejorar la diversidad de datos y aprendizaje reforzado iterativo para corregir fragmentos de error
Logro de Mejoras Significativas: Modelos de 8B parámetros superan modelos de mayor escala en múltiples pruebas de referencia
Identificación Precisa del Problema: Mediante análisis detallado de tipos de error, identifica con precisión la causa raíz del deterioro de ganancias de entrenamiento
Diseño Razonable del Método: La estrategia que combina aprendizaje curricular y aprendizaje reforzado se alinea con los principios del aprendizaje humano
Experimentos Exhaustivos: Incluye experimentos de ablación completos, verificación de generalización y análisis de costo-beneficio
Resultados Significativos: Logra mejoras significativas y consistentes en múltiples pruebas de referencia
Escenarios Complejos de Uso de Herramientas: Particularmente adecuado para tareas que requieren coordinación de múltiples herramientas e inferencia compleja de parámetros
Entrenamiento con Datos Sintéticos: Proporciona una solución efectiva para mejorar capacidades del modelo utilizando datos sintéticos
Entornos de Investigación con Recursos Suficientes: Requiere ciertos recursos computacionales para soportar el proceso MCTS
El artículo cita trabajos importantes en los campos de uso de herramientas, aprendizaje reforzado y optimización de preferencias, incluyendo:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Trabajos relacionados con MCTS (Coulom, 2006; Grill et al., 2020)
Evaluación General: Este es un artículo de investigación de alta calidad que identifica con precisión problemas clave en el entrenamiento de uso de herramientas, propone una solución innovadora y efectiva, y verifica la efectividad del método mediante experimentos exhaustivos. A pesar de la limitación del costo computacional relativamente alto, sus contribuciones académicas y valor práctico son significativos.