iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic
iTool : Affinage Renforcé avec Calibrage Dynamique des Déficiences pour l'Utilisation Avancée d'Outils
Institutions : Centre de Recherche en Calcul Social et Récupération d'Informations de l'Université Technologique de Harbin, Huawei Technologies Co., Ltd., Université Jiao Tong de Shanghai, Université des Sciences et Technologies de Chine
Classification : cs.CL cs.AI cs.LG
Date de Publication : Janvier 2025 (préimpression arXiv)
L'intégration des grands modèles de langage (LLMs) avec des outils externes constitue une méthode efficace pour améliorer leurs capacités, particulièrement dans les tâches complexes. La génération de données synthétiques d'utilisation d'outils par simulation du monde réel s'avère être une approche efficace pour atteindre cet objectif. Cependant, les recherches révèlent que les bénéfices d'entraînement diminuent considérablement avec l'augmentation des données synthétiques. Les modèles éprouvent des difficultés à bénéficier de données synthétiques supplémentaires et ne peuvent pas acquérir des capacités avancées d'utilisation d'outils dans des scénarios complexes. Les auteurs constatent que cette limitation se manifeste généralement par des défauts fragmentaires dans les réponses (c'est-à-dire des erreurs de paramètres). Pour remédier à cela, une stratégie d'affinage renforcé itératif est proposée, comprenant : (1) l'amélioration de la diversité des réponses de données synthétiques par l'exploration de chemins via la recherche d'arbre de Monte-Carlo ; (2) la localisation itérative des défauts du modèle par la construction de paires de préférences granulaires et l'amélioration ciblée par des algorithmes d'optimisation de préférences. Les expériences démontrent que cette méthode améliore les performances de 13,11 % par rapport aux modèles de base de même envergure, de 6,5 % par rapport aux lignes de base dans les scénarios complexes, et surpasse les modèles open-source et propriétaires de plus grande taille.
Problème fondamental : Les méthodes d'entraînement existantes pour l'utilisation d'outils présentent un problème de diminution des bénéfices d'entraînement lors du traitement de données synthétiques, les modèles ne pouvant pas apprendre efficacement à partir de données synthétiques accrues
Importance : La capacité d'utilisation d'outils est une compétence clé pour les LLMs dans les applications pratiques, impliquant la récupération d'informations, les calculs précis, la réduction des hallucinations et d'autres fonctions importantes
Limitations des méthodes existantes :
L'affinage supervisé traditionnel (SFT) fonctionne mal dans les scénarios complexes d'utilisation d'outils
Avec l'augmentation de l'échelle des données synthétiques, l'amélioration des performances diminue marginalement
Le modèle présente des défauts systématiques dans l'extraction de paramètres et le raisonnement
Identification et analyse du problème de diminution des bénéfices dans l'entraînement avec données synthétiques d'utilisation d'outils, découvrant que les erreurs se concentrent principalement sur les défauts fragmentaires liés aux paramètres
Proposition du cadre iTool, comprenant deux composants fondamentaux : l'entraînement de préchauffage progressif et l'apprentissage renforcé itératif
Conception d'une méthode de génération de données de préférences granulaires basée sur MCTS, capable d'identifier et de corriger efficacement les fragments erronés dans les réponses
Réalisations significatives sur plusieurs tests de référence, le modèle à 8B paramètres surpassant les modèles open-source et propriétaires de plus grande taille
Dans la tâche d'utilisation d'outils, le LLM reçoit une requête utilisateur q et un ensemble d'outils candidats T = {t₀, t₁, ..., t|T|}, l'objectif étant de satisfaire l'intention de l'utilisateur en exécutant une séquence d'outils spécifique. Le processus de décision peut être décrit comme y ~ π(y | s₀, q, T), où π(·) représente le modèle de politique, s₀ représente l'état initial de la tâche, et y représente l'action entreprise par le modèle.
Identification des Erreurs au Niveau Fragmentaire : Génération de paires de préférences granulaires via MCTS, permettant la localisation précise des fragments erronés dans les réponses
Calibrage Dynamique de la Complexité : Sélection dynamique d'échantillons complexes basée sur la perplexité de génération, améliorant l'efficacité d'entraînement
Stratégie d'Optimisation Itérative : Combinaison de l'apprentissage par curriculum et de l'apprentissage renforcé, améliorant progressivement les performances du modèle dans les scénarios complexes
Identification d'un problème clé dans l'entraînement avec données synthétiques d'utilisation d'outils : la diminution des bénéfices d'entraînement est principalement causée par des erreurs fragmentaires liées aux paramètres
Proposition d'une solution efficace : amélioration de la diversité des données via MCTS et apprentissage renforcé itératif pour corriger les fragments erronés
Réalisation d'améliorations significatives : le modèle à 8B paramètres surpasse les modèles de plus grande taille sur plusieurs tests de référence
Exigences en Ressources Informatiques : Le processus MCTS nécessite des ressources informatiques considérables (7 heures d'exécution sur 8 GPU V100 par itération)
Limitation d'Échelle : En raison des contraintes de ressources, la méthode n'a pas été validée sur des modèles plus grands comme 30B ou 70B
Couverture des Ensembles de Données : Analyse approfondie effectuée uniquement sur un seul ensemble de données synthétiques
Identification Précise du Problème : Identification exacte de la cause fondamentale de la diminution des bénéfices d'entraînement par analyse détaillée des types d'erreurs
Conception Rationnelle de la Méthode : La stratégie combinant apprentissage par curriculum et apprentissage renforcé est conforme aux principes d'apprentissage humain
Expérimentation Complète : Incluant des études d'ablation complètes, vérification de la généralisation et analyse coûts-bénéfices
Résultats Significatifs : Améliorations significatives et cohérentes sur plusieurs tests de référence
Contribution Académique : Fournit une nouvelle perspective pour résoudre le problème de diminution des bénéfices d'entraînement dans l'utilisation d'outils
Valeur Pratique : La méthode réalise des améliorations significatives tout en maintenant la faisabilité informatique
Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source
Scénarios Complexes d'Utilisation d'Outils : Particulièrement adapté aux tâches nécessitant la coordination de plusieurs outils et le raisonnement complexe sur les paramètres
Entraînement avec Données Synthétiques : Fournit une solution efficace pour améliorer les capacités du modèle en utilisant des données synthétiques
Environnements de Recherche Bien Dotés en Ressources : Nécessite un certain soutien en ressources informatiques pour le processus MCTS
L'article cite des travaux importants dans les domaines de l'utilisation d'outils, de l'apprentissage renforcé et de l'optimisation des préférences, notamment :
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Travaux connexes MCTS (Coulom, 2006 ; Grill et al., 2020)
Évaluation Globale : Cet article de recherche de haute qualité identifie précisément les problèmes clés de l'entraînement à l'utilisation d'outils, propose une solution innovante et efficace, et valide l'efficacité de la méthode par une expérimentation complète. Malgré la limitation du coût informatique élevé, ses contributions académiques et sa valeur pratique sont très significatives.