2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool : Affinage Renforcé avec Calibrage Dynamique des Déficiences pour l'Utilisation Avancée d'Outils

Informations Fondamentales

ID de l'article : 2501.09766
Titre : iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Auteurs : Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
Institutions : Centre de Recherche en Calcul Social et Récupération d'Informations de l'Université Technologique de Harbin, Huawei Technologies Co., Ltd., Université Jiao Tong de Shanghai, Université des Sciences et Technologies de Chine
Classification : cs.CL cs.AI cs.LG
Date de Publication : Janvier 2025 (préimpression arXiv)
Lien de l'article : https://arxiv.org/abs/2501.09766

Résumé

L'intégration des grands modèles de langage (LLMs) avec des outils externes constitue une méthode efficace pour améliorer leurs capacités, particulièrement dans les tâches complexes. La génération de données synthétiques d'utilisation d'outils par simulation du monde réel s'avère être une approche efficace pour atteindre cet objectif. Cependant, les recherches révèlent que les bénéfices d'entraînement diminuent considérablement avec l'augmentation des données synthétiques. Les modèles éprouvent des difficultés à bénéficier de données synthétiques supplémentaires et ne peuvent pas acquérir des capacités avancées d'utilisation d'outils dans des scénarios complexes. Les auteurs constatent que cette limitation se manifeste généralement par des défauts fragmentaires dans les réponses (c'est-à-dire des erreurs de paramètres). Pour remédier à cela, une stratégie d'affinage renforcé itératif est proposée, comprenant : (1) l'amélioration de la diversité des réponses de données synthétiques par l'exploration de chemins via la recherche d'arbre de Monte-Carlo ; (2) la localisation itérative des défauts du modèle par la construction de paires de préférences granulaires et l'amélioration ciblée par des algorithmes d'optimisation de préférences. Les expériences démontrent que cette méthode améliore les performances de 13,11 % par rapport aux modèles de base de même envergure, de 6,5 % par rapport aux lignes de base dans les scénarios complexes, et surpasse les modèles open-source et propriétaires de plus grande taille.

Contexte et Motivation de la Recherche

Définition du Problème

Problème fondamental : Les méthodes d'entraînement existantes pour l'utilisation d'outils présentent un problème de diminution des bénéfices d'entraînement lors du traitement de données synthétiques, les modèles ne pouvant pas apprendre efficacement à partir de données synthétiques accrues
Importance : La capacité d'utilisation d'outils est une compétence clé pour les LLMs dans les applications pratiques, impliquant la récupération d'informations, les calculs précis, la réduction des hallucinations et d'autres fonctions importantes
Limitations des méthodes existantes :
- L'affinage supervisé traditionnel (SFT) fonctionne mal dans les scénarios complexes d'utilisation d'outils
- Avec l'augmentation de l'échelle des données synthétiques, l'amélioration des performances diminue marginalement
- Le modèle présente des défauts systématiques dans l'extraction de paramètres et le raisonnement

Résultats de la Recherche

Par l'étude préliminaire, on découvre :

Dans l'évaluation BFCL, 51 % des erreurs proviennent de valeurs de paramètres incorrectes, 26 % de noms de paramètres incorrects
Les erreurs affectent généralement uniquement de petits fragments de la réponse, tandis que la majorité du contenu correspond à la réponse réelle
La méthode SFT traditionnelle montre un ralentissement significatif des améliorations de performance après utilisation de 30 % des données

Contributions Fondamentales

Identification et analyse du problème de diminution des bénéfices dans l'entraînement avec données synthétiques d'utilisation d'outils, découvrant que les erreurs se concentrent principalement sur les défauts fragmentaires liés aux paramètres
Proposition du cadre iTool, comprenant deux composants fondamentaux : l'entraînement de préchauffage progressif et l'apprentissage renforcé itératif
Conception d'une méthode de génération de données de préférences granulaires basée sur MCTS, capable d'identifier et de corriger efficacement les fragments erronés dans les réponses
Réalisations significatives sur plusieurs tests de référence, le modèle à 8B paramètres surpassant les modèles open-source et propriétaires de plus grande taille

Explication Détaillée de la Méthode

Définition de la Tâche

Dans la tâche d'utilisation d'outils, le LLM reçoit une requête utilisateur q et un ensemble d'outils candidats T = {t₀, t₁, ..., t|T|}, l'objectif étant de satisfaire l'intention de l'utilisateur en exécutant une séquence d'outils spécifique. Le processus de décision peut être décrit comme y ~ π(y | s₀, q, T), où π(·) représente le modèle de politique, s₀ représente l'état initial de la tâche, et y représente l'action entreprise par le modèle.

Architecture du Modèle

1. Entraînement de Préchauffage Progressif (Warm-up Training)

Adoption d'une stratégie d'apprentissage par curriculum du facile au difficile :

Critères de Classification des Données :

Simple : nombre d'outils ≤ 1, longueur de chaîne d'ensemble d'outils < 1000, nombre d'appels d'outils requis ≤ 1
Moyen : 1 < nombre d'outils < 4, longueur de chaîne < 2000, nombre d'appels d'outils < 4
Difficile : nombre d'outils ≥ 4, longueur de chaîne > 2000, nombre d'appels d'outils ≥ 4

Perte d'Entraînement :

L_warm-up = Σ(i=1 à 3) L_i
où L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Apprentissage Renforcé Itératif Basé sur MCTS

Échantillonnage de Données Complexes : Utilisation de la perplexité de génération pour mesurer la complexité des échantillons :

h = ⁿ√(1/P_M(y | q, T))

À chaque itération, les 10 % de données avec la plus haute perplexité sont sélectionnées pour le traitement ultérieur.

Génération de Préférences au Niveau des Étapes MCTS :

Phase de Sélection : Utilisation de l'algorithme PUCT pour équilibrer exploration et exploitation
```
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
```
Phase d'Expansion : Intégration de nouveaux nœuds au nœud feuille et évaluation des récompenses
```
R(s_t) = O(s_t) + C(s_t)
```
Phase de Rétropropagation : Mise à jour ascendante des compteurs de visite et des valeurs d'état

Optimisation Itérative des Préférences : Utilisation de l'algorithme SimPO pour l'optimisation des préférences :

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Points d'Innovation Technique

Identification des Erreurs au Niveau Fragmentaire : Génération de paires de préférences granulaires via MCTS, permettant la localisation précise des fragments erronés dans les réponses
Calibrage Dynamique de la Complexité : Sélection dynamique d'échantillons complexes basée sur la perplexité de génération, améliorant l'efficacité d'entraînement
Stratégie d'Optimisation Itérative : Combinaison de l'apprentissage par curriculum et de l'apprentissage renforcé, améliorant progressivement les performances du modèle dans les scénarios complexes

Configuration Expérimentale

Ensembles de Données

Données d'Entraînement : Ensemble de données ToolACE, contenant 100K échantillons de données générales d'utilisation d'outils
Ensembles de Données d'Évaluation :
- Berkeley Function-Calling Leaderboard (BFCL) : 4K+ instances, incluant Non-live (simple), Live (complexe), Multi-turn (multi-tours) et Hallucination (détection d'hallucination)
- API-Bank : 314 dialogues d'utilisation d'outils, 753 appels API

Métriques d'Évaluation

Précision : Performance de précision sur diverses sous-tâches
Performance Globale : Score moyen pondéré synthétisant plusieurs dimensions

Méthodes de Comparaison

Modèles Propriétaires : Séries GPT-4, Gemini, o1-mini, etc.
Modèles de Base Open-Source : Séries LLaMA-3.1, Qwen2.5, etc.
Modèles Affinés : ToolACE-8B, séries xLAM, séries Hammer, etc.

Détails d'Implémentation

Modèle de Base : LLaMA3.1-8B-Instruct
Stratégie d'Entraînement : LoRA pour la phase de préchauffage, QLoRA pour la phase d'apprentissage renforcé
Configuration Matérielle : 8×32GB GPU V100, temps d'entraînement total 28 heures

Résultats Expérimentaux

Résultats Principaux

Résultats du Test de Référence BFCL :

iTool-8B atteint une précision globale de 63,26 %, classé premier
Dans Live (scénarios complexes) atteint 78,29 %, surpassant GPT-4o-2024-08-06 avec 75,43 %
Dans les tâches Multi-turn atteint 23,84 %, surpassant significativement les autres modèles de même envergure

Résultats API-Bank :

Tâche L1 : 78,89 % (vs 75,94 % pour ToolACE-8B)
Tâche L2 : 52,87 % (vs 47,41 % pour ToolACE-8B)

Études d'Ablation

Analyse de la Contribution des Modules :

Composant	Non-live	Live	Multi-turn
Modèle de Base	81,15	57,93	11,38
+ SFT	+7,8	+17,0	+6,0
+ Warm-up	+7,2	+17,9	+8,3
+ IRL (iTool)	+9,5	+21,2	+12,5

Résultats Clés :

L'entraînement de préchauffage et l'apprentissage renforcé itératif contribuent respectivement à 2,3 et 4,2 points d'amélioration
Les améliorations sont les plus significatives dans les scénarios complexes (Live et Multi-turn)

Analyse des Bénéfices d'Entraînement

Comparé à la méthode SFT traditionnelle, iTool présente une meilleure courbe de bénéfices avec l'augmentation de l'échelle des données :

La méthode SFT montre un plateau des bénéfices après 30 % des données
iTool maintient une courbe d'amélioration plus raide sur la métrique Live

Vérification de la Généralisation

Performance sur différents ensembles de données et architectures de modèles :

Ensembles de données synthétiques (ToolACE, xLAM) : amélioration de +4,42 à +6,49
Ensembles de données non synthétiques (BFCL-half) : amélioration de +2,17 à +3,65
Améliorations cohérentes observées sur les modèles de différentes tailles de 3B à 8B

Travaux Connexes

Recherche sur l'Utilisation d'Outils

Travaux Précoces : Toolformer, ToolAlpaca et autres ont exploré le potentiel d'utilisation d'outils des LLMs
Méthodes sans Affinage : Déverrouillage des capacités intrinsèques par ingénierie des invites (ReAct, RestGPT)
Méthodes Basées sur l'Affinage : ToolLLaMA étend l'ensemble d'outils et étudie l'impact de l'échelle des données

Méthodes d'Apprentissage Renforcé

Méthodes Traditionnelles : Les algorithmes d'apprentissage renforcé en ligne comme PPO sont complexes et difficiles à optimiser
Optimisation Directe des Préférences : DPO et ses variantes (SimPO, IPO, ORPO) fournissent des algorithmes hors ligne plus simples
Entraînement Itératif : Amélioration des performances par mise à jour continue du modèle de référence et génération de nouvelles paires de préférences

Conclusion et Discussion

Conclusions Principales

Identification d'un problème clé dans l'entraînement avec données synthétiques d'utilisation d'outils : la diminution des bénéfices d'entraînement est principalement causée par des erreurs fragmentaires liées aux paramètres
Proposition d'une solution efficace : amélioration de la diversité des données via MCTS et apprentissage renforcé itératif pour corriger les fragments erronés
Réalisation d'améliorations significatives : le modèle à 8B paramètres surpasse les modèles de plus grande taille sur plusieurs tests de référence

Limitations

Exigences en Ressources Informatiques : Le processus MCTS nécessite des ressources informatiques considérables (7 heures d'exécution sur 8 GPU V100 par itération)
Limitation d'Échelle : En raison des contraintes de ressources, la méthode n'a pas été validée sur des modèles plus grands comme 30B ou 70B
Couverture des Ensembles de Données : Analyse approfondie effectuée uniquement sur un seul ensemble de données synthétiques

Directions Futures

Optimisation de l'Efficacité : Développement de méthodes plus efficaces de génération de données de préférences
Expansion d'Échelle : Validation de l'efficacité de la méthode sur des modèles de plus grande taille
Diversité des Données : Test de la capacité de généralisation de la méthode sur plus d'ensembles de données publics

Évaluation Approfondie

Points Forts

Identification Précise du Problème : Identification exacte de la cause fondamentale de la diminution des bénéfices d'entraînement par analyse détaillée des types d'erreurs
Conception Rationnelle de la Méthode : La stratégie combinant apprentissage par curriculum et apprentissage renforcé est conforme aux principes d'apprentissage humain
Expérimentation Complète : Incluant des études d'ablation complètes, vérification de la généralisation et analyse coûts-bénéfices
Résultats Significatifs : Améliorations significatives et cohérentes sur plusieurs tests de référence

Insuffisances

Coût Informatique Élevé : Les frais généraux informatiques du processus MCTS peuvent limiter sa faisabilité dans les applications pratiques
Analyse Théorique Insuffisante : Manque d'explications théoriques sur pourquoi MCTS peut résoudre efficacement le problème des erreurs fragmentaires
Comparaisons Incomplètes : Comparaisons limitées avec d'autres méthodes abordant le problème de diminution des bénéfices d'entraînement

Impact

Contribution Académique : Fournit une nouvelle perspective pour résoudre le problème de diminution des bénéfices d'entraînement dans l'utilisation d'outils
Valeur Pratique : La méthode réalise des améliorations significatives tout en maintenant la faisabilité informatique
Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source

Scénarios d'Application

Scénarios Complexes d'Utilisation d'Outils : Particulièrement adapté aux tâches nécessitant la coordination de plusieurs outils et le raisonnement complexe sur les paramètres
Entraînement avec Données Synthétiques : Fournit une solution efficace pour améliorer les capacités du modèle en utilisant des données synthétiques
Environnements de Recherche Bien Dotés en Ressources : Nécessite un certain soutien en ressources informatiques pour le processus MCTS

Références

L'article cite des travaux importants dans les domaines de l'utilisation d'outils, de l'apprentissage renforcé et de l'optimisation des préférences, notamment :

Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Travaux connexes MCTS (Coulom, 2006 ; Grill et al., 2020)

Évaluation Globale : Cet article de recherche de haute qualité identifie précisément les problèmes clés de l'entraînement à l'utilisation d'outils, propose une solution innovante et efficace, et valide l'efficacité de la méthode par une expérimentation complète. Malgré la limitation du coût informatique élevé, ses contributions académiques et sa valeur pratique sont très significatives.