iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic
iTool: Verstärkte Feinabstimmung mit dynamischer Mängel-Kalibrierung für fortgeschrittene Werkzeugnutzung
Institutionen: Forschungszentrum für Sozialcomputing und Informationsabruf der Harbin Institute of Technology, Huawei Technologies Co., Ltd., Shanghai Jiao Tong University, University of Science and Technology of China
Klassifikation: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: Januar 2025 (arXiv Preprint)
Die Integration großer Sprachmodelle (LLMs) mit externen Werkzeugen ist eine effektive Methode zur Verbesserung ihrer Fähigkeiten, besonders bei komplexen Aufgaben. Die Generierung synthetischer Werkzeugnutzungsdaten durch realistische Simulationen ist ein vielversprechender Weg zur Erreichung dieses Ziels. Allerdings zeigt sich, dass mit zunehmender Menge synthetischer Daten die Trainingsgewinne erheblich abnehmen. Modelle können nicht von zusätzlichen synthetischen Daten profitieren und erwerben keine fortgeschrittenen Werkzeugnutzungsfähigkeiten in komplexen Szenarien. Die Autoren stellen fest, dass diese Einschränkung typischerweise als fragmentarische Mängel in Antworten (d.h. Parameterfehler) auftritt. Daher wird eine iterative verstärkte Feinabstimmungsstrategie vorgeschlagen, die folgende Komponenten umfasst: (1) Verbesserung der Vielfalt synthetischer Datenreaktionen durch Pfaderkundung mittels Monte-Carlo-Baumsuche; (2) iterative Lokalisierung von Modellmängeln durch Konstruktion feingranularer Präferenzpaare und gezielte Verbesserung durch Präferenzoptimierungsalgorithmen. Experimente zeigen, dass die Methode eine Leistungssteigerung von 13,11% gegenüber Basismodellen gleicher Größe erreicht, in komplexen Szenarien 6,5% über der Baseline liegt und größere Open-Source- und Closed-Source-Modelle übertrifft.
Kernproblem: Bestehende Trainingsmethoden für Werkzeugnutzung zeigen bei der Verarbeitung synthetischer Daten ein Problem der Trainingsgewinn-Abnahme, wobei Modelle nicht effektiv von erhöhten Datenmengen lernen können
Bedeutung: Werkzeugnutzungsfähigkeit ist eine Schlüsselfähigkeit von LLMs in praktischen Anwendungen, die Informationsabruf, präzise Berechnung und Reduktion von Halluzinationen umfasst
Einschränkungen bestehender Methoden:
Traditionelle überwachte Feinabstimmung (SFT) zeigt schlechte Leistung in komplexen Werkzeugnutzungsszenarien
Mit zunehmender Größe synthetischer Daten nimmt der Leistungszuwachs marginal ab
Modelle weisen systematische Mängel bei Parameterextraktion und Inferenz auf
Identifikation und Analyse des Trainingsgewinn-Abnahmeproblem bei synthetischen Werkzeugnutzungsdaten, mit Fokus auf parameterbezogene fragmentarische Mängel
Vorschlag des iTool-Frameworks mit zwei Kernkomponenten: progressives Warm-up-Training und iteratives verstärktes Lernen
Entwicklung einer MCTS-basierten Methode zur Generierung feingranularer Präferenzdaten, die Fehler in Antwortfragmenten effektiv identifiziert und korrigiert
Signifikante Leistungssteigerungen bei mehreren Benchmarks, wobei 8B-Parameter-Modelle größere Open-Source- und Closed-Source-Modelle übertreffen
Bei Werkzeugnutzungsaufgaben empfängt das LLM eine Benutzerabfrage q und eine Menge kandidater Werkzeuge T = {t₀, t₁, ..., t|T|}. Das Ziel besteht darin, die Benutzerintention durch Ausführung einer spezifischen Werkzeugsequenz zu erfüllen. Der Entscheidungsprozess kann beschrieben werden als y ~ π(y | s₀, q, T), wobei π(·) die Strategiefunktion darstellt, s₀ den initialen Aufgabenzustand bezeichnet und y die vom Modell ergriffene Aktion darstellt.
Fragment-Level-Fehleridentifikation: Durch MCTS-generierte feingranulare Präferenzpaare können Fehler in Antwortfragmenten präzise lokalisiert werden
Dynamische Komplexitätskalibrierung: Dynamische Auswahl komplexer Stichproben basierend auf Generierungsperplexität zur Verbesserung der Trainingseffizienz
Iterative Optimierungsstrategie: Kombination von Curriculum-Learning und verstärktem Lernen zur schrittweisen Verbesserung der Modellleistung in komplexen Szenarien
Identifikation kritischer Probleme beim Training mit synthetischen Werkzeugnutzungsdaten: Trainingsgewinn-Abnahme wird hauptsächlich durch parameterbezogene fragmentarische Fehler verursacht
Vorschlag effektiver Lösungen: Verbesserung der Datendiversität durch MCTS und Korrektur fragmentarischer Fehler durch iteratives verstärktes Lernen
Erreichung signifikanter Leistungssteigerungen: 8B-Parameter-Modelle übertreffen größere Modelle bei mehreren Benchmarks
Das Paper zitiert wichtige Arbeiten in Werkzeugnutzung, verstärktem Lernen und Präferenzoptimierung, einschließlich:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
MCTS-verwandte Arbeiten (Coulom, 2006; Grill et al., 2020)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein kritisches Problem beim Training von Werkzeugnutzung präzise identifiziert, eine innovative und effektive Lösung vorschlägt und deren Effektivität durch umfassende Experimente validiert. Trotz der Einschränkung hoher Rechenkosten sind sein akademischer Beitrag und praktischer Wert erheblich.