2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool: Verstärkte Feinabstimmung mit dynamischer Mängel-Kalibrierung für fortgeschrittene Werkzeugnutzung

Grundinformationen

Paper-ID: 2501.09766
Titel: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Autoren: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
Institutionen: Forschungszentrum für Sozialcomputing und Informationsabruf der Harbin Institute of Technology, Huawei Technologies Co., Ltd., Shanghai Jiao Tong University, University of Science and Technology of China
Klassifikation: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: Januar 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2501.09766

Zusammenfassung

Die Integration großer Sprachmodelle (LLMs) mit externen Werkzeugen ist eine effektive Methode zur Verbesserung ihrer Fähigkeiten, besonders bei komplexen Aufgaben. Die Generierung synthetischer Werkzeugnutzungsdaten durch realistische Simulationen ist ein vielversprechender Weg zur Erreichung dieses Ziels. Allerdings zeigt sich, dass mit zunehmender Menge synthetischer Daten die Trainingsgewinne erheblich abnehmen. Modelle können nicht von zusätzlichen synthetischen Daten profitieren und erwerben keine fortgeschrittenen Werkzeugnutzungsfähigkeiten in komplexen Szenarien. Die Autoren stellen fest, dass diese Einschränkung typischerweise als fragmentarische Mängel in Antworten (d.h. Parameterfehler) auftritt. Daher wird eine iterative verstärkte Feinabstimmungsstrategie vorgeschlagen, die folgende Komponenten umfasst: (1) Verbesserung der Vielfalt synthetischer Datenreaktionen durch Pfaderkundung mittels Monte-Carlo-Baumsuche; (2) iterative Lokalisierung von Modellmängeln durch Konstruktion feingranularer Präferenzpaare und gezielte Verbesserung durch Präferenzoptimierungsalgorithmen. Experimente zeigen, dass die Methode eine Leistungssteigerung von 13,11% gegenüber Basismodellen gleicher Größe erreicht, in komplexen Szenarien 6,5% über der Baseline liegt und größere Open-Source- und Closed-Source-Modelle übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Bestehende Trainingsmethoden für Werkzeugnutzung zeigen bei der Verarbeitung synthetischer Daten ein Problem der Trainingsgewinn-Abnahme, wobei Modelle nicht effektiv von erhöhten Datenmengen lernen können
Bedeutung: Werkzeugnutzungsfähigkeit ist eine Schlüsselfähigkeit von LLMs in praktischen Anwendungen, die Informationsabruf, präzise Berechnung und Reduktion von Halluzinationen umfasst
Einschränkungen bestehender Methoden:
- Traditionelle überwachte Feinabstimmung (SFT) zeigt schlechte Leistung in komplexen Werkzeugnutzungsszenarien
- Mit zunehmender Größe synthetischer Daten nimmt der Leistungszuwachs marginal ab
- Modelle weisen systematische Mängel bei Parameterextraktion und Inferenz auf

Forschungsergebnisse

Vorläufige Untersuchungen zeigen:

In der BFCL-Bewertung stammen 51% der Fehler aus Parameterwertfehlern, 26% aus Parameternamensfehlern
Fehler beeinflussen typischerweise nur kleine Fragmente von Antworten, während der Großteil des Inhalts korrekt ist
Traditionelle SFT-Methoden zeigen nach Verwendung von 30% der Daten deutlich verlangsamte Leistungssteigerungen

Kernbeiträge

Identifikation und Analyse des Trainingsgewinn-Abnahmeproblem bei synthetischen Werkzeugnutzungsdaten, mit Fokus auf parameterbezogene fragmentarische Mängel
Vorschlag des iTool-Frameworks mit zwei Kernkomponenten: progressives Warm-up-Training und iteratives verstärktes Lernen
Entwicklung einer MCTS-basierten Methode zur Generierung feingranularer Präferenzdaten, die Fehler in Antwortfragmenten effektiv identifiziert und korrigiert
Signifikante Leistungssteigerungen bei mehreren Benchmarks, wobei 8B-Parameter-Modelle größere Open-Source- und Closed-Source-Modelle übertreffen

Methodische Details

Aufgabendefinition

Bei Werkzeugnutzungsaufgaben empfängt das LLM eine Benutzerabfrage q und eine Menge kandidater Werkzeuge T = {t₀, t₁, ..., t|T|}. Das Ziel besteht darin, die Benutzerintention durch Ausführung einer spezifischen Werkzeugsequenz zu erfüllen. Der Entscheidungsprozess kann beschrieben werden als y ~ π(y | s₀, q, T), wobei π(·) die Strategiefunktion darstellt, s₀ den initialen Aufgabenzustand bezeichnet und y die vom Modell ergriffene Aktion darstellt.

Modellarchitektur

1. Progressives Warm-up-Training

Einsatz einer Curriculum-Learning-Strategie vom Einfachen zum Schwierigen:

Datenklassifizierungskriterien:

Einfach: Werkzeuganzahl ≤ 1, Werkzeugsatz-Stringlänge < 1000, erforderliche Werkzeugaufrufe ≤ 1
Mittel: 1 < Werkzeuganzahl < 4, Stringlänge < 2000, Werkzeugaufrufe < 4
Schwierig: Werkzeuganzahl ≥ 4, Stringlänge > 2000, Werkzeugaufrufe ≥ 4

Trainings-Verlustfunktion:

L_warm-up = Σ(i=1 bis 3) L_i
wobei L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Iteratives verstärktes Lernen basierend auf MCTS

Komplexe Datenprobenahme: Verwendung von Generierungsperplexität zur Messung der Stichprobenkomplexität:

h = ⁿ√(1/P_M(y | q, T))

Bei jeder Iteration werden die 10% der Daten mit höchster Perplexität für die Weiterverarbeitung ausgewählt.

MCTS-Schritt-Level-Präferenzgenerierung:

Auswahlphase: Verwendung des PUCT-Algorithmus zur Balance zwischen Exploration und Exploitation
```
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
```
Expansionsphase: Integration neuer Knoten am Blattknoten und Bewertung der Belohnung
```
R(s_t) = O(s_t) + C(s_t)
```
Backpropagation-Phase: Aktualisierung von Besuchszählern und Zustandswerten von unten nach oben

Iterative Präferenzoptimierung: Verwendung des SimPO-Algorithmus für Präferenzoptimierung:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Technische Innovationen

Fragment-Level-Fehleridentifikation: Durch MCTS-generierte feingranulare Präferenzpaare können Fehler in Antwortfragmenten präzise lokalisiert werden
Dynamische Komplexitätskalibrierung: Dynamische Auswahl komplexer Stichproben basierend auf Generierungsperplexität zur Verbesserung der Trainingseffizienz
Iterative Optimierungsstrategie: Kombination von Curriculum-Learning und verstärktem Lernen zur schrittweisen Verbesserung der Modellleistung in komplexen Szenarien

Experimentelle Einrichtung

Datensätze

Trainingsdaten: ToolACE-Datensatz mit 100K Stichproben für allgemeine Werkzeugnutzung
Bewertungsdatensätze:
- Berkeley Function-Calling Leaderboard (BFCL): 4K+ Instanzen mit Non-live (einfach), Live (komplex), Multi-turn (mehrteilig) und Hallucination (Halluzinations-Erkennung)
- API-Bank: 314 Werkzeugnutzungs-Dialoge, 753 API-Aufrufe

Bewertungsmetriken

Genauigkeit: Genauigkeitsleistung bei verschiedenen Teilaufgaben
Gesamtleistung: Gewichteter Durchschnittswert über mehrere Dimensionen

Vergleichsmethoden

Closed-Source-Modelle: GPT-4-Serie, Gemini-Serie, o1-mini usw.
Open-Source-Basismodelle: LLaMA-3.1-Serie, Qwen2.5-Serie usw.
Feinabgestimmte Modelle: ToolACE-8B, xLAM-Serie, Hammer-Serie usw.

Implementierungsdetails

Basismodell: LLaMA3.1-8B-Instruct
Trainingstrategie: LoRA in der Warm-up-Phase, QLoRA in der verstärkten Lernphase
Hardware-Konfiguration: 8×32GB V100 GPU, Gesamttrainingszeit 28 Stunden

Experimentelle Ergebnisse

Hauptergebnisse

BFCL-Benchmark-Ergebnisse:

iTool-8B erreicht 63,26% Gesamtgenauigkeit und belegt den ersten Platz
In Live (komplexe Szenarien) erreicht 78,29%, übertrifft GPT-4o-2024-08-06 mit 75,43%
In Multi-turn-Aufgaben erreicht 23,84%, deutlich besser als andere Modelle gleicher Größe

API-Bank-Ergebnisse:

L1-Aufgaben: 78,89% (vs. ToolACE-8B mit 75,94%)
L2-Aufgaben: 52,87% (vs. ToolACE-8B mit 47,41%)

Ablationsstudien

Modulbeitragsanalyse:

Komponente	Non-live	Live	Multi-turn
Basismodell	81,15	57,93	11,38
+ SFT	+7,8	+17,0	+6,0
+ Warm-up	+7,2	+17,9	+8,3
+ IRL (iTool)	+9,5	+21,2	+12,5

Wichtige Erkenntnisse:

Warm-up-Training und iteratives verstärktes Lernen tragen jeweils 2,3 bzw. 4,2 Punkte zur Verbesserung bei
Verbesserungen sind in komplexen Szenarien (Live und Multi-turn) am signifikantesten

Trainingsgewinn-Analyse

Im Vergleich zu traditioneller SFT zeigt iTool bessere Gewinnkurven bei zunehmender Datengröße:

SFT-Methode zeigt Plateauing nach 30% der Daten
iTool behält steilere Verbesserungskurve bei Live-Metriken

Generalisierungsvalidierung

Leistung über verschiedene Datensätze und Modellarchitekturen:

Synthetische Datensätze (ToolACE, xLAM): +4,42 bis +6,49 Verbesserung
Nicht-synthetische Datensätze (BFCL-half): +2,17 bis +3,65 Verbesserung
Konsistente Verbesserungen über Modelle von 3B bis 8B Parametern

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Identifikation kritischer Probleme beim Training mit synthetischen Werkzeugnutzungsdaten: Trainingsgewinn-Abnahme wird hauptsächlich durch parameterbezogene fragmentarische Fehler verursacht
Vorschlag effektiver Lösungen: Verbesserung der Datendiversität durch MCTS und Korrektur fragmentarischer Fehler durch iteratives verstärktes Lernen
Erreichung signifikanter Leistungssteigerungen: 8B-Parameter-Modelle übertreffen größere Modelle bei mehreren Benchmarks

Einschränkungen

Hohe Rechenressourcen-Anforderungen: MCTS-Prozess erfordert erhebliche Rechenressourcen (7 Stunden auf 8 V100 GPUs pro Iteration)
Skalierungsbeschränkungen: Aufgrund von Ressourcenlimitierungen nicht auf größeren Modellen (30B oder 70B) validiert
Datensatz-Abdeckung: Tiefgehende Analyse nur auf einem einzelnen synthetischen Datensatz durchgeführt

Zukünftige Richtungen

Effizienzoptimierung: Entwicklung effizienterer Methoden zur Präferenzdata-Generierung
Skalierungserweiterung: Validierung der Methodeneffektivität auf größeren Modellen
Datendiversität: Testen der Generalisierungsfähigkeit auf mehr öffentlichen Datensätzen

Tiefgehende Bewertung

Stärken

Genaue Problemidentifikation: Durch detaillierte Fehlertyp-Analyse wird die Grundursache der Trainingsgewinn-Abnahme präzise identifiziert
Rationales Methodendesign: Die Kombination von Curriculum-Learning und verstärktem Lernen entspricht menschlichen Lernmustern
Umfassende Experimente: Vollständige Ablationsstudien, Generalisierungsvalidierung und Kosteneffizienz-Analyse
Signifikante Ergebnisse: Konsistente und bedeutsame Verbesserungen über mehrere Benchmarks

Schwächen

Hohe Rechenkosten: Der Rechenaufwand des MCTS-Prozesses könnte die praktische Anwendbarkeit einschränken
Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum MCTS fragmentarische Fehler effektiv löst
Unvollständige Vergleiche: Weniger Vergleiche mit anderen Methoden zur Behandlung der Trainingsgewinn-Abnahme

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für das Trainingsgewinn-Abnahmeproblem bei Werkzeugnutzung
Praktischer Wert: Erreicht signifikante Verbesserungen unter Beibehaltung rechnerischer Machbarkeit
Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code verfügbar

Anwendungsszenarien

Komplexe Werkzeugnutzungsszenarien: Besonders geeignet für Aufgaben mit Multi-Tool-Koordination und komplexer Parameterlogik
Synthetisches Datentraining: Bietet effektive Lösungen zur Nutzung synthetischer Daten für Modellverbesserung
Ressourcenreiche Forschungsumgebungen: Erfordert angemessene Rechenressourcen zur Unterstützung des MCTS-Prozesses

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in Werkzeugnutzung, verstärktem Lernen und Präferenzoptimierung, einschließlich:

Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
MCTS-verwandte Arbeiten (Coulom, 2006; Grill et al., 2020)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein kritisches Problem beim Training von Werkzeugnutzung präzise identifiziert, eine innovative und effektive Lösung vorschlägt und deren Effektivität durch umfassende Experimente validiert. Trotz der Einschränkung hoher Rechenkosten sind sein akademischer Beitrag und praktischer Wert erheblich.