2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: Verstärkte Feinabstimmung mit dynamischer Mängel-Kalibrierung für fortgeschrittene Werkzeugnutzung

Grundinformationen

  • Paper-ID: 2501.09766
  • Titel: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • Autoren: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • Institutionen: Forschungszentrum für Sozialcomputing und Informationsabruf der Harbin Institute of Technology, Huawei Technologies Co., Ltd., Shanghai Jiao Tong University, University of Science and Technology of China
  • Klassifikation: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: Januar 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.09766

Zusammenfassung

Die Integration großer Sprachmodelle (LLMs) mit externen Werkzeugen ist eine effektive Methode zur Verbesserung ihrer Fähigkeiten, besonders bei komplexen Aufgaben. Die Generierung synthetischer Werkzeugnutzungsdaten durch realistische Simulationen ist ein vielversprechender Weg zur Erreichung dieses Ziels. Allerdings zeigt sich, dass mit zunehmender Menge synthetischer Daten die Trainingsgewinne erheblich abnehmen. Modelle können nicht von zusätzlichen synthetischen Daten profitieren und erwerben keine fortgeschrittenen Werkzeugnutzungsfähigkeiten in komplexen Szenarien. Die Autoren stellen fest, dass diese Einschränkung typischerweise als fragmentarische Mängel in Antworten (d.h. Parameterfehler) auftritt. Daher wird eine iterative verstärkte Feinabstimmungsstrategie vorgeschlagen, die folgende Komponenten umfasst: (1) Verbesserung der Vielfalt synthetischer Datenreaktionen durch Pfaderkundung mittels Monte-Carlo-Baumsuche; (2) iterative Lokalisierung von Modellmängeln durch Konstruktion feingranularer Präferenzpaare und gezielte Verbesserung durch Präferenzoptimierungsalgorithmen. Experimente zeigen, dass die Methode eine Leistungssteigerung von 13,11% gegenüber Basismodellen gleicher Größe erreicht, in komplexen Szenarien 6,5% über der Baseline liegt und größere Open-Source- und Closed-Source-Modelle übertrifft.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Bestehende Trainingsmethoden für Werkzeugnutzung zeigen bei der Verarbeitung synthetischer Daten ein Problem der Trainingsgewinn-Abnahme, wobei Modelle nicht effektiv von erhöhten Datenmengen lernen können
  2. Bedeutung: Werkzeugnutzungsfähigkeit ist eine Schlüsselfähigkeit von LLMs in praktischen Anwendungen, die Informationsabruf, präzise Berechnung und Reduktion von Halluzinationen umfasst
  3. Einschränkungen bestehender Methoden:
    • Traditionelle überwachte Feinabstimmung (SFT) zeigt schlechte Leistung in komplexen Werkzeugnutzungsszenarien
    • Mit zunehmender Größe synthetischer Daten nimmt der Leistungszuwachs marginal ab
    • Modelle weisen systematische Mängel bei Parameterextraktion und Inferenz auf

Forschungsergebnisse

Vorläufige Untersuchungen zeigen:

  • In der BFCL-Bewertung stammen 51% der Fehler aus Parameterwertfehlern, 26% aus Parameternamensfehlern
  • Fehler beeinflussen typischerweise nur kleine Fragmente von Antworten, während der Großteil des Inhalts korrekt ist
  • Traditionelle SFT-Methoden zeigen nach Verwendung von 30% der Daten deutlich verlangsamte Leistungssteigerungen

Kernbeiträge

  1. Identifikation und Analyse des Trainingsgewinn-Abnahmeproblem bei synthetischen Werkzeugnutzungsdaten, mit Fokus auf parameterbezogene fragmentarische Mängel
  2. Vorschlag des iTool-Frameworks mit zwei Kernkomponenten: progressives Warm-up-Training und iteratives verstärktes Lernen
  3. Entwicklung einer MCTS-basierten Methode zur Generierung feingranularer Präferenzdaten, die Fehler in Antwortfragmenten effektiv identifiziert und korrigiert
  4. Signifikante Leistungssteigerungen bei mehreren Benchmarks, wobei 8B-Parameter-Modelle größere Open-Source- und Closed-Source-Modelle übertreffen

Methodische Details

Aufgabendefinition

Bei Werkzeugnutzungsaufgaben empfängt das LLM eine Benutzerabfrage q und eine Menge kandidater Werkzeuge T = {t₀, t₁, ..., t|T|}. Das Ziel besteht darin, die Benutzerintention durch Ausführung einer spezifischen Werkzeugsequenz zu erfüllen. Der Entscheidungsprozess kann beschrieben werden als y ~ π(y | s₀, q, T), wobei π(·) die Strategiefunktion darstellt, s₀ den initialen Aufgabenzustand bezeichnet und y die vom Modell ergriffene Aktion darstellt.

Modellarchitektur

1. Progressives Warm-up-Training

Einsatz einer Curriculum-Learning-Strategie vom Einfachen zum Schwierigen:

Datenklassifizierungskriterien:

  • Einfach: Werkzeuganzahl ≤ 1, Werkzeugsatz-Stringlänge < 1000, erforderliche Werkzeugaufrufe ≤ 1
  • Mittel: 1 < Werkzeuganzahl < 4, Stringlänge < 2000, Werkzeugaufrufe < 4
  • Schwierig: Werkzeuganzahl ≥ 4, Stringlänge > 2000, Werkzeugaufrufe ≥ 4

Trainings-Verlustfunktion:

L_warm-up = Σ(i=1 bis 3) L_i
wobei L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Iteratives verstärktes Lernen basierend auf MCTS

Komplexe Datenprobenahme: Verwendung von Generierungsperplexität zur Messung der Stichprobenkomplexität:

h = ⁿ√(1/P_M(y | q, T))

Bei jeder Iteration werden die 10% der Daten mit höchster Perplexität für die Weiterverarbeitung ausgewählt.

MCTS-Schritt-Level-Präferenzgenerierung:

  • Auswahlphase: Verwendung des PUCT-Algorithmus zur Balance zwischen Exploration und Exploitation
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • Expansionsphase: Integration neuer Knoten am Blattknoten und Bewertung der Belohnung
    R(s_t) = O(s_t) + C(s_t)
    
  • Backpropagation-Phase: Aktualisierung von Besuchszählern und Zustandswerten von unten nach oben

Iterative Präferenzoptimierung: Verwendung des SimPO-Algorithmus für Präferenzoptimierung:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Technische Innovationen

  1. Fragment-Level-Fehleridentifikation: Durch MCTS-generierte feingranulare Präferenzpaare können Fehler in Antwortfragmenten präzise lokalisiert werden
  2. Dynamische Komplexitätskalibrierung: Dynamische Auswahl komplexer Stichproben basierend auf Generierungsperplexität zur Verbesserung der Trainingseffizienz
  3. Iterative Optimierungsstrategie: Kombination von Curriculum-Learning und verstärktem Lernen zur schrittweisen Verbesserung der Modellleistung in komplexen Szenarien

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: ToolACE-Datensatz mit 100K Stichproben für allgemeine Werkzeugnutzung
  • Bewertungsdatensätze:
    • Berkeley Function-Calling Leaderboard (BFCL): 4K+ Instanzen mit Non-live (einfach), Live (komplex), Multi-turn (mehrteilig) und Hallucination (Halluzinations-Erkennung)
    • API-Bank: 314 Werkzeugnutzungs-Dialoge, 753 API-Aufrufe

Bewertungsmetriken

  • Genauigkeit: Genauigkeitsleistung bei verschiedenen Teilaufgaben
  • Gesamtleistung: Gewichteter Durchschnittswert über mehrere Dimensionen

Vergleichsmethoden

  • Closed-Source-Modelle: GPT-4-Serie, Gemini-Serie, o1-mini usw.
  • Open-Source-Basismodelle: LLaMA-3.1-Serie, Qwen2.5-Serie usw.
  • Feinabgestimmte Modelle: ToolACE-8B, xLAM-Serie, Hammer-Serie usw.

Implementierungsdetails

  • Basismodell: LLaMA3.1-8B-Instruct
  • Trainingstrategie: LoRA in der Warm-up-Phase, QLoRA in der verstärkten Lernphase
  • Hardware-Konfiguration: 8×32GB V100 GPU, Gesamttrainingszeit 28 Stunden

Experimentelle Ergebnisse

Hauptergebnisse

BFCL-Benchmark-Ergebnisse:

  • iTool-8B erreicht 63,26% Gesamtgenauigkeit und belegt den ersten Platz
  • In Live (komplexe Szenarien) erreicht 78,29%, übertrifft GPT-4o-2024-08-06 mit 75,43%
  • In Multi-turn-Aufgaben erreicht 23,84%, deutlich besser als andere Modelle gleicher Größe

API-Bank-Ergebnisse:

  • L1-Aufgaben: 78,89% (vs. ToolACE-8B mit 75,94%)
  • L2-Aufgaben: 52,87% (vs. ToolACE-8B mit 47,41%)

Ablationsstudien

Modulbeitragsanalyse:

KomponenteNon-liveLiveMulti-turn
Basismodell81,1557,9311,38
+ SFT+7,8+17,0+6,0
+ Warm-up+7,2+17,9+8,3
+ IRL (iTool)+9,5+21,2+12,5

Wichtige Erkenntnisse:

  • Warm-up-Training und iteratives verstärktes Lernen tragen jeweils 2,3 bzw. 4,2 Punkte zur Verbesserung bei
  • Verbesserungen sind in komplexen Szenarien (Live und Multi-turn) am signifikantesten

Trainingsgewinn-Analyse

Im Vergleich zu traditioneller SFT zeigt iTool bessere Gewinnkurven bei zunehmender Datengröße:

  • SFT-Methode zeigt Plateauing nach 30% der Daten
  • iTool behält steilere Verbesserungskurve bei Live-Metriken

Generalisierungsvalidierung

Leistung über verschiedene Datensätze und Modellarchitekturen:

  • Synthetische Datensätze (ToolACE, xLAM): +4,42 bis +6,49 Verbesserung
  • Nicht-synthetische Datensätze (BFCL-half): +2,17 bis +3,65 Verbesserung
  • Konsistente Verbesserungen über Modelle von 3B bis 8B Parametern

Verwandte Arbeiten

Werkzeugnutzungsforschung

  • Frühe Arbeiten: Toolformer, ToolAlpaca und andere erkundeten das Werkzeugnutzungspotenzial von LLMs
  • Tuning-freie Methoden: Prompt-Engineering-Ansätze (ReAct, RestGPT) zur Freisetzung inhärenter Fähigkeiten
  • Tuning-basierte Methoden: ToolLLaMA erweiterte Werkzeugmengen und untersuchte Datenskala-Effekte

Verstärktes Lernen

  • Traditionelle Methoden: Online-RL-Algorithmen wie PPO sind komplex und schwer zu optimieren
  • Direkte Präferenzoptimierung: DPO und Varianten (SimPO, IPO, ORPO) bieten einfachere Offline-Algorithmen
  • Iteratives Training: Kontinuierliche Aktualisierung von Referenzmodellen und Generierung neuer Präferenzpaare zur Leistungsverbesserung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Identifikation kritischer Probleme beim Training mit synthetischen Werkzeugnutzungsdaten: Trainingsgewinn-Abnahme wird hauptsächlich durch parameterbezogene fragmentarische Fehler verursacht
  2. Vorschlag effektiver Lösungen: Verbesserung der Datendiversität durch MCTS und Korrektur fragmentarischer Fehler durch iteratives verstärktes Lernen
  3. Erreichung signifikanter Leistungssteigerungen: 8B-Parameter-Modelle übertreffen größere Modelle bei mehreren Benchmarks

Einschränkungen

  1. Hohe Rechenressourcen-Anforderungen: MCTS-Prozess erfordert erhebliche Rechenressourcen (7 Stunden auf 8 V100 GPUs pro Iteration)
  2. Skalierungsbeschränkungen: Aufgrund von Ressourcenlimitierungen nicht auf größeren Modellen (30B oder 70B) validiert
  3. Datensatz-Abdeckung: Tiefgehende Analyse nur auf einem einzelnen synthetischen Datensatz durchgeführt

Zukünftige Richtungen

  1. Effizienzoptimierung: Entwicklung effizienterer Methoden zur Präferenzdata-Generierung
  2. Skalierungserweiterung: Validierung der Methodeneffektivität auf größeren Modellen
  3. Datendiversität: Testen der Generalisierungsfähigkeit auf mehr öffentlichen Datensätzen

Tiefgehende Bewertung

Stärken

  1. Genaue Problemidentifikation: Durch detaillierte Fehlertyp-Analyse wird die Grundursache der Trainingsgewinn-Abnahme präzise identifiziert
  2. Rationales Methodendesign: Die Kombination von Curriculum-Learning und verstärktem Lernen entspricht menschlichen Lernmustern
  3. Umfassende Experimente: Vollständige Ablationsstudien, Generalisierungsvalidierung und Kosteneffizienz-Analyse
  4. Signifikante Ergebnisse: Konsistente und bedeutsame Verbesserungen über mehrere Benchmarks

Schwächen

  1. Hohe Rechenkosten: Der Rechenaufwand des MCTS-Prozesses könnte die praktische Anwendbarkeit einschränken
  2. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum MCTS fragmentarische Fehler effektiv löst
  3. Unvollständige Vergleiche: Weniger Vergleiche mit anderen Methoden zur Behandlung der Trainingsgewinn-Abnahme

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für das Trainingsgewinn-Abnahmeproblem bei Werkzeugnutzung
  2. Praktischer Wert: Erreicht signifikante Verbesserungen unter Beibehaltung rechnerischer Machbarkeit
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Code verfügbar

Anwendungsszenarien

  • Komplexe Werkzeugnutzungsszenarien: Besonders geeignet für Aufgaben mit Multi-Tool-Koordination und komplexer Parameterlogik
  • Synthetisches Datentraining: Bietet effektive Lösungen zur Nutzung synthetischer Daten für Modellverbesserung
  • Ressourcenreiche Forschungsumgebungen: Erfordert angemessene Rechenressourcen zur Unterstützung des MCTS-Prozesses

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in Werkzeugnutzung, verstärktem Lernen und Präferenzoptimierung, einschließlich:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • MCTS-verwandte Arbeiten (Coulom, 2006; Grill et al., 2020)

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein kritisches Problem beim Training von Werkzeugnutzung präzise identifiziert, eine innovative und effektive Lösung vorschlägt und deren Effektivität durch umfassende Experimente validiert. Trotz der Einschränkung hoher Rechenkosten sind sein akademischer Beitrag und praktischer Wert erheblich.