2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: Fine-Tuning Rinforzato con Calibrazione Dinamica delle Deficienze per l'Uso Avanzato di Strumenti

Informazioni Fondamentali

  • ID Articolo: 2501.09766
  • Titolo: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • Autori: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • Istituzioni: Centro di Ricerca in Calcolo Sociale e Recupero Informazioni dell'Università Tecnologica di Harbin, Huawei Technologies Co., Ltd., Università Jiao Tong di Shanghai, Università di Scienza e Tecnologia della Cina
  • Classificazione: cs.CL cs.AI cs.LG
  • Data di Pubblicazione: Gennaio 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2501.09766

Riassunto

L'integrazione dei modelli di linguaggio di grandi dimensioni (LLM) con strumenti esterni rappresenta un metodo efficace per potenziare le loro capacità, in particolare in compiti complessi. La generazione di dati sintetici per l'uso di strumenti attraverso simulazioni del mondo reale è un approccio efficace per raggiungere questo obiettivo. Tuttavia, la ricerca rivela che con l'aumento dei dati sintetici, i guadagni di addestramento diminuiscono significativamente. I modelli faticano a beneficiare di dati sintetici aggiuntivi e non riescono ad acquisire capacità avanzate di uso degli strumenti in scenari complessi. Gli autori hanno scoperto che questa limitazione si manifesta tipicamente come difetti frammentari nelle risposte (ovvero errori di parametri). A tal fine, viene proposta una strategia di fine-tuning rinforzato iterativo per mitigare questa limitazione, che include: (1) l'aumento della diversità delle risposte dei dati sintetici attraverso l'esplorazione di percorsi tramite ricerca dell'albero di Monte Carlo; (2) l'individuazione iterativa dei difetti del modello attraverso la costruzione di coppie di preferenza a grana fine e il miglioramento mirato attraverso algoritmi di ottimizzazione delle preferenze. Gli esperimenti dimostrano che il metodo migliora le prestazioni del 13,11% rispetto ai modelli di base della stessa scala, del 6,5% rispetto ai baseline in scenari complessi, e supera i modelli open-source e closed-source di scala maggiore.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: I metodi di addestramento attuali per l'uso di strumenti presentano il problema della diminuzione dei guadagni di addestramento quando si trattano dati sintetici, impedendo ai modelli di apprendere efficacemente dai dati sintetici aumentati
  2. Importanza: La capacità di uso degli strumenti è una competenza fondamentale per gli LLM nelle applicazioni pratiche, coinvolgendo il recupero di informazioni, il calcolo preciso e la riduzione delle allucinazioni
  3. Limitazioni dei Metodi Esistenti:
    • Il fine-tuning supervisionato tradizionale (SFT) presenta prestazioni scadenti in scenari complessi di uso degli strumenti
    • Con l'aumento della scala dei dati sintetici, il miglioramento delle prestazioni mostra rendimenti marginali decrescenti
    • I modelli presentano difetti sistematici nell'estrazione di parametri e nel ragionamento

Scoperte della Ricerca

Attraverso uno studio preliminare è stato scoperto che:

  • Nella valutazione BFCL, il 51% degli errori proviene da valori di parametri errati, il 26% da nomi di parametri errati
  • Gli errori influenzano tipicamente solo piccoli frammenti della risposta, mentre la maggior parte del contenuto è coerente con la risposta corretta
  • Il metodo SFT tradizionale mostra un rallentamento significativo nel miglioramento delle prestazioni dopo l'utilizzo del 30% dei dati

Contributi Fondamentali

  1. Identificazione e analisi del problema della diminuzione dei guadagni nell'addestramento con dati sintetici per l'uso di strumenti, scoprendo che gli errori si concentrano principalmente su difetti frammentari legati ai parametri
  2. Proposizione del framework iTool, contenente due componenti fondamentali: addestramento di riscaldamento progressivo e apprendimento rinforzato iterativo
  3. Progettazione di un metodo di generazione di dati di preferenza a grana fine basato su MCTS, in grado di identificare e correggere efficacemente i frammenti errati nelle risposte
  4. Ottenimento di miglioramenti significativi in più benchmark, con il modello a 8B parametri che supera i modelli open-source e closed-source di scala maggiore

Spiegazione Dettagliata del Metodo

Definizione del Compito

Nel compito di uso degli strumenti, l'LLM riceve una query dell'utente q e un insieme di strumenti candidati T = {t₀, t₁, ..., t|T|}, con l'obiettivo di soddisfare l'intenzione dell'utente eseguendo una sequenza specifica di strumenti. Il processo decisionale può essere descritto come y ~ π(y | s₀, q, T), dove π(·) rappresenta il modello di policy, s₀ rappresenta lo stato iniziale del compito e y rappresenta l'azione intrapresa dal modello.

Architettura del Modello

1. Addestramento di Riscaldamento Progressivo (Warm-up Training)

Adotta una strategia di apprendimento curricolare dal facile al difficile:

Criteri di Classificazione dei Dati:

  • Semplice: numero di strumenti ≤1, lunghezza stringa dell'insieme di strumenti <1000, numero di chiamate di strumenti richieste ≤1
  • Medio: 1<numero di strumenti<4, lunghezza stringa<2000, numero di chiamate di strumenti<4
  • Difficile: numero di strumenti ≥4, lunghezza stringa>2000, numero di chiamate di strumenti ≥4

Perdita di Addestramento:

L_warm-up = Σ(i=1 to 3) L_i
dove L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. Apprendimento Rinforzato Iterativo Basato su MCTS

Campionamento di Dati Complessi: Utilizzo della perplessità generativa per misurare la complessità del campione:

h = ⁿ√(1/P_M(y | q, T))

Ad ogni iterazione viene selezionato il 10% dei dati con perplessità più elevata per l'elaborazione successiva.

Generazione di Preferenza a Livello di Passo MCTS:

  • Fase di Selezione: Utilizzo dell'algoritmo PUCT per bilanciare esplorazione e sfruttamento
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • Fase di Espansione: Integrazione di nuovi nodi nel nodo foglia e valutazione della ricompensa
    R(s_t) = O(s_t) + C(s_t)
    
  • Fase di Backtracking: Aggiornamento dal basso verso l'alto dei conteggi di visita e dei valori di stato

Ottimizzazione Iterativa delle Preferenze: Utilizzo dell'algoritmo SimPO per l'ottimizzazione delle preferenze:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

Punti di Innovazione Tecnica

  1. Identificazione di Errori a Livello di Frammento: Attraverso la generazione di coppie di preferenza a grana fine tramite MCTS, è possibile localizzare precisamente i frammenti errati nelle risposte
  2. Calibrazione Dinamica della Complessità: Selezione dinamica di campioni complessi basata sulla perplessità generativa, migliorando l'efficienza dell'addestramento
  3. Strategia di Ottimizzazione Iterativa: Combinazione di apprendimento curricolare e apprendimento rinforzato per migliorare progressivamente le prestazioni del modello in scenari complessi

Configurazione Sperimentale

Dataset

  • Dati di Addestramento: Dataset ToolACE, contenente 100K campioni di dati generici per l'uso di strumenti
  • Dataset di Valutazione:
    • Berkeley Function-Calling Leaderboard (BFCL): 4K+ istanze, includendo Non-live (semplice), Live (complesso), Multi-turn (multi-turno) e Hallucination (rilevamento di allucinazioni)
    • API-Bank: 314 dialoghi di uso di strumenti, 753 chiamate API

Metriche di Valutazione

  • Accuratezza: Prestazioni di accuratezza su vari sotto-compiti
  • Prestazioni Complessive: Punteggio medio ponderato che sintetizza più dimensioni

Metodi di Confronto

  • Modelli Closed-source: Serie GPT-4, serie Gemini, o1-mini, ecc.
  • Modelli Base Open-source: Serie LLaMA-3.1, serie Qwen2.5, ecc.
  • Modelli Fine-tuned: ToolACE-8B, serie xLAM, serie Hammer, ecc.

Dettagli di Implementazione

  • Modello Base: LLaMA3.1-8B-Instruct
  • Strategia di Addestramento: LoRA nella fase di riscaldamento, QLoRA nella fase di apprendimento rinforzato
  • Configurazione Hardware: 8×32GB GPU V100, tempo totale di addestramento 28 ore

Risultati Sperimentali

Risultati Principali

Risultati del Benchmark BFCL:

  • iTool-8B raggiunge un'accuratezza complessiva del 63,26%, classificandosi al primo posto
  • In Live (scenari complessi) raggiunge il 78,29%, superando GPT-4o-2024-08-06 con il 75,43%
  • In compiti Multi-turn raggiunge il 23,84%, significativamente superiore ad altri modelli della stessa scala

Risultati API-Bank:

  • Compito L1: 78,89% (vs 75,94% di ToolACE-8B)
  • Compito L2: 52,87% (vs 47,41% di ToolACE-8B)

Esperimenti di Ablazione

Analisi del Contributo dei Moduli:

ComponenteNon-liveLiveMulti-turn
Base Model81.1557.9311.38
+ SFT+7.8+17.0+6.0
+ Warm-up+7.2+17.9+8.3
+ IRL (iTool)+9.5+21.2+12.5

Scoperte Chiave:

  • L'addestramento di riscaldamento e l'apprendimento rinforzato iterativo contribuiscono rispettivamente con 2,3 e 4,2 punti di miglioramento
  • Il miglioramento è più significativo in scenari complessi (Live e Multi-turn)

Analisi dei Guadagni di Addestramento

Rispetto al metodo SFT tradizionale, iTool mostra una curva di guadagno migliore con l'aumento della scala dei dati:

  • Il metodo SFT mostra un appiattimento dei guadagni dopo il 30% dei dati
  • iTool mantiene una curva di miglioramento più ripida sulla metrica Live

Verifica della Generalizzazione

Prestazioni su diversi dataset e architetture di modelli:

  • Dataset sintetici (ToolACE, xLAM): miglioramento di +4,42 a +6,49
  • Dataset non sintetici (BFCL-half): miglioramento di +2,17 a +3,65
  • Miglioramenti coerenti su modelli di diverse scale da 3B a 8B

Lavori Correlati

Ricerca sull'Uso di Strumenti

  • Lavori Iniziali: Toolformer, ToolAlpaca e altri hanno esplorato il potenziale degli LLM nell'uso di strumenti
  • Metodi Senza Fine-tuning: Sblocco delle capacità intrinseche attraverso l'ingegneria dei prompt (ReAct, RestGPT)
  • Metodi Basati su Fine-tuning: ToolLLaMA ha esteso l'insieme di strumenti e studiato l'impatto della scala dei dati

Metodi di Apprendimento Rinforzato

  • Metodi Tradizionali: Algoritmi di apprendimento rinforzato online come PPO sono complessi e difficili da ottimizzare
  • Ottimizzazione Diretta delle Preferenze: DPO e le sue varianti (SimPO, IPO, ORPO) forniscono algoritmi offline più semplici
  • Addestramento Iterativo: Miglioramento delle prestazioni attraverso l'aggiornamento continuo del modello di riferimento e la generazione di nuove coppie di preferenza

Conclusioni e Discussione

Conclusioni Principali

  1. Identificazione di un problema chiave nell'addestramento con dati sintetici per l'uso di strumenti: la diminuzione dei guadagni è principalmente causata da errori frammentari legati ai parametri
  2. Proposizione di una soluzione efficace: Aumento della diversità dei dati attraverso MCTS e apprendimento rinforzato iterativo per correggere i frammenti errati
  3. Ottenimento di miglioramenti significativi: Il modello a 8B parametri supera i modelli di scala maggiore su più benchmark

Limitazioni

  1. Requisiti di Risorse Computazionali: Il processo MCTS richiede risorse computazionali significative (ogni iterazione richiede 7 ore su 8 GPU V100)
  2. Limitazioni di Scala: A causa dei vincoli di risorse, il metodo non è stato verificato su modelli più grandi come 30B o 70B
  3. Copertura del Dataset: L'analisi approfondita è stata condotta solo su un singolo dataset sintetico

Direzioni Future

  1. Ottimizzazione dell'Efficienza: Sviluppo di metodi più efficienti per la generazione di dati di preferenza
  2. Espansione di Scala: Verifica dell'efficacia del metodo su modelli di scala maggiore
  3. Diversità dei Dati: Test della capacità di generalizzazione del metodo su più dataset pubblici

Valutazione Approfondita

Punti di Forza

  1. Identificazione Accurata del Problema: Attraverso un'analisi dettagliata dei tipi di errore, il problema della diminuzione dei guadagni è stato identificato con precisione
  2. Progettazione Razionale del Metodo: La strategia che combina apprendimento curricolare e apprendimento rinforzato è coerente con i principi dell'apprendimento umano
  3. Esperimenti Completi: Include esperimenti di ablazione completi, verifica della generalizzazione e analisi costi-benefici
  4. Risultati Significativi: Miglioramenti significativi e coerenti su più benchmark

Insufficienze

  1. Costo Computazionale Elevato: L'overhead computazionale del processo MCTS potrebbe limitare la fattibilità pratica
  2. Analisi Teorica Insufficiente: Manca un'analisi teorica del perché MCTS sia efficace nel risolvere il problema degli errori frammentari
  3. Confronto Incompleto: Confronto limitato con altri metodi che affrontano il problema della diminuzione dei guadagni di addestramento

Impatto

  1. Contributo Accademico: Fornisce un nuovo approccio al problema della diminuzione dei guadagni nell'addestramento per l'uso di strumenti
  2. Valore Pratico: Il metodo raggiunge miglioramenti significativi mantenendo la fattibilità computazionale
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e codice open-source

Scenari di Applicazione

  • Scenari Complessi di Uso di Strumenti: Particolarmente adatto a compiti che richiedono coordinamento multi-strumento e ragionamento complesso sui parametri
  • Addestramento con Dati Sintetici: Fornisce una soluzione efficace per sfruttare i dati sintetici al fine di migliorare le capacità del modello
  • Ambienti di Ricerca con Risorse Sufficienti: Richiede risorse computazionali adeguate per supportare il processo MCTS

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi dell'uso di strumenti, dell'apprendimento rinforzato e dell'ottimizzazione delle preferenze, tra cui:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • Lavori correlati a MCTS (Coulom, 2006; Grill et al., 2020)

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente un problema chiave nell'addestramento per l'uso di strumenti, propone una soluzione innovativa ed efficace e verifica l'efficacia del metodo attraverso esperimenti completi. Nonostante la limitazione del costo computazionale elevato, il suo contributo accademico e il suo valore pratico sono significativi.