iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic
iTool: Fine-Tuning Rinforzato con Calibrazione Dinamica delle Deficienze per l'Uso Avanzato di Strumenti
Istituzioni: Centro di Ricerca in Calcolo Sociale e Recupero Informazioni dell'Università Tecnologica di Harbin, Huawei Technologies Co., Ltd., Università Jiao Tong di Shanghai, Università di Scienza e Tecnologia della Cina
Classificazione: cs.CL cs.AI cs.LG
Data di Pubblicazione: Gennaio 2025 (preprint arXiv)
L'integrazione dei modelli di linguaggio di grandi dimensioni (LLM) con strumenti esterni rappresenta un metodo efficace per potenziare le loro capacità, in particolare in compiti complessi. La generazione di dati sintetici per l'uso di strumenti attraverso simulazioni del mondo reale è un approccio efficace per raggiungere questo obiettivo. Tuttavia, la ricerca rivela che con l'aumento dei dati sintetici, i guadagni di addestramento diminuiscono significativamente. I modelli faticano a beneficiare di dati sintetici aggiuntivi e non riescono ad acquisire capacità avanzate di uso degli strumenti in scenari complessi. Gli autori hanno scoperto che questa limitazione si manifesta tipicamente come difetti frammentari nelle risposte (ovvero errori di parametri). A tal fine, viene proposta una strategia di fine-tuning rinforzato iterativo per mitigare questa limitazione, che include: (1) l'aumento della diversità delle risposte dei dati sintetici attraverso l'esplorazione di percorsi tramite ricerca dell'albero di Monte Carlo; (2) l'individuazione iterativa dei difetti del modello attraverso la costruzione di coppie di preferenza a grana fine e il miglioramento mirato attraverso algoritmi di ottimizzazione delle preferenze. Gli esperimenti dimostrano che il metodo migliora le prestazioni del 13,11% rispetto ai modelli di base della stessa scala, del 6,5% rispetto ai baseline in scenari complessi, e supera i modelli open-source e closed-source di scala maggiore.
Problema Centrale: I metodi di addestramento attuali per l'uso di strumenti presentano il problema della diminuzione dei guadagni di addestramento quando si trattano dati sintetici, impedendo ai modelli di apprendere efficacemente dai dati sintetici aumentati
Importanza: La capacità di uso degli strumenti è una competenza fondamentale per gli LLM nelle applicazioni pratiche, coinvolgendo il recupero di informazioni, il calcolo preciso e la riduzione delle allucinazioni
Limitazioni dei Metodi Esistenti:
Il fine-tuning supervisionato tradizionale (SFT) presenta prestazioni scadenti in scenari complessi di uso degli strumenti
Con l'aumento della scala dei dati sintetici, il miglioramento delle prestazioni mostra rendimenti marginali decrescenti
I modelli presentano difetti sistematici nell'estrazione di parametri e nel ragionamento
Identificazione e analisi del problema della diminuzione dei guadagni nell'addestramento con dati sintetici per l'uso di strumenti, scoprendo che gli errori si concentrano principalmente su difetti frammentari legati ai parametri
Proposizione del framework iTool, contenente due componenti fondamentali: addestramento di riscaldamento progressivo e apprendimento rinforzato iterativo
Progettazione di un metodo di generazione di dati di preferenza a grana fine basato su MCTS, in grado di identificare e correggere efficacemente i frammenti errati nelle risposte
Ottenimento di miglioramenti significativi in più benchmark, con il modello a 8B parametri che supera i modelli open-source e closed-source di scala maggiore
Nel compito di uso degli strumenti, l'LLM riceve una query dell'utente q e un insieme di strumenti candidati T = {t₀, t₁, ..., t|T|}, con l'obiettivo di soddisfare l'intenzione dell'utente eseguendo una sequenza specifica di strumenti. Il processo decisionale può essere descritto come y ~ π(y | s₀, q, T), dove π(·) rappresenta il modello di policy, s₀ rappresenta lo stato iniziale del compito e y rappresenta l'azione intrapresa dal modello.
Identificazione di Errori a Livello di Frammento: Attraverso la generazione di coppie di preferenza a grana fine tramite MCTS, è possibile localizzare precisamente i frammenti errati nelle risposte
Calibrazione Dinamica della Complessità: Selezione dinamica di campioni complessi basata sulla perplessità generativa, migliorando l'efficienza dell'addestramento
Strategia di Ottimizzazione Iterativa: Combinazione di apprendimento curricolare e apprendimento rinforzato per migliorare progressivamente le prestazioni del modello in scenari complessi
Metodi Tradizionali: Algoritmi di apprendimento rinforzato online come PPO sono complessi e difficili da ottimizzare
Ottimizzazione Diretta delle Preferenze: DPO e le sue varianti (SimPO, IPO, ORPO) forniscono algoritmi offline più semplici
Addestramento Iterativo: Miglioramento delle prestazioni attraverso l'aggiornamento continuo del modello di riferimento e la generazione di nuove coppie di preferenza
Identificazione di un problema chiave nell'addestramento con dati sintetici per l'uso di strumenti: la diminuzione dei guadagni è principalmente causata da errori frammentari legati ai parametri
Proposizione di una soluzione efficace: Aumento della diversità dei dati attraverso MCTS e apprendimento rinforzato iterativo per correggere i frammenti errati
Ottenimento di miglioramenti significativi: Il modello a 8B parametri supera i modelli di scala maggiore su più benchmark
Identificazione Accurata del Problema: Attraverso un'analisi dettagliata dei tipi di errore, il problema della diminuzione dei guadagni è stato identificato con precisione
Progettazione Razionale del Metodo: La strategia che combina apprendimento curricolare e apprendimento rinforzato è coerente con i principi dell'apprendimento umano
Esperimenti Completi: Include esperimenti di ablazione completi, verifica della generalizzazione e analisi costi-benefici
Risultati Significativi: Miglioramenti significativi e coerenti su più benchmark
Scenari Complessi di Uso di Strumenti: Particolarmente adatto a compiti che richiedono coordinamento multi-strumento e ragionamento complesso sui parametri
Addestramento con Dati Sintetici: Fornisce una soluzione efficace per sfruttare i dati sintetici al fine di migliorare le capacità del modello
Ambienti di Ricerca con Risorse Sufficienti: Richiede risorse computazionali adeguate per supportare il processo MCTS
L'articolo cita importanti lavori nei campi dell'uso di strumenti, dell'apprendimento rinforzato e dell'ottimizzazione delle preferenze, tra cui:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
Lavori correlati a MCTS (Coulom, 2006; Grill et al., 2020)
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che identifica accuratamente un problema chiave nell'addestramento per l'uso di strumenti, propone una soluzione innovativa ed efficace e verifica l'efficacia del metodo attraverso esperimenti completi. Nonostante la limitazione del costo computazionale elevato, il suo contributo accademico e il suo valore pratico sono significativi.