2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
academic

iTool: उन्नत उपकरण उपयोग के लिए गतिशील कमी अंशांकन के साथ सुदृढ़ सूक्ष्म-ट्यूनिंग

मूल जानकारी

  • पेपर ID: 2501.09766
  • शीर्षक: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
  • लेखक: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
  • संस्थान: हरबिन प्रौद्योगिकी विश्वविद्यालय सामाजिक कंप्यूटिंग और सूचना पुनः प्राप्ति अनुसंधान केंद्र, हुआवेई तकनीकी सीमित कंपनी, शंघाई जियाओ टोंग विश्वविद्यालय, चीन विज्ञान और प्रौद्योगिकी विश्वविद्यालय
  • वर्गीकरण: cs.CL cs.AI cs.LG
  • प्रकाशन समय: जनवरी 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.09766

सारांश

बड़े भाषा मॉडल (LLMs) का बाहरी उपकरणों के साथ एकीकरण, विशेष रूप से जटिल कार्यों में, उनकी क्षमताओं को बढ़ाने का एक प्रभावी तरीका है। वास्तविक दुनिया के अनुकरण के माध्यम से सिंथेटिक उपकरण उपयोग डेटा तैयार करना इस लक्ष्य को प्राप्त करने का एक प्रभावी मार्ग है। हालांकि, शोध से पता चलता है कि सिंथेटिक डेटा बढ़ने के साथ-साथ प्रशिक्षण लाभ में उल्लेखनीय कमी आती है। मॉडल अतिरिक्त सिंथेटिक डेटा से लाभ उठाने में विफल रहता है और जटिल परिदृश्यों में उन्नत उपकरण उपयोग क्षमता प्राप्त नहीं कर सकता है। लेखकों ने पाया कि यह सीमा आमतौर पर प्रतिक्रियाओं में खंडित दोषों (अर्थात्, पैरामीटर त्रुटियों) के रूप में प्रकट होती है। इसके लिए, एक पुनरावृत्ति सुदृढ़ सूक्ष्म-ट्यूनिंग रणनीति प्रस्तावित की गई है जिसमें शामिल हैं: (1) मोंटे कार्लो ट्री सर्च के माध्यम से पथ अन्वेषण सिंथेटिक डेटा प्रतिक्रियाओं की विविधता को बढ़ाता है; (2) सूक्ष्म-दानेदार वरीयता जोड़े का निर्माण करके पुनरावृत्ति से मॉडल की कमियों का पता लगाया जाता है और वरीयता अनुकूलन एल्गोरिदम के माध्यम से लक्षित सुधार किया जाता है। प्रयोग दर्शाते हैं कि यह विधि समान आकार के आधार मॉडल की तुलना में 13.11% प्रदर्शन में सुधार करती है, जटिल परिदृश्यों में आधारभूत से 6.5% सुधार करती है, और बड़े पैमाने के खुले स्रोत और बंद स्रोत मॉडलों से बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मूल समस्या: मौजूदा उपकरण उपयोग प्रशिक्षण विधियों में सिंथेटिक डेटा के साथ काम करते समय प्रशिक्षण लाभ में कमी की समस्या है, मॉडल बढ़े हुए सिंथेटिक डेटा से प्रभावी ढंग से सीख नहीं सकता है
  2. महत्व: उपकरण उपयोग क्षमता वास्तविक अनुप्रयोगों में LLMs की एक महत्वपूर्ण क्षमता है, जिसमें सूचना पुनः प्राप्ति, सटीक गणना, भ्रम को कम करना आदि महत्वपूर्ण कार्य शामिल हैं
  3. मौजूदा विधियों की सीमाएं:
    • पारंपरिक पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT) जटिल उपकरण उपयोग परिदृश्यों में खराब प्रदर्शन करती है
    • सिंथेटिक डेटा के आकार में वृद्धि के साथ, प्रदर्शन में सुधार सीमांत रूप से घटता है
    • मॉडल पैरामीटर निष्कर्षण और तर्क में व्यवस्थित दोष प्रदर्शित करता है

अनुसंधान निष्कर्ष

प्रारंभिक अनुसंधान के माध्यम से पाया गया:

  • BFCL मूल्यांकन में, 51% त्रुटियां पैरामीटर मान त्रुटि से आती हैं, 26% पैरामीटर नाम त्रुटि से आती हैं
  • त्रुटियां आमतौर पर केवल प्रतिक्रिया के छोटे खंड को प्रभावित करती हैं, जबकि अधिकांश सामग्री वास्तविक उत्तर के अनुरूप होती है
  • पारंपरिक SFT विधि 30% डेटा का उपयोग करने के बाद प्रदर्शन में सुधार में उल्लेखनीय मंदी दिखाती है

मूल योगदान

  1. सिंथेटिक उपकरण उपयोग डेटा प्रशिक्षण में प्रशिक्षण लाभ में कमी की समस्या की पहचान और विश्लेषण किया, यह पाया कि त्रुटियां मुख्य रूप से पैरामीटर-संबंधित खंडित दोषों पर केंद्रित हैं
  2. iTool ढांचा प्रस्तावित किया, जिसमें क्रमिक वार्मअप प्रशिक्षण और पुनरावृत्ति सुदृढ़ शिक्षण दो मूल घटक शामिल हैं
  3. MCTS-आधारित सूक्ष्म-दानेदार वरीयता डेटा जनरेशन विधि डिज़ाइन की, जो प्रतिक्रियाओं में त्रुटि खंडों की प्रभावी ढंग से पहचान और सुधार कर सकती है
  4. कई बेंचमार्क परीक्षणों में उल्लेखनीय सुधार प्राप्त किए, 8B पैरामीटर मॉडल बड़े पैमाने के खुले स्रोत और बंद स्रोत मॉडलों को पार करता है

विधि विवरण

कार्य परिभाषा

उपकरण उपयोग कार्य में, LLM उपयोगकर्ता प्रश्न q और उम्मीदवार उपकरण सेट T = {t₀, t₁, ..., t|T|} प्राप्त करता है, लक्ष्य विशिष्ट उपकरण अनुक्रम को निष्पादित करके उपयोगकर्ता के इरादे को पूरा करना है। निर्णय प्रक्रिया को y ~ π(y | s₀, q, T) के रूप में वर्णित किया जा सकता है, जहां π(·) नीति मॉडल को दर्शाता है, s₀ प्रारंभिक कार्य स्थिति को दर्शाता है, y मॉडल द्वारा लिए गए कार्य को दर्शाता है।

मॉडल आर्किटेक्चर

1. क्रमिक वार्मअप प्रशिक्षण (Warm-up Training)

आसान से कठिन तक पाठ्यक्रम सीखने की रणनीति अपनाई गई है:

डेटा स्तरीकरण मानदंड:

  • सरल: उपकरण संख्या ≤1, उपकरण सेट स्ट्रिंग लंबाई <1000, आवश्यक उपकरण कॉल संख्या ≤1
  • मध्यम: 1<उपकरण संख्या<4, स्ट्रिंग लंबाई <2000, उपकरण कॉल संख्या <4
  • कठिन: उपकरण संख्या ≥4, स्ट्रिंग लंबाई >2000, उपकरण कॉल संख्या ≥4

प्रशिक्षण हानि:

L_warm-up = Σ(i=1 to 3) L_i
जहां L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. MCTS-आधारित पुनरावृत्ति सुदृढ़ शिक्षण

जटिल डेटा नमूनाकरण: जनरेशन भ्रम का उपयोग करके नमूना जटिलता को मापा जाता है:

h = ⁿ√(1/P_M(y | q, T))

प्रत्येक पुनरावृत्ति में सर्वोच्च भ्रम वाले 10% डेटा को बाद की प्रक्रिया के लिए चुना जाता है।

MCTS चरण-स्तरीय वरीयता जनरेशन:

  • चयन चरण: अन्वेषण और दोहन को संतुलित करने के लिए PUCT एल्गोरिदम का उपयोग किया जाता है
    s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
    
  • विस्तार चरण: लीफ नोड पर नए नोड को एकीकृत करें और पुरस्कार का मूल्यांकन करें
    R(s_t) = O(s_t) + C(s_t)
    
  • बैकट्रैकिंग चरण: नीचे से ऊपर तक विज़िट गणना और स्थिति मान को अपडेट करें

पुनरावृत्ति वरीयता अनुकूलन: SimPO एल्गोरिदम का उपयोग करके वरीयता अनुकूलन किया जाता है:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

तकनीकी नवाचार बिंदु

  1. खंड-स्तरीय त्रुटि पहचान: MCTS के माध्यम से सूक्ष्म-दानेदार वरीयता जोड़े उत्पन्न करके, प्रतिक्रियाओं में त्रुटि खंडों को सटीक रूप से स्थानीयकृत किया जा सकता है
  2. गतिशील जटिलता अंशांकन: जनरेशन भ्रम के आधार पर गतिशील रूप से जटिल नमूनों का चयन करें, प्रशिक्षण दक्षता में सुधार करें
  3. पुनरावृत्ति अनुकूलन रणनीति: पाठ्यक्रम सीखने और सुदृढ़ शिक्षण को जोड़ते हुए, जटिल परिदृश्यों में मॉडल के प्रदर्शन को क्रमिक रूप से सुधारें

प्रयोगात्मक सेटअप

डेटासेट

  • प्रशिक्षण डेटा: ToolACE डेटासेट, जिसमें 100K नमूनों का सामान्य उपकरण उपयोग डेटा शामिल है
  • मूल्यांकन डेटासेट:
    • Berkeley Function-Calling Leaderboard (BFCL): 4K+ उदाहरण, जिसमें Non-live (सरल), Live (जटिल), Multi-turn (बहु-मोड़) और Hallucination (भ्रम पहचान) शामिल हैं
    • API-Bank: 314 उपकरण उपयोग संवाद, 753 API कॉल

मूल्यांकन मेट्रिक्स

  • सटीकता: विभिन्न उप-कार्यों पर सटीकता प्रदर्शन
  • समग्र प्रदर्शन: कई आयामों पर भारित औसत स्कोर

तुलना विधियां

  • बंद स्रोत मॉडल: GPT-4 श्रृंखला, Gemini श्रृंखला, o1-mini आदि
  • खुले स्रोत आधार मॉडल: LLaMA-3.1 श्रृंखला, Qwen2.5 श्रृंखला आदि
  • सूक्ष्म-ट्यून किए गए मॉडल: ToolACE-8B, xLAM श्रृंखला, Hammer श्रृंखला आदि

कार्यान्वयन विवरण

  • आधार मॉडल: LLaMA3.1-8B-Instruct
  • प्रशिक्षण रणनीति: वार्मअप चरण में LoRA का उपयोग, सुदृढ़ शिक्षण चरण में QLoRA का उपयोग
  • हार्डवेयर कॉन्फ़िगरेशन: 8×32GB V100 GPU, कुल प्रशिक्षण समय 28 घंटे

प्रयोगात्मक परिणाम

मुख्य परिणाम

BFCL बेंचमार्क परीक्षण परिणाम:

  • iTool-8B समग्र सटीकता में 63.26% तक पहुंचता है, पहले स्थान पर है
  • Live (जटिल परिदृश्य) में 78.29% तक पहुंचता है, GPT-4o-2024-08-06 के 75.43% से अधिक है
  • Multi-turn कार्य में 23.84% तक पहुंचता है, अन्य समान आकार के मॉडलों से काफी बेहतर है

API-Bank परिणाम:

  • L1 कार्य: 78.89% (vs ToolACE-8B का 75.94%)
  • L2 कार्य: 52.87% (vs ToolACE-8B का 47.41%)

विलोपन प्रयोग

मॉड्यूल योगदान विश्लेषण:

घटकNon-liveLiveMulti-turn
आधार मॉडल81.1557.9311.38
+ SFT+7.8+17.0+6.0
+ वार्मअप+7.2+17.9+8.3
+ IRL (iTool)+9.5+21.2+12.5

मुख्य निष्कर्ष:

  • वार्मअप प्रशिक्षण और पुनरावृत्ति सुदृढ़ शिक्षण क्रमशः 2.3 और 4.2 अंकों का योगदान देते हैं
  • जटिल परिदृश्यों (Live और Multi-turn) में सुधार सबसे अधिक महत्वपूर्ण है

प्रशिक्षण लाभ विश्लेषण

पारंपरिक SFT की तुलना में, iTool डेटा आकार बढ़ने पर बेहतर लाभ वक्र दिखाता है:

  • SFT विधि 30% डेटा के बाद लाभ में समतल हो जाती है
  • iTool Live मेट्रिक पर अधिक तीव्र सुधार वक्र बनाए रखता है

सामान्यीकरण सत्यापन

विभिन्न डेटासेट और मॉडल आर्किटेक्चर पर प्रदर्शन:

  • सिंथेटिक डेटासेट (ToolACE, xLAM): +4.42 से +6.49 का सुधार
  • गैर-सिंथेटिक डेटासेट (BFCL-half): +2.17 से +3.65 का सुधार
  • 3B से 8B तक विभिन्न आकार के मॉडलों पर सुसंगत सुधार दिखाता है

संबंधित कार्य

उपकरण उपयोग अनुसंधान

  • प्रारंभिक कार्य: Toolformer, ToolAlpaca आदि ने LLMs की उपकरण उपयोग क्षमता की खोज की
  • बिना ट्यूनिंग विधि: प्रॉम्प्ट इंजीनियरिंग (ReAct, RestGPT) के माध्यम से अंतर्निहित क्षमता को अनलॉक करें
  • ट्यूनिंग-आधारित विधि: ToolLLaMA ने उपकरण सेट का विस्तार किया और डेटा आकार के प्रभाव का अध्ययन किया

सुदृढ़ शिक्षण विधि

  • पारंपरिक विधि: PPO आदि ऑनलाइन सुदृढ़ शिक्षण एल्गोरिदम जटिल और अनुकूलन में कठिन हैं
  • प्रत्यक्ष वरीयता अनुकूलन: DPO और इसके वेरिएंट (SimPO, IPO, ORPO) सरल ऑफलाइन एल्गोरिदम प्रदान करते हैं
  • पुनरावृत्ति प्रशिक्षण: संदर्भ मॉडल को लगातार अपडेट करके और नई वरीयता जोड़े उत्पन्न करके प्रदर्शन में सुधार करें

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सिंथेटिक उपकरण उपयोग डेटा प्रशिक्षण में मुख्य समस्या की पहचान की: प्रशिक्षण लाभ में कमी मुख्य रूप से पैरामीटर-संबंधित खंडित त्रुटियों के कारण होती है
  2. प्रभावी समाधान प्रस्तावित किया: MCTS के माध्यम से डेटा विविधता बढ़ाएं और पुनरावृत्ति सुदृढ़ शिक्षण के माध्यम से त्रुटि खंडों को सुधारें
  3. उल्लेखनीय प्रदर्शन सुधार प्राप्त किए: 8B पैरामीटर मॉडल कई बेंचमार्कों पर बड़े पैमाने के मॉडलों को पार करता है

सीमाएं

  1. कंप्यूटिंग संसाधन आवश्यकता: MCTS प्रक्रिया को बड़ी मात्रा में कंप्यूटिंग संसाधन की आवश्यकता है (प्रत्येक पुनरावृत्ति के लिए 8 V100 GPU पर 7 घंटे चलना आवश्यक है)
  2. स्केल सीमा: संसाधन सीमाओं के कारण, 30B या 70B जैसे बड़े मॉडलों पर सत्यापन नहीं किया गया है
  3. डेटासेट कवरेज: केवल एकल सिंथेटिक डेटासेट पर गहन विश्लेषण किया गया है

भविष्य की दिशाएं

  1. दक्षता अनुकूलन: अधिक कुशल वरीयता डेटा जनरेशन विधि विकसित करें
  2. स्केल विस्तार: बड़े पैमाने के मॉडलों पर विधि की प्रभावशीलता को सत्यापित करें
  3. डेटा विविधता: अधिक सार्वजनिक डेटासेट पर विधि की सामान्यीकरण क्षमता का परीक्षण करें

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान सटीक: विस्तृत त्रुटि प्रकार विश्लेषण के माध्यम से, प्रशिक्षण लाभ में कमी का मूल कारण सटीक रूप से पहचाना गया है
  2. विधि डिज़ाइन तर्कसंगत: पाठ्यक्रम सीखने और सुदृढ़ शिक्षण को जोड़ने की रणनीति मानव सीखने के नियमों के अनुरूप है
  3. प्रयोग व्यापक: व्यापक विलोपन प्रयोग, सामान्यीकरण सत्यापन और लागत-लाभ विश्लेषण शामिल हैं
  4. परिणाम महत्वपूर्ण: कई बेंचमार्कों पर महत्वपूर्ण और सुसंगत सुधार प्राप्त किए गए हैं

कमियां

  1. कंप्यूटिंग लागत अधिक: MCTS प्रक्रिया की कंप्यूटिंग ओवरहेड इसे व्यावहारिक अनुप्रयोगों में संभव बना सकता है
  2. सैद्धांतिक विश्लेषण अपर्याप्त: यह समझाने के लिए कि MCTS खंडित त्रुटि समस्या को हल करने में प्रभावी क्यों है, सैद्धांतिक व्याख्या की कमी है
  3. तुलना पूर्ण नहीं: प्रशिक्षण लाभ में कमी की समस्या को संभालने वाली अन्य विधियों के साथ तुलना कम है

प्रभाव

  1. शैक्षणिक योगदान: उपकरण उपयोग प्रशिक्षण में प्रशिक्षण लाभ में कमी की समस्या के लिए नया समाधान दृष्टिकोण प्रदान किया
  2. व्यावहारिक मूल्य: विधि कंप्यूटिंग व्यवहार्यता बनाए रखते हुए महत्वपूर्ण सुधार प्राप्त करती है
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुले स्रोत कोड प्रदान किए गए हैं

लागू परिदृश्य

  • जटिल उपकरण उपयोग परिदृश्य: विशेष रूप से बहु-उपकरण समन्वय और जटिल पैरामीटर तर्क की आवश्यकता वाले कार्यों के लिए उपयुक्त
  • सिंथेटिक डेटा प्रशिक्षण: सिंथेटिक डेटा का उपयोग करके मॉडल क्षमता में सुधार के लिए प्रभावी समाधान प्रदान करता है
  • पर्याप्त संसाधन वाले अनुसंधान वातावरण: MCTS प्रक्रिया का समर्थन करने के लिए कुछ कंप्यूटिंग संसाधनों की आवश्यकता है

संदर्भ

पेपर उपकरण उपयोग, सुदृढ़ शिक्षण और वरीयता अनुकूलन आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • Toolformer (Schick et al., 2023)
  • DPO (Rafailov et al., 2024)
  • SimPO (Meng et al., 2024)
  • ToolLLaMA (Qin et al., 2023)
  • MCTS संबंधित कार्य (Coulom, 2006; Grill et al., 2020)

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अनुसंधान पत्र है जो उपकरण उपयोग प्रशिक्षण में मुख्य समस्या की सटीक पहचान करता है, एक नवीन और प्रभावी समाधान प्रस्तावित करता है, और व्यापक प्रयोगों के माध्यम से विधि की प्रभावशीलता को सत्यापित करता है। यद्यपि उच्च कंप्यूटिंग लागत की सीमा है, लेकिन इसका शैक्षणिक योगदान और व्यावहारिक मूल्य दोनों बहुत महत्वपूर्ण हैं।