2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool: উন্নত সরঞ্জাম ব্যবহারের জন্য গতিশীল ত্রুটি ক্যালিব্রেশন সহ শক্তিশালী সূক্ষ্ম-সুর

মৌলিক তথ্য

গবেষণাপত্র ID: 2501.09766
শিরোনাম: iTool: উন্নত সরঞ্জাম ব্যবহারের জন্য গতিশীল ত্রুটি ক্যালিব্রেশন সহ শক্তিশালী সূক্ষ্ম-সুর
লেখক: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
প্রতিষ্ঠান: হারবিন ইন্ডাস্ট্রিয়াল ইউনিভার্সিটি সোশ্যাল কম্পিউটিং এবং তথ্য পুনরুদ্ধার গবেষণা কেন্দ্র, হুয়াওয়ে প্রযুক্তি সীমিত, শাংহাই জিয়াও টং বিশ্ববিদ্যালয়, চীন বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়
শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
প্রকাশনার সময়: জানুয়ারি ২০২৫ (arXiv প্রাক-প্রিন্ট)
গবেষণাপত্র লিঙ্ক: https://arxiv.org/abs/2501.09766

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLM) এবং বাহ্যিক সরঞ্জামের একীকরণ তাদের ক্ষমতা বৃদ্ধির একটি কার্যকর পদ্ধতি, বিশেষত জটিল কাজে। বাস্তব-বিশ্ব সিমুলেশনের মাধ্যমে সিন্থেটিক সরঞ্জাম ব্যবহারের ডেটা তৈরি করা এই লক্ষ্য অর্জনের একটি কার্যকর উপায়। তবে গবেষণায় দেখা গেছে যে সিন্থেটিক ডেটা বৃদ্ধির সাথে সাথে প্রশিক্ষণ লাভ উল্লেখযোগ্যভাবে হ্রাস পায়। মডেল অতিরিক্ত সিন্থেটিক ডেটা থেকে উপকৃত হতে পারে না এবং জটিল পরিস্থিতিতে উন্নত সরঞ্জাম ব্যবহারের ক্ষমতা অর্জন করতে পারে না। লেখকরা আবিষ্কার করেছেন যে এই সীমাবদ্ধতা সাধারণত প্রতিক্রিয়ায় খণ্ড ত্রুটি (অর্থাৎ প্যারামিটার ত্রুটি) হিসাবে প্রকাশ পায়। এই সমস্যা সমাধানের জন্য, একটি পুনরাবৃত্তিমূলক শক্তিশালী সূক্ষ্ম-সুর কৌশল প্রস্তাব করা হয়েছে যার মধ্যে রয়েছে: (1) মন্টে কার্লো ট্রি সার্চের মাধ্যমে পথ অন্বেষণ সিন্থেটিক ডেটা প্রতিক্রিয়ার বৈচিত্র্য বৃদ্ধি করা; (2) সূক্ষ্ম-দানাদার পছন্দের জোড়া তৈরির মাধ্যমে পুনরাবৃত্তিমূলকভাবে মডেল ত্রুটি সনাক্ত করা এবং পছন্দ অপ্টিমাইজেশন অ্যালগরিদমের মাধ্যমে লক্ষ্যবস্তু উন্নতি করা। পরীক্ষায় দেখা যায় যে এই পদ্ধতি একই আকারের ভিত্তি মডেলের তুলনায় ১৩.১১% কর্মক্ষমতা উন্নতি করে, জটিল পরিস্থিতিতে ভিত্তিরেখার তুলনায় ৬.৫% উন্নতি করে এবং বৃহত্তর আকারের ওপেন-সোর্স এবং ক্লোজড-সোর্স মডেলকে ছাড়িয়ে যায়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

মূল সমস্যা: বিদ্যমান সরঞ্জাম ব্যবহার প্রশিক্ষণ পদ্ধতিতে সিন্থেটিক ডেটা পরিচালনায় প্রশিক্ষণ লাভ হ্রাসের সমস্যা রয়েছে, মডেল বর্ধিত সিন্থেটিক ডেটা থেকে কার্যকরভাবে শিখতে পারে না
গুরুত্ব: সরঞ্জাম ব্যবহারের ক্ষমতা বাস্তব প্রয়োগে LLM-এর একটি মূল ক্ষমতা, যা তথ্য পুনরুদ্ধার, নির্ভুল গণনা, হ্যালুসিনেশন হ্রাস ইত্যাদি গুরুত্বপূর্ণ কার্যকারিতা জড়িত
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- ঐতিহ্যবাহী তত্ত্বাবধানকৃত সূক্ষ্ম-সুর (SFT) জটিল সরঞ্জাম ব্যবহারের পরিস্থিতিতে দুর্বল কর্মক্ষমতা প্রদর্শন করে
- সিন্থেটিক ডেটার স্কেল বৃদ্ধির সাথে সাথে কর্মক্ষমতা উন্নতির প্রান্তিক হ্রাস পায়
- মডেল প্যারামিটার নিষ্কাশন এবং যুক্তিতে সিস্টেমেটিক ত্রুটি রয়েছে

গবেষণা আবিষ্কার

প্রাথমিক গবেষণার মাধ্যমে আবিষ্কৃত:

BFCL মূল্যায়নে, ৫১% ত্রুটি প্যারামিটার মান ত্রুটি থেকে আসে, ২৬% প্যারামিটার নাম ত্রুটি থেকে আসে
ত্রুটিগুলি সাধারণত প্রতিক্রিয়ার একটি ছোট খণ্ডকে প্রভাবিত করে, যখন বেশিরভাগ বিষয়বস্তু প্রকৃত উত্তরের সাথে সামঞ্জস্যপূর্ণ
ঐতিহ্যবাহী SFT পদ্ধতি ৩০% ডেটা ব্যবহারের পরে কর্মক্ষমতা উন্নতি উল্লেখযোগ্যভাবে হ্রাস পায়

মূল অবদান

সিন্থেটিক সরঞ্জাম ব্যবহারের ডেটা প্রশিক্ষণে প্রশিক্ষণ লাভ হ্রাসের সমস্যা চিহ্নিত এবং বিশ্লেষণ করা, ত্রুটিগুলি প্রধানত প্যারামিটার-সম্পর্কিত খণ্ড ত্রুটিতে কেন্দ্রীভূত তা আবিষ্কার করা
iTool ফ্রেমওয়ার্ক প্রস্তাব করা, যার মধ্যে ক্রমবর্ধমান ওয়ার্ম-আপ প্রশিক্ষণ এবং পুনরাবৃত্তিমূলক শক্তিশালী শিক্ষার দুটি মূল উপাদান রয়েছে
MCTS-ভিত্তিক সূক্ষ্ম-দানাদার পছন্দ ডেটা উৎপাদন পদ্ধতি ডিজাইন করা, যা প্রতিক্রিয়ায় ত্রুটি খণ্ড কার্যকরভাবে সনাক্ত এবং সংশোধন করতে পারে
একাধিক বেঞ্চমার্ক পরীক্ষায় উল্লেখযোগ্য উন্নতি অর্জন করা, ৮B প্যারামিটার মডেল বৃহত্তর আকারের ওপেন-সোর্স এবং ক্লোজড-সোর্স মডেলকে অতিক্রম করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সরঞ্জাম ব্যবহারের কাজে, LLM ব্যবহারকারীর প্রশ্ন q এবং প্রার্থী সরঞ্জাম সেট T = {t₀, t₁, ..., t|T|} গ্রহণ করে, লক্ষ্য হল নির্দিষ্ট সরঞ্জাম ক্রম সম্পাদনের মাধ্যমে ব্যবহারকারীর অভিপ্রায় পূরণ করা। সিদ্ধান্ত প্রক্রিয়া y ~ π(y | s₀, q, T) হিসাবে বর্ণনা করা যায়, যেখানে π(·) নীতি মডেল নির্দেশ করে, s₀ প্রাথমিক কাজের অবস্থা নির্দেশ করে এবং y মডেল দ্বারা গৃহীত পদক্ষেপ নির্দেশ করে।

মডেল আর্কিটেকচার

1. ক্রমবর্ধমান ওয়ার্ম-আপ প্রশিক্ষণ (Warm-up Training)

সহজ থেকে কঠিন পর্যন্ত পাঠ্যক্রম শিক্ষা কৌশল গ্রহণ করা:

ডেটা স্তরীকরণ মান:

সহজ: সরঞ্জাম সংখ্যা ≤1, সরঞ্জাম সেট স্ট্রিং দৈর্ঘ্য <1000, প্রয়োজনীয় সরঞ্জাম কল সংখ্যা ≤1
মধ্যম: 1<সরঞ্জাম সংখ্যা<4, স্ট্রিং দৈর্ঘ্য <2000, সরঞ্জাম কল সংখ্যা <4
কঠিন: সরঞ্জাম সংখ্যা ≥4, স্ট্রিং দৈর্ঘ্য >2000, সরঞ্জাম কল সংখ্যা ≥4

প্রশিক্ষণ ক্ষতি:

L_warm-up = Σ(i=1 to 3) L_i
যেখানে L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. MCTS-ভিত্তিক পুনরাবৃত্তিমূলক শক্তিশালী শিক্ষা

জটিল ডেটা নমুনা: উৎপাদন বিভ্রান্তি ব্যবহার করে নমুনা জটিলতা পরিমাপ করা:

h = ⁿ√(1/P_M(y | q, T))

প্রতিটি পুনরাবৃত্তিতে সর্বোচ্চ বিভ্রান্তির শীর্ষ ১০% ডেটা নির্বাচন করা হয় পরবর্তী প্রক্রিয়াকরণের জন্য।

MCTS ধাপ-স্তরের পছন্দ উৎপাদন:

নির্বাচন পর্যায়: PUCT অ্যালগরিদম ব্যবহার করে অন্বেষণ এবং শোষণের ভারসাম্য রক্ষা করা
```
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
```
সম্প্রসারণ পর্যায়: লিফ নোডে নতুন নোড একীভূত করা এবং পুরস্কার মূল্যায়ন করা
```
R(s_t) = O(s_t) + C(s_t)
```
ব্যাকট্র্যাকিং পর্যায়: নিচ থেকে উপরে পরিদর্শন গণনা এবং অবস্থা মূল্য আপডেট করা

পুনরাবৃত্তিমূলক পছন্দ অপ্টিমাইজেশন: SimPO অ্যালগরিদম ব্যবহার করে পছন্দ অপ্টিমাইজেশন করা:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

প্রযুক্তিগত উদ্ভাবন বিন্দু

খণ্ড-স্তরের ত্রুটি সনাক্তকরণ: MCTS এর মাধ্যমে সূক্ষ্ম-দানাদার পছন্দের জোড়া উৎপাদন করে, প্রতিক্রিয়ায় ত্রুটি খণ্ড নির্ভুলভাবে সনাক্ত করতে পারে
গতিশীল জটিলতা ক্যালিব্রেশন: উৎপাদন বিভ্রান্তির উপর ভিত্তি করে গতিশীলভাবে জটিল নমুনা নির্বাচন করা, প্রশিক্ষণ দক্ষতা উন্নত করা
পুনরাবৃত্তিমূলক অপ্টিমাইজেশন কৌশল: পাঠ্যক্রম শিক্ষা এবং শক্তিশালী শিক্ষা একত্রিত করে, ক্রমান্বয়ে জটিল পরিস্থিতিতে মডেলের কর্মক্ষমতা উন্নত করা

পরীক্ষা সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটা: ToolACE ডেটাসেট, যার মধ্যে ১০০K নমুনার সাধারণ সরঞ্জাম ব্যবহারের ডেটা রয়েছে
মূল্যায়ন ডেটাসেট:
- Berkeley Function-Calling Leaderboard (BFCL): ৪K+ উদাহরণ, Non-live (সহজ), Live (জটিল), Multi-turn (বহু-পালা) এবং Hallucination (হ্যালুসিনেশন সনাক্তকরণ) অন্তর্ভুক্ত
- API-Bank: ৩১৪টি সরঞ্জাম ব্যবহারের কথোপকথন, ৭৫৩টি API কল

মূল্যায়ন মেট্রিক্স

নির্ভুলতা: বিভিন্ন উপকাজে নির্ভুলতার কর্মক্ষমতা
সামগ্রিক কর্মক্ষমতা: একাধিক মাত্রার ওজনযুক্ত গড় স্কোর

তুলনা পদ্ধতি

ক্লোজড-সোর্স মডেল: GPT-4 সিরিজ, Gemini সিরিজ, o1-mini ইত্যাদি
ওপেন-সোর্স ভিত্তি মডেল: LLaMA-3.1 সিরিজ, Qwen2.5 সিরিজ ইত্যাদি
সূক্ষ্ম-সুর মডেল: ToolACE-8B, xLAM সিরিজ, Hammer সিরিজ ইত্যাদি

বাস্তবায়ন বিবরণ

ভিত্তি মডেল: LLaMA3.1-8B-Instruct
প্রশিক্ষণ কৌশল: ওয়ার্ম-আপ পর্যায়ে LoRA, শক্তিশালী শিক্ষা পর্যায়ে QLoRA ব্যবহার করা
হার্ডওয়্যার কনফিগারেশন: 8×32GB V100 GPU, মোট প্রশিক্ষণ সময় ২৮ ঘন্টা

পরীক্ষার ফলাফল

প্রধান ফলাফল

BFCL বেঞ্চমার্ক পরীক্ষার ফলাফল:

iTool-8B সামগ্রিক নির্ভুলতায় ৬৩.২৬% অর্জন করে, প্রথম স্থান অধিকার করে
Live (জটিল পরিস্থিতি) তে ৭৮.২৯% অর্জন করে, GPT-4o-2024-08-06 এর ৭৫.৪৩% অতিক্রম করে
Multi-turn কাজে ২৩.৮৪% অর্জন করে, অন্যান্য একই আকারের মডেলকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়

API-Bank ফলাফল:

L1 কাজ: ৭৮.৮৯% (vs ToolACE-8B এর ৭৫.৯৪%)
L2 কাজ: ৫২.৮৭% (vs ToolACE-8B এর ৪৭.৪১%)

বিলোপন পরীক্ষা

উপাদান অবদান বিশ্লেষণ:

উপাদান	Non-live	Live	Multi-turn
ভিত্তি মডেল	৮১.১৫	৫৭.৯৩	১১.৩৮
+ SFT	+৭.৮	+১৭.০	+৬.০
+ ওয়ার্ম-আপ	+৭.२	+१७.९	+८.३
+ IRL (iTool)	+९.५	+२१.२	+१२.५

মূল আবিষ্কার:

ওয়ার্ম-আপ প্রশিক্ষণ এবং পুনরাবৃত্তিমূলক শক্তিশালী শিক্ষা যথাক্রমে ২.३ এবং ४.२ পয়েন্ট উন্নতিতে অবদান রাখে
জটিল পরিস্থিতিতে (Live এবং Multi-turn) উন্নতি সবচেয়ে উল্লেখযোগ্য

প্রশিক্ষণ লাভ বিশ্লেষণ

ঐতিহ্যবাহী SFT এর তুলনায়, iTool ডেটা স্কেল বৃদ্ধির সাথে সাথে আরও ভাল লাভ বক্ররেখা প্রদর্শন করে:

SFT পদ্ধতি ৩০% ডেটার পরে লাভ সমতল হয়ে যায়
iTool Live মেট্রিকে আরও খাড়া উন্নতি বক্ররেখা বজায় রাখে

সাধারণীকরণ যাচাইকরণ

বিভিন্ন ডেটাসেট এবং মডেল আর্কিটেকচারে কর্মক্ষমতা:

সিন্থেটিক ডেটাসেট (ToolACE, xLAM): +४.४२ থেকে +६.४९ এর উন্নতি
অ-সিন্থেটিক ডেটাসেট (BFCL-half): +२.१७ থেকে +३.६५ এর উন্নতি
३B থেকে ८B বিভিন্ন আকারের মডেলে সামঞ্জস্যপূর্ণ উন্নতি প্রদর্শন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

সিন্থেটিক সরঞ্জাম ব্যবহারের ডেটা প্রশিক্ষণে মূল সমস্যা চিহ্নিত করা: প্রশিক্ষণ লাভ হ্রাস প্রধানত প্যারামিটার-সম্পর্কিত খণ্ড ত্রুটি দ্বারা সৃষ্ট
কার্যকর সমাধান প্রস্তাব করা: MCTS এর মাধ্যমে ডেটা বৈচিত্র্য বৃদ্ধি এবং পুনরাবৃত্তিমূলক শক্তিশালী শিক্ষার মাধ্যমে ত্রুটি খণ্ড সংশোধন করা
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করা: ৮B প্যারামিটার মডেল একাধিক বেঞ্চমার্কে বৃহত্তর আকারের মডেলকে অতিক্রম করে

সীমাবদ্ধতা

কম্পিউটেশনাল সম্পদের প্রয়োজন: MCTS প্রক্রিয়া বিশাল কম্পিউটেশনাল সম্পদ প্রয়োজন করে (প্রতিটি পুনরাবৃত্তিতে ৮টি V100 GPU ৭ ঘন্টা চালানো প্রয়োজন)
স্কেল সীমাবদ্ধতা: সম্পদ সীমাবদ্ধতার কারণে, ৩০B বা ৭০B এর মতো বৃহত্তর মডেলে যাচাইকরণ করা হয়নি
ডেটাসেট কভারেজ: একক সিন্থেটিক ডেটাসেটে গভীর বিশ্লেষণ করা হয়েছে

ভবিষ্যত দিকনির্দেশনা

দক্ষতা অপ্টিমাইজেশন: আরও দক্ষ পছন্দ ডেটা উৎপাদন পদ্ধতি বিকাশ করা
স্কেল সম্প্রসারণ: বৃহত্তর আকারের মডেলে পদ্ধতির কার্যকারিতা যাচাই করা
ডেটা বৈচিত্র্য: আরও জনপ্রিয় ডেটাসেটে পদ্ধতির সাধারণীকরণ ক্ষমতা পরীক্ষা করা

গভীর মূল্যায়ন

সুবিধা

সমস্যা সনাক্তকরণ নির্ভুল: বিস্তারিত ত্রুটি প্রকার বিশ্লেষণের মাধ্যমে, প্রশিক্ষণ লাভ হ্রাসের মূল কারণ নির্ভুলভাবে সনাক্ত করা
পদ্ধতি ডিজাইন যুক্তিসঙ্গত: পাঠ্যক্রম শিক্ষা এবং শক্তিশালী শিক্ষা একত্রিত করার কৌশল মানব শিক্ষা নিয়মের সাথে সামঞ্জস্যপূর্ণ
পরীক্ষা ব্যাপক: সম্পূর্ণ বিলোপন পরীক্ষা, সাধারণীকরণ যাচাইকরণ এবং খরচ-সুবিধা বিশ্লেষণ অন্তর্ভুক্ত
ফলাফল উল্লেখযোগ্য: একাধিক বেঞ্চমার্কে উল্লেখযোগ্য এবং সামঞ্জস্যপূর্ণ উন্নতি

অপূর্ণতা

কম্পিউটেশনাল খরচ উচ্চ: MCTS প্রক্রিয়ার কম্পিউটেশনাল ওভারহেড বাস্তব প্রয়োগে এর সম্ভাব্যতা সীমিত করতে পারে
তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: কেন MCTS খণ্ড ত্রুটি সমস্যা কার্যকরভাবে সমাধান করতে পারে তার তাত্ত্বিক ব্যাখ্যা অনুপস্থিত
তুলনা সম্পূর্ণ নয়: প্রশিক্ষণ লাভ হ্রাসের সমস্যা সমাধানের অন্যান্য পদ্ধতির সাথে তুলনা কম

প্রভাব

একাডেমিক অবদান: সরঞ্জাম ব্যবহার প্রশিক্ষণে প্রশিক্ষণ লাভ হ্রাসের সমস্যার জন্য নতুন সমাধান চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: পদ্ধতি কম্পিউটেশনাল সম্ভাব্যতা বজায় রেখে উল্লেখযোগ্য উন্নতি অর্জন করে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স কোড প্রদান করে

প্রযোজ্য পরিস্থিতি

জটিল সরঞ্জাম ব্যবহারের পরিস্থিতি: বিশেষত বহু-সরঞ্জাম সমন্বয় এবং জটিল প্যারামিটার যুক্তি প্রয়োজন এমন কাজের জন্য উপযুক্ত
সিন্থেটিক ডেটা প্রশিক্ষণ: সিন্থেটিক ডেটা ব্যবহার করে মডেল ক্ষমতা উন্নত করার জন্য কার্যকর সমাধান প্রদান করে
সম্পদ-সমৃদ্ধ গবেষণা পরিবেশ: MCTS প্রক্রিয়া সমর্থন করার জন্য নির্দিষ্ট কম্পিউটেশনাল সম্পদ প্রয়োজন

তথ্যসূত্র

গবেষণাপত্র সরঞ্জাম ব্যবহার, শক্তিশালী শিক্ষা এবং পছন্দ অপ্টিমাইজেশন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:

Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
MCTS সম্পর্কিত কাজ (Coulom, 2006; Grill et al., 2020)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণাপত্র যা সরঞ্জাম ব্যবহার প্রশিক্ষণে মূল সমস্যা নির্ভুলভাবে চিহ্নিত করে, উদ্ভাবনী এবং কার্যকর সমাধান প্রস্তাব করে এবং ব্যাপক পরীক্ষার মাধ্যমে পদ্ধতির কার্যকারিতা যাচাই করে। যদিও উচ্চ কম্পিউটেশনাল খরচের সীমাবদ্ধতা রয়েছে, তবে এর একাডেমিক অবদান এবং ব্যবহারিক মূল্য উভয়ই উল্লেখযোগ্য।