2025-11-11T13:34:09.510990

iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use

Zeng, Ding, Wang et al.

Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.

academic

iTool: الضبط الدقيق المعزز مع معايرة النقص الديناميكية للاستخدام المتقدم للأدوات

المعلومات الأساسية

معرّف الورقة: 2501.09766
العنوان: iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
المؤلفون: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Duyu Tang, Dandan Tu, Bing Qin, Ting Liu
المؤسسات: مركز الحوسبة الاجتماعية واسترجاع المعلومات بجامعة هاربين للتكنولوجيا، شركة هواوي للتكنولوجيا، جامعة شنغهاي جياو تونغ، جامعة العلوم والتكنولوجيا بالصين
التصنيف: cs.CL cs.AI cs.LG
تاريخ النشر: يناير 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2501.09766

الملخص

يعتبر دمج نماذج اللغة الكبيرة (LLMs) مع الأدوات الخارجية طريقة فعّالة لتعزيز قدراتها، خاصة في المهام المعقدة. يُعتبر إنشاء بيانات استخدام الأدوات الاصطناعية من خلال محاكاة العالم الحقيقي نهجاً فعّالاً لتحقيق هذا الهدف. ومع ذلك، وجدت الدراسات أن مكاسب التدريب تتناقص بشكل ملحوظ مع زيادة البيانات الاصطناعية. يواجه النموذج صعوبة في الاستفادة من البيانات الاصطناعية الإضافية وعدم القدرة على اكتساب قدرات استخدام أدوات متقدمة في السيناريوهات المعقدة. اكتشف المؤلفون أن هذا القيد يتجلى عادة كعيوب جزئية في الاستجابات (أي أخطاء في المعاملات). لمعالجة هذا، اقترحوا استراتيجية ضبط دقيق معزز تكراري تتضمن: (1) تعزيز تنوع استجابات البيانات الاصطناعية من خلال استكشاف المسارات باستخدام بحث شجرة مونت كارلو؛ (2) تحديد عيوب النموذج بشكل متكرر من خلال بناء أزواج تفضيل دقيقة الحبيبات وتحسينها بشكل موجه من خلال خوارزميات تحسين التفضيل. تُظهر التجارب تحسناً بنسبة 13.11% مقارنة بنماذج أساسية بنفس الحجم، وتحسناً بنسبة 6.5% في السيناريوهات المعقدة مقارنة بالخطوط الأساسية، وتتفوق على نماذج مفتوحة المصدر والمملوكة الأكبر حجماً.

خلفية البحث والدافع

تعريف المشكلة

المشكلة الأساسية: تعاني طرق التدريب الحالية لاستخدام الأدوات من مشكلة تناقص مكاسب التدريب عند التعامل مع البيانات الاصطناعية، حيث لا يستطيع النموذج التعلم بفعالية من البيانات الاصطناعية المتزايدة
الأهمية: تُعتبر قدرة استخدام الأدوات قدرة حاسمة لنماذج اللغة الكبيرة في التطبيقات العملية، وتشمل استرجاع المعلومات والحسابات الدقيقة وتقليل الهلوسة وغيرها من الوظائف المهمة
قيود الطرق الموجودة:
- يُظهر الضبط الدقيق الخاضع للإشراف (SFT) التقليدي أداءً ضعيفاً في سيناريوهات استخدام الأدوات المعقدة
- يتناقص تحسن الأداء بشكل هامشي مع زيادة حجم البيانات الاصطناعية
- يعاني النموذج من عيوب منهجية في استخراج المعاملات والاستدلال

النتائج البحثية

من خلال الدراسة الأولية، تم اكتشاف:

في تقييم BFCL، تأتي 51% من الأخطاء من أخطاء قيم المعاملات، و26% من أخطاء أسماء المعاملات
تؤثر الأخطاء عادة على جزء صغير من الاستجابة فقط، بينما يتطابق معظم المحتوى مع الإجابة الفعلية
يتباطأ تحسن الأداء بشكل ملحوظ باستخدام طريقة SFT التقليدية بعد استخدام 30% من البيانات

المساهمات الأساسية

تحديد وتحليل مشكلة تناقص المكاسب في التدريب على بيانات استخدام الأدوات الاصطناعية، مع اكتشاف أن الأخطاء تتركز بشكل أساسي على عيوب جزئية متعلقة بالمعاملات
اقتراح إطار عمل iTool يتضمن مكونين أساسيين: التدريب التدريجي والتعلم المعزز التكراري
تصميم طريقة توليد بيانات التفضيل دقيقة الحبيبات بناءً على MCTS، والتي يمكنها تحديد وتصحيح أجزاء الأخطاء في الاستجابات بفعالية
تحقيق تحسينات ملحوظة في معايير متعددة، حيث يتفوق نموذج 8B المعاملات على نماذج مفتوحة المصدر والمملوكة الأكبر حجماً

شرح التفاصيل

تعريف المهمة

في مهمة استخدام الأدوات، يتلقى نموذج اللغة الكبيرة استعلام المستخدم q ومجموعة الأدوات المرشحة T = {t₀, t₁, ..., t|T|}، والهدف هو تلبية نية المستخدم من خلال تنفيذ سلسلة محددة من الأدوات. يمكن وصف عملية اتخاذ القرار بـ y ~ π(y | s₀, q, T)، حيث تمثل π(·) نموذج السياسة، و s₀ تمثل حالة المهمة الأولية، و y تمثل الإجراء الذي يتخذه النموذج.

معمارية النموذج

1. التدريب التدريجي (Warm-up Training)

يعتمد على استراتيجية التعلم المنهجي من السهل إلى الصعب:

معايير تصنيف البيانات:

بسيط: عدد الأدوات ≤1، طول سلسلة مجموعة الأدوات <1000، عدد استدعاءات الأدوات المطلوبة ≤1
متوسط: 1<عدد الأدوات<4، طول السلسلة <2000، عدد الاستدعاءات <4
صعب: عدد الأدوات ≥4، طول السلسلة >2000، عدد الاستدعاءات ≥4

دالة خسارة التدريب:

L_warm-up = Σ(i=1 to 3) L_i
حيث L_i = -E_(q,y)~D_i [log P_M(y | q, T)]

2. التعلم المعزز التكراري القائم على MCTS

أخذ عينات البيانات المعقدة: استخدام درجة الارتباك المولدة لقياس تعقيد العينة:

h = ⁿ√(1/P_M(y | q, T))

يتم اختيار أعلى 10% من البيانات ذات درجة الارتباك في كل تكرار للمعالجة اللاحقة.

توليد التفضيل على مستوى الخطوات من MCTS:

مرحلة الاختيار: استخدام خوارزمية PUCT لموازنة الاستكشاف والاستغلال
```
s_{t+1} = argmax_a [Q(s_t, a) + c·p(a|s_t)√(N(s_t))/(1+N(n(s_t,a)))]
```
مرحلة التوسع: دمج عقدة جديدة في ورقة الشجرة وتقييم المكافأة
```
R(s_t) = O(s_t) + C(s_t)
```
مرحلة الرجوع: تحديث عدد الزيارات وقيم الحالة من الأسفل إلى الأعلى

تحسين التفضيل التكراري: استخدام خوارزمية SimPO لتحسين التفضيل:

ℓ_i(π_θ) = -E_{(x,y^w,y^l)~D_i} [log σ(h^{y^w}_{π_θ} - h^{y^l}_{π_θ} - γ)]

نقاط الابتكار التقني

تحديد الأخطاء على مستوى الأجزاء: من خلال توليد أزواج تفضيل دقيقة الحبيبات باستخدام MCTS، يمكن تحديد موقع أجزاء الأخطاء في الاستجابات بدقة
معايرة التعقيد الديناميكي: اختيار العينات المعقدة بشكل ديناميكي بناءً على درجة الارتباك المولدة، مما يحسن كفاءة التدريب
استراتيجية التحسين التكراري: دمج التعلم المنهجي والتعلم المعزز لتحسين أداء النموذج تدريجياً في السيناريوهات المعقدة

إعداد التجارب

مجموعات البيانات

بيانات التدريب: مجموعة بيانات ToolACE، تحتوي على 100K عينة من بيانات استخدام الأدوات العامة
مجموعات بيانات التقييم:
- Berkeley Function-Calling Leaderboard (BFCL): 4K+ مثيل، يتضمن Non-live (بسيط)، Live (معقد)، Multi-turn (متعدد الأدوار)، و Hallucination (كشف الهلوسة)
- API-Bank: 314 محادثة استخدام أدوات، 753 استدعاء API

مقاييس التقييم

الدقة: أداء الدقة في مختلف المهام الفرعية
الأداء الشامل: متوسط مرجح شامل عبر أبعاد متعددة

طرق المقارنة

نماذج مملوكة: سلسلة GPT-4، سلسلة Gemini، o1-mini وغيرها
نماذج أساسية مفتوحة المصدر: سلسلة LLaMA-3.1، سلسلة Qwen2.5 وغيرها
نماذج مضبوطة: ToolACE-8B، سلسلة xLAM، سلسلة Hammer وغيرها

تفاصيل التنفيذ

النموذج الأساسي: LLaMA3.1-8B-Instruct
استراتيجية التدريب: استخدام LoRA في مرحلة الإحماء، و QLoRA في مرحلة التعلم المعزز
إعدادات الأجهزة: 8×32GB V100 GPU، إجمالي وقت التدريب 28 ساعة

نتائج التجارب

النتائج الرئيسية

نتائج معيار BFCL:

حقق iTool-8B دقة شاملة بنسبة 63.26%، محتلاً المرتبة الأولى
حقق 78.29% في Live (السيناريوهات المعقدة)، متفوقاً على GPT-4o-2024-08-06 بنسبة 75.43%
حقق 23.84% في مهام Multi-turn، متفوقاً بشكل ملحوظ على نماذج أخرى بنفس الحجم

نتائج API-Bank:

مهمة L1: 78.89% (مقابل 75.94% لـ ToolACE-8B)
مهمة L2: 52.87% (مقابل 47.41% لـ ToolACE-8B)

التجارب الاستئصالية

تحليل مساهمة المكونات:

المكون	Non-live	Live	Multi-turn
النموذج الأساسي	81.15	57.93	11.38
+ SFT	+7.8	+17.0	+6.0
+ Warm-up	+7.2	+17.9	+8.3
+ IRL (iTool)	+9.5	+21.2	+12.5

النتائج الرئيسية:

يساهم التدريب التدريجي والتعلم المعزز التكراري بمقدار 2.3 و 4.2 نقطة على التوالي
يكون التحسن أكثر وضوحاً في السيناريوهات المعقدة (Live و Multi-turn)

تحليل مكاسب التدريب

مقارنة بطريقة SFT التقليدية، يُظهر iTool منحنى مكاسب أفضل مع زيادة حجم البيانات:

تتباطأ طريقة SFT بعد 30% من البيانات
يحافظ iTool على منحنى ارتفاع أكثر انحداراً في مقياس Live

التحقق من القابلية للتعميم

الأداء على مجموعات بيانات وبنى نماذج مختلفة:

مجموعات البيانات الاصطناعية (ToolACE، xLAM): تحسن +4.42 إلى +6.49
مجموعات البيانات غير الاصطناعية (BFCL-half): تحسن +2.17 إلى +3.65
يُظهر تحسناً متسقاً عبر نماذج بأحجام مختلفة من 3B إلى 8B

الأعمال ذات الصلة

بحث استخدام الأدوات

الأعمال المبكرة: استكشفت Toolformer و ToolAlpaca إمكانيات استخدام الأدوات في نماذج اللغة الكبيرة
طرق بدون ضبط دقيق: فتح القدرات الكامنة من خلال هندسة الأوامر (ReAct، RestGPT)
طرق قائمة على الضبط الدقيق: وسّعت ToolLLaMA مجموعة الأدوات وبحثت تأثير حجم البيانات

طرق التعلم المعزز

الطرق التقليدية: خوارزميات التعلم المعزز عبر الإنترنت مثل PPO معقدة وصعبة التحسين
تحسين التفضيل المباشر: توفر DPO ومتغيراتها (SimPO، IPO، ORPO) خوارزميات بسيطة بدون اتصال
التدريب التكراري: تحسين الأداء من خلال التحديث المستمر لنموذج المرجع وتوليد أزواج تفضيل جديدة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحديد المشكلة الرئيسية في التدريب على بيانات استخدام الأدوات الاصطناعية: يُعزى تناقص مكاسب التدريب بشكل أساسي إلى أخطاء جزئية متعلقة بالمعاملات
اقتراح حل فعّال: تعزيز تنوع البيانات من خلال MCTS والتعلم المعزز التكراري لتصحيح أجزاء الأخطاء
تحقيق تحسينات أداء ملحوظة: يتفوق نموذج 8B المعاملات على نماذج أكبر حجماً في معايير متعددة

القيود

متطلبات الموارد الحسابية: تتطلب عملية MCTS موارد حسابية كبيرة (7 ساعات على 8 وحدات V100 في كل تكرار)
قيود الحجم: لم يتم التحقق من الطريقة على نماذج أكبر مثل 30B أو 70B بسبب قيود الموارد
تغطية مجموعة البيانات: تم إجراء تحليل متعمق على مجموعة بيانات اصطناعية واحدة فقط

الاتجاهات المستقبلية

تحسين الكفاءة: تطوير طرق أكثر كفاءة لتوليد بيانات التفضيل
توسيع الحجم: التحقق من فعالية الطريقة على نماذج أكبر حجماً
تنوع البيانات: اختبار قابلية تعميم الطريقة على مجموعات بيانات عامة أكثر

التقييم المتعمق

المميزات

تحديد المشكلة دقيق: من خلال تحليل تفصيلي لأنواع الأخطاء، تم تحديد السبب الجذري لتناقص مكاسب التدريب بدقة
تصميم الطريقة معقول: تتوافق استراتيجية دمج التعلم المنهجي والتعلم المعزز مع قوانين التعلم البشري
تجارب شاملة: تتضمن تجارب استئصالية شاملة والتحقق من القابلية للتعميم وتحليل فعالية التكلفة
نتائج ملحوظة: تحسينات ملحوظة وثابتة عبر معايير متعددة

أوجه القصور

تكلفة حسابية عالية: قد تحد التكلفة الحسابية لعملية MCTS من جدواها في التطبيقات العملية
تحليل نظري غير كافٍ: يفتقر إلى شرح نظري لسبب فعالية MCTS في حل مشكلة الأخطاء الجزئية
مقارنة غير شاملة: مقارنة محدودة مع طرق أخرى تعالج مشكلة تناقص مكاسب التدريب

التأثير

المساهمة الأكاديمية: توفير منظور جديد لحل مشكلة تناقص مكاسب التدريب في استخدام الأدوات
القيمة العملية: تحقيق تحسينات ملحوظة مع الحفاظ على الجدوى الحسابية
قابلية الاستنساخ: توفير تفاصيل تنفيذ شاملة وكود مفتوح المصدر

السيناريوهات المناسبة

سيناريوهات استخدام الأدوات المعقدة: مناسبة بشكل خاص للمهام التي تتطلب تنسيق أدوات متعددة واستدلال معاملات معقدة
التدريب على البيانات الاصطناعية: توفير حل فعّال لاستخدام البيانات الاصطناعية لتحسين قدرات النموذج
بيئات البحث الغنية بالموارد: تتطلب موارد حسابية معينة لدعم عملية MCTS

المراجع

تستشهد الورقة بأعمال مهمة في مجالات استخدام الأدوات والتعلم المعزز وتحسين التفضيل، بما في ذلك:

Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
أعمال متعلقة بـ MCTS (Coulom, 2006; Grill et al., 2020)

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد بدقة المشكلة الرئيسية في التدريب على استخدام الأدوات، وتقترح حلاً مبتكراً وفعّالاً، وتتحقق من فعالية الطريقة من خلال تجارب شاملة. على الرغم من قيود التكلفة الحسابية العالية، فإن مساهماتها الأكاديمية وقيمتها العملية كبيرة جداً.