iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
Zeng, Ding, Wang et al.
Augmenting large language models (LLMs) with external tools is a promising approach to enhance their capabilities, especially for complex tasks. Synthesizing tool-use data through real-world simulations is an effective way to achieve this. However, our investigation reveals that training gains significantly decay as synthetic data increases. The model struggles to benefit from additional synthetic data, which fails to endow it with advanced tool-use capabilities in complex scenarios Moreover, we discovered that the above limitation usually manifests as a fragment deficiency (i.e., parameter errors) in response. To this end, we propose an iterative reinforced fine-tuning strategy designed to alleviate this limitation. This strategy involves: (1) enhancing the diversity of response for synthetic data through path exploration of Monte Carlo Tree Search. (2) iteratively pinpointing the model's deficiency by constructing fine-grained preference pairs, and then improving it by preference optimization algorithms for targeted improvement. The experiments show that our method achieves 13.11% better performance than the same-size base model. It achieves an improvement of 6.5% in complex scenarios compared to the baseline, and it also outperforms larger open-source and closed-source models.
المؤسسات: مركز الحوسبة الاجتماعية واسترجاع المعلومات بجامعة هاربين للتكنولوجيا، شركة هواوي للتكنولوجيا، جامعة شنغهاي جياو تونغ، جامعة العلوم والتكنولوجيا بالصين
يعتبر دمج نماذج اللغة الكبيرة (LLMs) مع الأدوات الخارجية طريقة فعّالة لتعزيز قدراتها، خاصة في المهام المعقدة. يُعتبر إنشاء بيانات استخدام الأدوات الاصطناعية من خلال محاكاة العالم الحقيقي نهجاً فعّالاً لتحقيق هذا الهدف. ومع ذلك، وجدت الدراسات أن مكاسب التدريب تتناقص بشكل ملحوظ مع زيادة البيانات الاصطناعية. يواجه النموذج صعوبة في الاستفادة من البيانات الاصطناعية الإضافية وعدم القدرة على اكتساب قدرات استخدام أدوات متقدمة في السيناريوهات المعقدة. اكتشف المؤلفون أن هذا القيد يتجلى عادة كعيوب جزئية في الاستجابات (أي أخطاء في المعاملات). لمعالجة هذا، اقترحوا استراتيجية ضبط دقيق معزز تكراري تتضمن: (1) تعزيز تنوع استجابات البيانات الاصطناعية من خلال استكشاف المسارات باستخدام بحث شجرة مونت كارلو؛ (2) تحديد عيوب النموذج بشكل متكرر من خلال بناء أزواج تفضيل دقيقة الحبيبات وتحسينها بشكل موجه من خلال خوارزميات تحسين التفضيل. تُظهر التجارب تحسناً بنسبة 13.11% مقارنة بنماذج أساسية بنفس الحجم، وتحسناً بنسبة 6.5% في السيناريوهات المعقدة مقارنة بالخطوط الأساسية، وتتفوق على نماذج مفتوحة المصدر والمملوكة الأكبر حجماً.
المشكلة الأساسية: تعاني طرق التدريب الحالية لاستخدام الأدوات من مشكلة تناقص مكاسب التدريب عند التعامل مع البيانات الاصطناعية، حيث لا يستطيع النموذج التعلم بفعالية من البيانات الاصطناعية المتزايدة
الأهمية: تُعتبر قدرة استخدام الأدوات قدرة حاسمة لنماذج اللغة الكبيرة في التطبيقات العملية، وتشمل استرجاع المعلومات والحسابات الدقيقة وتقليل الهلوسة وغيرها من الوظائف المهمة
قيود الطرق الموجودة:
يُظهر الضبط الدقيق الخاضع للإشراف (SFT) التقليدي أداءً ضعيفاً في سيناريوهات استخدام الأدوات المعقدة
يتناقص تحسن الأداء بشكل هامشي مع زيادة حجم البيانات الاصطناعية
يعاني النموذج من عيوب منهجية في استخراج المعاملات والاستدلال
تحديد وتحليل مشكلة تناقص المكاسب في التدريب على بيانات استخدام الأدوات الاصطناعية، مع اكتشاف أن الأخطاء تتركز بشكل أساسي على عيوب جزئية متعلقة بالمعاملات
اقتراح إطار عمل iTool يتضمن مكونين أساسيين: التدريب التدريجي والتعلم المعزز التكراري
تصميم طريقة توليد بيانات التفضيل دقيقة الحبيبات بناءً على MCTS، والتي يمكنها تحديد وتصحيح أجزاء الأخطاء في الاستجابات بفعالية
تحقيق تحسينات ملحوظة في معايير متعددة، حيث يتفوق نموذج 8B المعاملات على نماذج مفتوحة المصدر والمملوكة الأكبر حجماً
في مهمة استخدام الأدوات، يتلقى نموذج اللغة الكبيرة استعلام المستخدم q ومجموعة الأدوات المرشحة T = {t₀, t₁, ..., t|T|}، والهدف هو تلبية نية المستخدم من خلال تنفيذ سلسلة محددة من الأدوات. يمكن وصف عملية اتخاذ القرار بـ y ~ π(y | s₀, q, T)، حيث تمثل π(·) نموذج السياسة، و s₀ تمثل حالة المهمة الأولية، و y تمثل الإجراء الذي يتخذه النموذج.
تستشهد الورقة بأعمال مهمة في مجالات استخدام الأدوات والتعلم المعزز وتحسين التفضيل، بما في ذلك:
Toolformer (Schick et al., 2023)
DPO (Rafailov et al., 2024)
SimPO (Meng et al., 2024)
ToolLLaMA (Qin et al., 2023)
أعمال متعلقة بـ MCTS (Coulom, 2006; Grill et al., 2020)
التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد بدقة المشكلة الرئيسية في التدريب على استخدام الأدوات، وتقترح حلاً مبتكراً وفعّالاً، وتتحقق من فعالية الطريقة من خلال تجارب شاملة. على الرغم من قيود التكلفة الحسابية العالية، فإن مساهماتها الأكاديمية وقيمتها العملية كبيرة جداً.