Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
academic- معرّف الورقة: 2510.10885
- العنوان: إعادة التفكير في سير العمل الموجه بالوكيل: تقييم استراتيجيات توسيع الوقت الاستدلالي في مهام Text2SQL
- المؤلفون: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (بوش للأبحاث أمريكا الشمالية، الولايات المتحدة)
- التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.DB (قواعد البيانات)
- المؤتمر: ورشة عمل حول توسيع وقت الاختبار ونماذج التفكير في COLM 2025
- رابط الورقة: https://arxiv.org/abs/2510.10885
تُستخدم نماذج اللغة الكبيرة (LLMs) بشكل متزايد لدعم أنظمة Text-to-SQL، مما يمكّن المستخدمين غير المتخصصين من الاستعلام عن قواعد البيانات الصناعية باستخدام اللغة الطبيعية. على الرغم من أن استراتيجيات توسيع وقت الاختبار تظهر وعوداً في الحلول القائمة على LLM، فإن فعاليتها في التطبيقات العملية، خاصة في نماذج الاستدلال الحديثة، لا تزال غير مؤكدة. تقيّم هذه الدراسة ستة استراتيجيات خفيفة الوزن موجهة للصناعة لتوسيع وقت الاختبار وأربعة نماذج LLMs (بما في ذلك نموذجا استدلال) على معيار BIRD Mini-Dev. بالإضافة إلى مقاييس الدقة القياسية، يتم الإبلاغ عن زمن الاستدلال واستهلاك الرموز، مما يوفر رؤى ذات صلة لنشر الأنظمة العملية. تكتشف الدراسة أن تقسيم المشاكل والفتح والعروض التوضيحية القليلة الأمثلة تحسّن الأداء بشكل مستمر لنماذج LLMs العامة والموجهة للاستدلال. ومع ذلك، فإن إدخال خطوات سير عمل إضافية ينتج عنه نتائج مختلطة، حيث يلعب اختيار النموذج الأساسي دوراً حاسماً.
تتمحور المشكلة الأساسية التي تعالجها هذه الدراسة حول: كيف تؤثر استراتيجيات توسيع وقت الاختبار (test-time scaling strategies) على أنواع مختلفة من نماذج LLMs في مهام Text2SQL، خاصة في سيناريوهات التطبيقات الصناعية الفعلية ومشاكل المقارنة بين الأداء والكفاءة.
- القيمة العملية: تمكّن أنظمة Text2SQL المستخدمين غير التقنيين من الوصول إلى قواعد بيانات المؤسسات من خلال اللغة الطبيعية، مما يحمل قيمة تجارية كبيرة
- التحديات التقنية: مع ظهور نماذج الاستدلال مثل OpenAI o-series و Gemini 2.5، هناك حاجة لإعادة تقييم ضرورة طرق هندسة سير العمل التقليدية
- المتطلبات الصناعية: يتطلب النشر الفعلي موازنة بين الدقة والكمون والتعقيد
- تركز معظم الأبحاث الموجودة على سير عمل وكيل معقد، قد يكون معقداً جداً للتطبيقات الصناعية
- نقص التقييم المنهجي لنماذج الاستدلال في مهام Text2SQL
- القليل من الدراسات التي تأخذ في الاعتبار الدقة ومقاييس الأداء النظامية معاً (مثل الكمون واستهلاك الرموز)
يطرح المؤلفون ثلاث أسئلة رئيسية:
- بالنظر إلى تقدم نماذج الاستدلال، هل لا تزال هندسة الفتح وسير العمل الواسعة ذات قيمة؟
- أي استراتيجيات توسيع وقت الاختبار تحقق أفضل توازن بين الدقة والكمون؟
- كيف يمكن تحسين سير العمل للتطبيقات الصناعية؟
- اختبار معياري منهجي: تقييم شامل لستة سير عمل وكيل خفيفة الوزن وموجهة للصناعة، تغطي أربعة نماذج LLMs (بما في ذلك النماذج العامة ونماذج الاستدلال)
- تقييم متعدد الأبعاد: بالإضافة إلى مقاييس الدقة، توفير تحليل تفصيلي لزمن الاستدلال واستهلاك الرموز
- رؤى عملية: اكتشاف أن تعليمات تقسيم المشاكل والعروض التوضيحية القليلة الأمثلة توفر تحسينات كبيرة لجميع النماذج
- إرشادات النشر الصناعي: توفير إرشادات قابلة للتنفيذ بشأن المقارنة بين الدقة والكفاءة والتعقيد لنشر أنظمة Text2SQL الفعلي
تهدف مهمة Text2SQL إلى ترجمة الأسئلة باللغة الطبيعية إلى استعلامات SQL قابلة للتنفيذ. يكون الإدخال عبارة عن سؤال باللغة الطبيعية وخطة قاعدة البيانات، والمخرجات هي استعلام SQL المقابل.
- العملية: SW > EX <> SR
- الوصف: يعتمد على دورة "التفكير-الإجراء-الملاحظة" لوكيل ReAct، مع تحسين الاستعلام بشكل متكرر عند مواجهة أخطاء التنفيذ أو البيانات الفارغة
- العملية: SW > EX <> SR
- نقطة الابتكار: تقسيم المشاكل المعقدة إلى سلسلة من المشاكل الأصغر، حلها بالتسلسل وتجميع الاستجابة النهائية
- المتغيرات: تقييم منفصل للتأثيرات مع وبدون عروض توضيحية قليلة الأمثلة
- العملية: (SW > EX <> SR) ∥ 5 > MV / CS
- الآلية: توليد عدة إجابات مرشحة، واختيار الإجابة النهائية من خلال التصويت بالأغلبية؛ إذا لم تكن هناك أغلبية، استخدام وكيل محدد المرشحين
- العملية: SW > EX <> SR <> FP
- الهدف: التعامل مع استعلامات SQL الصحيحة من الناحية النحوية لكن الخاطئة من الناحية الدلالية، من خلال مزود التغذية الراجعة الذي يقرر ما إذا كان التحسين ضرورياً
- العملية: KE > (ER ∥ CR) > SW > EX <> SR
- المقتبس من: طريقة CHESS
- الخطوات:
- يحدد محلل الكلمات الرئيسية الكلمات الرئيسية في السؤال
- تشغيل متوازي لمسترجع الكيانات (بناءً على فهرس LSH) ومسترجع الأعمدة (بناءً على التشابه الدلالي)
- نقل المعلومات المسترجعة إلى كاتب SQL
- التصميم الخفيف الوزن: التركيز على سير عمل جاهز للصناعة، بدلاً من الطرق المعقدة في الأدبيات
- مقارنة متعددة النماذج: تقييم متزامن للنماذج العامة (GPT-4o، سلسلة Gemini) ونماذج الاستدلال (o4-mini)
- إطار تقييم شامل: يجمع بين الدقة والكمون واستهلاك الموارد
- الاسم: معيار BIRD Mini-Dev
- الحجم: 500 زوج سؤال-SQL
- المصدر: مجموعة فرعية مشتقة من مجموعة BIRD Dev الأصلية
- الخصائص: تتضمن استعلامات معقدة عبر الجداول وسيناريوهات قاعدة بيانات العالم الحقيقي
- درجة Soft F1: تقييم صحة استعلام SQL من خلال قياس التشابه بين الجداول التي تولدها الاستعلامات المتنبأ بها والحقيقية
- دقة التنفيذ (EX): نسبة استعلامات SQL التي تولد نتائج متطابقة تماماً مع النتائج الحقيقية
- درجة الكفاءة الصحيحة المستندة إلى المكافأة (R-VES): تحديد كمي لكفاءة النموذج في توليد استعلامات SQL صحيحة ومحسّنة
- معدل خطأ التنفيذ: نسبة المهام التي تواجه أخطاء تنفيذ نحوية في سير العمل
- وقت الاستدلال: المدة من استقبال سؤال المستخدم إلى توليد استعلام SQL (بالثواني)
- عدد استدعاءات LLM: متوسط عدد استدعاءات LLM المستخدمة في سير العمل
- عدد الرموز: متوسط عدد رموز الفتح والإكمال المطلوبة لتوليد استعلام SQL واحد (بالآلاف)
أربعة نماذج LLMs:
- Gemini 1.5 Flash (نموذج عام)
- Gemini 2.5 Flash (نموذج عام)
- GPT-4o (نموذج عام)
- o4-mini (نموذج استدلال)
- تتضمن جميع سير العمل تكرار إصلاح النحو
- يتأثر قياس الكمون بعوامل متعددة (منطقة النموذج، كمون الشبكة، موارد الخادم، إلخ)
- استخدام BIRD Mini-Dev للتقييم مع الأخذ في الاعتبار الكفاءة
- الاكتشاف الرئيسي: يحسّن سير عمل DC 3-shot+ReAct درجة Soft-F1 بشكل مستمر لجميع النماذج
- GPT-4o: من خط الأساس 61.1 إلى 64.4
- o4-mini: من خط الأساس 56.3 إلى 65.5
- الخلاصة: حتى نماذج الاستدلال المتخصصة تستفيد من الإرشادات البرمجية الصريحة
- أفضل مزيج: تقسيم المشاكل والفتح + عروض توضيحية قليلة الأمثلة + ReAct يوفر تحسينات متسقة على جميع النماذج
- طريقة التحقق: توفير تحسينات أداء موثوقة على معظم النماذج
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
- طرق التحسين المستندة إلى الاسترجاع: أداء ضعيفة بشكل عام، أقل من DC 3-shot+ReAct على جميع النماذج تقريباً
- اختلافات الكمون كبيرة:
- نماذج Gemini Flash: 5.02-12.03 ثانية
- GPT-4o و o4-mini: 15.70-18.43 ثانية
- تكلفة الإجابات الخاطئة: توليد الإجابات الخاطئة أبطأ بنسبة 19.58% من الإجابات الصحيحة
- تأثير التعقيد: تتطلب المشاكل الأكثر تحدياً وقتاً أطول واستهلاك رموز أكثر، مع معدلات دقة أقل عادة
من خلال تحليل الأخطاء، تم اكتشاف:
- منطق الاستعلام الخاطئ هو نوع الفشل الأكثر شيوعاً في جميع الطرق والنماذج
- تستمر طرق التحسين المستندة إلى الاسترجاع في تفاقم هذه المشكلة
- تزيد طرق الاسترجاع أيضاً من نسبة أخطاء ربط المخطط
أجرت الورقة تحليل خطأ تفصيلي، وصنفت حالات الفشل باستخدام نموذج o4-mini، واكتشفت أن طرق التحسين المستندة إلى الاسترجاع قد تحرم النموذج من المعلومات الحاسمة في مهام الاستدلال المعقدة، مما يؤدي إلى انخفاض الأداء.
تقوم الورقة بمراجعة منهجية لسير عمل وكيل Text2SQL الموجود، بما في ذلك:
- تعلم السياق المقسم من DIN-SQL
- إطار عمل التعاون متعدد الوكلاء من MAC-SQL
- تركيب SQL السياقي من CHESS
- نظام الوكلاء المتعددين بالإجماع من R3
تغطي خطوات الاستدلال المنطقي المنظمة والتنفيذ المتوازي والتحقق وتجميع النتائج، حيث تقوم هذه الطرق بتقسيم توليد الاستعلام إلى خطوات معيارية من خلال اعتماد سير عمل متسلسل.
- أهمية النموذج الأساسي: النموذج الأساسي القوي أكثر أهمية من تعقيد سير العمل (أداء خط الأساس لـ Gemini 2.5 Flash تتجاوز أكثر سير عمل معقد من GPT-4o و Gemini 1.5 Flash)
- الشمولية لـ DC + عروض توضيحية قليلة الأمثلة: توفر تعليمات تقسيم المشاكل والعروض التوضيحية القليلة الأمثلة تحسينات كبيرة لجميع أنواع النماذج
- تناقص العوائد الهامشية للتعقيد: إضافة تعقيد سير العمل لا توفر دائماً نتائج أفضل
- نطاق التقييم المحدود: التركيز فقط على سير عمل خفيف الوزن، قد لا يمثل حد الأداء الأعلى للتصاميم الأكثر تعقيداً
- مجموعة بيانات واحدة: التقييم فقط على BIRD Mini-Dev، يفتقر إلى التحقق الأوسع
- نسبية مقاييس الكمون: يجب اعتبار الكمون واستهلاك الرموز المبلغ عنها كمؤشرات وليس قيماً مطلقة
- اختبار تصاميم سير عمل أكثر تعقيداً
- التحقق من النتائج على مجموعات بيانات أوسع
- استكشاف قابلية تطبيق هذه الاستراتيجيات على مهام أخرى
- تحسين تصميم المنتج لإدارة توقعات المستخدمين
- التوجه العملي: التركيز على حلول جاهزة للصناعة، مع الأخذ في الاعتبار قيود النشر الفعلي
- التقييم متعدد الأبعاد: لا يركز فقط على الدقة، بل يأخذ في الاعتبار الكمون واستهلاك الموارد، مما يوفر منظوراً شاملاً للتطبيقات الفعلية
- المقارنة المنهجية: تقييم متزامن للنماذج العامة ونماذج الاستدلال، مما يوفر رؤى مقارنة قيمة
- تحليل خطأ تفصيلي: فهم عميق لأنماط الفشل لطرق مختلفة من خلال تصنيف الأخطاء
- قيود حجم العينة: استخدام فقط 500 عينة من BIRD Mini-Dev، قد يؤثر على قابلية تعميم الاستنتاجات
- تغطية نموذج غير كاملة: نقص المقارنة مع نماذج رئيسية أخرى (مثل Claude وسلسلة LLaMA)
- تصميم سير عمل محافظ: قد يفوت التركيز على الطرق الخفيفة الوزن إمكانيات التقنيات الأكثر تقدماً
- نقص البحث عن المستخدم: لا يوجد تقييم لتجربة المستخدم الفعلي
- المساهمة الأكاديمية: توفير معيار منهجي لاستراتيجيات توسيع وقت الاختبار في مجال Text2SQL
- القيمة الصناعية: توفير إرشادات عملية لنشر أنظمة Text2SQL في المؤسسات
- الإلهام المنهجي: يمكن تطبيق إطار التقييم متعدد الأبعاد على مهام NLP أخرى للنشر الصناعي
- الاستعلام عن قواعد البيانات الخاصة بالمؤسسات: مناسب للبيئات الخاصة بالمؤسسات التي تتطلب نشراً سريعاً وموازنة بين الدقة والكفاءة
- تطوير النماذج الأولية: توفير أنماط سير عمل مثبتة لتطوير نماذج أولية سريعة لأنظمة Text2SQL
- إرشادات اختيار النموذج: مساعدة المطورين على اختيار النموذج الأساسي واستراتيجية سير العمل المناسبة بناءً على الاحتياجات المحددة
تستشهد الورقة بالأعمال المهمة في مجال Text2SQL، بما في ذلك:
- معيار بيانات BIRD (Li et al., 2023)
- طريقة التقسيم DIN-SQL (Pourreza & Rafiei, 2023)
- تركيب CHESS السياقي (Talaei et al., 2024)
- إطار عمل الاستدلال ReAct (Yao et al., 2023)
- تسلسل الفكر (Wei et al., 2022)
يوفر هذا البحث إرشادات تجريبية قيمة لنشر أنظمة Text2SQL الفعلي، خاصة في موازنة الدقة والكفاءة والتعقيد. تحمل نتائجه أهمية كبيرة لتعزيز تحويل تكنولوجيا Text2SQL من النماذج الأولية البحثية إلى التطبيقات الصناعية.