2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

إعادة التفكير في سير العمل الموجه بالوكيل: تقييم استراتيجيات توسيع الوقت الاستدلالي في مهام Text2SQL

المعلومات الأساسية

معرّف الورقة: 2510.10885
العنوان: إعادة التفكير في سير العمل الموجه بالوكيل: تقييم استراتيجيات توسيع الوقت الاستدلالي في مهام Text2SQL
المؤلفون: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (بوش للأبحاث أمريكا الشمالية، الولايات المتحدة)
التصنيف: cs.CL (اللسانيات الحاسوبية)، cs.DB (قواعد البيانات)
المؤتمر: ورشة عمل حول توسيع وقت الاختبار ونماذج التفكير في COLM 2025
رابط الورقة: https://arxiv.org/abs/2510.10885

الملخص

تُستخدم نماذج اللغة الكبيرة (LLMs) بشكل متزايد لدعم أنظمة Text-to-SQL، مما يمكّن المستخدمين غير المتخصصين من الاستعلام عن قواعد البيانات الصناعية باستخدام اللغة الطبيعية. على الرغم من أن استراتيجيات توسيع وقت الاختبار تظهر وعوداً في الحلول القائمة على LLM، فإن فعاليتها في التطبيقات العملية، خاصة في نماذج الاستدلال الحديثة، لا تزال غير مؤكدة. تقيّم هذه الدراسة ستة استراتيجيات خفيفة الوزن موجهة للصناعة لتوسيع وقت الاختبار وأربعة نماذج LLMs (بما في ذلك نموذجا استدلال) على معيار BIRD Mini-Dev. بالإضافة إلى مقاييس الدقة القياسية، يتم الإبلاغ عن زمن الاستدلال واستهلاك الرموز، مما يوفر رؤى ذات صلة لنشر الأنظمة العملية. تكتشف الدراسة أن تقسيم المشاكل والفتح والعروض التوضيحية القليلة الأمثلة تحسّن الأداء بشكل مستمر لنماذج LLMs العامة والموجهة للاستدلال. ومع ذلك، فإن إدخال خطوات سير عمل إضافية ينتج عنه نتائج مختلطة، حيث يلعب اختيار النموذج الأساسي دوراً حاسماً.

السياق البحثي والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي تعالجها هذه الدراسة حول: كيف تؤثر استراتيجيات توسيع وقت الاختبار (test-time scaling strategies) على أنواع مختلفة من نماذج LLMs في مهام Text2SQL، خاصة في سيناريوهات التطبيقات الصناعية الفعلية ومشاكل المقارنة بين الأداء والكفاءة.

أهمية البحث

القيمة العملية: تمكّن أنظمة Text2SQL المستخدمين غير التقنيين من الوصول إلى قواعد بيانات المؤسسات من خلال اللغة الطبيعية، مما يحمل قيمة تجارية كبيرة
التحديات التقنية: مع ظهور نماذج الاستدلال مثل OpenAI o-series و Gemini 2.5، هناك حاجة لإعادة تقييم ضرورة طرق هندسة سير العمل التقليدية
المتطلبات الصناعية: يتطلب النشر الفعلي موازنة بين الدقة والكمون والتعقيد

قيود الطرق الموجودة

تركز معظم الأبحاث الموجودة على سير عمل وكيل معقد، قد يكون معقداً جداً للتطبيقات الصناعية
نقص التقييم المنهجي لنماذج الاستدلال في مهام Text2SQL
القليل من الدراسات التي تأخذ في الاعتبار الدقة ومقاييس الأداء النظامية معاً (مثل الكمون واستهلاك الرموز)

دافع البحث

يطرح المؤلفون ثلاث أسئلة رئيسية:

بالنظر إلى تقدم نماذج الاستدلال، هل لا تزال هندسة الفتح وسير العمل الواسعة ذات قيمة؟
أي استراتيجيات توسيع وقت الاختبار تحقق أفضل توازن بين الدقة والكمون؟
كيف يمكن تحسين سير العمل للتطبيقات الصناعية؟

المساهمات الأساسية

اختبار معياري منهجي: تقييم شامل لستة سير عمل وكيل خفيفة الوزن وموجهة للصناعة، تغطي أربعة نماذج LLMs (بما في ذلك النماذج العامة ونماذج الاستدلال)
تقييم متعدد الأبعاد: بالإضافة إلى مقاييس الدقة، توفير تحليل تفصيلي لزمن الاستدلال واستهلاك الرموز
رؤى عملية: اكتشاف أن تعليمات تقسيم المشاكل والعروض التوضيحية القليلة الأمثلة توفر تحسينات كبيرة لجميع النماذج
إرشادات النشر الصناعي: توفير إرشادات قابلة للتنفيذ بشأن المقارنة بين الدقة والكفاءة والتعقيد لنشر أنظمة Text2SQL الفعلي

شرح الطريقة

تعريف المهمة

تهدف مهمة Text2SQL إلى ترجمة الأسئلة باللغة الطبيعية إلى استعلامات SQL قابلة للتنفيذ. يكون الإدخال عبارة عن سؤال باللغة الطبيعية وخطة قاعدة البيانات، والمخرجات هي استعلام SQL المقابل.

ستة سير عمل وكيل

1. CoT + ReAct (خط الأساس)

العملية: SW > EX <> SR
الوصف: يعتمد على دورة "التفكير-الإجراء-الملاحظة" لوكيل ReAct، مع تحسين الاستعلام بشكل متكرر عند مواجهة أخطاء التنفيذ أو البيانات الفارغة

2. تقسيم المشاكل والفتح (مع/بدون عروض توضيحية قليلة الأمثلة)

العملية: SW > EX <> SR
نقطة الابتكار: تقسيم المشاكل المعقدة إلى سلسلة من المشاكل الأصغر، حلها بالتسلسل وتجميع الاستجابة النهائية
المتغيرات: تقييم منفصل للتأثيرات مع وبدون عروض توضيحية قليلة الأمثلة

3. توسيع متوازي

العملية: (SW > EX <> SR) ∥ 5 > MV / CS
الآلية: توليد عدة إجابات مرشحة، واختيار الإجابة النهائية من خلال التصويت بالأغلبية؛ إذا لم تكن هناك أغلبية، استخدام وكيل محدد المرشحين

4. التحقق من النتائج

العملية: SW > EX <> SR <> FP
الهدف: التعامل مع استعلامات SQL الصحيحة من الناحية النحوية لكن الخاطئة من الناحية الدلالية، من خلال مزود التغذية الراجعة الذي يقرر ما إذا كان التحسين ضرورياً

5. الاستدلال المنطقي المستند إلى الاسترجاع

العملية: KE > (ER ∥ CR) > SW > EX <> SR
المقتبس من: طريقة CHESS
الخطوات:
- يحدد محلل الكلمات الرئيسية الكلمات الرئيسية في السؤال
- تشغيل متوازي لمسترجع الكيانات (بناءً على فهرس LSH) ومسترجع الأعمدة (بناءً على التشابه الدلالي)
- نقل المعلومات المسترجعة إلى كاتب SQL

نقاط الابتكار التقنية

التصميم الخفيف الوزن: التركيز على سير عمل جاهز للصناعة، بدلاً من الطرق المعقدة في الأدبيات
مقارنة متعددة النماذج: تقييم متزامن للنماذج العامة (GPT-4o، سلسلة Gemini) ونماذج الاستدلال (o4-mini)
إطار تقييم شامل: يجمع بين الدقة والكمون واستهلاك الموارد

إعداد التجربة

مجموعة البيانات

الاسم: معيار BIRD Mini-Dev
الحجم: 500 زوج سؤال-SQL
المصدر: مجموعة فرعية مشتقة من مجموعة BIRD Dev الأصلية
الخصائص: تتضمن استعلامات معقدة عبر الجداول وسيناريوهات قاعدة بيانات العالم الحقيقي

مقاييس التقييم

مقاييس الدقة

درجة Soft F1: تقييم صحة استعلام SQL من خلال قياس التشابه بين الجداول التي تولدها الاستعلامات المتنبأ بها والحقيقية
دقة التنفيذ (EX): نسبة استعلامات SQL التي تولد نتائج متطابقة تماماً مع النتائج الحقيقية
درجة الكفاءة الصحيحة المستندة إلى المكافأة (R-VES): تحديد كمي لكفاءة النموذج في توليد استعلامات SQL صحيحة ومحسّنة

مقاييس الأداء النظامي

معدل خطأ التنفيذ: نسبة المهام التي تواجه أخطاء تنفيذ نحوية في سير العمل
وقت الاستدلال: المدة من استقبال سؤال المستخدم إلى توليد استعلام SQL (بالثواني)
عدد استدعاءات LLM: متوسط عدد استدعاءات LLM المستخدمة في سير العمل
عدد الرموز: متوسط عدد رموز الفتح والإكمال المطلوبة لتوليد استعلام SQL واحد (بالآلاف)

الطرق المقارنة

أربعة نماذج LLMs:

Gemini 1.5 Flash (نموذج عام)
Gemini 2.5 Flash (نموذج عام)
GPT-4o (نموذج عام)
o4-mini (نموذج استدلال)

تفاصيل التنفيذ

تتضمن جميع سير العمل تكرار إصلاح النحو
يتأثر قياس الكمون بعوامل متعددة (منطقة النموذج، كمون الشبكة، موارد الخادم، إلخ)
استخدام BIRD Mini-Dev للتقييم مع الأخذ في الاعتبار الكفاءة

نتائج التجربة

النتائج الرئيسية

RQ1: أداء نماذج الاستدلال مقابل النماذج العامة

الاكتشاف الرئيسي: يحسّن سير عمل DC 3-shot+ReAct درجة Soft-F1 بشكل مستمر لجميع النماذج
GPT-4o: من خط الأساس 61.1 إلى 64.4
o4-mini: من خط الأساس 56.3 إلى 65.5
الخلاصة: حتى نماذج الاستدلال المتخصصة تستفيد من الإرشادات البرمجية الصريحة

RQ2: أكثر طرق التوسيع فعالية

أفضل مزيج: تقسيم المشاكل والفتح + عروض توضيحية قليلة الأمثلة + ReAct يوفر تحسينات متسقة على جميع النماذج
طريقة التحقق: توفير تحسينات أداء موثوقة على معظم النماذج
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
طرق التحسين المستندة إلى الاسترجاع: أداء ضعيفة بشكل عام، أقل من DC 3-shot+ReAct على جميع النماذج تقريباً

RQ3: المقارنة بين الدقة والأداء النظامي

اختلافات الكمون كبيرة:
- نماذج Gemini Flash: 5.02-12.03 ثانية
- GPT-4o و o4-mini: 15.70-18.43 ثانية
تكلفة الإجابات الخاطئة: توليد الإجابات الخاطئة أبطأ بنسبة 19.58% من الإجابات الصحيحة
تأثير التعقيد: تتطلب المشاكل الأكثر تحدياً وقتاً أطول واستهلاك رموز أكثر، مع معدلات دقة أقل عادة

التجارب الاستئصالية

من خلال تحليل الأخطاء، تم اكتشاف:

منطق الاستعلام الخاطئ هو نوع الفشل الأكثر شيوعاً في جميع الطرق والنماذج
تستمر طرق التحسين المستندة إلى الاسترجاع في تفاقم هذه المشكلة
تزيد طرق الاسترجاع أيضاً من نسبة أخطاء ربط المخطط

دراسات الحالة

أجرت الورقة تحليل خطأ تفصيلي، وصنفت حالات الفشل باستخدام نموذج o4-mini، واكتشفت أن طرق التحسين المستندة إلى الاسترجاع قد تحرم النموذج من المعلومات الحاسمة في مهام الاستدلال المعقدة، مما يؤدي إلى انخفاض الأداء.

الأعمال ذات الصلة

سير عمل وكيل Text2SQL

تقوم الورقة بمراجعة منهجية لسير عمل وكيل Text2SQL الموجود، بما في ذلك:

تعلم السياق المقسم من DIN-SQL
إطار عمل التعاون متعدد الوكلاء من MAC-SQL
تركيب SQL السياقي من CHESS
نظام الوكلاء المتعددين بالإجماع من R3

استراتيجيات توسيع وقت الاختبار

تغطي خطوات الاستدلال المنطقي المنظمة والتنفيذ المتوازي والتحقق وتجميع النتائج، حيث تقوم هذه الطرق بتقسيم توليد الاستعلام إلى خطوات معيارية من خلال اعتماد سير عمل متسلسل.

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

أهمية النموذج الأساسي: النموذج الأساسي القوي أكثر أهمية من تعقيد سير العمل (أداء خط الأساس لـ Gemini 2.5 Flash تتجاوز أكثر سير عمل معقد من GPT-4o و Gemini 1.5 Flash)
الشمولية لـ DC + عروض توضيحية قليلة الأمثلة: توفر تعليمات تقسيم المشاكل والعروض التوضيحية القليلة الأمثلة تحسينات كبيرة لجميع أنواع النماذج
تناقص العوائد الهامشية للتعقيد: إضافة تعقيد سير العمل لا توفر دائماً نتائج أفضل

القيود

نطاق التقييم المحدود: التركيز فقط على سير عمل خفيف الوزن، قد لا يمثل حد الأداء الأعلى للتصاميم الأكثر تعقيداً
مجموعة بيانات واحدة: التقييم فقط على BIRD Mini-Dev، يفتقر إلى التحقق الأوسع
نسبية مقاييس الكمون: يجب اعتبار الكمون واستهلاك الرموز المبلغ عنها كمؤشرات وليس قيماً مطلقة

الاتجاهات المستقبلية

اختبار تصاميم سير عمل أكثر تعقيداً
التحقق من النتائج على مجموعات بيانات أوسع
استكشاف قابلية تطبيق هذه الاستراتيجيات على مهام أخرى
تحسين تصميم المنتج لإدارة توقعات المستخدمين

التقييم المتعمق

المزايا

التوجه العملي: التركيز على حلول جاهزة للصناعة، مع الأخذ في الاعتبار قيود النشر الفعلي
التقييم متعدد الأبعاد: لا يركز فقط على الدقة، بل يأخذ في الاعتبار الكمون واستهلاك الموارد، مما يوفر منظوراً شاملاً للتطبيقات الفعلية
المقارنة المنهجية: تقييم متزامن للنماذج العامة ونماذج الاستدلال، مما يوفر رؤى مقارنة قيمة
تحليل خطأ تفصيلي: فهم عميق لأنماط الفشل لطرق مختلفة من خلال تصنيف الأخطاء

أوجه القصور

قيود حجم العينة: استخدام فقط 500 عينة من BIRD Mini-Dev، قد يؤثر على قابلية تعميم الاستنتاجات
تغطية نموذج غير كاملة: نقص المقارنة مع نماذج رئيسية أخرى (مثل Claude وسلسلة LLaMA)
تصميم سير عمل محافظ: قد يفوت التركيز على الطرق الخفيفة الوزن إمكانيات التقنيات الأكثر تقدماً
نقص البحث عن المستخدم: لا يوجد تقييم لتجربة المستخدم الفعلي

التأثير

المساهمة الأكاديمية: توفير معيار منهجي لاستراتيجيات توسيع وقت الاختبار في مجال Text2SQL
القيمة الصناعية: توفير إرشادات عملية لنشر أنظمة Text2SQL في المؤسسات
الإلهام المنهجي: يمكن تطبيق إطار التقييم متعدد الأبعاد على مهام NLP أخرى للنشر الصناعي

السيناريوهات المعمول بها

الاستعلام عن قواعد البيانات الخاصة بالمؤسسات: مناسب للبيئات الخاصة بالمؤسسات التي تتطلب نشراً سريعاً وموازنة بين الدقة والكفاءة
تطوير النماذج الأولية: توفير أنماط سير عمل مثبتة لتطوير نماذج أولية سريعة لأنظمة Text2SQL
إرشادات اختيار النموذج: مساعدة المطورين على اختيار النموذج الأساسي واستراتيجية سير العمل المناسبة بناءً على الاحتياجات المحددة

المراجع

تستشهد الورقة بالأعمال المهمة في مجال Text2SQL، بما في ذلك:

معيار بيانات BIRD (Li et al., 2023)
طريقة التقسيم DIN-SQL (Pourreza & Rafiei, 2023)
تركيب CHESS السياقي (Talaei et al., 2024)
إطار عمل الاستدلال ReAct (Yao et al., 2023)
تسلسل الفكر (Wei et al., 2022)

يوفر هذا البحث إرشادات تجريبية قيمة لنشر أنظمة Text2SQL الفعلي، خاصة في موازنة الدقة والكفاءة والتعقيد. تحمل نتائجه أهمية كبيرة لتعزيز تحويل تكنولوجيا Text2SQL من النماذج الأولية البحثية إلى التطبيقات الصناعية.