2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

एजेंटिक वर्कफ़्लो पर पुनर्विचार: Text2SQL कार्यों में अनुमान-आधारित परीक्षण-समय स्केलिंग रणनीतियों का मूल्यांकन

मूल जानकारी

पेपर ID: 2510.10885
शीर्षक: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
लेखक: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान), cs.DB (डेटाबेस)
प्रकाशन सम्मेलन: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
पेपर लिंक: https://arxiv.org/abs/2510.10885

सारांश

बड़े भाषा मॉडल (LLMs) Text-to-SQL प्रणालियों को तेजी से शक्ति प्रदान कर रहे हैं, जिससे गैर-विशेषज्ञ उपयोगकर्ता प्राकृतिक भाषा का उपयोग करके औद्योगिक डेटाबेस को क्वेरी कर सकते हैं। हालांकि परीक्षण-समय स्केलिंग रणनीतियां LLM-आधारित समाधानों में आशाजनक परिणाम दिखाती हैं, लेकिन व्यावहारिक अनुप्रयोगों में उनकी प्रभावशीलता, विशेषकर नवीनतम तर्क मॉडल में, अभी भी अनिश्चित है। यह अनुसंधान छह हल्के, औद्योगिक-उन्मुख परीक्षण-समय स्केलिंग रणनीतियों और चार LLMs (दो तर्क मॉडल सहित) का BIRD Mini-Dev बेंचमार्क पर मूल्यांकन करता है। मानक सटीकता मेट्रिक्स के अलावा, अनुमान विलंबता और टोकन खपत की भी रिपोर्ट की जाती है, जो व्यावहारिक प्रणाली तैनाती के लिए प्रासंगिक अंतर्दृष्टि प्रदान करती है। अनुसंधान से पता चलता है कि विभाजन-और-विजय संकेत और कम-नमूना प्रदर्शन सामान्य और तर्क-उन्मुख LLMs के प्रदर्शन को लगातार बेहतर बनाते हैं। हालांकि, अतिरिक्त वर्कफ़्लो चरणों की शुरुआत मिश्रित परिणाम देती है, और आधार मॉडल की पसंद महत्वपूर्ण भूमिका निभाती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: Text2SQL कार्यों में, परीक्षण-समय स्केलिंग रणनीतियां (test-time scaling strategies) विभिन्न प्रकार के LLMs पर कैसे प्रभाव डालती हैं, विशेषकर व्यावहारिक औद्योगिक अनुप्रयोग परिदृश्यों में प्रदर्शन व्यापार-बंद समस्याओं में?

अनुसंधान का महत्व

व्यावहारिक मूल्य: Text2SQL प्रणालियां गैर-तकनीकी उपयोगकर्ताओं को प्राकृतिक भाषा के माध्यम से एंटरप्राइज डेटाबेस तक पहुंचने में सक्षम बनाती हैं, जिसका महत्वपूर्ण व्यावसायिक मूल्य है
तकनीकी चुनौती: OpenAI o-series और Gemini 2.5 जैसे तर्क मॉडल के आगमन के साथ, पारंपरिक वर्कफ़्लो इंजीनियरिंग विधियों की आवश्यकता का पुनर्मूल्यांकन करने की आवश्यकता है
औद्योगिक आवश्यकता: व्यावहारिक तैनाती के लिए सटीकता, विलंबता और जटिलता के बीच संतुलन की आवश्यकता होती है

मौजूदा विधियों की सीमाएं

मौजूदा अनुसंधान जटिल एजेंट वर्कफ़्लो पर केंद्रित है, लेकिन औद्योगिक अनुप्रयोगों में ये बहुत जटिल हो सकते हैं
Text2SQL कार्यों में तर्क मॉडल का व्यवस्थित मूल्यांकन नहीं है
कुछ अनुसंधान सटीकता और प्रणाली प्रदर्शन मेट्रिक्स (जैसे विलंबता, टोकन खपत) दोनों पर विचार करते हैं

अनुसंधान प्रेरणा

लेखक तीन मुख्य प्रश्न प्रस्तुत करते हैं:

तर्क मॉडल की प्रगति को देखते हुए, क्या बड़े पैमाने पर संकेत और वर्कफ़्लो इंजीनियरिंग अभी भी मूल्यवान है?
कौन सी परीक्षण-समय स्केलिंग रणनीतियां सटीकता और विलंबता को सर्वोत्तम रूप से संतुलित कर सकती हैं?
औद्योगिक अनुप्रयोगों के लिए वर्कफ़्लो को कैसे अनुकूलित किया जाए?

मूल योगदान

व्यवस्थित बेंचमार्किंग: छह हल्की, औद्योगिक-उन्मुख एजेंट वर्कफ़्लो का व्यापक मूल्यांकन, चार LLMs (सामान्य मॉडल और तर्क मॉडल दोनों) को कवर करते हुए
बहु-आयामी मूल्यांकन: सटीकता मेट्रिक्स के अलावा, अनुमान विलंबता और टोकन खपत का विस्तृत विश्लेषण प्रदान करता है
व्यावहारिक अंतर्दृष्टि: विभाजन-और-विजय (Divide-and-Conquer) निर्देश और कम-नमूना प्रदर्शन सभी मॉडल के लिए महत्वपूर्ण सुधार लाते हैं
औद्योगिक तैनाती मार्गदर्शन: Text2SQL प्रणालियों की व्यावहारिक तैनाती के लिए सटीकता, दक्षता और जटिलता व्यापार-बंद के बारे में कार्यान्वयन योग्य मार्गदर्शन प्रदान करता है

विधि विवरण

कार्य परिभाषा

Text2SQL कार्य प्राकृतिक भाषा प्रश्नों को निष्पादन योग्य SQL क्वेरी में अनुवाद करने का लक्ष्य रखता है। इनपुट प्राकृतिक भाषा प्रश्न और डेटाबेस स्कीमा है, आउटपुट संबंधित SQL क्वेरी है।

छह एजेंट वर्कफ़्लो

1. CoT + ReAct (आधार रेखा)

प्रवाह: SW > EX <> SR
विवरण: ReAct एजेंट के "सोचें-कार्य-अवलोकन" चक्र को अपनाता है, जब निष्पादन त्रुटि या खाली डेटा का सामना होता है तो क्वेरी को पुनरावृत्तिपूर्वक अनुकूलित करता है

2. विभाजन-और-विजय (कम-नमूना के साथ/बिना)

प्रवाह: SW > EX <> SR
नवाचार: जटिल समस्याओं को छोटी उप-समस्याओं की श्रृंखला में विभाजित करता है, क्रमिक रूप से हल करता है और अंतिम प्रतिक्रिया को संयोजित करता है
वेरिएंट: कम-नमूना प्रदर्शन के साथ और बिना प्रभाव का अलग से मूल्यांकन

3. समानांतर स्केलिंग

प्रवाह: (SW > EX <> SR) ∥ 5 > MV / CS
तंत्र: कई उम्मीदवार उत्तर उत्पन्न करता है, बहुमत मतदान के माध्यम से अंतिम उत्तर का चयन करता है; यदि कोई बहुमत नहीं है, तो उम्मीदवार चयनकर्ता एजेंट का उपयोग करता है

4. परिणाम सत्यापन

प्रवाह: SW > EX <> SR <> FP
उद्देश्य: वाक्यात्मक रूप से सही लेकिन शब्दार्थ रूप से गलत SQL क्वेरी को संभालता है, प्रतिक्रिया प्रदाता के माध्यम से अनुकूलन की आवश्यकता का निर्णय लेता है

5. पुनर्प्राप्ति-आधारित संरचित तर्क

प्रवाह: KE > (ER ∥ CR) > SW > EX <> SR
अनुकूलित: CHESS विधि से
चरण:
- कीवर्ड निष्कर्षक प्रश्न में कीवर्ड की पहचान करता है
- इकाई पुनर्प्राप्तकर्ता (LSH इंडेक्स पर आधारित) और स्तंभ पुनर्प्राप्तकर्ता (शब्दार्थ समानता पर आधारित) को समानांतर में चलाता है
- पुनर्प्राप्त जानकारी को SQL लेखक को पास करता है

तकनीकी नवाचार बिंदु

हल्का डिजाइन: औद्योगिक-तैयार वर्कफ़्लो पर केंद्रित, साहित्य में जटिल विधियों के बजाय
बहु-मॉडल तुलना: सामान्य मॉडल (GPT-4o, Gemini श्रृंखला) और तर्क मॉडल (o4-mini) दोनों का एक साथ मूल्यांकन
व्यापक मूल्यांकन: सटीकता, विलंबता और संसाधन खपत के बहु-आयामी मूल्यांकन ढांचे को जोड़ता है

प्रयोगात्मक सेटअप

डेटासेट

नाम: BIRD Mini-Dev बेंचमार्क
आकार: 500 प्रश्न-SQL जोड़े
स्रोत: मूल BIRD Dev संग्रह से व्युत्पन्न उपसमुच्चय
विशेषता: जटिल क्रॉस-टेबल क्वेरी और वास्तविक-विश्व डेटाबेस परिदृश्य शामिल

मूल्यांकन मेट्रिक्स

सटीकता मेट्रिक्स

Soft F1-Score: भविष्यवाणी की गई क्वेरी और वास्तविक क्वेरी द्वारा उत्पन्न तालिकाओं की समानता को मापकर SQL क्वेरी सटीकता का मूल्यांकन करता है
निष्पादन सटीकता (EX): वास्तविक परिणाम के समान SQL क्वेरी उत्पन्न करने वाले प्रतिशत
पुरस्कार-आधारित वैध दक्षता स्कोर (R-VES): सही और अनुकूलित SQL क्वेरी उत्पन्न करने की मॉडल दक्षता को मापता है

प्रणाली प्रदर्शन मेट्रिक्स

निष्पादन त्रुटि दर: वर्कफ़्लो में वाक्यात्मक निष्पादन त्रुटि का सामना करने वाले कार्यों का प्रतिशत
अनुमान समय: उपयोगकर्ता प्रश्न प्राप्त करने से SQL क्वेरी उत्पन्न करने तक की अवधि (सेकंड में)
LLM कॉल की संख्या: वर्कफ़्लो में उपयोग की जाने वाली औसत LLM कॉल संख्या
टोकन गणना: एकल SQL क्वेरी उत्पन्न करने के लिए आवश्यक औसत प्रॉम्प्ट और समापन टोकन (हजारों में)

तुलनात्मक विधि

चार LLMs:

Gemini 1.5 Flash (सामान्य मॉडल)
Gemini 2.5 Flash (सामान्य मॉडल)
GPT-4o (सामान्य मॉडल)
o4-mini (तर्क मॉडल)

कार्यान्वयन विवरण

सभी वर्कफ़्लो में वाक्यात्मक मरम्मत पुनरावृत्ति शामिल है
विलंबता माप कई कारकों से प्रभावित होता है (मॉडल क्षेत्र, नेटवर्क विलंबता, सर्वर संसाधन आदि)
दक्षता विचार के लिए BIRD Mini-Dev का उपयोग करके मूल्यांकन

प्रयोगात्मक परिणाम

मुख्य परिणाम

RQ1: तर्क मॉडल बनाम सामान्य मॉडल का प्रदर्शन

मुख्य खोज: DC 3-shot+ReAct वर्कफ़्लो सभी मॉडल के लिए Soft-F1 स्कोर में लगातार सुधार करता है
GPT-4o: आधार रेखा 61.1 से 64.4 तक सुधार
o4-mini: आधार रेखा 56.3 से 65.5 तक सुधार
निष्कर्ष: विशेषज्ञ तर्क मॉडल भी स्पष्ट प्रोग्रामेटिक निर्देश से लाभान्वित हो सकते हैं

RQ2: सबसे प्रभावी स्केलिंग विधि

सर्वोत्तम संयोजन: Divide-and-Conquer + कम-नमूना प्रदर्शन + ReAct सभी मॉडल पर सुसंगत सुधार प्रदान करता है
सत्यापन विधि: अधिकांश मॉडल पर विश्वसनीय प्रदर्शन सुधार प्रदान करता है
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
पुनर्प्राप्ति-संवर्धित विधि: समग्र रूप से खराब प्रदर्शन करता है, लगभग सभी मॉडल पर DC 3-shot+ReAct से कम है

RQ3: सटीकता और प्रणाली प्रदर्शन का व्यापार-बंद

विलंबता में महत्वपूर्ण अंतर:
- Gemini Flash मॉडल: 5.02-12.03 सेकंड
- GPT-4o और o4-mini: 15.70-18.43 सेकंड
गलत उत्तर की लागत: गलत उत्तर सही उत्तर की तुलना में 19.58% अधिक समय लेते हैं
जटिलता प्रभाव: अधिक चुनौतीपूर्ण प्रश्नों को अधिक समय की आवश्यकता होती है, अधिक टोकन खपत होती है, और सटीकता अक्सर कम होती है

विलोपन प्रयोग

त्रुटि विश्लेषण के माध्यम से खोज:

गलत क्वेरी तर्क सभी विधियों और मॉडल में सबसे आम विफलता प्रकार है
पुनर्प्राप्ति-संवर्धित विधि लगातार इस समस्या को बढ़ाती है
पुनर्प्राप्ति विधि स्कीमा लिंकिंग त्रुटियों के अनुपात को भी बढ़ाती है

केस विश्लेषण

पेपर विस्तृत त्रुटि विश्लेषण करता है, o4-mini मॉडल का उपयोग करके विफल मामलों को वर्गीकृत करता है, यह पाता है कि पुनर्प्राप्ति-संवर्धित विधि जटिल तर्क कार्यों में मॉडल से महत्वपूर्ण जानकारी को वंचित कर सकती है, जिससे प्रदर्शन में गिरावट आती है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

आधार मॉडल का महत्व: शक्तिशाली आधार मॉडल वर्कफ़्लो जटिलता से अधिक महत्वपूर्ण है (Gemini 2.5 Flash की आधार रेखा प्रदर्शन GPT-4o और Gemini 1.5 Flash की सबसे जटिल वर्कफ़्लो को पार करती है)
DC+कम-नमूना की सार्वभौमिकता: विभाजन-और-विजय निर्देश और कम-नमूना प्रदर्शन सभी मॉडल प्रकारों के लिए महत्वपूर्ण सुधार लाते हैं
जटिलता के सीमांत रिटर्न में कमी: वर्कफ़्लो जटिलता में वृद्धि हमेशा बेहतर परिणाम नहीं लाती है

सीमाएं

मूल्यांकन सीमा: केवल हल्की वर्कफ़्लो पर केंद्रित, अधिक जटिल डिजाइन के प्रदर्शन ऊपरी सीमा का प्रतिनिधित्व नहीं कर सकता
एकल डेटासेट: केवल BIRD Mini-Dev पर मूल्यांकन, व्यापक सत्यापन की कमी
विलंबता मेट्रिक्स की सापेक्षता: रिपोर्ट की गई विलंबता और टोकन खपत बाहरी कारकों से प्रभावित होती है, इसे निरपेक्ष मान के बजाय संकेतक के रूप में माना जाना चाहिए

भविष्य की दिशा

अधिक जटिल वर्कफ़्लो डिजाइन की परीक्षा करना
व्यापक डेटासेट पर निष्कर्षों को सत्यापित करना
अन्य कार्यों में इन रणनीतियों की प्रयोज्यता की खोज करना
उपयोगकर्ता अपेक्षाओं को प्रबंधित करने के लिए उत्पाद डिजाइन अनुकूलन

गहन मूल्यांकन

शक्तियां

व्यावहारिक अभिविन्यास: औद्योगिक-तैयार समाधानों पर केंद्रित, व्यावहारिक तैनाती की बाधाओं पर विचार किया गया
बहु-आयामी मूल्यांकन: केवल सटीकता नहीं, बल्कि विलंबता और संसाधन खपत पर भी विचार, व्यावहारिक अनुप्रयोगों के लिए व्यापक दृष्टिकोण प्रदान करता है
व्यवस्थित तुलना: सामान्य मॉडल और तर्क मॉडल दोनों का एक साथ मूल्यांकन, मूल्यवान तुलनात्मक अंतर्दृष्टि प्रदान करता है
विस्तृत त्रुटि विश्लेषण: त्रुटि वर्गीकरण के माध्यम से विभिन्न विधियों की विफलता पैटर्न को गहराई से समझता है

कमियां

नमूना आकार सीमा: केवल 500 नमूने के साथ BIRD Mini-Dev का उपयोग, निष्कर्षों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
मॉडल कवरेज अधूरा: अन्य मुख्यधारा मॉडल (Claude, LLaMA श्रृंखला आदि) की तुलना की कमी
वर्कफ़्लो डिजाइन रूढ़िवादी: हल्की विधियों पर केंद्रित होने से अधिक उन्नत तकनीकों की क्षमता छूट सकती है
उपयोगकर्ता अनुसंधान की कमी: वास्तविक उपयोगकर्ता के उपयोग अनुभव का मूल्यांकन नहीं

प्रभाव

शैक्षणिक योगदान: Text2SQL क्षेत्र के परीक्षण-समय स्केलिंग रणनीतियों के लिए व्यवस्थित बेंचमार्क प्रदान करता है
औद्योगिक मूल्य: Text2SQL प्रणालियों की एंटरप्राइज तैनाती के लिए व्यावहारिक मार्गदर्शन प्रदान करता है
पद्धति संबंधी प्रेरणा: बहु-आयामी मूल्यांकन ढांचा अन्य NLP कार्यों की औद्योगिक तैनाती पर लागू किया जा सकता है

प्रयोज्य परिदृश्य

एंटरप्राइज डेटाबेस क्वेरी: तेजी से तैनाती, सटीकता और दक्षता को संतुलित करने की आवश्यकता वाले एंटरप्राइज वातावरण के लिए उपयुक्त
प्रोटोटाइप विकास: Text2SQL प्रणालियों के तेजी से प्रोटोटाइप विकास के लिए सत्यापित वर्कफ़्लो पैटर्न प्रदान करता है
मॉडल चयन मार्गदर्शन: विकासकर्ताओं को विशिष्ट आवश्यकताओं के अनुसार उपयुक्त आधार मॉडल और वर्कफ़्लो रणनीति चुनने में मदद करता है

संदर्भ

पेपर Text2SQL क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

BIRD बेंचमार्क डेटासेट (Li et al., 2023)
DIN-SQL विघटन विधि (Pourreza & Rafiei, 2023)
CHESS संदर्भ संश्लेषण (Talaei et al., 2024)
ReAct तर्क ढांचा (Yao et al., 2023)
Chain-of-Thought संकेत (Wei et al., 2022)

यह अनुसंधान Text2SQL प्रणालियों की व्यावहारिक तैनाती के लिए मूल्यवान अनुभवजन्य मार्गदर्शन प्रदान करता है, विशेषकर सटीकता, दक्षता और जटिलता को संतुलित करने के संदर्भ में। इसके निष्कर्ष Text2SQL तकनीक को अनुसंधान प्रोटोटाइप से औद्योगिक अनुप्रयोग में परिवर्तित करने को आगे बढ़ाने के लिए महत्वपूर्ण हैं।