Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- পেপার আইডি: 2510.10885
- শিরোনাম: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- লেখক: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল ভাষাবিজ্ঞান), cs.DB (ডাটাবেস)
- প্রকাশনা সম্মেলন: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- পেপার লিংক: https://arxiv.org/abs/2510.10885
বৃহৎ ভাষা মডেল (LLMs) ক্রমবর্ধমানভাবে Text-to-SQL সিস্টেমকে শক্তিশালী করছে, যা অ-বিশেষজ্ঞ ব্যবহারকারীদের প্রাকৃতিক ভাষা ব্যবহার করে শিল্প ডাটাবেস অনুসন্ধান করতে সক্ষম করে। যদিও পরীক্ষা-সময় স্কেলিং কৌশলগুলি LLM-ভিত্তিক সমাধানে প্রতিশ্রুতি প্রদর্শন করে, তবে বাস্তব প্রয়োগে এবং বিশেষত সর্বশেষ অনুমান মডেলে তাদের কার্যকারিতা অনিশ্চিত রয়ে গেছে। এই গবেষণা ছয়টি হালকা-ওজনের, শিল্প-কেন্দ্রিক পরীক্ষা-সময় স্কেলিং কৌশল এবং চারটি LLM (দুটি অনুমান মডেল সহ) এর বেঞ্চমার্ক করে, BIRD Mini-Dev বেঞ্চমার্কে তাদের কর্মক্ষমতা মূল্যায়ন করে। মান নির্ভুলতা মেট্রিক্স ছাড়াও, অনুমান বিলম্ব এবং টোকেন খরচও রিপোর্ট করা হয়, যা বাস্তব সিস্টেম স্থাপনার জন্য প্রাসঙ্গিক অন্তর্দৃষ্টি প্রদান করে। গবেষণা দেখায় যে বিভাজন-এবং-জয় প্রম্পটিং এবং কম-শট প্রদর্শন সাধারণ এবং অনুমান-ভিত্তিক LLM-এর কর্মক্ষমতা ক্রমাগত উন্নত করতে পারে। তবে অতিরিক্ত ওয়ার্কফ্লো পদক্ষেপ প্রবর্তন মিশ্র ফলাফল তৈরি করেছে, যেখানে ভিত্তি মডেলের পছন্দ গুরুত্বপূর্ণ ভূমিকা পালন করে।
এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: Text2SQL কাজে পরীক্ষা-সময় স্কেলিং কৌশলগুলি বিভিন্ন ধরনের LLM-এর জন্য কীভাবে কাজ করে, বিশেষত বাস্তব শিল্প প্রয়োগ পরিস্থিতিতে কর্মক্ষমতা ট্রেড-অফ সমস্যা।
- ব্যবহারিক মূল্য: Text2SQL সিস্টেম অ-প্রযুক্তিগত ব্যবহারকারীদের প্রাকৃতিক ভাষার মাধ্যমে এন্টারপ্রাইজ ডাটাবেস অ্যাক্সেস করতে সক্ষম করে, যা উল্লেখযোগ্য বাণিজ্যিক মূল্য রাখে
- প্রযুক্তিগত চ্যালেঞ্জ: OpenAI o-series এবং Gemini 2.5-এর মতো অনুমান মডেলের আবির্ভাবের সাথে, ঐতিহ্যবাহী ওয়ার্কফ্লো প্রকৌশলের পদ্ধতির প্রয়োজনীয়তা পুনর্মূল্যায়ন করা প্রয়োজন
- শিল্প চাহিদা: বাস্তব স্থাপনার জন্য নির্ভুলতা, বিলম্ব এবং জটিলতার মধ্যে ভারসাম্য বিবেচনা করা প্রয়োজন
- বিদ্যমান গবেষণা জটিল এজেন্ট ওয়ার্কফ্লোতে ফোকাস করে, কিন্তু শিল্প প্রয়োগে এটি অত্যধিক জটিল হতে পারে
- Text2SQL কাজে অনুমান মডেলের সিস্টেমেটিক মূল্যায়নের অভাব রয়েছে
- খুব কম গবেষণা একযোগে নির্ভুলতা এবং সিস্টেম কর্মক্ষমতা মেট্রিক্স (যেমন বিলম্ব, টোকেন খরচ) বিবেচনা করে
লেখক তিনটি মূল প্রশ্ন উপস্থাপন করেন:
- অনুমান মডেলের অগ্রগতি বিবেচনা করে, প্রচুর প্রম্পটিং এবং ওয়ার্কফ্লো প্রকৌশল এখনও মূল্যবান কিনা?
- কোন পরীক্ষা-সময় স্কেলিং কৌশলগুলি নির্ভুলতা এবং বিলম্বের ভারসাম্য সবচেয়ে ভালভাবে রাখতে পারে?
- শিল্প প্রয়োগের জন্য ওয়ার্কফ্লো কীভাবে অপ্টিমাইজ করা যায়?
- সিস্টেমেটিক বেঞ্চমার্কিং: ছয়টি হালকা-ওজনের, শিল্প-ভিত্তিক এজেন্ট ওয়ার্কফ্লোর ব্যাপক মূল্যায়ন, চারটি LLM (সাধারণ মডেল এবং অনুমান মডেল সহ) জুড়ে
- বহুমাত্রিক মূল্যায়ন: নির্ভুলতা মেট্রিক্স ছাড়াও, অনুমান বিলম্ব এবং টোকেন খরচের বিস্তারিত বিশ্লেষণ প্রদান করা হয়
- ব্যবহারিক অন্তর্দৃষ্টি: বিভাজন-এবং-জয় (Divide-and-Conquer) নির্দেশ এবং কম-শট প্রদর্শন সমস্ত মডেলে উল্লেখযোগ্য উন্নতি আনে এই আবিষ্কার
- শিল্প স্থাপনা নির্দেশনা: Text2SQL সিস্টেমের বাস্তব স্থাপনার জন্য নির্ভুলতা, দক্ষতা এবং জটিলতার ট্রেড-অফ সম্পর্কে কার্যকর নির্দেশনা প্রদান করা হয়
Text2SQL কাজ প্রাকৃতিক ভাষার প্রশ্নকে সম্পাদনযোগ্য SQL অনুসন্ধানে অনুবাদ করার লক্ষ্য রাখে। ইনপুট প্রাকৃতিক ভাষার প্রশ্ন এবং ডাটাবেস স্কিমা, আউটপুট সংশ্লিষ্ট SQL অনুসন্ধান।
- প্রক্রিয়া: SW > EX <> SR
- বর্ণনা: ReAct এজেন্টের "চিন্তা-কর্ম-পর্যবেক্ষণ" চক্র গ্রহণ করে, সম্পাদন ত্রুটি বা খালি ডেটা সম্মুখীন হলে পুনরাবৃত্তিমূলকভাবে অনুসন্ধান অপ্টিমাইজ করে
- প্রক্রিয়া: SW > EX <> SR
- উদ্ভাবনী পয়েন্ট: জটিল সমস্যাকে ছোট উপ-সমস্যার একটি সিরিজে বিভক্ত করে, ক্রমানুসারে সমাধান করে এবং চূড়ান্ত প্রতিক্রিয়া একত্রিত করে
- বৈকল্পিক: কম-শট প্রদর্শন সহ এবং ছাড়া প্রভাব আলাদাভাবে মূল্যায়ন করা হয়
- প্রক্রিয়া: (SW > EX <> SR) ∥ 5 > MV / CS
- প্রক্রিয়া: একাধিক প্রার্থী উত্তর তৈরি করে, বহুমত দ্বারা চূড়ান্ত উত্তর নির্বাচন করে; কোন বহুমত না থাকলে, প্রার্থী নির্বাচক এজেন্ট ব্যবহার করে
- প্রক্রিয়া: SW > EX <> SR <> FP
- লক্ষ্য: বাক্যতাত্ত্বিকভাবে সঠিক কিন্তু অর্থগতভাবে ত্রুটিপূর্ণ SQL অনুসন্ধান পরিচালনা করে, প্রতিক্রিয়া প্রদানকারী অপ্টিমাইজেশনের প্রয়োজন কিনা তা নির্ধারণ করে
- প্রক্রিয়া: KE > (ER ∥ CR) > SW > EX <> SR
- অভিযোজিত: CHESS পদ্ধতি থেকে
- পদক্ষেপ:
- মূল শব্দ নির্ভুলকারী প্রশ্নে মূল শব্দ চিহ্নিত করে
- সমান্তরালভাবে সত্তা পুনরুদ্ধারকারী (LSH সূচক-ভিত্তিক) এবং কলাম পুনরুদ্ধারকারী (অর্থগত সাদৃশ্য-ভিত্তিক) চালায়
- পুনরুদ্ধার তথ্য SQL লেখকের কাছে পাঠায়
- হালকা-ওজনের ডিজাইন: সাহিত্যে জটিল পদ্ধতির পরিবর্তে শিল্প-প্রস্তুত ওয়ার্কফ্লোতে ফোকাস করে
- বহু-মডেল তুলনা: সাধারণ মডেল (GPT-4o, Gemini সিরিজ) এবং অনুমান মডেল (o4-mini) একযোগে মূল্যায়ন করে
- ব্যাপক মূল্যায়ন: নির্ভুলতা, বিলম্ব এবং সম্পদ খরচের বহুমাত্রিক মূল্যায়ন কাঠামো একত্রিত করে
- নাম: BIRD Mini-Dev বেঞ্চমার্ক
- স্কেল: 500টি প্রশ্ন-SQL জোড়া
- উৎস: মূল BIRD Dev সংগ্রহ থেকে উদ্ভূত উপসেট
- বৈশিষ্ট্য: জটিল ক্রস-টেবিল অনুসন্ধান এবং বাস্তব-বিশ্ব ডাটাবেস পরিস্থিতি অন্তর্ভুক্ত করে
- নরম F1-স্কোর: পূর্বাভাসিত অনুসন্ধান এবং সত্য অনুসন্ধান দ্বারা উৎপাদিত টেবিলের সাদৃশ্য পরিমাপ করে SQL অনুসন্ধান সঠিকতা মূল্যায়ন করে
- সম্পাদন নির্ভুলতা (EX): সত্য ফলাফলের সাথে সম্পূর্ণভাবে অভিন্ন SQL অনুসন্ধান তৈরি করার শতাংশ
- পুরস্কার-ভিত্তিক বৈধ দক্ষতা স্কোর (R-VES): মডেল সঠিক এবং অপ্টিমাইজড SQL অনুসন্ধান তৈরির দক্ষতা পরিমাণ করে
- সম্পাদন ত্রুটির হার: ওয়ার্কফ্লোতে বাক্যতাত্ত্বিক সম্পাদন ত্রুটির সম্মুখীন কাজের শতাংশ
- অনুমান সময়: ব্যবহারকারী প্রশ্ন গ্রহণ থেকে SQL অনুসন্ধান তৈরি পর্যন্ত সময়কাল (সেকেন্ডে)
- LLM কলের সংখ্যা: ওয়ার্কফ্লোতে ব্যবহৃত গড় LLM কল সংখ্যা
- টোকেন গণনা: একক SQL অনুসন্ধান তৈরির জন্য প্রয়োজনীয় গড় প্রম্পট এবং সমাপ্তি টোকেন সংখ্যা (হাজারে)
চারটি LLM:
- Gemini 1.5 Flash (সাধারণ মডেল)
- Gemini 2.5 Flash (সাধারণ মডেল)
- GPT-4o (সাধারণ মডেল)
- o4-mini (অনুমান মডেল)
- সমস্ত ওয়ার্কফ্লো বাক্যতাত্ত্বিক মেরামত পুনরাবৃত্তি অন্তর্ভুক্ত করে
- বিলম্ব পরিমাপ একাধিক কারণ দ্বারা প্রভাবিত হয় (মডেল অঞ্চল, নেটওয়ার্ক বিলম্ব, সার্ভার সম্পদ ইত্যাদি)
- দক্ষতা বিবেচনার মূল্যায়নের জন্য BIRD Mini-Dev ব্যবহার করা হয়
- মূল আবিষ্কার: DC 3-shot+ReAct ওয়ার্কফ্লো সমস্ত মডেলে ক্রমাগত নরম-F1 স্কোর বৃদ্ধি করে
- GPT-4o: ভিত্তিরেখা 61.1 থেকে 64.4 এ উন্নীত
- o4-mini: ভিত্তিরেখা 56.3 থেকে 65.5 এ উন্নীত
- সিদ্ধান্ত: এমনকি বিশেষায়িত অনুমান মডেলও স্পষ্ট প্রোগ্রামেটিক নির্দেশনা থেকে উপকৃত হতে পারে
- সর্বোত্তম সমন্বয়: বিভাজন-এবং-জয় + কম-শট প্রদর্শন + ReAct সমস্ত মডেলে সামঞ্জস্যপূর্ণ উন্নতি প্রদান করে
- যাচাইকরণ পদ্ধতি: বেশিরভাগ মডেলে নির্ভরযোগ্য কর্মক্ষমতা বৃদ্ধি প্রদান করে
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
- পুনরুদ্ধার-বর্ধিত পদ্ধতি: সামগ্রিকভাবে দুর্বল কর্মক্ষমতা, প্রায় সমস্ত মডেলে DC 3-shot+ReAct এর নিচে
- বিলম্ব পার্থক্য উল্লেখযোগ্য:
- Gemini Flash মডেল: 5.02-12.03 সেকেন্ড
- GPT-4o এবং o4-mini: 15.70-18.43 সেকেন্ড
- ত্রুটিপূর্ণ উত্তরের খরচ: ত্রুটিপূর্ণ উত্তর সঠিক উত্তরের চেয়ে 19.58% ধীর তৈরি হয়
- জটিলতার প্রভাব: আরও চ্যালেঞ্জিং প্রশ্নগুলি আরও সময় প্রয়োজন, আরও টোকেন খরচ করে এবং প্রায়শই কম নির্ভুলতা থাকে
ত্রুটি বিশ্লেষণের মাধ্যমে আবিষ্কৃত:
- ভুল অনুসন্ধান যুক্তি সমস্ত পদ্ধতি এবং মডেলে সবচেয়ে সাধারণ ব্যর্থতার ধরন
- পুনরুদ্ধার-বর্ধিত পদ্ধতি ক্রমাগত এই সমস্যা বাড়ায়
- পুনরুদ্ধার পদ্ধতি স্কিমা লিংকিং ত্রুটির অনুপাত বৃদ্ধি করে
পেপার o4-mini মডেল ব্যবহার করে ব্যর্থ কেসের বিস্তারিত ত্রুটি বিশ্লেষণ পরিচালনা করে, আবিষ্কার করে যে পুনরুদ্ধার-বর্ধিত পদ্ধতি জটিল যুক্তি কাজে মডেলকে গুরুত্বপূর্ণ তথ্য থেকে বঞ্চিত করতে পারে, কর্মক্ষমতা হ্রাস করে।
পেপার বিদ্যমান Text2SQL এজেন্ট ওয়ার্কফ্লো সিস্টেমেটিকভাবে পর্যালোচনা করে, যার মধ্যে রয়েছে:
- DIN-SQL এর বিয়োজন প্রসঙ্গ শিক্ষা
- MAC-SQL এর বহু-এজেন্ট সহযোগিতা কাঠামো
- CHESS এর প্রসঙ্গ SQL সংশ্লেষণ
- R3 এর ঐকমত্য বহু-এজেন্ট সিস্টেম
কাঠামোগত যুক্তি পদক্ষেপ, সমান্তরাল সম্পাদন, যাচাইকরণ এবং ফলাফল সমন্বয় সহ বিভিন্ন কৌশল অন্তর্ভুক্ত করে, এই পদ্ধতিগুলি অনুসন্ধান তৈরিকে মডুলার পদক্ষেপে বিয়োজিত করতে ক্রমানুসারী ওয়ার্কফ্লো গ্রহণ করে।
- ভিত্তি মডেলের গুরুত্ব: শক্তিশালী ভিত্তি মডেল ওয়ার্কফ্লো জটিলতার চেয়ে বেশি গুরুত্বপূর্ণ (Gemini 2.5 Flash ভিত্তিরেখা কর্মক্ষমতা GPT-4o এবং Gemini 1.5 Flash এর সবচেয়ে জটিল ওয়ার্কফ্লো অতিক্রম করে)
- DC+কম-শটের সর্বজনীনতা: বিভাজন-এবং-জয় নির্দেশ এবং কম-শট প্রদর্শন সমস্ত মডেল ধরনে উল্লেখযোগ্য উন্নতি প্রদান করে
- জটিলতার সীমান্ত হ্রাসমান রিটার্ন: ওয়ার্কফ্লো জটিলতা বৃদ্ধি সর্বদা ভাল ফলাফল নিয়ে আসে না
- মূল্যায়ন পরিসীমা সীমাবদ্ধতা: শুধুমাত্র হালকা-ওজনের ওয়ার্কফ্লোতে ফোকাস করে, আরও জটিল ডিজাইনের কর্মক্ষমতা সীমা প্রতিনিধিত্ব করতে পারে না
- ডেটাসেট একক: শুধুমাত্র BIRD Mini-Dev এ মূল্যায়ন করা হয়, আরও ব্যাপক যাচাইকরণের অভাব
- বিলম্ব মেট্রিক্সের আপেক্ষিকতা: রিপোর্ট করা বিলম্ব এবং টোকেন খরচ বাহ্যিক কারণ দ্বারা প্রভাবিত হয়, নিরঙ্কুশ মূল্যের পরিবর্তে নির্দেশক হিসাবে বিবেচনা করা উচিত
- আরও জটিল ওয়ার্কফ্লো ডিজাইন পরীক্ষা করা
- আরও ব্যাপক ডেটাসেটে আবিষ্কার যাচাই করা
- অন্যান্য কাজে এই কৌশলগুলির প্রয়োজনীয়তা অন্বেষণ করা
- ব্যবহারকারী প্রত্যাশা পরিচালনার জন্য পণ্য ডিজাইন অপ্টিমাইজেশন
- ব্যবহারিক অভিমুখ: শিল্প-প্রস্তুত সমাধানে ফোকাস করে, বাস্তব স্থাপনার সীমাবদ্ধতা বিবেচনা করে
- বহুমাত্রিক মূল্যায়ন: শুধুমাত্র নির্ভুলতা নয়, বিলম্ব এবং সম্পদ খরচও বিবেচনা করে, বাস্তব প্রয়োগের জন্য সামগ্রিক দৃষ্টিভঙ্গি প্রদান করে
- সিস্টেমেটিক তুলনা: সাধারণ মডেল এবং অনুমান মডেল একযোগে মূল্যায়ন করে, মূল্যবান তুলনামূলক অন্তর্দৃষ্টি প্রদান করে
- বিস্তারিত ত্রুটি বিশ্লেষণ: ত্রুটি শ্রেণীবিভাগের মাধ্যমে বিভিন্ন পদ্ধতির ব্যর্থতা প্যাটার্ন গভীরভাবে বোঝে
- নমুনা আকার সীমাবদ্ধতা: শুধুমাত্র 500টি নমুনার BIRD Mini-Dev ব্যবহার করে, সিদ্ধান্তের সাধারণীকরণকে প্রভাবিত করতে পারে
- মডেল কভারেজ অসম্পূর্ণ: অন্যান্য প্রধান মডেল (Claude, LLaMA সিরিজ) এর তুলনা অনুপস্থিত
- রক্ষণশীল ওয়ার্কফ্লো ডিজাইন: হালকা-ওজনের পদ্ধতিতে ফোকাস করে আরও উন্নত প্রযুক্তির সম্ভাবনা মিস করতে পারে
- ব্যবহারকারী গবেষণার অভাব: বাস্তব ব্যবহারকারীর অভিজ্ঞতা মূল্যায়ন নেই
- একাডেমিক অবদান: Text2SQL ক্ষেত্রে পরীক্ষা-সময় স্কেলিং কৌশলের জন্য সিস্টেমেটিক বেঞ্চমার্ক প্রদান করে
- শিল্প মূল্য: এন্টারপ্রাইজ Text2SQL সিস্টেম স্থাপনের জন্য ব্যবহারিক নির্দেশনা প্রদান করে
- পদ্ধতিগত অনুপ্রেরণা: বহুমাত্রিক মূল্যায়ন কাঠামো অন্যান্য NLP কাজের শিল্প স্থাপনে প্রয়োগ করা যেতে পারে
- এন্টারপ্রাইজ ডাটাবেস অনুসন্ধান: দ্রুত স্থাপনা, নির্ভুলতা এবং দক্ষতার ভারসাম্য প্রয়োজন এমন এন্টারপ্রাইজ পরিবেশের জন্য উপযুক্ত
- প্রোটোটাইপ উন্নয়ন: Text2SQL সিস্টেমের দ্রুত প্রোটোটাইপ উন্নয়নের জন্য যাচাইকৃত ওয়ার্কফ্লো প্যাটার্ন প্রদান করে
- মডেল নির্বাচন নির্দেশনা: নির্দিষ্ট প্রয়োজন অনুযায়ী উপযুক্ত ভিত্তি মডেল এবং ওয়ার্কফ্লো কৌশল নির্বাচনে বিকাশকারীদের সহায়তা করে
পেপার Text2SQL ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- BIRD বেঞ্চমার্ক ডেটাসেট (Li et al., 2023)
- DIN-SQL বিয়োজন পদ্ধতি (Pourreza & Rafiei, 2023)
- CHESS প্রসঙ্গ সংশ্লেষণ (Talaei et al., 2024)
- ReAct যুক্তি কাঠামো (Yao et al., 2023)
- Chain-of-Thought প্রম্পটিং (Wei et al., 2022)
এই গবেষণা Text2SQL সিস্টেমের বাস্তব স্থাপনার জন্য মূল্যবান অভিজ্ঞতামূলক নির্দেশনা প্রদান করে, বিশেষত নির্ভুলতা, দক্ষতা এবং জটিলতার ভারসাম্য রক্ষায়। এর আবিষ্কারগুলি Text2SQL প্রযুক্তিকে গবেষণা প্রোটোটাইপ থেকে শিল্প প্রয়োগে রূপান্তরিত করার জন্য উল্লেখযোগ্য গুরুত্ব রাখে।