2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL: वेक्टर-आधारित स्कीमा लिंकिंग और निष्पादन-निर्देशित स्व-सुधार के साथ एक हल्का और कुशल टेक्स्ट-टू-SQL फ्रेमवर्क

मूल जानकारी

  • पेपर ID: 2510.09014
  • शीर्षक: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
  • लेखक: Shengmin Piao, Jieun Lee, Sanghyun Park (Yonsei University)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: अक्टूबर 2024
  • पेपर लिंक: https://arxiv.org/abs/2510.09014

सारांश

टेक्स्ट-टू-SQL कार्य प्राकृतिक भाषा प्रश्नों को SQL क्वेरी में परिवर्तित करता है, जिससे गैर-विशेषज्ञ उपयोगकर्ताओं को सहज डेटाबेस इंटरैक्शन प्रदान होता है। यद्यपि बड़े भाषा मॉडल (LLMs) पर आधारित विधियां उत्कृष्ट प्रदर्शन करती हैं, लेकिन मालिकाना मॉडल पर निर्भरता से तैनाती की व्यवहार्यता और डेटा गोपनीयता संबंधी चिंताएं उत्पन्न होती हैं। यह पेपर LitE-SQL प्रस्तावित करता है, एक हल्का और कुशल फ्रेमवर्क जिसमें दो मुख्य घटक हैं: (i) Schema Retriever, पूर्व-गणना किए गए स्कीमा एम्बेडिंग के साथ वेक्टर डेटाबेस का उपयोग करके कुशल स्कीमा लिंकिंग करता है; (ii) SQL Generator, दो-चरणीय सूक्ष्म-ट्यूनिंग (पर्यवेक्षित सूक्ष्म-ट्यूनिंग + निष्पादन-निर्देशित सुदृढ़ीकरण सीखना) के माध्यम से स्व-सुधार प्राप्त करता है, महंगे बहु-उम्मीदवार जनरेशन की आवश्यकता के बिना। BIRD डेटासेट पर, LitE-SQL 72.10% निष्पादन सटीकता प्राप्त करता है, Spider 1.0 पर 88.45%, हालांकि पैरामीटर संख्या LLM विधियों का केवल 1/2 से 1/30 है, लेकिन प्रदर्शन तुलनीय या बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

टेक्स्ट-टू-SQL कार्य का उद्देश्य प्राकृतिक भाषा प्रश्नों को संबंधित SQL क्वेरी में परिवर्तित करना है, जिससे गैर-पेशेवर उपयोगकर्ताओं के लिए संरचित डेटाबेस तक पहुंच कम हो जाती है। यह कार्य व्यावहारिक अनुप्रयोगों में महत्वपूर्ण मूल्य रखता है, लेकिन क्रॉस-डोमेन सामान्यीकरण और जटिल क्वेरी जनरेशन की चुनौतियों का सामना करता है।

मौजूदा विधियों की सीमाएं

  1. LLM निर्भरता समस्या: वर्तमान मुख्यधारा की विधियां GPT-4, Gemini जैसे मालिकाना बड़े मॉडल पर निर्भर करती हैं, जिनमें डेटा गोपनीयता रिसाव का जोखिम है, तैनाती की लागत अधिक है
  2. कम्प्यूटेशनल संसाधन खपत: पूर्ण स्कीमा जानकारी इनपुट संदर्भ लंबाई में वृद्धि का कारण बनता है, स्व-ध्यान तंत्र की द्विघात जटिलता विशाल मेमोरी खपत का कारण बनती है
  3. बहु-उम्मीदवार जनरेशन ओवरहेड: मौजूदा विधियां कई उम्मीदवार क्वेरी जनरेट करके सर्वोत्तम समाधान चुनती हैं, कम्प्यूटेशनल लागत महत्वपूर्ण है

अनुसंधान प्रेरणा

उपरोक्त समस्याओं को संबोधित करते हुए, यह पेपर एक हल्का, कुशल टेक्स्ट-टू-SQL फ्रेमवर्क विकसित करने का लक्ष्य रखता है, जो प्रतिस्पर्धी प्रदर्शन बनाए रखते हुए पैरामीटर संख्या और कम्प्यूटेशनल लागत को काफी हद तक कम करता है, गोपनीयता-संवेदनशील और संसाधन-सीमित परिस्थितियों के लिए उपयुक्त है।

मुख्य योगदान

  1. LitE-SQL फ्रेमवर्क प्रस्तावित करना: पहली पूरी तरह से वेक्टर डेटाबेस-संचालित स्कीमा लिंकिंग विधि, हल्के SQL जनरेटर के साथ संयुक्त
  2. नवीन HN-SupCon हानि फ़ंक्शन: कठोर नकारात्मक नमूना फ़िल्टरिंग के माध्यम से पर्यवेक्षित विपरीत सीखना एम्बेडिंग स्पेस को अनुकूलित करता है
  3. दो-चरणीय प्रशिक्षण रणनीति: पर्यवेक्षित सूक्ष्म-ट्यूनिंग + निष्पादन-निर्देशित सुदृढ़ीकरण सीखना, कुशल स्व-त्रुटि सुधार प्राप्त करता है
  4. महत्वपूर्ण दक्षता वृद्धि: BIRD और Spider 1.0 डेटासेट पर प्रतिस्पर्धी प्रदर्शन प्राप्त करता है, पैरामीटर संख्या मौजूदा विधियों का केवल 1/2 से 1/30 है

विधि विवरण

कार्य परिभाषा

प्राकृतिक भाषा प्रश्न Q और डेटाबेस स्कीमा S दिए गए, टेक्स्ट-टू-SQL कार्य SQL क्वेरी जनरेट करने की आवश्यकता है, जिससे लक्ष्य डेटाबेस पर इसके निष्पादन परिणाम स्वर्ण-मानक क्वेरी के अनुरूप हों।

मॉडल आर्किटेक्चर

1. Schema Retriever (स्कीमा पुनर्प्राप्तकर्ता)

मुख्य डिजाइन:

  • प्रत्येक कॉलम को कॉलम नाम, विवरण, तालिका नाम और मान विवरण युक्त घने एम्बेडिंग के रूप में एन्कोड करता है
  • स्कीमा एम्बेडिंग पूर्व-गणना करता है और वेक्टर डेटाबेस में संग्रहीत करता है
  • अनुमान समय पर केवल प्रश्न को एन्कोड करता है, कोसाइन समानता के माध्यम से शीर्ष-k संबंधित कॉलम पुनः प्राप्त करता है

HN-SupCon हानि फ़ंक्शन:

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

जहां s(·,·) कोसाइन समानता को दर्शाता है, τ तापमान पैरामीटर है, mij मास्क फ़ंक्शन है, जिसका उपयोग सरल नकारात्मक नमूनों को फ़िल्टर करने के लिए किया जाता है, शब्दार्थ समान लेकिन कार्यात्मक रूप से असंबंधित कठोर नकारात्मक नमूनों पर ध्यान केंद्रित करता है।

2. SQL Generator (SQL जनरेटर)

दो-चरणीय प्रशिक्षण रणनीति:

चरण 1: पर्यवेक्षित सूक्ष्म-ट्यूनिंग (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • प्राकृतिक भाषा प्रश्न और स्कीमा जानकारी से SQL क्वेरी तक सशर्त मानचित्रण सीखता है
  • प्रशिक्षण और अनुमान संगति सुनिश्चित करने के लिए यादृच्छिक नमूना असंबंधित स्कीमा जानकारी के माध्यम से डेटा संवर्धन करता है

चरण 2: सुदृढ़ीकरण सूक्ष्म-ट्यूनिंग (RFT) सीधी प्राथमिकता अनुकूलन (DPO) का उपयोग करता है:

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • निष्पादन परिणामों के आधार पर प्राथमिकता जोड़ी बनाता है: सफलतापूर्वक निष्पादित क्वेरी विफल क्वेरी से बेहतर हैं
  • स्व-सुधार प्रशिक्षण के लिए त्रुटि संदेशों को संयोजित करता है

तकनीकी नवाचार बिंदु

  1. वेक्टर डेटाबेस-संचालित स्कीमा लिंकिंग: मौजूदा विधियों की तुलना में जो हर बार स्कीमा को पुनः एन्कोड करती हैं, यह विधि केवल प्रश्न को एन्कोड करती है, दक्षता में काफी सुधार करती है
  2. कठोर नकारात्मक नमूना फ़िल्टरिंग तंत्र: HN-SupCon हानि शब्दार्थ समान लेकिन कार्यात्मक रूप से असंबंधित कॉलम को अलग करने पर ध्यान केंद्रित करती है, पुनर्प्राप्ति गुणवत्ता में सुधार करती है
  3. निष्पादन-निर्देशित स्व-सुधार: SQL निष्पादन प्रतिक्रिया का उपयोग सुदृढ़ीकरण सीखने के लिए करता है, बहु-उम्मीदवार जनरेशन की कम्प्यूटेशनल लागत से बचता है

प्रायोगिक सेटअप

डेटासेट

  • BIRD: 95 बड़े डेटाबेस, 37 पेशेवर डोमेन, 9376 प्रशिक्षण नमूने, 1534 सत्यापन नमूने
  • Spider 1.0: 200 डेटाबेस, 138 डोमेन, 8659 प्रशिक्षण नमूने, 1034 सत्यापन नमूने, 2147 परीक्षण नमूने

मूल्यांकन मेट्रिक्स

  1. निष्पादन सटीकता (EX): पूर्वानुमानित SQL और स्वर्ण-मानक SQL निष्पादन परिणामों की सामंजस्य
  2. सच्चा सकारात्मक दर (TPR): पुनः प्राप्त संबंधित कॉलम का स्वर्ण-मानक संबंधित कॉलम का अनुपात
  3. झूठा सकारात्मक दर (FPR): पुनः प्राप्त असंबंधित कॉलम का कुल पुनः प्राप्त कॉलम का अनुपात
  4. स्कीमा लिंकिंग रिकॉल दर (SLR): सभी संबंधित कॉलम पूरी तरह से पुनः प्राप्त करने वाली क्वेरी का अनुपात

तुलना विधियां

  • संदर्भ सीखना विधियां: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL आदि
  • सूक्ष्म-ट्यूनिंग विधियां: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL आदि

कार्यान्वयन विवरण

  • एम्बेडिंग मॉडल: Qwen3-0.6B-Embedding
  • SQL जनरेटर: Qwen2.5-Coder (1.5B, 3B, 7B)
  • वेक्टर डेटाबेस: ChromaDB
  • प्रशिक्षण सेटअप: 4 A100 GPU, AdamW अनुकूलक, LoRA अनुकूलन

प्रायोगिक परिणाम

मुख्य परिणाम

विधि श्रेणीमॉडलपैरामीटरBIRD(Dev) EXSpider 1.0(Test) EX
संदर्भ सीखना
CHASE-SQLGemini 1.5200B73.0187.60
MCS-SQLGPT-4175B63.3689.60
सूक्ष्म-ट्यूनिंग विधि
Reasoning-SQLQwen2.5-Coder-14B14B72.2981.43
LitE-SQLQwen2.5-Coder-7B7B72.1088.45

मुख्य निष्कर्ष

  1. पैरामीटर दक्षता: 7B मॉडल अधिकांश 175B-200B पैरामीटर LLM विधियों को पार करता है
  2. क्रॉस-डोमेन सामान्यीकरण: BIRD पर MCS-SQL को 8.74% से पार करता है, Spider पर केवल 1.15% पीछे है
  3. सामंजस्यपूर्ण प्रदर्शन: समान आकार की सूक्ष्म-ट्यूनिंग विधियों की तुलना में, औसत सुधार 10.87%(BIRD) और 7.21%(Spider) है

विलोपन प्रयोग

घटक कॉन्फ़िगरेशनBIRD EXSpider EXसुधार परिमाण
आधार रेखा (कोई पुनर्प्राप्तकर्ता + जनरेटर नहीं)39.3161.61-
+Schema Retriever43.1664.28+3.85/+2.67
+SFT58.2183.56+18.90/+21.95
+RFT60.5684.35+21.25/+22.74

स्कीमा लिंकिंग प्रदर्शन विश्लेषण

आधार रेखा विधि के साथ तुलना (BIRD डेटासेट का उप-नमूना):

  • LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
  • CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
  • CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

यद्यपि FPR अधिक है, लेकिन SLR का लाभ झूठे सकारात्मक के प्रभाव की भरपाई करता है, और केवल 0.6B पैरामीटर का उपयोग करके 200B मॉडल के समान प्रदर्शन प्राप्त करता है।

स्व-सुधार प्रभाव विश्लेषण

  • पुनरावृत्ति लाभ में कमी: पहली स्व-सुधार सबसे बड़ा सुधार लाता है, बाद की पुनरावृत्तियां क्रमशः कम लाभ देती हैं
  • त्रुटि प्रकार सुधार: वाक्य रचना त्रुटि, कॉलम अस्तित्व नहीं, तालिका अस्तित्व नहीं आदि त्रुटि प्रकार सभी में महत्वपूर्ण कमी
  • पैमाने प्रभाव: बड़े मॉडल शब्दार्थ संरेखण में अधिक लाभ प्राप्त करते हैं

संबंधित कार्य

स्कीमा लिंकिंग अनुसंधान

  1. प्रारंभिक विधियां: वर्गीकरणकर्ता-आधारित कॉलम रैंकिंग
  2. LLM विधियां: बहु-चरणीय संकेत, बहु-एजेंट फ्रेमवर्क (CHESS)
  3. इस पेपर का नवाचार: पहली पूरी तरह से वेक्टर डेटाबेस-आधारित स्कीमा लिंकिंग विधि

SQL जनरेशन अनुसंधान

  1. संदर्भ सीखना: संरचित संकेत, कम-नमूना सीखना, स्व-संगति
  2. सूक्ष्म-ट्यूनिंग विधियां: डोमेन अनुकूलन, डेटा संवर्धन, कार्य अपघटन
  3. इस पेपर का योगदान: निष्पादन-निर्देशित सुदृढ़ीकरण सीखना स्व-सुधार तंत्र

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. हल्के वजन की व्यवहार्यता: उच्च गुणवत्ता वाली टेक्स्ट-टू-SQL जनरेशन हल्के मॉडल के माध्यम से संभव है
  2. दक्षता और प्रदर्शन संतुलन: पैरामीटर संख्या में काफी कमी करते हुए प्रतिस्पर्धी प्रदर्शन बनाए रखता है
  3. व्यावहारिक मूल्य: गोपनीयता-संवेदनशील और संसाधन-सीमित परिस्थितियों के लिए व्यावहारिक समाधान प्रदान करता है

सीमाएं

  1. निश्चित k मान समस्या: निश्चित संख्या में कॉलम पुनः प्राप्त करना अनिवार्य रूप से झूठे सकारात्मक का परिचय देता है
  2. शब्दार्थ त्रुटि पहचान: वर्तमान स्व-सुधार तंत्र मुख्य रूप से वाक्य रचना त्रुटि को संभालता है, शब्दार्थ रूप से सही लेकिन तार्किक रूप से गलत क्वेरी पर प्रभाव सीमित है

भविष्य की दिशाएं

  1. गतिशील पुनर्प्राप्ति रणनीति: प्रश्न जटिलता के आधार पर पुनः प्राप्त कॉलम संख्या को स्वचालित रूप से समायोजित करता है
  2. शब्दार्थ त्रुटि पहचान: शब्दार्थ त्रुटि को पकड़ने के लिए तंत्र विकसित करता है
  3. बहु-मोडल विस्तार: तालिका सामग्री और स्कीमा जानकारी को संयोजित करता है

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार टेक्स्ट-टू-SQL की स्कीमा लिंकिंग में वेक्टर डेटाबेस को व्यवस्थित रूप से लागू करता है
  2. उच्च व्यावहारिक मूल्य: LLM विधियों की गोपनीयता और तैनाती समस्याओं को हल करता है
  3. व्यापक प्रयोग: व्यापक विलोपन प्रयोग और त्रुटि विश्लेषण
  4. ठोस तकनीक: HN-SupCon हानि और दो-चरणीय प्रशिक्षण रणनीति डिजाइन तर्कसंगत है

कमियां

  1. सरल पुनर्प्राप्ति रणनीति: निश्चित k मान पुनर्प्राप्ति इष्टतम रणनीति नहीं हो सकती है
  2. त्रुटि प्रकार सीमा: स्व-सुधार मुख्य रूप से निष्पादन-योग्य पहचान योग्य त्रुटियों को संभालता है
  3. डेटासेट सीमा: मुख्य रूप से अंग्रेजी डेटासेट पर सत्यापित, बहु-भाषा सामान्यीकरण क्षमता अज्ञात है

प्रभाव

  1. शैक्षणिक मूल्य: हल्के वजन वाली टेक्स्ट-टू-SQL अनुसंधान के लिए नई सोच प्रदान करता है
  2. व्यावहारिक मूल्य: किनारे कंप्यूटिंग और गोपनीयता संरक्षण परिस्थितियों के लिए उपयुक्त है
  3. पुनरुत्पादनीयता: खुले स्रोत मॉडल पर आधारित, पुनरुत्पादन और विस्तार में आसान है

लागू परिस्थितियां

  1. संसाधन-सीमित वातावरण: किनारे उपकरण, मोबाइल अनुप्रयोग
  2. गोपनीयता-संवेदनशील परिस्थितियां: एंटरप्राइज आंतरिक डेटाबेस, चिकित्सा वित्त आदि क्षेत्र
  3. वास्तविक समय अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाली इंटरैक्टिव क्वेरी प्रणाली

संदर्भ

पेपर टेक्स्ट-टू-SQL डोमेन के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Spider और BIRD बेंचमार्क डेटासेट के मूल पेपर
  • मुख्य LLM-आधारित विधियां (DIN-SQL, CHESS, CHASE-SQL आदि)
  • सूक्ष्म-ट्यूनिंग विधियों के प्रतिनिधि कार्य (CodeS, OmniSQL आदि)
  • संबंधित तकनीकी आधार (DPO, LoRA, विपरीत सीखना आदि)