LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: वेक्टर-आधारित स्कीमा लिंकिंग और निष्पादन-निर्देशित स्व-सुधार के साथ एक हल्का और कुशल टेक्स्ट-टू-SQL फ्रेमवर्क
टेक्स्ट-टू-SQL कार्य प्राकृतिक भाषा प्रश्नों को SQL क्वेरी में परिवर्तित करता है, जिससे गैर-विशेषज्ञ उपयोगकर्ताओं को सहज डेटाबेस इंटरैक्शन प्रदान होता है। यद्यपि बड़े भाषा मॉडल (LLMs) पर आधारित विधियां उत्कृष्ट प्रदर्शन करती हैं, लेकिन मालिकाना मॉडल पर निर्भरता से तैनाती की व्यवहार्यता और डेटा गोपनीयता संबंधी चिंताएं उत्पन्न होती हैं। यह पेपर LitE-SQL प्रस्तावित करता है, एक हल्का और कुशल फ्रेमवर्क जिसमें दो मुख्य घटक हैं: (i) Schema Retriever, पूर्व-गणना किए गए स्कीमा एम्बेडिंग के साथ वेक्टर डेटाबेस का उपयोग करके कुशल स्कीमा लिंकिंग करता है; (ii) SQL Generator, दो-चरणीय सूक्ष्म-ट्यूनिंग (पर्यवेक्षित सूक्ष्म-ट्यूनिंग + निष्पादन-निर्देशित सुदृढ़ीकरण सीखना) के माध्यम से स्व-सुधार प्राप्त करता है, महंगे बहु-उम्मीदवार जनरेशन की आवश्यकता के बिना। BIRD डेटासेट पर, LitE-SQL 72.10% निष्पादन सटीकता प्राप्त करता है, Spider 1.0 पर 88.45%, हालांकि पैरामीटर संख्या LLM विधियों का केवल 1/2 से 1/30 है, लेकिन प्रदर्शन तुलनीय या बेहतर है।
टेक्स्ट-टू-SQL कार्य का उद्देश्य प्राकृतिक भाषा प्रश्नों को संबंधित SQL क्वेरी में परिवर्तित करना है, जिससे गैर-पेशेवर उपयोगकर्ताओं के लिए संरचित डेटाबेस तक पहुंच कम हो जाती है। यह कार्य व्यावहारिक अनुप्रयोगों में महत्वपूर्ण मूल्य रखता है, लेकिन क्रॉस-डोमेन सामान्यीकरण और जटिल क्वेरी जनरेशन की चुनौतियों का सामना करता है।
LLM निर्भरता समस्या: वर्तमान मुख्यधारा की विधियां GPT-4, Gemini जैसे मालिकाना बड़े मॉडल पर निर्भर करती हैं, जिनमें डेटा गोपनीयता रिसाव का जोखिम है, तैनाती की लागत अधिक है
कम्प्यूटेशनल संसाधन खपत: पूर्ण स्कीमा जानकारी इनपुट संदर्भ लंबाई में वृद्धि का कारण बनता है, स्व-ध्यान तंत्र की द्विघात जटिलता विशाल मेमोरी खपत का कारण बनती है
बहु-उम्मीदवार जनरेशन ओवरहेड: मौजूदा विधियां कई उम्मीदवार क्वेरी जनरेट करके सर्वोत्तम समाधान चुनती हैं, कम्प्यूटेशनल लागत महत्वपूर्ण है
उपरोक्त समस्याओं को संबोधित करते हुए, यह पेपर एक हल्का, कुशल टेक्स्ट-टू-SQL फ्रेमवर्क विकसित करने का लक्ष्य रखता है, जो प्रतिस्पर्धी प्रदर्शन बनाए रखते हुए पैरामीटर संख्या और कम्प्यूटेशनल लागत को काफी हद तक कम करता है, गोपनीयता-संवेदनशील और संसाधन-सीमित परिस्थितियों के लिए उपयुक्त है।
प्राकृतिक भाषा प्रश्न Q और डेटाबेस स्कीमा S दिए गए, टेक्स्ट-टू-SQL कार्य SQL क्वेरी जनरेट करने की आवश्यकता है, जिससे लक्ष्य डेटाबेस पर इसके निष्पादन परिणाम स्वर्ण-मानक क्वेरी के अनुरूप हों।
प्रत्येक कॉलम को कॉलम नाम, विवरण, तालिका नाम और मान विवरण युक्त घने एम्बेडिंग के रूप में एन्कोड करता है
स्कीमा एम्बेडिंग पूर्व-गणना करता है और वेक्टर डेटाबेस में संग्रहीत करता है
अनुमान समय पर केवल प्रश्न को एन्कोड करता है, कोसाइन समानता के माध्यम से शीर्ष-k संबंधित कॉलम पुनः प्राप्त करता है
HN-SupCon हानि फ़ंक्शन:
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
जहां s(·,·) कोसाइन समानता को दर्शाता है, τ तापमान पैरामीटर है, mij मास्क फ़ंक्शन है, जिसका उपयोग सरल नकारात्मक नमूनों को फ़िल्टर करने के लिए किया जाता है, शब्दार्थ समान लेकिन कार्यात्मक रूप से असंबंधित कठोर नकारात्मक नमूनों पर ध्यान केंद्रित करता है।
वेक्टर डेटाबेस-संचालित स्कीमा लिंकिंग: मौजूदा विधियों की तुलना में जो हर बार स्कीमा को पुनः एन्कोड करती हैं, यह विधि केवल प्रश्न को एन्कोड करती है, दक्षता में काफी सुधार करती है
कठोर नकारात्मक नमूना फ़िल्टरिंग तंत्र: HN-SupCon हानि शब्दार्थ समान लेकिन कार्यात्मक रूप से असंबंधित कॉलम को अलग करने पर ध्यान केंद्रित करती है, पुनर्प्राप्ति गुणवत्ता में सुधार करती है
निष्पादन-निर्देशित स्व-सुधार: SQL निष्पादन प्रतिक्रिया का उपयोग सुदृढ़ीकरण सीखने के लिए करता है, बहु-उम्मीदवार जनरेशन की कम्प्यूटेशनल लागत से बचता है
यद्यपि FPR अधिक है, लेकिन SLR का लाभ झूठे सकारात्मक के प्रभाव की भरपाई करता है, और केवल 0.6B पैरामीटर का उपयोग करके 200B मॉडल के समान प्रदर्शन प्राप्त करता है।
निश्चित k मान समस्या: निश्चित संख्या में कॉलम पुनः प्राप्त करना अनिवार्य रूप से झूठे सकारात्मक का परिचय देता है
शब्दार्थ त्रुटि पहचान: वर्तमान स्व-सुधार तंत्र मुख्य रूप से वाक्य रचना त्रुटि को संभालता है, शब्दार्थ रूप से सही लेकिन तार्किक रूप से गलत क्वेरी पर प्रभाव सीमित है