LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: إطار عمل خفيف الوزن وفعال لتحويل النصوص إلى SQL مع ربط المخطط القائم على المتجهات والتصحيح الذاتي الموجه بالتنفيذ
تحول مهمة تحويل النصوص إلى SQL الأسئلة باللغة الطبيعية إلى استعلامات SQL، مما يوفر طريقة حدسية للمستخدمين غير المتخصصين للتفاعل مع قواعد البيانات. على الرغم من أن الطرق القائمة على نماذج اللغة الكبيرة (LLMs) تظهر أداءً ممتازاً، إلا أن الاعتماد على النماذج المملوكة يثير مخاوف بشأن جدوى النشر وخصوصية البيانات. تقترح هذه الورقة LitE-SQL، وهو إطار عمل خفيف الوزن وفعال يتضمن مكونين أساسيين: (i) محسّن استرجاع المخطط (Schema Retriever)، الذي يستخدم قاعدة بيانات متجهة مع تضمينات مخطط محسوبة مسبقاً لإجراء ربط مخطط فعال؛ (ii) مولد SQL (SQL Generator)، الذي يحقق التصحيح الذاتي من خلال ضبط دقيق ثنائي المراحل (الضبط الدقيق الخاضع للإشراف + التعلم المعزز الموجه بالتنفيذ) دون الحاجة إلى توليد مرشحين متعددين مكلفين. على مجموعة بيانات BIRD، يحقق LitE-SQL دقة تنفيذ بنسبة 72.10%، وعلى Spider 1.0 يحقق 88.45%، على الرغم من أن عدد المعاملات يبلغ فقط 1/2 إلى 1/30 من طرق LLM، إلا أن الأداء مكافئة أو أفضل.
تهدف مهمة تحويل النصوص إلى SQL إلى تحويل الأسئلة باللغة الطبيعية إلى استعلامات SQL المقابلة، مما يقلل من حاجز دخول المستخدمين غير المتخصصين للوصول إلى قواعد البيانات المنظمة. تتمتع هذه المهمة بقيمة عملية مهمة في التطبيقات الفعلية، لكنها تواجه تحديات في التعميم عبر المجالات وتوليد الاستعلامات المعقدة.
مشكلة الاعتماد على LLM: تعتمد الطرق السائدة الحالية على نماذج كبيرة مملوكة مثل GPT-4 و Gemini، مع وجود مخاطر تسرب خصوصية البيانات وتكاليف نشر عالية
استهلاك الموارد الحسابية: إدخال معلومات المخطط الكاملة يؤدي إلى زيادة طول السياق بشكل كبير، والتعقيد التربيعي لآلية الانتباه الذاتي يسبب استهلاك ذاكرة ضخم
تكلفة توليد المرشحين المتعددين: تقوم الطرق الموجودة بتوليد استعلامات مرشحة متعددة واختيار الحل الأمثل، مما يؤدي إلى تكلفة حسابية كبيرة
لمعالجة المشاكل المذكورة أعلاه، تهدف هذه الورقة إلى تطوير إطار عمل خفيف الوزن وفعال لتحويل النصوص إلى SQL، والذي يحافظ على الأداء التنافسية مع تقليل عدد المعاملات والتكاليف الحسابية بشكل كبير، مما يجعله مناسباً للسيناريوهات الحساسة للخصوصية والمحدودة بالموارد.
بالنظر إلى سؤال باللغة الطبيعية Q ومخطط قاعدة البيانات S، تتطلب مهمة تحويل النصوص إلى SQL توليد استعلام SQL بحيث تتطابق نتائج تنفيذه على قاعدة البيانات المستهدفة مع استعلام المعيار الذهبي.
تشفير كل عمود كتضمين كثيف يتضمن اسم العمود والوصف واسم الجدول ووصف القيمة
حساب تضمينات المخطط مسبقاً وتخزينها في قاعدة بيانات متجهة
في وقت الاستدلال، يتم تشفير السؤال فقط، واسترجاع أفضل k أعمدة ذات صلة من خلال تشابه جيب التمام
دالة خسارة HN-SupCon:
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
حيث يمثل s(·,·) تشابه جيب التمام، و τ معامل درجة الحرارة، و mij دالة قناع تستخدم لتصفية العينات السلبية البسيطة والتركيز على العينات السلبية الصعبة التي تتمتع بتشابه دلالي لكن غير ذات صلة وظيفياً.
ربط المخطط المدفوع بقاعدة البيانات المتجهة: بالمقارنة مع الطرق الموجودة التي تعيد تشفير المخطط في كل مرة، تتطلب هذه الطريقة فقط تشفير السؤال، مما يحسن الكفاءة بشكل كبير
آلية تصفية العينات السلبية الصعبة: تركز خسارة HN-SupCon على التمييز بين الأعمدة التي تتمتع بتشابه دلالي لكن غير ذات صلة وظيفياً، مما يحسن جودة الاسترجاع
التصحيح الذاتي الموجه بالتنفيذ: الاستفادة من ردود فعل تنفيذ SQL للتعلم المعزز، مما يتجنب التكلفة الحسابية لتوليد مرشحين متعددين
على الرغم من معدل الإيجابيات الكاذبة الأعلى، إلا أن ميزة معدل استدعاء ربط المخطط تعوض تأثير الإيجابيات الكاذبة، وتحقق أداء مكافئة لنموذج 200B باستخدام 0.6B معامل فقط.
مشكلة قيمة k الثابتة: استرجاع عدد ثابت من الأعمدة يؤدي حتماً إلى إدخال إيجابيات كاذبة
كشف الأخطاء الدلالية: تركز آلية التصحيح الذاتي الحالية بشكل أساسي على أخطاء بناء الجملة، مع فعالية محدودة للاستعلامات الصحيحة من حيث البناء لكن الخاطئة منطقياً