2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL: إطار عمل خفيف الوزن وفعال لتحويل النصوص إلى SQL مع ربط المخطط القائم على المتجهات والتصحيح الذاتي الموجه بالتنفيذ

المعلومات الأساسية

  • معرّف الورقة: 2510.09014
  • العنوان: LitE-SQL: إطار عمل خفيف الوزن وفعال لتحويل النصوص إلى SQL مع ربط المخطط القائم على المتجهات والتصحيح الذاتي الموجه بالتنفيذ
  • المؤلفون: Shengmin Piao, Jieun Lee, Sanghyun Park (جامعة Yonsei)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: أكتوبر 2024
  • رابط الورقة: https://arxiv.org/abs/2510.09014

الملخص

تحول مهمة تحويل النصوص إلى SQL الأسئلة باللغة الطبيعية إلى استعلامات SQL، مما يوفر طريقة حدسية للمستخدمين غير المتخصصين للتفاعل مع قواعد البيانات. على الرغم من أن الطرق القائمة على نماذج اللغة الكبيرة (LLMs) تظهر أداءً ممتازاً، إلا أن الاعتماد على النماذج المملوكة يثير مخاوف بشأن جدوى النشر وخصوصية البيانات. تقترح هذه الورقة LitE-SQL، وهو إطار عمل خفيف الوزن وفعال يتضمن مكونين أساسيين: (i) محسّن استرجاع المخطط (Schema Retriever)، الذي يستخدم قاعدة بيانات متجهة مع تضمينات مخطط محسوبة مسبقاً لإجراء ربط مخطط فعال؛ (ii) مولد SQL (SQL Generator)، الذي يحقق التصحيح الذاتي من خلال ضبط دقيق ثنائي المراحل (الضبط الدقيق الخاضع للإشراف + التعلم المعزز الموجه بالتنفيذ) دون الحاجة إلى توليد مرشحين متعددين مكلفين. على مجموعة بيانات BIRD، يحقق LitE-SQL دقة تنفيذ بنسبة 72.10%، وعلى Spider 1.0 يحقق 88.45%، على الرغم من أن عدد المعاملات يبلغ فقط 1/2 إلى 1/30 من طرق LLM، إلا أن الأداء مكافئة أو أفضل.

السياق البحثي والدافع

تعريف المشكلة

تهدف مهمة تحويل النصوص إلى SQL إلى تحويل الأسئلة باللغة الطبيعية إلى استعلامات SQL المقابلة، مما يقلل من حاجز دخول المستخدمين غير المتخصصين للوصول إلى قواعد البيانات المنظمة. تتمتع هذه المهمة بقيمة عملية مهمة في التطبيقات الفعلية، لكنها تواجه تحديات في التعميم عبر المجالات وتوليد الاستعلامات المعقدة.

قيود الطرق الموجودة

  1. مشكلة الاعتماد على LLM: تعتمد الطرق السائدة الحالية على نماذج كبيرة مملوكة مثل GPT-4 و Gemini، مع وجود مخاطر تسرب خصوصية البيانات وتكاليف نشر عالية
  2. استهلاك الموارد الحسابية: إدخال معلومات المخطط الكاملة يؤدي إلى زيادة طول السياق بشكل كبير، والتعقيد التربيعي لآلية الانتباه الذاتي يسبب استهلاك ذاكرة ضخم
  3. تكلفة توليد المرشحين المتعددين: تقوم الطرق الموجودة بتوليد استعلامات مرشحة متعددة واختيار الحل الأمثل، مما يؤدي إلى تكلفة حسابية كبيرة

الدافع البحثي

لمعالجة المشاكل المذكورة أعلاه، تهدف هذه الورقة إلى تطوير إطار عمل خفيف الوزن وفعال لتحويل النصوص إلى SQL، والذي يحافظ على الأداء التنافسية مع تقليل عدد المعاملات والتكاليف الحسابية بشكل كبير، مما يجعله مناسباً للسيناريوهات الحساسة للخصوصية والمحدودة بالموارد.

المساهمات الأساسية

  1. اقتراح إطار عمل LitE-SQL: أول طريقة ربط مخطط تستفيد بالكامل من قواعد البيانات المتجهة، مع دمج مولد SQL خفيف الوزن
  2. دالة خسارة HN-SupCon مبتكرة: تحسين فضاء التضمين من خلال التعلم المقارن الخاضع للإشراف مع تصفية العينات السلبية الصعبة
  3. استراتيجية تدريب ثنائية المراحل: الضبط الدقيق الخاضع للإشراف + التعلم المعزز الموجه بالتنفيذ، لتحقيق التصحيح الذاتي الفعال
  4. تحسن كبير في الكفاءة: تحقيق أداء تنافسية على مجموعات بيانات BIRD و Spider 1.0، مع عدد معاملات يبلغ فقط 1/2 إلى 1/30 من الطرق الموجودة

شرح الطريقة

تعريف المهمة

بالنظر إلى سؤال باللغة الطبيعية Q ومخطط قاعدة البيانات S، تتطلب مهمة تحويل النصوص إلى SQL توليد استعلام SQL بحيث تتطابق نتائج تنفيذه على قاعدة البيانات المستهدفة مع استعلام المعيار الذهبي.

معمارية النموذج

1. محسّن استرجاع المخطط (Schema Retriever)

التصميم الأساسي:

  • تشفير كل عمود كتضمين كثيف يتضمن اسم العمود والوصف واسم الجدول ووصف القيمة
  • حساب تضمينات المخطط مسبقاً وتخزينها في قاعدة بيانات متجهة
  • في وقت الاستدلال، يتم تشفير السؤال فقط، واسترجاع أفضل k أعمدة ذات صلة من خلال تشابه جيب التمام

دالة خسارة HN-SupCon:

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

حيث يمثل s(·,·) تشابه جيب التمام، و τ معامل درجة الحرارة، و mij دالة قناع تستخدم لتصفية العينات السلبية البسيطة والتركيز على العينات السلبية الصعبة التي تتمتع بتشابه دلالي لكن غير ذات صلة وظيفياً.

2. مولد SQL (SQL Generator)

استراتيجية التدريب ثنائية المراحل:

المرحلة 1: الضبط الدقيق الخاضع للإشراف (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • تعلم التعيين الشرطي من الأسئلة باللغة الطبيعية ومعلومات المخطط إلى استعلامات SQL
  • تعزيز البيانات من خلال أخذ عينات عشوائية من معلومات المخطط غير ذات الصلة، مما يضمن الاتساق بين التدريب والاستدلال

المرحلة 2: الضبط الدقيق المعزز (RFT) باستخدام تحسين التفضيل المباشر (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • بناء أزواج التفضيل بناءً على نتائج التنفيذ: الاستعلامات المنفذة بنجاح تفضل على الاستعلامات الفاشلة
  • دمج رسائل الخطأ لتدريب التصحيح الذاتي

نقاط الابتكار التقني

  1. ربط المخطط المدفوع بقاعدة البيانات المتجهة: بالمقارنة مع الطرق الموجودة التي تعيد تشفير المخطط في كل مرة، تتطلب هذه الطريقة فقط تشفير السؤال، مما يحسن الكفاءة بشكل كبير
  2. آلية تصفية العينات السلبية الصعبة: تركز خسارة HN-SupCon على التمييز بين الأعمدة التي تتمتع بتشابه دلالي لكن غير ذات صلة وظيفياً، مما يحسن جودة الاسترجاع
  3. التصحيح الذاتي الموجه بالتنفيذ: الاستفادة من ردود فعل تنفيذ SQL للتعلم المعزز، مما يتجنب التكلفة الحسابية لتوليد مرشحين متعددين

إعداد التجارب

مجموعات البيانات

  • BIRD: 95 قاعدة بيانات كبيرة الحجم، 37 مجالاً متخصصاً، 9376 عينة تدريب، 1534 عينة تحقق
  • Spider 1.0: 200 قاعدة بيانات، 138 مجالاً، 8659 عينة تدريب، 1034 عينة تحقق، 2147 عينة اختبار

مؤشرات التقييم

  1. دقة التنفيذ (EX): اتساق نتائج تنفيذ SQL المتنبأ به مع SQL المعيار الذهبي
  2. معدل الإيجابيات الحقيقية (TPR): نسبة الأعمدة ذات الصلة المسترجعة إلى الأعمدة ذات الصلة بالمعيار الذهبي
  3. معدل الإيجابيات الكاذبة (FPR): نسبة الأعمدة غير ذات الصلة المسترجعة إلى إجمالي الأعمدة المسترجعة
  4. معدل استدعاء ربط المخطط (SLR): نسبة الاستعلامات التي تم استرجاع جميع الأعمدة ذات الصلة فيها

طرق المقارنة

  • طرق التعلم السياقي: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL وغيرها
  • طرق الضبط الدقيق: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL وغيرها

تفاصيل التنفيذ

  • نموذج التضمين: Qwen3-0.6B-Embedding
  • مولد SQL: Qwen2.5-Coder (1.5B, 3B, 7B)
  • قاعدة البيانات المتجهة: ChromaDB
  • إعدادات التدريب: 4 وحدات معالجة رسومات A100، محسّن AdamW، محول LoRA

نتائج التجارب

النتائج الرئيسية

فئة الطريقةالنموذجعدد المعاملاتBIRD(Dev) EXSpider 1.0(Test) EX
التعلم السياقي
CHASE-SQLGemini 1.5200B73.0187.60
MCS-SQLGPT-4175B63.3689.60
طرق الضبط الدقيق
Reasoning-SQLQwen2.5-Coder-14B14B72.2981.43
LitE-SQLQwen2.5-Coder-7B7B72.1088.45

النتائج الرئيسية

  1. كفاءة المعاملات: يتفوق نموذج 7B على معظم طرق LLM بـ 175B-200B معامل
  2. التعميم عبر المجالات: يتفوق على MCS-SQL بنسبة 8.74% على BIRD، ويتأخر فقط بنسبة 1.15% على Spider
  3. الأداء المتسقة: مقارنة بطرق الضبط الدقيق من نفس الحجم، متوسط تحسن 10.87% (BIRD) و 7.21% (Spider)

تجارب الاستئصال

إعداد المكونBIRD EXSpider EXحجم التحسن
الخط الأساسي (بدون محسّن + مولد)39.3161.61-
+ محسّن استرجاع المخطط43.1664.28+3.85/+2.67
+ الضبط الدقيق الخاضع للإشراف58.2183.56+18.90/+21.95
+ الضبط الدقيق المعزز60.5684.35+21.25/+22.74

تحليل أداء ربط المخطط

مقارنة مع طرق الخط الأساسي (مجموعة بيانات BIRD المأخوذة بعينات):

  • LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
  • CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
  • CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

على الرغم من معدل الإيجابيات الكاذبة الأعلى، إلا أن ميزة معدل استدعاء ربط المخطط تعوض تأثير الإيجابيات الكاذبة، وتحقق أداء مكافئة لنموذج 200B باستخدام 0.6B معامل فقط.

تحليل تأثير التصحيح الذاتي

  • تناقص العوائد التكرارية: يجلب التصحيح الذاتي الأول أكبر تحسن، مع تناقص العوائد تدريجياً في التكرارات اللاحقة
  • تحسن نوع الخطأ: تقل أخطاء بناء الجملة وعدم وجود الأعمدة وعدم وجود الجداول بشكل كبير
  • تأثير الحجم: تستفيد النماذج الأكبر أكثر من حيث محاذاة الدلالات

الأعمال ذات الصلة

بحث ربط المخطط

  1. الطرق المبكرة: ترتيب قائمة الأعمدة القائمة على المصنفات
  2. طرق LLM: المطالبات متعددة الخطوات، أطر العمل متعددة الوكلاء (CHESS)
  3. ابتكار هذه الورقة: أول طريقة ربط مخطط قائمة بالكامل على قواعد البيانات المتجهة

بحث توليد SQL

  1. التعلم السياقي: المطالبات المنظمة، التعلم من عدد قليل من الأمثلة، الاتساق الذاتي
  2. طرق الضبط الدقيق: التكيف مع المجال، تعزيز البيانات، تقسيم المهام
  3. مساهمة هذه الورقة: آلية التصحيح الذاتي للتعلم المعزز الموجه بالتنفيذ

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. جدوى النموذج الخفيف الوزن: إثبات أن توليد SQL عالي الجودة يمكن تحقيقه من خلال نماذج خفيفة الوزن
  2. توازن الكفاءة والأداء: الحفاظ على الأداء التنافسية مع تقليل عدد المعاملات بشكل كبير
  3. القيمة العملية: توفير حل عملي للسيناريوهات الحساسة للخصوصية والمحدودة بالموارد

القيود

  1. مشكلة قيمة k الثابتة: استرجاع عدد ثابت من الأعمدة يؤدي حتماً إلى إدخال إيجابيات كاذبة
  2. كشف الأخطاء الدلالية: تركز آلية التصحيح الذاتي الحالية بشكل أساسي على أخطاء بناء الجملة، مع فعالية محدودة للاستعلامات الصحيحة من حيث البناء لكن الخاطئة منطقياً

الاتجاهات المستقبلية

  1. استراتيجية الاسترجاع الديناميكي: ضبط عدد الأعمدة المسترجعة بشكل تكيفي بناءً على تعقيد السؤال
  2. كشف الأخطاء الدلالية: تطوير آليات لالتقاط الأخطاء الدلالية
  3. التوسع متعدد الأنماط: دمج محتوى الجداول ومعلومات المخطط

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول تطبيق منهجي لقواعد البيانات المتجهة في ربط مخطط تحويل النصوص إلى SQL
  2. قيمة عملية عالية: حل مشاكل الخصوصية والنشر لطرق LLM
  3. تجارب شاملة: تجارب استئصال شاملة وتحليل الأخطاء
  4. تقنية متينة: تصميم معقول لخسارة HN-SupCon واستراتيجية التدريب ثنائية المراحل

أوجه القصور

  1. استراتيجية الاسترجاع البسيطة: قد لا يكون استرجاع k ثابت هو الاستراتيجية المثلى
  2. قيود نوع الخطأ: يركز التصحيح الذاتي بشكل أساسي على الأخطاء القابلة للكشف بالتنفيذ
  3. قيود مجموعة البيانات: التحقق الرئيسي على مجموعات بيانات إنجليزية، مع عدم معرفة القدرة على التعميم متعدد اللغات

التأثير

  1. القيمة الأكاديمية: توفير أفكار جديدة لبحث تحويل النصوص إلى SQL الخفيف الوزن
  2. القيمة العملية: قابل للتطبيق في الحوسبة الطرفية وسيناريوهات حماية الخصوصية
  3. قابلية التكرار: قائم على نماذج مفتوحة المصدر، سهل التكرار والتوسع

السيناريوهات المطبقة

  1. البيئات المحدودة بالموارد: الأجهزة الطرفية والتطبيقات المحمولة
  2. السيناريوهات الحساسة للخصوصية: قواعد البيانات الداخلية للمؤسسات والمجالات الطبية والمالية
  3. التطبيقات في الوقت الفعلي: أنظمة الاستعلام التفاعلية التي تتطلب استجابة سريعة

المراجع

تستشهد الورقة بالأعمال المهمة في مجال تحويل النصوص إلى SQL، بما في ذلك:

  • الأوراق الأصلية لمجموعات بيانات Spider و BIRD المرجعية
  • الطرق الرئيسية القائمة على LLM (DIN-SQL, CHESS, CHASE-SQL وغيرها)
  • الأعمال الممثلة لطرق الضبط الدقيق (CodeS, OmniSQL وغيرها)
  • الأسس التقنية ذات الصلة (DPO, LoRA, التعلم المقارن وغيرها)