2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

基本信息

论文ID: 2510.09014
标题: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
作者: Shengmin Piao, Jieun Lee, Sanghyun Park (Yonsei University)
分类: cs.CL (Computational Linguistics)
发表时间: 2024年10月
论文链接: https://arxiv.org/abs/2510.09014

摘要

Text-to-SQL任务将自然语言问题转换为SQL查询，为非专家用户提供直观的数据库交互方式。虽然基于大语言模型(LLMs)的方法表现出色，但对专有模型的依赖引发了部署可行性和数据隐私的担忧。本文提出LitE-SQL，一个轻量高效的框架，包含两个核心组件：(i) Schema Retriever，使用预计算模式嵌入的向量数据库执行高效的模式链接；(ii) SQL Generator，通过两阶段微调（监督微调+执行引导强化学习）实现自纠正，无需昂贵的多候选生成。在BIRD数据集上，LitE-SQL达到72.10%的执行准确率，在Spider 1.0上达到88.45%，尽管参数量仅为LLM方法的1/2到1/30，但性能相当或更优。

LLM依赖性问题：当前主流方法依赖GPT-4、Gemini等专有大模型，存在数据隐私泄露风险，部署成本高昂
计算资源消耗：完整模式信息输入导致上下文长度激增，自注意力机制的二次复杂度造成内存消耗巨大
多候选生成开销：现有方法通过生成多个候选查询并选择最优解，计算成本显著

研究动机

针对上述问题，本文旨在开发一个轻量级、高效的Text-to-SQL框架，在保持竞争性能的同时，显著降低参数量和计算成本，适用于隐私敏感和资源受限的场景。

核心贡献

提出LitE-SQL框架：首个完全利用向量数据库驱动的模式链接方法，结合轻量级SQL生成器
创新的HN-SupCon损失函数：通过硬负样本过滤的监督对比学习优化嵌入空间
两阶段训练策略：监督微调+执行引导强化学习，实现高效自纠错
显著的效率提升：在BIRD和Spider 1.0数据集上达到竞争性能，参数量仅为现有方法的1/2到1/30

将每个列编码为包含列名、描述、表名和值描述的密集嵌入
预计算模式嵌入并存储在向量数据库中
推理时仅编码问题，通过余弦相似度检索top-k相关列

HN-SupCon损失函数：

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

其中s(·,·)表示余弦相似度，τ为温度参数，mij为掩码函数，用于过滤简单负样本，专注于语义相似但功能无关的硬负样本。

2. SQL Generator（SQL生成器）

两阶段训练策略：

阶段1：监督微调(SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

学习从自然语言问题和模式信息到SQL查询的条件映射
通过随机采样无关模式信息进行数据增强，确保训练与推理一致性

阶段2：强化微调(RFT) 使用直接偏好优化(DPO)：

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

基于执行结果构建偏好对：成功执行的查询优于失败查询
结合错误消息进行自纠正训练

技术创新点

向量数据库驱动的模式链接：相比现有方法每次重新编码模式，本方法仅需编码问题，显著提升效率
硬负样本过滤机制：HN-SupCon损失专注于区分语义相似但功能无关的列，提升检索质量
执行引导自纠正：利用SQL执行反馈进行强化学习，避免多候选生成的计算开销

实验设置

数据集

BIRD：95个大规模数据库，37个专业领域，9376训练样本，1534验证样本
Spider 1.0：200个数据库，138个领域，8659训练样本，1034验证样本，2147测试样本

评价指标

执行准确率(EX)：预测SQL与金标准SQL执行结果的一致性
真正例率(TPR)：检索到的相关列占金标准相关列的比例
假正例率(FPR)：检索到的无关列占总检索列的比例
模式链接召回率(SLR)：完全检索到所有相关列的查询比例

对比方法

上下文学习方法：ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL等
微调方法：CodeS, OmniSQL, DTS-SQL, Reasoning-SQL等

实现细节

嵌入模型：Qwen3-0.6B-Embedding
SQL生成器：Qwen2.5-Coder (1.5B, 3B, 7B)
向量数据库：ChromaDB
训练设置：4个A100 GPU，AdamW优化器，LoRA适配

实验结果

主要结果

方法类别	模型	参数量	BIRD(Dev) EX	Spider 1.0(Test) EX
上下文学习
CHASE-SQL	Gemini 1.5	200B	73.01	87.60
MCS-SQL	GPT-4	175B	63.36	89.60
微调方法
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72.29	81.43
LitE-SQL	Qwen2.5-Coder-7B	7B	72.10	88.45