2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

基本信息

  • 论文ID: 2510.09014
  • 标题: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
  • 作者: Shengmin Piao, Jieun Lee, Sanghyun Park (Yonsei University)
  • 分类: cs.CL (Computational Linguistics)
  • 发表时间: 2024年10月
  • 论文链接: https://arxiv.org/abs/2510.09014

摘要

Text-to-SQL任务将自然语言问题转换为SQL查询,为非专家用户提供直观的数据库交互方式。虽然基于大语言模型(LLMs)的方法表现出色,但对专有模型的依赖引发了部署可行性和数据隐私的担忧。本文提出LitE-SQL,一个轻量高效的框架,包含两个核心组件:(i) Schema Retriever,使用预计算模式嵌入的向量数据库执行高效的模式链接;(ii) SQL Generator,通过两阶段微调(监督微调+执行引导强化学习)实现自纠正,无需昂贵的多候选生成。在BIRD数据集上,LitE-SQL达到72.10%的执行准确率,在Spider 1.0上达到88.45%,尽管参数量仅为LLM方法的1/2到1/30,但性能相当或更优。

研究背景与动机

问题定义

Text-to-SQL任务旨在将自然语言问题转换为相应的SQL查询,降低非专业用户访问结构化数据库的门槛。这一任务在实际应用中具有重要价值,但面临跨域泛化和复杂查询生成的挑战。

现有方法的局限性

  1. LLM依赖性问题:当前主流方法依赖GPT-4、Gemini等专有大模型,存在数据隐私泄露风险,部署成本高昂
  2. 计算资源消耗:完整模式信息输入导致上下文长度激增,自注意力机制的二次复杂度造成内存消耗巨大
  3. 多候选生成开销:现有方法通过生成多个候选查询并选择最优解,计算成本显著

研究动机

针对上述问题,本文旨在开发一个轻量级、高效的Text-to-SQL框架,在保持竞争性能的同时,显著降低参数量和计算成本,适用于隐私敏感和资源受限的场景。

核心贡献

  1. 提出LitE-SQL框架:首个完全利用向量数据库驱动的模式链接方法,结合轻量级SQL生成器
  2. 创新的HN-SupCon损失函数:通过硬负样本过滤的监督对比学习优化嵌入空间
  3. 两阶段训练策略:监督微调+执行引导强化学习,实现高效自纠错
  4. 显著的效率提升:在BIRD和Spider 1.0数据集上达到竞争性能,参数量仅为现有方法的1/2到1/30

方法详解

任务定义

给定自然语言问题Q和数据库模式S,Text-to-SQL任务要求生成SQL查询,使其在目标数据库上的执行结果与金标准查询一致。

模型架构

1. Schema Retriever(模式检索器)

核心设计

  • 将每个列编码为包含列名、描述、表名和值描述的密集嵌入
  • 预计算模式嵌入并存储在向量数据库中
  • 推理时仅编码问题,通过余弦相似度检索top-k相关列

HN-SupCon损失函数

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

其中s(·,·)表示余弦相似度,τ为温度参数,mij为掩码函数,用于过滤简单负样本,专注于语义相似但功能无关的硬负样本。

2. SQL Generator(SQL生成器)

两阶段训练策略

阶段1:监督微调(SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • 学习从自然语言问题和模式信息到SQL查询的条件映射
  • 通过随机采样无关模式信息进行数据增强,确保训练与推理一致性

阶段2:强化微调(RFT) 使用直接偏好优化(DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • 基于执行结果构建偏好对:成功执行的查询优于失败查询
  • 结合错误消息进行自纠正训练

技术创新点

  1. 向量数据库驱动的模式链接:相比现有方法每次重新编码模式,本方法仅需编码问题,显著提升效率
  2. 硬负样本过滤机制:HN-SupCon损失专注于区分语义相似但功能无关的列,提升检索质量
  3. 执行引导自纠正:利用SQL执行反馈进行强化学习,避免多候选生成的计算开销

实验设置

数据集

  • BIRD:95个大规模数据库,37个专业领域,9376训练样本,1534验证样本
  • Spider 1.0:200个数据库,138个领域,8659训练样本,1034验证样本,2147测试样本

评价指标

  1. 执行准确率(EX):预测SQL与金标准SQL执行结果的一致性
  2. 真正例率(TPR):检索到的相关列占金标准相关列的比例
  3. 假正例率(FPR):检索到的无关列占总检索列的比例
  4. 模式链接召回率(SLR):完全检索到所有相关列的查询比例

对比方法

  • 上下文学习方法:ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL等
  • 微调方法:CodeS, OmniSQL, DTS-SQL, Reasoning-SQL等

实现细节

  • 嵌入模型:Qwen3-0.6B-Embedding
  • SQL生成器:Qwen2.5-Coder (1.5B, 3B, 7B)
  • 向量数据库:ChromaDB
  • 训练设置:4个A100 GPU,AdamW优化器,LoRA适配

实验结果

主要结果

方法类别模型参数量BIRD(Dev) EXSpider 1.0(Test) EX
上下文学习
CHASE-SQLGemini 1.5200B73.0187.60
MCS-SQLGPT-4175B63.3689.60
微调方法
Reasoning-SQLQwen2.5-Coder-14B14B72.2981.43
LitE-SQLQwen2.5-Coder-7B7B72.1088.45

关键发现

  1. 参数效率:7B模型超越大部分175B-200B参数的LLM方法
  2. 跨域泛化:在BIRD上超越MCS-SQL 8.74%,在Spider上仅落后1.15%
  3. 一致性表现:相比同规模微调方法,平均提升10.87%(BIRD)和7.21%(Spider)

消融实验

组件配置BIRD EXSpider EX提升幅度
基线(无检索器+生成器)39.3161.61-
+Schema Retriever43.1664.28+3.85/+2.67
+SFT58.2183.56+18.90/+21.95
+RFT60.5684.35+21.25/+22.74

模式链接性能分析

与基线方法对比(子采样BIRD数据集):

  • LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
  • CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
  • CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

尽管FPR较高,但SLR的优势补偿了假正例的影响,且仅用0.6B参数达到与200B模型相当的性能。

自纠正效果分析

  • 迭代收益递减:首次自纠正带来最大提升,后续迭代收益逐渐减少
  • 错误类型改善:语法错误、列不存在、表不存在等错误类型均显著减少
  • 规模效应:larger模型在语义对齐方面受益更多

相关工作

模式链接研究

  1. 早期方法:基于分类器的列表排序
  2. LLM方法:多步提示、多智能体框架(CHESS)
  3. 本文创新:首个完全基于向量数据库的模式链接方法

SQL生成研究

  1. 上下文学习:结构化提示、少样本学习、自一致性
  2. 微调方法:领域适应、数据增强、任务分解
  3. 本文贡献:执行引导的强化学习自纠正机制

结论与讨论

主要结论

  1. 轻量级可行性:证明了高质量Text-to-SQL生成可通过轻量级模型实现
  2. 效率与性能平衡:在显著降低参数量的同时保持竞争性能
  3. 实用价值:为隐私敏感和资源受限场景提供实用解决方案

局限性

  1. 固定k值问题:检索固定数量列不可避免引入假正例
  2. 语义错误检测:当前自纠正机制主要处理语法错误,对语义正确但逻辑错误的查询效果有限

未来方向

  1. 动态检索策略:根据问题复杂度自适应调整检索列数
  2. 语义错误检测:开发捕获语义错误的机制
  3. 多模态扩展:结合表格内容和模式信息

深度评价

优点

  1. 创新性强:首次系统性地将向量数据库应用于Text-to-SQL的模式链接
  2. 实用价值高:解决了LLM方法的隐私和部署问题
  3. 实验充分:全面的消融实验和错误分析
  4. 技术扎实:HN-SupCon损失和两阶段训练策略设计合理

不足

  1. 检索策略简单:固定k值检索可能不是最优策略
  2. 错误类型局限:自纠正主要针对可执行检测的错误
  3. 数据集局限:主要在英文数据集上验证,多语言泛化能力未知

影响力

  1. 学术价值:为轻量级Text-to-SQL研究提供新思路
  2. 实用价值:适用于边缘计算和隐私保护场景
  3. 可复现性:基于开源模型,易于复现和扩展

适用场景

  1. 资源受限环境:边缘设备、移动应用
  2. 隐私敏感场景:企业内部数据库、医疗金融等领域
  3. 实时应用:需要快速响应的交互式查询系统

参考文献

论文引用了Text-to-SQL领域的重要工作,包括:

  • Spider和BIRD基准数据集的原始论文
  • 主要的LLM-based方法(DIN-SQL, CHESS, CHASE-SQL等)
  • 微调方法的代表性工作(CodeS, OmniSQL等)
  • 相关的技术基础(DPO, LoRA, 对比学习等)