LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: Un Marco Ligero y Eficiente de Texto a SQL con Vinculación de Esquema Basada en Vectores y Autocorrección Guiada por Ejecución
La tarea de Texto a SQL convierte preguntas en lenguaje natural a consultas SQL, proporcionando a usuarios no especializados una forma intuitiva de interactuar con bases de datos. Aunque los métodos basados en modelos de lenguaje grandes (LLMs) muestran un desempeño excelente, la dependencia de modelos propietarios genera preocupaciones sobre la viabilidad del despliegue y la privacidad de datos. Este artículo propone LitE-SQL, un marco ligero y eficiente que contiene dos componentes principales: (i) Schema Retriever, que ejecuta vinculación de esquema eficiente utilizando una base de datos vectorial con incrustaciones de esquema precomputadas; (ii) SQL Generator, que implementa autocorrección mediante ajuste fino en dos etapas (ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución), sin requerir la costosa generación de múltiples candidatos. En el conjunto de datos BIRD, LitE-SQL alcanza una precisión de ejecución del 72.10%, y en Spider 1.0 alcanza el 88.45%, logrando un desempeño comparable o superior a pesar de tener solo 1/2 a 1/30 de los parámetros de los métodos basados en LLM.
La tarea de Texto a SQL tiene como objetivo convertir preguntas en lenguaje natural a consultas SQL correspondientes, reduciendo la barrera de acceso para usuarios no profesionales a bases de datos estructuradas. Esta tarea tiene un valor importante en aplicaciones prácticas, pero enfrenta desafíos en generalización entre dominios y generación de consultas complejas.
Problema de Dependencia de LLM: Los métodos actuales dependen de modelos grandes propietarios como GPT-4 y Gemini, con riesgos de fuga de privacidad de datos y altos costos de despliegue
Consumo de Recursos Computacionales: La entrada de información de esquema completo causa un aumento exponencial en la longitud del contexto, y la complejidad cuadrática del mecanismo de autoatención genera un consumo de memoria masivo
Costo de Generación de Múltiples Candidatos: Los métodos existentes generan múltiples consultas candidatas y seleccionan la solución óptima, incurriendo en costos computacionales significativos
Para abordar los problemas anteriores, este artículo tiene como objetivo desarrollar un marco de Texto a SQL ligero y eficiente que, mientras mantiene un desempeño competitivo, reduzca significativamente la cantidad de parámetros y el costo computacional, siendo aplicable a escenarios sensibles a la privacidad y con recursos limitados.
Propuesta del Marco LitE-SQL: Primer método de vinculación de esquema completamente impulsado por base de datos vectorial, combinado con un generador SQL ligero
Función de Pérdida HN-SupCon Innovadora: Optimiza el espacio de incrustación mediante aprendizaje contrastivo supervisado con filtrado de muestras negativas difíciles
Estrategia de Entrenamiento en Dos Etapas: Ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución, implementando autocorrección eficiente
Mejora Significativa de Eficiencia: Alcanza desempeño competitivo en los conjuntos de datos BIRD y Spider 1.0, con solo 1/2 a 1/30 de los parámetros de los métodos existentes
Dada una pregunta en lenguaje natural Q y un esquema de base de datos S, la tarea de Texto a SQL requiere generar una consulta SQL cuyo resultado de ejecución en la base de datos objetivo sea consistente con la consulta de referencia estándar.
Codifica cada columna como una incrustación densa que contiene nombre de columna, descripción, nombre de tabla y descripción de valores
Precomputa incrustaciones de esquema y las almacena en una base de datos vectorial
Durante la inferencia, solo codifica la pregunta y recupera las k columnas principales mediante similitud del coseno
Función de Pérdida HN-SupCon:
L_HN-SupCon = -1/B ∑(i=1 a B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 a Ni) mij * e^(s(qi,nij)/τ)
mij = {1 si qi⊙nij ≥ qi⊙pi - 0.1, 0 en otro caso}
Donde s(·,·) denota similitud del coseno, τ es el parámetro de temperatura, y mij es una función de máscara utilizada para filtrar muestras negativas simples, enfocándose en muestras negativas difíciles que son semánticamente similares pero funcionalmente irrelevantes.
Vinculación de Esquema Impulsada por Base de Datos Vectorial: Comparado con métodos existentes que recodifican esquema cada vez, este método solo necesita codificar la pregunta, mejorando significativamente la eficiencia
Mecanismo de Filtrado de Muestras Negativas Difíciles: La pérdida HN-SupCon se enfoca en distinguir columnas semánticamente similares pero funcionalmente irrelevantes, mejorando la calidad de recuperación
Autocorrección Guiada por Ejecución: Utiliza retroalimentación de ejecución SQL para aprendizaje por refuerzo, evitando el costo computacional de generación de múltiples candidatos
A pesar de la FPR más alta, la ventaja de SLR compensa el impacto de falsos positivos, logrando desempeño comparable al de modelos de 200B utilizando solo 0.6B parámetros.
Problema de k Fijo: La recuperación de un número fijo de columnas inevitablemente introduce falsos positivos
Detección de Errores Semánticos: El mecanismo de autocorrección actual maneja principalmente errores de sintaxis, con efecto limitado en consultas semánticamente correctas pero lógicamente erróneas