2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL: Un Marco Ligero y Eficiente de Texto a SQL con Vinculación de Esquema Basada en Vectores y Autocorrección Guiada por Ejecución

Información Básica

ID del Artículo: 2510.09014
Título: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Autores: Shengmin Piao, Jieun Lee, Sanghyun Park (Universidad de Yonsei)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: Octubre de 2024
Enlace del Artículo: https://arxiv.org/abs/2510.09014

Resumen

La tarea de Texto a SQL convierte preguntas en lenguaje natural a consultas SQL, proporcionando a usuarios no especializados una forma intuitiva de interactuar con bases de datos. Aunque los métodos basados en modelos de lenguaje grandes (LLMs) muestran un desempeño excelente, la dependencia de modelos propietarios genera preocupaciones sobre la viabilidad del despliegue y la privacidad de datos. Este artículo propone LitE-SQL, un marco ligero y eficiente que contiene dos componentes principales: (i) Schema Retriever, que ejecuta vinculación de esquema eficiente utilizando una base de datos vectorial con incrustaciones de esquema precomputadas; (ii) SQL Generator, que implementa autocorrección mediante ajuste fino en dos etapas (ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución), sin requerir la costosa generación de múltiples candidatos. En el conjunto de datos BIRD, LitE-SQL alcanza una precisión de ejecución del 72.10%, y en Spider 1.0 alcanza el 88.45%, logrando un desempeño comparable o superior a pesar de tener solo 1/2 a 1/30 de los parámetros de los métodos basados en LLM.

Contexto de Investigación y Motivación

Definición del Problema

La tarea de Texto a SQL tiene como objetivo convertir preguntas en lenguaje natural a consultas SQL correspondientes, reduciendo la barrera de acceso para usuarios no profesionales a bases de datos estructuradas. Esta tarea tiene un valor importante en aplicaciones prácticas, pero enfrenta desafíos en generalización entre dominios y generación de consultas complejas.

Limitaciones de los Métodos Existentes

Problema de Dependencia de LLM: Los métodos actuales dependen de modelos grandes propietarios como GPT-4 y Gemini, con riesgos de fuga de privacidad de datos y altos costos de despliegue
Consumo de Recursos Computacionales: La entrada de información de esquema completo causa un aumento exponencial en la longitud del contexto, y la complejidad cuadrática del mecanismo de autoatención genera un consumo de memoria masivo
Costo de Generación de Múltiples Candidatos: Los métodos existentes generan múltiples consultas candidatas y seleccionan la solución óptima, incurriendo en costos computacionales significativos

Motivación de la Investigación

Para abordar los problemas anteriores, este artículo tiene como objetivo desarrollar un marco de Texto a SQL ligero y eficiente que, mientras mantiene un desempeño competitivo, reduzca significativamente la cantidad de parámetros y el costo computacional, siendo aplicable a escenarios sensibles a la privacidad y con recursos limitados.

Contribuciones Principales

Propuesta del Marco LitE-SQL: Primer método de vinculación de esquema completamente impulsado por base de datos vectorial, combinado con un generador SQL ligero
Función de Pérdida HN-SupCon Innovadora: Optimiza el espacio de incrustación mediante aprendizaje contrastivo supervisado con filtrado de muestras negativas difíciles
Estrategia de Entrenamiento en Dos Etapas: Ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución, implementando autocorrección eficiente
Mejora Significativa de Eficiencia: Alcanza desempeño competitivo en los conjuntos de datos BIRD y Spider 1.0, con solo 1/2 a 1/30 de los parámetros de los métodos existentes

Explicación Detallada del Método

Definición de la Tarea

Dada una pregunta en lenguaje natural Q y un esquema de base de datos S, la tarea de Texto a SQL requiere generar una consulta SQL cuyo resultado de ejecución en la base de datos objetivo sea consistente con la consulta de referencia estándar.

Arquitectura del Modelo

1. Schema Retriever (Recuperador de Esquema)

Diseño Principal:

Codifica cada columna como una incrustación densa que contiene nombre de columna, descripción, nombre de tabla y descripción de valores
Precomputa incrustaciones de esquema y las almacena en una base de datos vectorial
Durante la inferencia, solo codifica la pregunta y recupera las k columnas principales mediante similitud del coseno

Función de Pérdida HN-SupCon:

L_HN-SupCon = -1/B ∑(i=1 a B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 a Ni) mij * e^(s(qi,nij)/τ)

mij = {1 si qi⊙nij ≥ qi⊙pi - 0.1, 0 en otro caso}

Donde s(·,·) denota similitud del coseno, τ es el parámetro de temperatura, y mij es una función de máscara utilizada para filtrar muestras negativas simples, enfocándose en muestras negativas difíciles que son semánticamente similares pero funcionalmente irrelevantes.

2. SQL Generator (Generador SQL)

Estrategia de Entrenamiento en Dos Etapas:

Etapa 1: Ajuste Fino Supervisado (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

Aprende el mapeo condicional de preguntas en lenguaje natural e información de esquema a consultas SQL
Realiza aumento de datos mediante muestreo aleatorio de información de esquema irrelevante, asegurando consistencia entre entrenamiento e inferencia

Etapa 2: Ajuste Fino por Refuerzo (RFT) Utiliza Optimización de Preferencia Directa (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

Construye pares de preferencia basados en resultados de ejecución: consultas ejecutadas exitosamente se prefieren sobre consultas fallidas
Combina mensajes de error para entrenamiento de autocorrección

Puntos de Innovación Técnica

Vinculación de Esquema Impulsada por Base de Datos Vectorial: Comparado con métodos existentes que recodifican esquema cada vez, este método solo necesita codificar la pregunta, mejorando significativamente la eficiencia
Mecanismo de Filtrado de Muestras Negativas Difíciles: La pérdida HN-SupCon se enfoca en distinguir columnas semánticamente similares pero funcionalmente irrelevantes, mejorando la calidad de recuperación
Autocorrección Guiada por Ejecución: Utiliza retroalimentación de ejecución SQL para aprendizaje por refuerzo, evitando el costo computacional de generación de múltiples candidatos

Configuración Experimental

Conjuntos de Datos

BIRD: 95 bases de datos grandes, 37 dominios profesionales, 9376 muestras de entrenamiento, 1534 muestras de validación
Spider 1.0: 200 bases de datos, 138 dominios, 8659 muestras de entrenamiento, 1034 muestras de validación, 2147 muestras de prueba

Métricas de Evaluación

Precisión de Ejecución (EX): Consistencia entre el resultado de ejecución de SQL predicho y el SQL de referencia estándar
Tasa de Verdaderos Positivos (TPR): Proporción de columnas relevantes recuperadas respecto a columnas relevantes estándar
Tasa de Falsos Positivos (FPR): Proporción de columnas irrelevantes recuperadas respecto al total de columnas recuperadas
Tasa de Recuperación de Vinculación de Esquema (SLR): Proporción de consultas que recuperan completamente todas las columnas relevantes

Métodos de Comparación

Métodos de Aprendizaje en Contexto: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL, etc.
Métodos de Ajuste Fino: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL, etc.

Detalles de Implementación

Modelo de Incrustación: Qwen3-0.6B-Embedding
Generador SQL: Qwen2.5-Coder (1.5B, 3B, 7B)
Base de Datos Vectorial: ChromaDB
Configuración de Entrenamiento: 4 GPUs A100, optimizador AdamW, adaptador LoRA

Resultados Experimentales

Resultados Principales

Categoría de Método	Modelo	Parámetros	BIRD(Dev) EX	Spider 1.0(Test) EX
Aprendizaje en Contexto
CHASE-SQL	Gemini 1.5	200B	73.01	87.60
MCS-SQL	GPT-4	175B	63.36	89.60
Métodos de Ajuste Fino
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72.29	81.43
LitE-SQL	Qwen2.5-Coder-7B	7B	72.10	88.45

Hallazgos Clave

Eficiencia de Parámetros: El modelo de 7B supera la mayoría de métodos LLM con 175B-200B parámetros
Generalización entre Dominios: Supera a MCS-SQL en 8.74% en BIRD, quedando solo 1.15% por debajo en Spider
Desempeño Consistente: Comparado con métodos de ajuste fino del mismo tamaño, mejora promedio de 10.87% (BIRD) y 7.21% (Spider)

Experimentos de Ablación

Configuración de Componentes	BIRD EX	Spider EX	Magnitud de Mejora
Línea Base (sin recuperador + generador)	39.31	61.61	-
+Schema Retriever	43.16	64.28	+3.85/+2.67
+SFT	58.21	83.56	+18.90/+21.95
+RFT	60.56	84.35	+21.25/+22.74

Análisis de Desempeño de Vinculación de Esquema

Comparación con métodos de línea base (conjunto de datos BIRD submuestreado):

LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

A pesar de la FPR más alta, la ventaja de SLR compensa el impacto de falsos positivos, logrando desempeño comparable al de modelos de 200B utilizando solo 0.6B parámetros.

Análisis del Efecto de Autocorrección

Rendimientos Decrecientes de Iteración: La primera autocorrección produce la mayor mejora, con rendimientos posteriores disminuyendo gradualmente
Mejora de Tipos de Error: Errores de sintaxis, columna inexistente, tabla inexistente y otros tipos de errores se reducen significativamente
Efecto de Escala: Los modelos más grandes se benefician más en términos de alineación semántica

Trabajo Relacionado

Investigación en Vinculación de Esquema

Métodos Tempranos: Clasificación basada en clasificadores y ordenamiento de listas
Métodos LLM: Indicaciones multietapa, marcos multiagente (CHESS)
Innovación de Este Artículo: Primer método completamente basado en base de datos vectorial para vinculación de esquema

Investigación en Generación SQL

Aprendizaje en Contexto: Indicaciones estructuradas, aprendizaje con pocos ejemplos, autoconsistencia
Métodos de Ajuste Fino: Adaptación de dominio, aumento de datos, descomposición de tareas
Contribución de Este Artículo: Mecanismo de autocorrección por refuerzo guiado por ejecución

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Ligera: Demuestra que la generación de Texto a SQL de alta calidad es posible mediante modelos ligeros
Equilibrio entre Eficiencia y Desempeño: Mantiene desempeño competitivo mientras reduce significativamente la cantidad de parámetros
Valor Práctico: Proporciona una solución práctica para escenarios sensibles a la privacidad y con recursos limitados

Limitaciones

Problema de k Fijo: La recuperación de un número fijo de columnas inevitablemente introduce falsos positivos
Detección de Errores Semánticos: El mecanismo de autocorrección actual maneja principalmente errores de sintaxis, con efecto limitado en consultas semánticamente correctas pero lógicamente erróneas

Direcciones Futuras

Estrategia de Recuperación Dinámica: Ajustar adaptativamente el número de columnas recuperadas según la complejidad de la pregunta
Detección de Errores Semánticos: Desarrollar mecanismos para capturar errores semánticos
Extensión Multimodal: Combinar contenido de tablas e información de esquema

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación sistemática de base de datos vectorial a vinculación de esquema en Texto a SQL
Alto Valor Práctico: Resuelve problemas de privacidad y despliegue de métodos basados en LLM
Experimentación Completa: Experimentos de ablación exhaustivos y análisis de errores
Técnica Sólida: Diseño razonable de la función de pérdida HN-SupCon y estrategia de entrenamiento en dos etapas

Insuficiencias

Estrategia de Recuperación Simple: La recuperación de k fijo puede no ser la estrategia óptima
Limitación de Tipos de Error: La autocorrección se enfoca principalmente en errores detectables por ejecución
Limitación de Conjunto de Datos: Validación principalmente en conjuntos de datos en inglés, capacidad de generalización multilingüe desconocida

Impacto

Valor Académico: Proporciona nuevas perspectivas para investigación en Texto a SQL ligero
Valor Práctico: Aplicable a computación perimetral y escenarios de protección de privacidad
Reproducibilidad: Basado en modelos de código abierto, fácil de reproducir y extender

Escenarios Aplicables

Entornos con Recursos Limitados: Dispositivos perimetrales, aplicaciones móviles
Escenarios Sensibles a Privacidad: Bases de datos internas empresariales, dominios médico-financiero
Aplicaciones en Tiempo Real: Sistemas de consulta interactiva que requieren respuesta rápida

Referencias

El artículo cita trabajos importantes en el campo de Texto a SQL, incluyendo:

Artículos originales de los conjuntos de datos de referencia Spider y BIRD
Métodos principales basados en LLM (DIN-SQL, CHESS, CHASE-SQL, etc.)
Trabajos representativos de métodos de ajuste fino (CodeS, OmniSQL, etc.)
Fundamentos técnicos relacionados (DPO, LoRA, aprendizaje contrastivo, etc.)