2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL: Un Marco Ligero y Eficiente de Texto a SQL con Vinculación de Esquema Basada en Vectores y Autocorrección Guiada por Ejecución

Información Básica

  • ID del Artículo: 2510.09014
  • Título: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
  • Autores: Shengmin Piao, Jieun Lee, Sanghyun Park (Universidad de Yonsei)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: Octubre de 2024
  • Enlace del Artículo: https://arxiv.org/abs/2510.09014

Resumen

La tarea de Texto a SQL convierte preguntas en lenguaje natural a consultas SQL, proporcionando a usuarios no especializados una forma intuitiva de interactuar con bases de datos. Aunque los métodos basados en modelos de lenguaje grandes (LLMs) muestran un desempeño excelente, la dependencia de modelos propietarios genera preocupaciones sobre la viabilidad del despliegue y la privacidad de datos. Este artículo propone LitE-SQL, un marco ligero y eficiente que contiene dos componentes principales: (i) Schema Retriever, que ejecuta vinculación de esquema eficiente utilizando una base de datos vectorial con incrustaciones de esquema precomputadas; (ii) SQL Generator, que implementa autocorrección mediante ajuste fino en dos etapas (ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución), sin requerir la costosa generación de múltiples candidatos. En el conjunto de datos BIRD, LitE-SQL alcanza una precisión de ejecución del 72.10%, y en Spider 1.0 alcanza el 88.45%, logrando un desempeño comparable o superior a pesar de tener solo 1/2 a 1/30 de los parámetros de los métodos basados en LLM.

Contexto de Investigación y Motivación

Definición del Problema

La tarea de Texto a SQL tiene como objetivo convertir preguntas en lenguaje natural a consultas SQL correspondientes, reduciendo la barrera de acceso para usuarios no profesionales a bases de datos estructuradas. Esta tarea tiene un valor importante en aplicaciones prácticas, pero enfrenta desafíos en generalización entre dominios y generación de consultas complejas.

Limitaciones de los Métodos Existentes

  1. Problema de Dependencia de LLM: Los métodos actuales dependen de modelos grandes propietarios como GPT-4 y Gemini, con riesgos de fuga de privacidad de datos y altos costos de despliegue
  2. Consumo de Recursos Computacionales: La entrada de información de esquema completo causa un aumento exponencial en la longitud del contexto, y la complejidad cuadrática del mecanismo de autoatención genera un consumo de memoria masivo
  3. Costo de Generación de Múltiples Candidatos: Los métodos existentes generan múltiples consultas candidatas y seleccionan la solución óptima, incurriendo en costos computacionales significativos

Motivación de la Investigación

Para abordar los problemas anteriores, este artículo tiene como objetivo desarrollar un marco de Texto a SQL ligero y eficiente que, mientras mantiene un desempeño competitivo, reduzca significativamente la cantidad de parámetros y el costo computacional, siendo aplicable a escenarios sensibles a la privacidad y con recursos limitados.

Contribuciones Principales

  1. Propuesta del Marco LitE-SQL: Primer método de vinculación de esquema completamente impulsado por base de datos vectorial, combinado con un generador SQL ligero
  2. Función de Pérdida HN-SupCon Innovadora: Optimiza el espacio de incrustación mediante aprendizaje contrastivo supervisado con filtrado de muestras negativas difíciles
  3. Estrategia de Entrenamiento en Dos Etapas: Ajuste fino supervisado + aprendizaje por refuerzo guiado por ejecución, implementando autocorrección eficiente
  4. Mejora Significativa de Eficiencia: Alcanza desempeño competitivo en los conjuntos de datos BIRD y Spider 1.0, con solo 1/2 a 1/30 de los parámetros de los métodos existentes

Explicación Detallada del Método

Definición de la Tarea

Dada una pregunta en lenguaje natural Q y un esquema de base de datos S, la tarea de Texto a SQL requiere generar una consulta SQL cuyo resultado de ejecución en la base de datos objetivo sea consistente con la consulta de referencia estándar.

Arquitectura del Modelo

1. Schema Retriever (Recuperador de Esquema)

Diseño Principal:

  • Codifica cada columna como una incrustación densa que contiene nombre de columna, descripción, nombre de tabla y descripción de valores
  • Precomputa incrustaciones de esquema y las almacena en una base de datos vectorial
  • Durante la inferencia, solo codifica la pregunta y recupera las k columnas principales mediante similitud del coseno

Función de Pérdida HN-SupCon:

L_HN-SupCon = -1/B ∑(i=1 a B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 a Ni) mij * e^(s(qi,nij)/τ)

mij = {1 si qi⊙nij ≥ qi⊙pi - 0.1, 0 en otro caso}

Donde s(·,·) denota similitud del coseno, τ es el parámetro de temperatura, y mij es una función de máscara utilizada para filtrar muestras negativas simples, enfocándose en muestras negativas difíciles que son semánticamente similares pero funcionalmente irrelevantes.

2. SQL Generator (Generador SQL)

Estrategia de Entrenamiento en Dos Etapas:

Etapa 1: Ajuste Fino Supervisado (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • Aprende el mapeo condicional de preguntas en lenguaje natural e información de esquema a consultas SQL
  • Realiza aumento de datos mediante muestreo aleatorio de información de esquema irrelevante, asegurando consistencia entre entrenamiento e inferencia

Etapa 2: Ajuste Fino por Refuerzo (RFT) Utiliza Optimización de Preferencia Directa (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • Construye pares de preferencia basados en resultados de ejecución: consultas ejecutadas exitosamente se prefieren sobre consultas fallidas
  • Combina mensajes de error para entrenamiento de autocorrección

Puntos de Innovación Técnica

  1. Vinculación de Esquema Impulsada por Base de Datos Vectorial: Comparado con métodos existentes que recodifican esquema cada vez, este método solo necesita codificar la pregunta, mejorando significativamente la eficiencia
  2. Mecanismo de Filtrado de Muestras Negativas Difíciles: La pérdida HN-SupCon se enfoca en distinguir columnas semánticamente similares pero funcionalmente irrelevantes, mejorando la calidad de recuperación
  3. Autocorrección Guiada por Ejecución: Utiliza retroalimentación de ejecución SQL para aprendizaje por refuerzo, evitando el costo computacional de generación de múltiples candidatos

Configuración Experimental

Conjuntos de Datos

  • BIRD: 95 bases de datos grandes, 37 dominios profesionales, 9376 muestras de entrenamiento, 1534 muestras de validación
  • Spider 1.0: 200 bases de datos, 138 dominios, 8659 muestras de entrenamiento, 1034 muestras de validación, 2147 muestras de prueba

Métricas de Evaluación

  1. Precisión de Ejecución (EX): Consistencia entre el resultado de ejecución de SQL predicho y el SQL de referencia estándar
  2. Tasa de Verdaderos Positivos (TPR): Proporción de columnas relevantes recuperadas respecto a columnas relevantes estándar
  3. Tasa de Falsos Positivos (FPR): Proporción de columnas irrelevantes recuperadas respecto al total de columnas recuperadas
  4. Tasa de Recuperación de Vinculación de Esquema (SLR): Proporción de consultas que recuperan completamente todas las columnas relevantes

Métodos de Comparación

  • Métodos de Aprendizaje en Contexto: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL, etc.
  • Métodos de Ajuste Fino: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL, etc.

Detalles de Implementación

  • Modelo de Incrustación: Qwen3-0.6B-Embedding
  • Generador SQL: Qwen2.5-Coder (1.5B, 3B, 7B)
  • Base de Datos Vectorial: ChromaDB
  • Configuración de Entrenamiento: 4 GPUs A100, optimizador AdamW, adaptador LoRA

Resultados Experimentales

Resultados Principales

Categoría de MétodoModeloParámetrosBIRD(Dev) EXSpider 1.0(Test) EX
Aprendizaje en Contexto
CHASE-SQLGemini 1.5200B73.0187.60
MCS-SQLGPT-4175B63.3689.60
Métodos de Ajuste Fino
Reasoning-SQLQwen2.5-Coder-14B14B72.2981.43
LitE-SQLQwen2.5-Coder-7B7B72.1088.45

Hallazgos Clave

  1. Eficiencia de Parámetros: El modelo de 7B supera la mayoría de métodos LLM con 175B-200B parámetros
  2. Generalización entre Dominios: Supera a MCS-SQL en 8.74% en BIRD, quedando solo 1.15% por debajo en Spider
  3. Desempeño Consistente: Comparado con métodos de ajuste fino del mismo tamaño, mejora promedio de 10.87% (BIRD) y 7.21% (Spider)

Experimentos de Ablación

Configuración de ComponentesBIRD EXSpider EXMagnitud de Mejora
Línea Base (sin recuperador + generador)39.3161.61-
+Schema Retriever43.1664.28+3.85/+2.67
+SFT58.2183.56+18.90/+21.95
+RFT60.5684.35+21.25/+22.74

Análisis de Desempeño de Vinculación de Esquema

Comparación con métodos de línea base (conjunto de datos BIRD submuestreado):

  • LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
  • CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
  • CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

A pesar de la FPR más alta, la ventaja de SLR compensa el impacto de falsos positivos, logrando desempeño comparable al de modelos de 200B utilizando solo 0.6B parámetros.

Análisis del Efecto de Autocorrección

  • Rendimientos Decrecientes de Iteración: La primera autocorrección produce la mayor mejora, con rendimientos posteriores disminuyendo gradualmente
  • Mejora de Tipos de Error: Errores de sintaxis, columna inexistente, tabla inexistente y otros tipos de errores se reducen significativamente
  • Efecto de Escala: Los modelos más grandes se benefician más en términos de alineación semántica

Trabajo Relacionado

Investigación en Vinculación de Esquema

  1. Métodos Tempranos: Clasificación basada en clasificadores y ordenamiento de listas
  2. Métodos LLM: Indicaciones multietapa, marcos multiagente (CHESS)
  3. Innovación de Este Artículo: Primer método completamente basado en base de datos vectorial para vinculación de esquema

Investigación en Generación SQL

  1. Aprendizaje en Contexto: Indicaciones estructuradas, aprendizaje con pocos ejemplos, autoconsistencia
  2. Métodos de Ajuste Fino: Adaptación de dominio, aumento de datos, descomposición de tareas
  3. Contribución de Este Artículo: Mecanismo de autocorrección por refuerzo guiado por ejecución

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Ligera: Demuestra que la generación de Texto a SQL de alta calidad es posible mediante modelos ligeros
  2. Equilibrio entre Eficiencia y Desempeño: Mantiene desempeño competitivo mientras reduce significativamente la cantidad de parámetros
  3. Valor Práctico: Proporciona una solución práctica para escenarios sensibles a la privacidad y con recursos limitados

Limitaciones

  1. Problema de k Fijo: La recuperación de un número fijo de columnas inevitablemente introduce falsos positivos
  2. Detección de Errores Semánticos: El mecanismo de autocorrección actual maneja principalmente errores de sintaxis, con efecto limitado en consultas semánticamente correctas pero lógicamente erróneas

Direcciones Futuras

  1. Estrategia de Recuperación Dinámica: Ajustar adaptativamente el número de columnas recuperadas según la complejidad de la pregunta
  2. Detección de Errores Semánticos: Desarrollar mecanismos para capturar errores semánticos
  3. Extensión Multimodal: Combinar contenido de tablas e información de esquema

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación sistemática de base de datos vectorial a vinculación de esquema en Texto a SQL
  2. Alto Valor Práctico: Resuelve problemas de privacidad y despliegue de métodos basados en LLM
  3. Experimentación Completa: Experimentos de ablación exhaustivos y análisis de errores
  4. Técnica Sólida: Diseño razonable de la función de pérdida HN-SupCon y estrategia de entrenamiento en dos etapas

Insuficiencias

  1. Estrategia de Recuperación Simple: La recuperación de k fijo puede no ser la estrategia óptima
  2. Limitación de Tipos de Error: La autocorrección se enfoca principalmente en errores detectables por ejecución
  3. Limitación de Conjunto de Datos: Validación principalmente en conjuntos de datos en inglés, capacidad de generalización multilingüe desconocida

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas para investigación en Texto a SQL ligero
  2. Valor Práctico: Aplicable a computación perimetral y escenarios de protección de privacidad
  3. Reproducibilidad: Basado en modelos de código abierto, fácil de reproducir y extender

Escenarios Aplicables

  1. Entornos con Recursos Limitados: Dispositivos perimetrales, aplicaciones móviles
  2. Escenarios Sensibles a Privacidad: Bases de datos internas empresariales, dominios médico-financiero
  3. Aplicaciones en Tiempo Real: Sistemas de consulta interactiva que requieren respuesta rápida

Referencias

El artículo cita trabajos importantes en el campo de Texto a SQL, incluyendo:

  • Artículos originales de los conjuntos de datos de referencia Spider y BIRD
  • Métodos principales basados en LLM (DIN-SQL, CHESS, CHASE-SQL, etc.)
  • Trabajos representativos de métodos de ajuste fino (CodeS, OmniSQL, etc.)
  • Fundamentos técnicos relacionados (DPO, LoRA, aprendizaje contrastivo, etc.)