LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: Un Framework Text-to-SQL Leggero ed Efficiente con Schema Linking Basato su Vettori e Auto-Correzione Guidata dall'Esecuzione
Il compito Text-to-SQL converte domande in linguaggio naturale in query SQL, fornendo agli utenti non esperti un modo intuitivo per interagire con i database. Sebbene i metodi basati su modelli di linguaggio di grandi dimensioni (LLM) mostrino prestazioni eccellenti, la dipendenza da modelli proprietari suscita preoccupazioni riguardanti la fattibilità della distribuzione e la privacy dei dati. Questo articolo propone LitE-SQL, un framework leggero ed efficiente, contenente due componenti fondamentali: (i) Schema Retriever, che esegue il collegamento efficiente dello schema utilizzando un database vettoriale con embedding dello schema pre-calcolati; (ii) SQL Generator, che realizza l'auto-correzione attraverso un fine-tuning in due fasi (fine-tuning supervisionato + apprendimento per rinforzo guidato dall'esecuzione), senza richiedere la costosa generazione di più candidati. Sul dataset BIRD, LitE-SQL raggiunge un'accuratezza di esecuzione del 72,10%, su Spider 1.0 raggiunge l'88,45%, e nonostante abbia solo 1/2 fino a 1/30 dei parametri dei metodi basati su LLM, le prestazioni sono comparabili o superiori.
Il compito Text-to-SQL mira a convertire domande in linguaggio naturale in query SQL corrispondenti, riducendo la soglia di accesso ai database strutturati per utenti non professionisti. Questo compito ha un valore importante nelle applicazioni pratiche, ma affronta sfide nella generalizzazione cross-dominio e nella generazione di query complesse.
Problema di Dipendenza da LLM: I metodi mainstream attuali dipendono da modelli proprietari di grandi dimensioni come GPT-4 e Gemini, con rischi di fuga di dati sulla privacy e costi di distribuzione elevati
Consumo di Risorse Computazionali: L'input di informazioni complete dello schema causa un aumento esponenziale della lunghezza del contesto, e la complessità quadratica del meccanismo di auto-attenzione provoca un consumo di memoria enorme
Overhead della Generazione di Più Candidati: I metodi esistenti generano più query candidate e selezionano la soluzione ottimale, con costi computazionali significativi
Affrontando i problemi di cui sopra, questo articolo mira a sviluppare un framework Text-to-SQL leggero ed efficiente che, mantenendo prestazioni competitive, riduca significativamente il numero di parametri e i costi computazionali, rendendolo applicabile a scenari sensibili alla privacy e con risorse limitate.
Propone il Framework LitE-SQL: Primo metodo di collegamento dello schema completamente guidato da database vettoriali, combinato con un generatore SQL leggero
Funzione di Perdita HN-SupCon Innovativa: Ottimizza lo spazio di embedding attraverso l'apprendimento contrastivo supervisionato con filtraggio di campioni negativi difficili
Strategia di Addestramento in Due Fasi: Fine-tuning supervisionato + apprendimento per rinforzo guidato dall'esecuzione, realizzando auto-correzione efficiente
Miglioramento Significativo dell'Efficienza: Raggiunge prestazioni competitive sui dataset BIRD e Spider 1.0, con solo 1/2 fino a 1/30 dei parametri dei metodi esistenti
Data una domanda in linguaggio naturale Q e uno schema di database S, il compito Text-to-SQL richiede di generare una query SQL il cui risultato di esecuzione sul database target sia coerente con la query di riferimento gold-standard.
Codifica ogni colonna come embedding denso contenente nome della colonna, descrizione, nome della tabella e descrizione dei valori
Pre-calcola gli embedding dello schema e li memorizza in un database vettoriale
Durante l'inferenza, codifica solo la domanda e recupera le top-k colonne correlate attraverso somiglianza del coseno
Funzione di Perdita HN-SupCon:
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
Dove s(·,·) rappresenta la somiglianza del coseno, τ è il parametro di temperatura, e mij è una funzione di mascheramento utilizzata per filtrare campioni negativi semplici e concentrarsi su campioni negativi difficili semanticamente simili ma funzionalmente non correlati.
Collegamento dello Schema Guidato da Database Vettoriale: A differenza dei metodi esistenti che ricodificano lo schema ogni volta, questo metodo codifica solo la domanda, migliorando significativamente l'efficienza
Meccanismo di Filtraggio dei Campioni Negativi Difficili: La perdita HN-SupCon si concentra sulla distinzione tra colonne semanticamente simili ma funzionalmente non correlate, migliorando la qualità del recupero
Auto-Correzione Guidata dall'Esecuzione: Utilizza il feedback dell'esecuzione SQL per l'apprendimento per rinforzo, evitando l'overhead computazionale della generazione di più candidati
Nonostante l'FPR più elevato, il vantaggio dell'SLR compensa l'impatto dei falsi positivi, e raggiunge prestazioni comparabili ai modelli da 200B utilizzando solo 0.6B parametri.
Rendimenti Decrescenti dell'Iterazione: La prima auto-correzione produce il massimo miglioramento, con benefici che diminuiscono gradualmente nelle iterazioni successive
Miglioramento dei Tipi di Errore: Gli errori di sintassi, colonne inesistenti, tabelle inesistenti e altri tipi di errore diminuiscono significativamente
Effetto di Scala: I modelli più grandi traggono più beneficio dall'allineamento semantico
Problema del k Fisso: Il recupero di un numero fisso di colonne inevitabilmente introduce falsi positivi
Rilevamento di Errori Semantici: L'attuale meccanismo di auto-correzione gestisce principalmente errori di sintassi, con efficacia limitata su query semanticamente corrette ma logicamente errate