LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: Ein leichtgewichtiges und effizientes Text-to-SQL-Framework mit vektorbasierter Schemaverknüpfung und ausführungsgesteuerter Selbstkorrektur
Die Text-to-SQL-Aufgabe konvertiert natürlichsprachliche Fragen in SQL-Abfragen und bietet Nicht-Experten eine intuitive Möglichkeit zur Datenbankinteraktion. Obwohl auf großen Sprachmodellen (LLMs) basierende Methoden hervorragende Ergebnisse zeigen, wirft die Abhängigkeit von proprietären Modellen Bedenken hinsichtlich Bereitstellbarkeit und Datenschutz auf. Dieses Papier präsentiert LitE-SQL, ein leichtgewichtiges und effizientes Framework mit zwei Kernkomponenten: (i) Schema Retriever, der effiziente Schemaverknüpfung durch vektorbasierte Datenbanken mit vorberechneten Schemaeinbettungen durchführt; (ii) SQL Generator, der durch zweistufiges Fine-Tuning (überwachtes Fine-Tuning + ausführungsgesteuertes Reinforcement Learning) Selbstkorrektur ohne teure Multi-Kandidaten-Generierung ermöglicht. Auf dem BIRD-Datensatz erreicht LitE-SQL eine Ausführungsgenauigkeit von 72,10%, auf Spider 1.0 88,45%, wobei die Leistung mit nur 1/2 bis 1/30 der Parameter von LLM-Methoden vergleichbar oder besser ist.
Die Text-to-SQL-Aufgabe zielt darauf ab, natürlichsprachliche Fragen in entsprechende SQL-Abfragen umzuwandeln und damit die Zugangsbarrieren für nicht-professionelle Benutzer zu strukturierten Datenbanken zu senken. Diese Aufgabe hat praktischen Wert, steht aber vor Herausforderungen bei der domänenübergreifenden Verallgemeinerung und der Generierung komplexer Abfragen.
LLM-Abhängigkeitsproblem: Aktuelle Mainstream-Methoden sind auf proprietäre Großmodelle wie GPT-4 und Gemini angewiesen, was Risiken für Datenschutzverletzungen mit sich bringt und hohe Bereitstellungskosten verursacht
Rechenressourcenverbrauch: Die Eingabe vollständiger Schemainformationen führt zu exponentiellem Kontextlängenwachstum, wobei die quadratische Komplexität des Self-Attention-Mechanismus zu enormem Speicherverbrauch führt
Mehrfach-Kandidaten-Generierungsaufwand: Bestehende Methoden generieren mehrere Kandidatenabfragen und wählen die optimale Lösung, was erhebliche Rechenkosten verursacht
Um diese Probleme zu adressieren, zielt dieses Papier auf die Entwicklung eines leichtgewichtigen und effizienten Text-to-SQL-Frameworks ab, das bei Beibehaltung wettbewerbsfähiger Leistung die Parameteranzahl und Rechenkosten erheblich reduziert und sich für datenschutzsensitive und ressourcenbegrenzte Szenarien eignet.
Präsentation des LitE-SQL-Frameworks: Erste vollständig vektorbasierte Datenbankgesteuerte Schemaverknüpfungsmethode in Kombination mit leichtgewichtigem SQL-Generator
Innovative HN-SupCon-Verlustfunktion: Optimierung des Einbettungsraums durch überwachtes kontrastives Lernen mit Filterung harter negativer Beispiele
Signifikante Effizienzsteigerung: Erreichung wettbewerbsfähiger Leistung auf BIRD- und Spider 1.0-Datensätzen mit nur 1/2 bis 1/30 der Parameter bestehender Methoden
Gegeben eine natürlichsprachliche Frage Q und ein Datenbankschema S erfordert die Text-to-SQL-Aufgabe die Generierung einer SQL-Abfrage, deren Ausführungsergebnis in der Zieldatenbank mit der Gold-Standard-Abfrage übereinstimmt.
Kodierung jeder Spalte als dichte Einbettung mit Spaltennamen, Beschreibung, Tabellenname und Wertbeschreibung
Vorberechnung von Schemaeinbettungen und Speicherung in einer Vektordatenbank
Kodierung nur der Frage während der Inferenz, Abruf der Top-k-relevanten Spalten durch Kosinusähnlichkeit
HN-SupCon-Verlustfunktion:
L_HN-SupCon = -1/B ∑(i=1 bis B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 bis Ni) mij * e^(s(qi,nij)/τ)
mij = {1 wenn qi⊙nij ≥ qi⊙pi - 0,1, 0 andernfalls}
Dabei bezeichnet s(·,·) die Kosinusähnlichkeit, τ den Temperaturparameter und mij die Maskierungsfunktion zur Filterung einfacher negativer Beispiele mit Fokus auf semantisch ähnliche, aber funktional unabhängige harte negative Beispiele.
Erlernung der bedingten Abbildung von natürlichsprachlichen Fragen und Schemainformationen zu SQL-Abfragen
Datenaugmentierung durch zufällige Stichprobenentnahme irrelevanter Schemainformationen zur Gewährleistung der Konsistenz zwischen Training und Inferenz
Konstruktion von Präferenzpaaren basierend auf Ausführungsergebnissen: erfolgreich ausgeführte Abfragen werden bevorzugt gegenüber fehlgeschlagenen Abfragen
Kombination mit Fehlermeldungen für Selbstkorrektur-Training
Vektorbasierte Datenbankgesteuerte Schemaverknüpfung: Im Vergleich zu bestehenden Methoden, die Schemata jedes Mal neu kodieren, benötigt diese Methode nur die Kodierung der Frage, was die Effizienz erheblich verbessert
Filterungsmechanismus für harte negative Beispiele: Die HN-SupCon-Verlustfunktion konzentriert sich auf die Unterscheidung semantisch ähnlicher, aber funktional unabhängiger Spalten und verbessert die Abrufqualität
Ausführungsgesteuerter Selbstkorrektur: Nutzung von SQL-Ausführungs-Feedback für Reinforcement Learning, um die Rechenkosten der Multi-Kandidaten-Generierung zu vermeiden
Obwohl die FPR höher ist, kompensiert der SLR-Vorteil die Auswirkungen falsch positiver Ergebnisse, und es wird eine mit 200B-Modellen vergleichbare Leistung mit nur 0,6B Parametern erreicht.
Problem mit festem k-Wert: Die Abrufung einer festen Anzahl von Spalten führt unvermeidlich zu falsch positiven Ergebnissen
Semantische Fehlererkennung: Der aktuelle Selbstkorrektur-Mechanismus behandelt hauptsächlich Syntaxfehler, mit begrenzter Wirksamkeit bei semantisch korrekten, aber logisch fehlerhaften Abfragen