2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL: Ein leichtgewichtiges und effizientes Text-to-SQL-Framework mit vektorbasierter Schemaverknüpfung und ausführungsgesteuerter Selbstkorrektur

Grundinformationen

Papier-ID: 2510.09014
Titel: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Autoren: Shengmin Piao, Jieun Lee, Sanghyun Park (Yonsei University)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: Oktober 2024
Papierlink: https://arxiv.org/abs/2510.09014

Zusammenfassung

Die Text-to-SQL-Aufgabe konvertiert natürlichsprachliche Fragen in SQL-Abfragen und bietet Nicht-Experten eine intuitive Möglichkeit zur Datenbankinteraktion. Obwohl auf großen Sprachmodellen (LLMs) basierende Methoden hervorragende Ergebnisse zeigen, wirft die Abhängigkeit von proprietären Modellen Bedenken hinsichtlich Bereitstellbarkeit und Datenschutz auf. Dieses Papier präsentiert LitE-SQL, ein leichtgewichtiges und effizientes Framework mit zwei Kernkomponenten: (i) Schema Retriever, der effiziente Schemaverknüpfung durch vektorbasierte Datenbanken mit vorberechneten Schemaeinbettungen durchführt; (ii) SQL Generator, der durch zweistufiges Fine-Tuning (überwachtes Fine-Tuning + ausführungsgesteuertes Reinforcement Learning) Selbstkorrektur ohne teure Multi-Kandidaten-Generierung ermöglicht. Auf dem BIRD-Datensatz erreicht LitE-SQL eine Ausführungsgenauigkeit von 72,10%, auf Spider 1.0 88,45%, wobei die Leistung mit nur 1/2 bis 1/30 der Parameter von LLM-Methoden vergleichbar oder besser ist.

Forschungshintergrund und Motivation

Problemdefinition

Die Text-to-SQL-Aufgabe zielt darauf ab, natürlichsprachliche Fragen in entsprechende SQL-Abfragen umzuwandeln und damit die Zugangsbarrieren für nicht-professionelle Benutzer zu strukturierten Datenbanken zu senken. Diese Aufgabe hat praktischen Wert, steht aber vor Herausforderungen bei der domänenübergreifenden Verallgemeinerung und der Generierung komplexer Abfragen.

Einschränkungen bestehender Methoden

LLM-Abhängigkeitsproblem: Aktuelle Mainstream-Methoden sind auf proprietäre Großmodelle wie GPT-4 und Gemini angewiesen, was Risiken für Datenschutzverletzungen mit sich bringt und hohe Bereitstellungskosten verursacht
Rechenressourcenverbrauch: Die Eingabe vollständiger Schemainformationen führt zu exponentiellem Kontextlängenwachstum, wobei die quadratische Komplexität des Self-Attention-Mechanismus zu enormem Speicherverbrauch führt
Mehrfach-Kandidaten-Generierungsaufwand: Bestehende Methoden generieren mehrere Kandidatenabfragen und wählen die optimale Lösung, was erhebliche Rechenkosten verursacht

Forschungsmotivation

Um diese Probleme zu adressieren, zielt dieses Papier auf die Entwicklung eines leichtgewichtigen und effizienten Text-to-SQL-Frameworks ab, das bei Beibehaltung wettbewerbsfähiger Leistung die Parameteranzahl und Rechenkosten erheblich reduziert und sich für datenschutzsensitive und ressourcenbegrenzte Szenarien eignet.

Kernbeiträge

Präsentation des LitE-SQL-Frameworks: Erste vollständig vektorbasierte Datenbankgesteuerte Schemaverknüpfungsmethode in Kombination mit leichtgewichtigem SQL-Generator
Innovative HN-SupCon-Verlustfunktion: Optimierung des Einbettungsraums durch überwachtes kontrastives Lernen mit Filterung harter negativer Beispiele
Zweistufige Trainingsstrategie: Überwachtes Fine-Tuning + ausführungsgesteuertes Reinforcement Learning für effiziente Selbstkorrektur
Signifikante Effizienzsteigerung: Erreichung wettbewerbsfähiger Leistung auf BIRD- und Spider 1.0-Datensätzen mit nur 1/2 bis 1/30 der Parameter bestehender Methoden

Methodische Details

Aufgabendefinition

Gegeben eine natürlichsprachliche Frage Q und ein Datenbankschema S erfordert die Text-to-SQL-Aufgabe die Generierung einer SQL-Abfrage, deren Ausführungsergebnis in der Zieldatenbank mit der Gold-Standard-Abfrage übereinstimmt.

Modellarchitektur

1. Schema Retriever (Schemaabfrage-Komponente)

Kerndesign:

Kodierung jeder Spalte als dichte Einbettung mit Spaltennamen, Beschreibung, Tabellenname und Wertbeschreibung
Vorberechnung von Schemaeinbettungen und Speicherung in einer Vektordatenbank
Kodierung nur der Frage während der Inferenz, Abruf der Top-k-relevanten Spalten durch Kosinusähnlichkeit

HN-SupCon-Verlustfunktion:

L_HN-SupCon = -1/B ∑(i=1 bis B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 bis Ni) mij * e^(s(qi,nij)/τ)

mij = {1 wenn qi⊙nij ≥ qi⊙pi - 0,1, 0 andernfalls}

Dabei bezeichnet s(·,·) die Kosinusähnlichkeit, τ den Temperaturparameter und mij die Maskierungsfunktion zur Filterung einfacher negativer Beispiele mit Fokus auf semantisch ähnliche, aber funktional unabhängige harte negative Beispiele.

2. SQL Generator (SQL-Generierungs-Komponente)

Zweistufige Trainingsstrategie:

Stufe 1: Überwachtes Fine-Tuning (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

Erlernung der bedingten Abbildung von natürlichsprachlichen Fragen und Schemainformationen zu SQL-Abfragen
Datenaugmentierung durch zufällige Stichprobenentnahme irrelevanter Schemainformationen zur Gewährleistung der Konsistenz zwischen Training und Inferenz

Stufe 2: Reinforcement Fine-Tuning (RFT) Verwendung direkter Präferenzoptimierung (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

Konstruktion von Präferenzpaaren basierend auf Ausführungsergebnissen: erfolgreich ausgeführte Abfragen werden bevorzugt gegenüber fehlgeschlagenen Abfragen
Kombination mit Fehlermeldungen für Selbstkorrektur-Training

Technische Innovationen

Vektorbasierte Datenbankgesteuerte Schemaverknüpfung: Im Vergleich zu bestehenden Methoden, die Schemata jedes Mal neu kodieren, benötigt diese Methode nur die Kodierung der Frage, was die Effizienz erheblich verbessert
Filterungsmechanismus für harte negative Beispiele: Die HN-SupCon-Verlustfunktion konzentriert sich auf die Unterscheidung semantisch ähnlicher, aber funktional unabhängiger Spalten und verbessert die Abrufqualität
Ausführungsgesteuerter Selbstkorrektur: Nutzung von SQL-Ausführungs-Feedback für Reinforcement Learning, um die Rechenkosten der Multi-Kandidaten-Generierung zu vermeiden

Experimentelle Einrichtung

Datensätze

BIRD: 95 große Datenbanken, 37 professionelle Domänen, 9.376 Trainingsbeispiele, 1.534 Validierungsbeispiele
Spider 1.0: 200 Datenbanken, 138 Domänen, 8.659 Trainingsbeispiele, 1.034 Validierungsbeispiele, 2.147 Testbeispiele

Bewertungsmetriken

Ausführungsgenauigkeit (EX): Konsistenz zwischen vorhergesagter SQL und Gold-Standard-SQL-Ausführungsergebnissen
True Positive Rate (TPR): Anteil abgerufener relevanter Spalten an Gold-Standard-relevanten Spalten
False Positive Rate (FPR): Anteil abgerufener irrelevanter Spalten an allen abgerufenen Spalten
Schemaverknüpfungs-Recall (SLR): Anteil von Abfragen, bei denen alle relevanten Spalten vollständig abgerufen werden

Vergleichsmethoden

In-Context-Learning-Methoden: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL usw.
Fine-Tuning-Methoden: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL usw.

Implementierungsdetails

Einbettungsmodell: Qwen3-0.6B-Embedding
SQL-Generator: Qwen2.5-Coder (1.5B, 3B, 7B)
Vektordatenbank: ChromaDB
Trainingseinstellungen: 4 A100 GPUs, AdamW-Optimierer, LoRA-Adapter

Experimentelle Ergebnisse

Hauptergebnisse

Methodenkategorie	Modell	Parameteranzahl	BIRD(Dev) EX	Spider 1.0(Test) EX
In-Context-Learning
CHASE-SQL	Gemini 1.5	200B	73,01	87,60
MCS-SQL	GPT-4	175B	63,36	89,60
Fine-Tuning-Methoden
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72,29	81,43
LitE-SQL	Qwen2.5-Coder-7B	7B	72,10	88,45

Wichtigste Erkenntnisse

Parametereffizienz: 7B-Modell übertrifft die meisten LLM-Methoden mit 175B-200B Parametern
Domänenübergreifende Verallgemeinerung: Übertrifft MCS-SQL um 8,74% auf BIRD, fällt auf Spider nur um 1,15% zurück
Konsistente Leistung: Durchschnittliche Verbesserung von 10,87% (BIRD) und 7,21% (Spider) gegenüber gleichwertigen Fine-Tuning-Methoden

Ablationsstudien

Komponentenkonfiguration	BIRD EX	Spider EX	Verbesserung
Baseline (ohne Retriever + Generator)	39,31	61,61	-
+ Schema Retriever	43,16	64,28	+3,85/+2,67
+ SFT	58,21	83,56	+18,90/+21,95
+ RFT	60,56	84,35	+21,25/+22,74

Schemaverknüpfungs-Leistungsanalyse

Vergleich mit Baseline-Methoden (Unterstichprobe BIRD-Datensatz):

LitE-SQL: TPR=95,23%, FPR=80,28%, SLR=82,31%, EX=56,46%
CHESS: TPR=87,15%, FPR=8,27%, SLR=61,9%, EX=57,14%
CodeS: TPR=89,64%, FPR=74,16%, SLR=65,31%, EX=51,70%

Obwohl die FPR höher ist, kompensiert der SLR-Vorteil die Auswirkungen falsch positiver Ergebnisse, und es wird eine mit 200B-Modellen vergleichbare Leistung mit nur 0,6B Parametern erreicht.

Selbstkorrektur-Effektanalyse

Iterative Ertragsabnahme: Die erste Selbstkorrektur bringt die größte Verbesserung, nachfolgende Iterationen zeigen abnehmende Erträge
Fehlertyp-Verbesserung: Syntaxfehler, nicht vorhandene Spalten, nicht vorhandene Tabellen und andere Fehlertypen nehmen deutlich ab
Skalierungseffekt: Größere Modelle profitieren mehr von semantischer Ausrichtung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Leichtgewichtige Machbarkeit: Nachweis, dass hochwertige Text-to-SQL-Generierung durch leichtgewichtige Modelle realisierbar ist
Effizienz- und Leistungsausgleich: Beibehaltung wettbewerbsfähiger Leistung bei gleichzeitiger signifikanter Reduzierung der Parameteranzahl
Praktischer Wert: Bereitstellung praktischer Lösungen für datenschutzsensitive und ressourcenbegrenzte Szenarien

Einschränkungen

Problem mit festem k-Wert: Die Abrufung einer festen Anzahl von Spalten führt unvermeidlich zu falsch positiven Ergebnissen
Semantische Fehlererkennung: Der aktuelle Selbstkorrektur-Mechanismus behandelt hauptsächlich Syntaxfehler, mit begrenzter Wirksamkeit bei semantisch korrekten, aber logisch fehlerhaften Abfragen

Zukünftige Richtungen

Dynamische Abrufstrategie: Adaptive Anpassung der Anzahl abgerufener Spalten basierend auf Fragekomplexität
Semantische Fehlererkennung: Entwicklung von Mechanismen zur Erfassung semantischer Fehler
Multimodale Erweiterung: Integration von Tabelleninhalten und Schemainformationen

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste systematische Anwendung von Vektordatenbanken auf Text-to-SQL-Schemaverknüpfung
Hoher praktischer Wert: Lösung der Datenschutz- und Bereitstellungsprobleme von LLM-Methoden
Umfassende Experimente: Vollständige Ablationsstudien und Fehleranalyse
Solide Technik: Vernünftiges Design der HN-SupCon-Verlustfunktion und zweistufigen Trainingsstrategie

Mängel

Einfache Abrufstrategie: Die Abrufung mit festem k-Wert ist möglicherweise nicht die optimale Strategie
Begrenzte Fehlertypen: Selbstkorrektur konzentriert sich hauptsächlich auf durch Ausführung erkennbare Fehler
Datensatz-Einschränkungen: Hauptsächlich auf englischen Datensätzen validiert, Mehrsprachenfähigkeit unbekannt

Auswirkungen

Akademischer Wert: Neue Perspektiven für leichtgewichtige Text-to-SQL-Forschung
Praktischer Wert: Anwendbar auf Edge-Computing und Datenschutzszenarien
Reproduzierbarkeit: Basierend auf Open-Source-Modellen, leicht zu reproduzieren und zu erweitern

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Edge-Geräte, mobile Anwendungen
Datenschutzsensitive Szenarien: Unternehmenseigene Datenbanken, Medizin- und Finanzsektor
Echtzeitanwendungen: Interaktive Abfragesysteme, die schnelle Reaktionen erfordern

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten im Text-to-SQL-Bereich, einschließlich:

Originalarbeiten zu Spider- und BIRD-Benchmark-Datensätzen
Repräsentative LLM-basierte Methoden (DIN-SQL, CHESS, CHASE-SQL usw.)
Repräsentative Fine-Tuning-Methoden (CodeS, OmniSQL usw.)
Verwandte technische Grundlagen (DPO, LoRA, kontrastives Lernen usw.)