LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL : Un Cadre Texte-vers-SQL Léger et Efficace avec Liaison de Schéma Basée sur Vecteurs et Auto-Correction Guidée par l'Exécution
La tâche Texte-vers-SQL convertit les questions en langage naturel en requêtes SQL, offrant aux utilisateurs non-experts une interaction intuitive avec les bases de données. Bien que les méthodes basées sur les grands modèles de langage (LLMs) montrent d'excellentes performances, la dépendance aux modèles propriétaires soulève des préoccupations concernant la viabilité du déploiement et la confidentialité des données. Cet article propose LitE-SQL, un cadre léger et efficace contenant deux composants principaux : (i) Schema Retriever, qui effectue une liaison de schéma efficace en utilisant une base de données vectorielle avec des plongements de schéma précalculés ; (ii) SQL Generator, qui réalise l'auto-correction par un affinage en deux étapes (affinage supervisé + apprentissage par renforcement guidé par l'exécution), sans nécessiter la génération coûteuse de multiples candidats. Sur l'ensemble de données BIRD, LitE-SQL atteint 72,10 % de précision d'exécution, et 88,45 % sur Spider 1.0, avec une performance équivalente ou supérieure malgré un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes basées sur LLM.
La tâche Texte-vers-SQL vise à convertir les questions en langage naturel en requêtes SQL correspondantes, réduisant le seuil d'accès des utilisateurs non-professionnels aux bases de données structurées. Cette tâche possède une valeur importante dans les applications pratiques, mais fait face aux défis de la généralisation inter-domaines et de la génération de requêtes complexes.
Problème de dépendance aux LLM : Les méthodes actuelles dominantes dépendent des modèles propriétaires de grande taille tels que GPT-4 et Gemini, présentant des risques de fuite de confidentialité des données et des coûts de déploiement élevés
Consommation de ressources informatiques : L'entrée d'informations de schéma complètes entraîne une augmentation drastique de la longueur du contexte, et la complexité quadratique du mécanisme d'auto-attention provoque une consommation mémoire énorme
Surcharge de génération de multiples candidats : Les méthodes existantes génèrent plusieurs requêtes candidates et sélectionnent la solution optimale, entraînant des coûts de calcul significatifs
Face aux problèmes susmentionnés, cet article vise à développer un cadre Texte-vers-SQL léger et efficace qui, tout en maintenant une performance compétitive, réduit considérablement le nombre de paramètres et les coûts de calcul, applicable aux scénarios sensibles à la confidentialité et aux ressources limitées.
Proposition du cadre LitE-SQL : Première méthode de liaison de schéma entièrement pilotée par base de données vectorielle, combinée à un générateur SQL léger
Fonction de perte HN-SupCon innovante : Optimise l'espace d'plongement par apprentissage contrastif supervisé avec filtrage de négatifs difficiles
Stratégie d'entraînement en deux étapes : Affinage supervisé + apprentissage par renforcement guidé par l'exécution, réalisant une auto-correction efficace
Amélioration significative de l'efficacité : Atteint une performance compétitive sur les ensembles de données BIRD et Spider 1.0, avec un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes existantes
Étant donné une question en langage naturel Q et un schéma de base de données S, la tâche Texte-vers-SQL exige de générer une requête SQL dont le résultat d'exécution sur la base de données cible soit cohérent avec la requête d'or standard.
Encode chaque colonne en tant que plongement dense contenant le nom de la colonne, la description, le nom de la table et la description des valeurs
Précalcule les plongements de schéma et les stocke dans une base de données vectorielle
Lors de l'inférence, encode uniquement la question et récupère les k colonnes les plus pertinentes via similarité cosinus
Fonction de Perte HN-SupCon :
L_HN-SupCon = -1/B ∑(i=1 à B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 à Ni) mij * e^(s(qi,nij)/τ)
mij = {1 si qi⊙nij ≥ qi⊙pi - 0,1, 0 sinon}
Où s(·,·) représente la similarité cosinus, τ est le paramètre de température, et mij est une fonction de masque utilisée pour filtrer les négatifs simples et se concentrer sur les négatifs difficiles sémantiquement similaires mais fonctionnellement non pertinents.
Apprend le mappage conditionnel du langage naturel et des informations de schéma vers les requêtes SQL
Effectue l'augmentation des données en échantillonnant aléatoirement des informations de schéma non pertinentes, assurant la cohérence entre l'entraînement et l'inférence
Étape 2 : Affinage par Renforcement (RFT)
Utilisant l'optimisation de préférence directe (DPO) :
Liaison de Schéma Pilotée par Base de Données Vectorielle : Contrairement aux méthodes existantes qui réencodent le schéma à chaque fois, cette méthode n'encode que la question, améliorant considérablement l'efficacité
Mécanisme de Filtrage des Négatifs Difficiles : La perte HN-SupCon se concentre sur la distinction entre les colonnes sémantiquement similaires mais fonctionnellement non pertinentes, améliorant la qualité de la récupération
Auto-Correction Guidée par l'Exécution : Utilise les retours d'exécution SQL pour l'apprentissage par renforcement, évitant les surcharges de calcul de la génération de multiples candidats
Bien que le FPR soit plus élevé, l'avantage du SLR compense l'impact des faux positifs, et atteint une performance équivalente aux modèles 200B en utilisant seulement 0,6B paramètres.
Rendements Décroissants des Itérations : La première auto-correction apporte la plus grande amélioration, les itérations ultérieures montrant des rendements progressivement décroissants
Amélioration des Types d'Erreurs : Les erreurs de syntaxe, de colonnes inexistantes, de tables inexistantes, etc., diminuent toutes considérablement
Effet d'Échelle : Les modèles plus grands bénéficient davantage de l'alignement sémantique
Problème de Valeur k Fixe : La récupération d'un nombre fixe de colonnes introduit inévitablement des faux positifs
Détection d'Erreurs Sémantiques : Le mécanisme d'auto-correction actuel traite principalement les erreurs de syntaxe, avec une efficacité limitée pour les requêtes sémantiquement correctes mais logiquement erronées
Stratégie de Récupération Simple : La récupération avec k fixe peut ne pas être la stratégie optimale
Limitation des Types d'Erreurs : L'auto-correction cible principalement les erreurs détectables par exécution
Limitation des Ensembles de Données : Validation principalement sur des ensembles de données en anglais, capacité de généralisation multilingue inconnue