2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL : Un Cadre Texte-vers-SQL Léger et Efficace avec Liaison de Schéma Basée sur Vecteurs et Auto-Correction Guidée par l'Exécution

Informations Fondamentales

ID de l'article : 2510.09014
Titre : LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Auteurs : Shengmin Piao, Jieun Lee, Sanghyun Park (Université Yonsei)
Classification : cs.CL (Linguistique Computationnelle)
Date de publication : Octobre 2024
Lien de l'article : https://arxiv.org/abs/2510.09014

Résumé

La tâche Texte-vers-SQL convertit les questions en langage naturel en requêtes SQL, offrant aux utilisateurs non-experts une interaction intuitive avec les bases de données. Bien que les méthodes basées sur les grands modèles de langage (LLMs) montrent d'excellentes performances, la dépendance aux modèles propriétaires soulève des préoccupations concernant la viabilité du déploiement et la confidentialité des données. Cet article propose LitE-SQL, un cadre léger et efficace contenant deux composants principaux : (i) Schema Retriever, qui effectue une liaison de schéma efficace en utilisant une base de données vectorielle avec des plongements de schéma précalculés ; (ii) SQL Generator, qui réalise l'auto-correction par un affinage en deux étapes (affinage supervisé + apprentissage par renforcement guidé par l'exécution), sans nécessiter la génération coûteuse de multiples candidats. Sur l'ensemble de données BIRD, LitE-SQL atteint 72,10 % de précision d'exécution, et 88,45 % sur Spider 1.0, avec une performance équivalente ou supérieure malgré un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes basées sur LLM.

Contexte de Recherche et Motivation

Définition du Problème

La tâche Texte-vers-SQL vise à convertir les questions en langage naturel en requêtes SQL correspondantes, réduisant le seuil d'accès des utilisateurs non-professionnels aux bases de données structurées. Cette tâche possède une valeur importante dans les applications pratiques, mais fait face aux défis de la généralisation inter-domaines et de la génération de requêtes complexes.

Limitations des Méthodes Existantes

Problème de dépendance aux LLM : Les méthodes actuelles dominantes dépendent des modèles propriétaires de grande taille tels que GPT-4 et Gemini, présentant des risques de fuite de confidentialité des données et des coûts de déploiement élevés
Consommation de ressources informatiques : L'entrée d'informations de schéma complètes entraîne une augmentation drastique de la longueur du contexte, et la complexité quadratique du mécanisme d'auto-attention provoque une consommation mémoire énorme
Surcharge de génération de multiples candidats : Les méthodes existantes génèrent plusieurs requêtes candidates et sélectionnent la solution optimale, entraînant des coûts de calcul significatifs

Motivation de la Recherche

Face aux problèmes susmentionnés, cet article vise à développer un cadre Texte-vers-SQL léger et efficace qui, tout en maintenant une performance compétitive, réduit considérablement le nombre de paramètres et les coûts de calcul, applicable aux scénarios sensibles à la confidentialité et aux ressources limitées.

Contributions Principales

Proposition du cadre LitE-SQL : Première méthode de liaison de schéma entièrement pilotée par base de données vectorielle, combinée à un générateur SQL léger
Fonction de perte HN-SupCon innovante : Optimise l'espace d'plongement par apprentissage contrastif supervisé avec filtrage de négatifs difficiles
Stratégie d'entraînement en deux étapes : Affinage supervisé + apprentissage par renforcement guidé par l'exécution, réalisant une auto-correction efficace
Amélioration significative de l'efficacité : Atteint une performance compétitive sur les ensembles de données BIRD et Spider 1.0, avec un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes existantes

Détails de la Méthode

Définition de la Tâche

Étant donné une question en langage naturel Q et un schéma de base de données S, la tâche Texte-vers-SQL exige de générer une requête SQL dont le résultat d'exécution sur la base de données cible soit cohérent avec la requête d'or standard.

Architecture du Modèle

1. Schema Retriever (Récupérateur de Schéma)

Conception Principale :

Encode chaque colonne en tant que plongement dense contenant le nom de la colonne, la description, le nom de la table et la description des valeurs
Précalcule les plongements de schéma et les stocke dans une base de données vectorielle
Lors de l'inférence, encode uniquement la question et récupère les k colonnes les plus pertinentes via similarité cosinus

Fonction de Perte HN-SupCon :

L_HN-SupCon = -1/B ∑(i=1 à B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 à Ni) mij * e^(s(qi,nij)/τ)

mij = {1 si qi⊙nij ≥ qi⊙pi - 0,1, 0 sinon}

Où s(·,·) représente la similarité cosinus, τ est le paramètre de température, et mij est une fonction de masque utilisée pour filtrer les négatifs simples et se concentrer sur les négatifs difficiles sémantiquement similaires mais fonctionnellement non pertinents.

2. SQL Generator (Générateur SQL)

Stratégie d'Entraînement en Deux Étapes :

Étape 1 : Affinage Supervisé (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

Apprend le mappage conditionnel du langage naturel et des informations de schéma vers les requêtes SQL
Effectue l'augmentation des données en échantillonnant aléatoirement des informations de schéma non pertinentes, assurant la cohérence entre l'entraînement et l'inférence

Étape 2 : Affinage par Renforcement (RFT) Utilisant l'optimisation de préférence directe (DPO) :

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

Construit des paires de préférence basées sur les résultats d'exécution : les requêtes exécutées avec succès sont préférées aux requêtes échouées
Combine les messages d'erreur pour l'entraînement à l'auto-correction

Points d'Innovation Technique

Liaison de Schéma Pilotée par Base de Données Vectorielle : Contrairement aux méthodes existantes qui réencodent le schéma à chaque fois, cette méthode n'encode que la question, améliorant considérablement l'efficacité
Mécanisme de Filtrage des Négatifs Difficiles : La perte HN-SupCon se concentre sur la distinction entre les colonnes sémantiquement similaires mais fonctionnellement non pertinentes, améliorant la qualité de la récupération
Auto-Correction Guidée par l'Exécution : Utilise les retours d'exécution SQL pour l'apprentissage par renforcement, évitant les surcharges de calcul de la génération de multiples candidats

Configuration Expérimentale

Ensembles de Données

BIRD : 95 grandes bases de données, 37 domaines professionnels, 9376 échantillons d'entraînement, 1534 échantillons de validation
Spider 1.0 : 200 bases de données, 138 domaines, 8659 échantillons d'entraînement, 1034 échantillons de validation, 2147 échantillons de test

Métriques d'Évaluation

Précision d'Exécution (EX) : Cohérence entre les résultats d'exécution de la requête SQL prédite et de la requête SQL d'or standard
Taux de Vrais Positifs (TPR) : Proportion des colonnes pertinentes récupérées par rapport aux colonnes pertinentes d'or standard
Taux de Faux Positifs (FPR) : Proportion des colonnes non pertinentes récupérées par rapport au total des colonnes récupérées
Taux de Rappel de Liaison de Schéma (SLR) : Proportion des requêtes pour lesquelles toutes les colonnes pertinentes sont complètement récupérées

Méthodes de Comparaison

Méthodes d'apprentissage en contexte : ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL, etc.
Méthodes d'affinage : CodeS, OmniSQL, DTS-SQL, Reasoning-SQL, etc.

Détails d'Implémentation

Modèle d'Plongement : Qwen3-0.6B-Embedding
Générateur SQL : Qwen2.5-Coder (1.5B, 3B, 7B)
Base de Données Vectorielle : ChromaDB
Configuration d'Entraînement : 4 GPU A100, optimiseur AdamW, adaptation LoRA

Résultats Expérimentaux

Résultats Principaux

Catégorie de Méthode	Modèle	Nombre de Paramètres	BIRD(Dev) EX	Spider 1.0(Test) EX
Apprentissage en Contexte
CHASE-SQL	Gemini 1.5	200B	73,01	87,60
MCS-SQL	GPT-4	175B	63,36	89,60
Méthodes d'Affinage
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72,29	81,43
LitE-SQL	Qwen2.5-Coder-7B	7B	72,10	88,45

Résultats Clés

Efficacité des Paramètres : Le modèle 7B surpasse la plupart des méthodes LLM avec 175B-200B paramètres
Généralisation Inter-Domaines : Surpasse MCS-SQL de 8,74 % sur BIRD, ne retard que de 1,15 % sur Spider
Performance Cohérente : Amélioration moyenne de 10,87 % (BIRD) et 7,21 % (Spider) par rapport aux méthodes d'affinage de même taille

Expériences d'Ablation

Configuration des Composants	BIRD EX	Spider EX	Ampleur de l'Amélioration
Ligne de Base (sans récupérateur + générateur)	39,31	61,61	-
+Schema Retriever	43,16	64,28	+3,85/+2,67
+SFT	58,21	83,56	+18,90/+21,95
+RFT	60,56	84,35	+21,25/+22,74

Analyse de la Performance de Liaison de Schéma

Comparaison avec les méthodes de base (sous-échantillonnage de l'ensemble de données BIRD) :

LitE-SQL : TPR=95,23 %, FPR=80,28 %, SLR=82,31 %, EX=56,46 %
CHESS : TPR=87,15 %, FPR=8,27 %, SLR=61,9 %, EX=57,14 %
CodeS : TPR=89,64 %, FPR=74,16 %, SLR=65,31 %, EX=51,70 %

Bien que le FPR soit plus élevé, l'avantage du SLR compense l'impact des faux positifs, et atteint une performance équivalente aux modèles 200B en utilisant seulement 0,6B paramètres.

Analyse de l'Effet d'Auto-Correction

Rendements Décroissants des Itérations : La première auto-correction apporte la plus grande amélioration, les itérations ultérieures montrant des rendements progressivement décroissants
Amélioration des Types d'Erreurs : Les erreurs de syntaxe, de colonnes inexistantes, de tables inexistantes, etc., diminuent toutes considérablement
Effet d'Échelle : Les modèles plus grands bénéficient davantage de l'alignement sémantique

Travaux Connexes

Recherche sur la Liaison de Schéma

Méthodes Précoces : Classement de listes basé sur les classificateurs
Méthodes LLM : Invites multi-étapes, cadres multi-agents (CHESS)
Innovation de cet Article : Première méthode de liaison de schéma entièrement basée sur base de données vectorielle

Recherche sur la Génération SQL

Apprentissage en Contexte : Invites structurées, apprentissage peu supervisé, auto-cohérence
Méthodes d'Affinage : Adaptation de domaine, augmentation de données, décomposition de tâches
Contribution de cet Article : Mécanisme d'auto-correction par apprentissage par renforcement guidé par l'exécution

Conclusion et Discussion

Conclusions Principales

Viabilité Légère : Démontre que la génération Texte-vers-SQL de haute qualité peut être réalisée par des modèles légers
Équilibre entre Efficacité et Performance : Maintient une performance compétitive tout en réduisant considérablement le nombre de paramètres
Valeur Pratique : Fournit une solution pratique pour les scénarios sensibles à la confidentialité et aux ressources limitées

Limitations

Problème de Valeur k Fixe : La récupération d'un nombre fixe de colonnes introduit inévitablement des faux positifs
Détection d'Erreurs Sémantiques : Le mécanisme d'auto-correction actuel traite principalement les erreurs de syntaxe, avec une efficacité limitée pour les requêtes sémantiquement correctes mais logiquement erronées

Directions Futures

Stratégie de Récupération Dynamique : Ajuste adaptatif du nombre de colonnes récupérées en fonction de la complexité de la question
Détection d'Erreurs Sémantiques : Développement de mécanismes pour capturer les erreurs sémantiques
Extension Multimodale : Combinaison du contenu des tableaux et des informations de schéma

Évaluation Approfondie

Points Forts

Forte Innovativité : Première application systématique de base de données vectorielle à la liaison de schéma Texte-vers-SQL
Valeur Pratique Élevée : Résout les problèmes de confidentialité et de déploiement des méthodes basées sur LLM
Expériences Complètes : Expériences d'ablation complètes et analyse des erreurs
Technique Solide : Conception raisonnée de la perte HN-SupCon et de la stratégie d'entraînement en deux étapes

Insuffisances

Stratégie de Récupération Simple : La récupération avec k fixe peut ne pas être la stratégie optimale
Limitation des Types d'Erreurs : L'auto-correction cible principalement les erreurs détectables par exécution
Limitation des Ensembles de Données : Validation principalement sur des ensembles de données en anglais, capacité de généralisation multilingue inconnue

Impact

Valeur Académique : Fournit de nouvelles perspectives pour la recherche Texte-vers-SQL légère
Valeur Pratique : Applicable aux scénarios d'informatique en périphérie et de protection de la confidentialité
Reproductibilité : Basé sur des modèles open-source, facile à reproduire et à étendre

Scénarios d'Application

Environnements aux Ressources Limitées : Appareils périphériques, applications mobiles
Scénarios Sensibles à la Confidentialité : Bases de données internes d'entreprise, domaines médical et financier
Applications en Temps Réel : Systèmes de requêtes interactives nécessitant une réponse rapide

Références Bibliographiques

L'article cite les travaux importants du domaine Texte-vers-SQL, notamment :

Les articles originaux des ensembles de données de référence Spider et BIRD
Les principales méthodes basées sur LLM (DIN-SQL, CHESS, CHASE-SQL, etc.)
Les travaux représentatifs des méthodes d'affinage (CodeS, OmniSQL, etc.)
Les fondations techniques connexes (DPO, LoRA, apprentissage contrastif, etc.)