2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL : Un Cadre Texte-vers-SQL Léger et Efficace avec Liaison de Schéma Basée sur Vecteurs et Auto-Correction Guidée par l'Exécution

Informations Fondamentales

  • ID de l'article : 2510.09014
  • Titre : LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
  • Auteurs : Shengmin Piao, Jieun Lee, Sanghyun Park (Université Yonsei)
  • Classification : cs.CL (Linguistique Computationnelle)
  • Date de publication : Octobre 2024
  • Lien de l'article : https://arxiv.org/abs/2510.09014

Résumé

La tâche Texte-vers-SQL convertit les questions en langage naturel en requêtes SQL, offrant aux utilisateurs non-experts une interaction intuitive avec les bases de données. Bien que les méthodes basées sur les grands modèles de langage (LLMs) montrent d'excellentes performances, la dépendance aux modèles propriétaires soulève des préoccupations concernant la viabilité du déploiement et la confidentialité des données. Cet article propose LitE-SQL, un cadre léger et efficace contenant deux composants principaux : (i) Schema Retriever, qui effectue une liaison de schéma efficace en utilisant une base de données vectorielle avec des plongements de schéma précalculés ; (ii) SQL Generator, qui réalise l'auto-correction par un affinage en deux étapes (affinage supervisé + apprentissage par renforcement guidé par l'exécution), sans nécessiter la génération coûteuse de multiples candidats. Sur l'ensemble de données BIRD, LitE-SQL atteint 72,10 % de précision d'exécution, et 88,45 % sur Spider 1.0, avec une performance équivalente ou supérieure malgré un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes basées sur LLM.

Contexte de Recherche et Motivation

Définition du Problème

La tâche Texte-vers-SQL vise à convertir les questions en langage naturel en requêtes SQL correspondantes, réduisant le seuil d'accès des utilisateurs non-professionnels aux bases de données structurées. Cette tâche possède une valeur importante dans les applications pratiques, mais fait face aux défis de la généralisation inter-domaines et de la génération de requêtes complexes.

Limitations des Méthodes Existantes

  1. Problème de dépendance aux LLM : Les méthodes actuelles dominantes dépendent des modèles propriétaires de grande taille tels que GPT-4 et Gemini, présentant des risques de fuite de confidentialité des données et des coûts de déploiement élevés
  2. Consommation de ressources informatiques : L'entrée d'informations de schéma complètes entraîne une augmentation drastique de la longueur du contexte, et la complexité quadratique du mécanisme d'auto-attention provoque une consommation mémoire énorme
  3. Surcharge de génération de multiples candidats : Les méthodes existantes génèrent plusieurs requêtes candidates et sélectionnent la solution optimale, entraînant des coûts de calcul significatifs

Motivation de la Recherche

Face aux problèmes susmentionnés, cet article vise à développer un cadre Texte-vers-SQL léger et efficace qui, tout en maintenant une performance compétitive, réduit considérablement le nombre de paramètres et les coûts de calcul, applicable aux scénarios sensibles à la confidentialité et aux ressources limitées.

Contributions Principales

  1. Proposition du cadre LitE-SQL : Première méthode de liaison de schéma entièrement pilotée par base de données vectorielle, combinée à un générateur SQL léger
  2. Fonction de perte HN-SupCon innovante : Optimise l'espace d'plongement par apprentissage contrastif supervisé avec filtrage de négatifs difficiles
  3. Stratégie d'entraînement en deux étapes : Affinage supervisé + apprentissage par renforcement guidé par l'exécution, réalisant une auto-correction efficace
  4. Amélioration significative de l'efficacité : Atteint une performance compétitive sur les ensembles de données BIRD et Spider 1.0, avec un nombre de paramètres représentant seulement 1/2 à 1/30 des méthodes existantes

Détails de la Méthode

Définition de la Tâche

Étant donné une question en langage naturel Q et un schéma de base de données S, la tâche Texte-vers-SQL exige de générer une requête SQL dont le résultat d'exécution sur la base de données cible soit cohérent avec la requête d'or standard.

Architecture du Modèle

1. Schema Retriever (Récupérateur de Schéma)

Conception Principale :

  • Encode chaque colonne en tant que plongement dense contenant le nom de la colonne, la description, le nom de la table et la description des valeurs
  • Précalcule les plongements de schéma et les stocke dans une base de données vectorielle
  • Lors de l'inférence, encode uniquement la question et récupère les k colonnes les plus pertinentes via similarité cosinus

Fonction de Perte HN-SupCon :

L_HN-SupCon = -1/B ∑(i=1 à B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 à Ni) mij * e^(s(qi,nij)/τ)

mij = {1 si qi⊙nij ≥ qi⊙pi - 0,1, 0 sinon}

Où s(·,·) représente la similarité cosinus, τ est le paramètre de température, et mij est une fonction de masque utilisée pour filtrer les négatifs simples et se concentrer sur les négatifs difficiles sémantiquement similaires mais fonctionnellement non pertinents.

2. SQL Generator (Générateur SQL)

Stratégie d'Entraînement en Deux Étapes :

Étape 1 : Affinage Supervisé (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • Apprend le mappage conditionnel du langage naturel et des informations de schéma vers les requêtes SQL
  • Effectue l'augmentation des données en échantillonnant aléatoirement des informations de schéma non pertinentes, assurant la cohérence entre l'entraînement et l'inférence

Étape 2 : Affinage par Renforcement (RFT) Utilisant l'optimisation de préférence directe (DPO) :

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • Construit des paires de préférence basées sur les résultats d'exécution : les requêtes exécutées avec succès sont préférées aux requêtes échouées
  • Combine les messages d'erreur pour l'entraînement à l'auto-correction

Points d'Innovation Technique

  1. Liaison de Schéma Pilotée par Base de Données Vectorielle : Contrairement aux méthodes existantes qui réencodent le schéma à chaque fois, cette méthode n'encode que la question, améliorant considérablement l'efficacité
  2. Mécanisme de Filtrage des Négatifs Difficiles : La perte HN-SupCon se concentre sur la distinction entre les colonnes sémantiquement similaires mais fonctionnellement non pertinentes, améliorant la qualité de la récupération
  3. Auto-Correction Guidée par l'Exécution : Utilise les retours d'exécution SQL pour l'apprentissage par renforcement, évitant les surcharges de calcul de la génération de multiples candidats

Configuration Expérimentale

Ensembles de Données

  • BIRD : 95 grandes bases de données, 37 domaines professionnels, 9376 échantillons d'entraînement, 1534 échantillons de validation
  • Spider 1.0 : 200 bases de données, 138 domaines, 8659 échantillons d'entraînement, 1034 échantillons de validation, 2147 échantillons de test

Métriques d'Évaluation

  1. Précision d'Exécution (EX) : Cohérence entre les résultats d'exécution de la requête SQL prédite et de la requête SQL d'or standard
  2. Taux de Vrais Positifs (TPR) : Proportion des colonnes pertinentes récupérées par rapport aux colonnes pertinentes d'or standard
  3. Taux de Faux Positifs (FPR) : Proportion des colonnes non pertinentes récupérées par rapport au total des colonnes récupérées
  4. Taux de Rappel de Liaison de Schéma (SLR) : Proportion des requêtes pour lesquelles toutes les colonnes pertinentes sont complètement récupérées

Méthodes de Comparaison

  • Méthodes d'apprentissage en contexte : ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL, etc.
  • Méthodes d'affinage : CodeS, OmniSQL, DTS-SQL, Reasoning-SQL, etc.

Détails d'Implémentation

  • Modèle d'Plongement : Qwen3-0.6B-Embedding
  • Générateur SQL : Qwen2.5-Coder (1.5B, 3B, 7B)
  • Base de Données Vectorielle : ChromaDB
  • Configuration d'Entraînement : 4 GPU A100, optimiseur AdamW, adaptation LoRA

Résultats Expérimentaux

Résultats Principaux

Catégorie de MéthodeModèleNombre de ParamètresBIRD(Dev) EXSpider 1.0(Test) EX
Apprentissage en Contexte
CHASE-SQLGemini 1.5200B73,0187,60
MCS-SQLGPT-4175B63,3689,60
Méthodes d'Affinage
Reasoning-SQLQwen2.5-Coder-14B14B72,2981,43
LitE-SQLQwen2.5-Coder-7B7B72,1088,45

Résultats Clés

  1. Efficacité des Paramètres : Le modèle 7B surpasse la plupart des méthodes LLM avec 175B-200B paramètres
  2. Généralisation Inter-Domaines : Surpasse MCS-SQL de 8,74 % sur BIRD, ne retard que de 1,15 % sur Spider
  3. Performance Cohérente : Amélioration moyenne de 10,87 % (BIRD) et 7,21 % (Spider) par rapport aux méthodes d'affinage de même taille

Expériences d'Ablation

Configuration des ComposantsBIRD EXSpider EXAmpleur de l'Amélioration
Ligne de Base (sans récupérateur + générateur)39,3161,61-
+Schema Retriever43,1664,28+3,85/+2,67
+SFT58,2183,56+18,90/+21,95
+RFT60,5684,35+21,25/+22,74

Analyse de la Performance de Liaison de Schéma

Comparaison avec les méthodes de base (sous-échantillonnage de l'ensemble de données BIRD) :

  • LitE-SQL : TPR=95,23 %, FPR=80,28 %, SLR=82,31 %, EX=56,46 %
  • CHESS : TPR=87,15 %, FPR=8,27 %, SLR=61,9 %, EX=57,14 %
  • CodeS : TPR=89,64 %, FPR=74,16 %, SLR=65,31 %, EX=51,70 %

Bien que le FPR soit plus élevé, l'avantage du SLR compense l'impact des faux positifs, et atteint une performance équivalente aux modèles 200B en utilisant seulement 0,6B paramètres.

Analyse de l'Effet d'Auto-Correction

  • Rendements Décroissants des Itérations : La première auto-correction apporte la plus grande amélioration, les itérations ultérieures montrant des rendements progressivement décroissants
  • Amélioration des Types d'Erreurs : Les erreurs de syntaxe, de colonnes inexistantes, de tables inexistantes, etc., diminuent toutes considérablement
  • Effet d'Échelle : Les modèles plus grands bénéficient davantage de l'alignement sémantique

Travaux Connexes

Recherche sur la Liaison de Schéma

  1. Méthodes Précoces : Classement de listes basé sur les classificateurs
  2. Méthodes LLM : Invites multi-étapes, cadres multi-agents (CHESS)
  3. Innovation de cet Article : Première méthode de liaison de schéma entièrement basée sur base de données vectorielle

Recherche sur la Génération SQL

  1. Apprentissage en Contexte : Invites structurées, apprentissage peu supervisé, auto-cohérence
  2. Méthodes d'Affinage : Adaptation de domaine, augmentation de données, décomposition de tâches
  3. Contribution de cet Article : Mécanisme d'auto-correction par apprentissage par renforcement guidé par l'exécution

Conclusion et Discussion

Conclusions Principales

  1. Viabilité Légère : Démontre que la génération Texte-vers-SQL de haute qualité peut être réalisée par des modèles légers
  2. Équilibre entre Efficacité et Performance : Maintient une performance compétitive tout en réduisant considérablement le nombre de paramètres
  3. Valeur Pratique : Fournit une solution pratique pour les scénarios sensibles à la confidentialité et aux ressources limitées

Limitations

  1. Problème de Valeur k Fixe : La récupération d'un nombre fixe de colonnes introduit inévitablement des faux positifs
  2. Détection d'Erreurs Sémantiques : Le mécanisme d'auto-correction actuel traite principalement les erreurs de syntaxe, avec une efficacité limitée pour les requêtes sémantiquement correctes mais logiquement erronées

Directions Futures

  1. Stratégie de Récupération Dynamique : Ajuste adaptatif du nombre de colonnes récupérées en fonction de la complexité de la question
  2. Détection d'Erreurs Sémantiques : Développement de mécanismes pour capturer les erreurs sémantiques
  3. Extension Multimodale : Combinaison du contenu des tableaux et des informations de schéma

Évaluation Approfondie

Points Forts

  1. Forte Innovativité : Première application systématique de base de données vectorielle à la liaison de schéma Texte-vers-SQL
  2. Valeur Pratique Élevée : Résout les problèmes de confidentialité et de déploiement des méthodes basées sur LLM
  3. Expériences Complètes : Expériences d'ablation complètes et analyse des erreurs
  4. Technique Solide : Conception raisonnée de la perte HN-SupCon et de la stratégie d'entraînement en deux étapes

Insuffisances

  1. Stratégie de Récupération Simple : La récupération avec k fixe peut ne pas être la stratégie optimale
  2. Limitation des Types d'Erreurs : L'auto-correction cible principalement les erreurs détectables par exécution
  3. Limitation des Ensembles de Données : Validation principalement sur des ensembles de données en anglais, capacité de généralisation multilingue inconnue

Impact

  1. Valeur Académique : Fournit de nouvelles perspectives pour la recherche Texte-vers-SQL légère
  2. Valeur Pratique : Applicable aux scénarios d'informatique en périphérie et de protection de la confidentialité
  3. Reproductibilité : Basé sur des modèles open-source, facile à reproduire et à étendre

Scénarios d'Application

  1. Environnements aux Ressources Limitées : Appareils périphériques, applications mobiles
  2. Scénarios Sensibles à la Confidentialité : Bases de données internes d'entreprise, domaines médical et financier
  3. Applications en Temps Réel : Systèmes de requêtes interactives nécessitant une réponse rapide

Références Bibliographiques

L'article cite les travaux importants du domaine Texte-vers-SQL, notamment :

  • Les articles originaux des ensembles de données de référence Spider et BIRD
  • Les principales méthodes basées sur LLM (DIN-SQL, CHESS, CHASE-SQL, etc.)
  • Les travaux représentatifs des méthodes d'affinage (CodeS, OmniSQL, etc.)
  • Les fondations techniques connexes (DPO, LoRA, apprentissage contrastif, etc.)