The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
論文ID : 2510.09014タイトル : LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction著者 : Shengmin Piao, Jieun Lee, Sanghyun Park (延世大学)分類 : cs.CL (計算言語学)発表時期 : 2024年10月論文リンク : https://arxiv.org/abs/2510.09014 テキスト・ツー・SQL タスクは自然言語の質問をSQL クエリに変換し、非専門家ユーザーに直感的なデータベース操作方法を提供します。大規模言語モデル(LLM)ベースの手法は優れた性能を示していますが、専有モデルへの依存は展開可能性とデータプライバシーに関する懸念を引き起こしています。本論文ではLitE-SQL を提案します。これは2つのコア コンポーネントを含む軽量で効率的なフレームワークです:(i) スキーマ検索器は、事前計算されたスキーマ埋め込みを使用したベクトルデータベースで効率的なスキーマリンキングを実行します;(ii) SQL生成器は、高価な複数候補生成を必要としない2段階微調整(教師あり微調整+実行ガイド付き強化学習)を通じて自己修正を実現します。BIRDデータセットでLitE-SQLは72.10%の実行精度を達成し、Spider 1.0では88.45%を達成しており、パラメータ数がLLM手法の1/2から1/30であるにもかかわらず、同等またはそれ以上の性能を発揮します。
テキスト・ツー・SQLタスクは自然言語の質問を対応するSQLクエリに変換することを目的としており、非専門家ユーザーが構造化データベースにアクセスする敷居を低くします。このタスクは実際の応用において重要な価値を持ちますが、ドメイン間の汎化と複雑なクエリ生成の課題に直面しています。
LLM依存性の問題 : 現在の主流手法はGPT-4、Geminiなどの専有大規模モデルに依存しており、データプライバシー漏洩のリスク、高い展開コストが存在します計算リソース消費 : 完全なスキーマ情報の入力によるコンテキスト長の急増、自己注意メカニズムの二次複雑性による膨大なメモリ消費複数候補生成のオーバーヘッド : 既存手法は複数の候補クエリを生成して最適解を選択することで、計算コストが大幅に増加します上記の問題に対処するため、本論文は軽量で効率的なテキスト・ツー・SQLフレームワークを開発することを目指しており、競争力のある性能を維持しながら、パラメータ数と計算コストを大幅に削減し、プライバシーに敏感で資源が限定されたシナリオに適用可能にします。
LitE-SQLフレームワークの提案 : ベクトルデータベースで駆動される完全なスキーマリンキング手法と軽量なSQL生成器を組み合わせた最初のフレームワーク革新的なHN-SupCon損失関数 : ハード負サンプルフィルタリングを通じた教師あり対比学習により埋め込み空間を最適化2段階訓練戦略 : 教師あり微調整+実行ガイド付き強化学習による効率的な自己修正顕著な効率向上 : BIRDおよびSpider 1.0データセットで競争力のある性能を達成し、パラメータ数は既存手法の1/2から1/30自然言語の質問Q とデータベーススキーマS が与えられた場合、テキスト・ツー・SQLタスクは、ターゲットデータベース上での実行結果が金標準クエリと一致するSQLクエリを生成することを要求します。
コア設計 :
各列を列名、説明、テーブル名、値説明を含む密集埋め込みとしてエンコード スキーマ埋め込みを事前計算してベクトルデータベースに保存 推論時は質問のみをエンコードし、コサイン類似度を通じてトップk関連列を検索 HN-SupCon損失関数 :
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
ここでs(·,·)はコサイン類似度を表し、τは温度パラメータ、mijはマスク関数であり、単純な負サンプルをフィルタリングし、意味的に類似しているが機能的に無関係なハード負サンプルに焦点を当てるために使用されます。
2段階訓練戦略 :
段階1: 教師あり微調整(SFT)
L_SFT(θ) = -log P(SQL | Q, S; θ)
自然言語の質問とスキーマ情報からSQLクエリへの条件付きマッピングを学習 ランダムサンプリング無関列情報によるデータ拡張を通じて訓練と推論の一貫性を確保 段階2: 強化微調整(RFT)
直接選好最適化(DPO)を使用:
L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
実行結果に基づいて選好ペアを構築: 成功実行クエリが失敗クエリより優先 エラーメッセージを組み合わせた自己修正訓練 ベクトルデータベース駆動のスキーマリンキング : 既存手法がスキーマを毎回再エンコードするのに対し、本手法は質問のみをエンコードするため、効率が大幅に向上ハード負サンプルフィルタリング機構 : HN-SupCon損失は意味的に類似しているが機能的に無関係な列を区別することに焦点を当て、検索品質を向上実行ガイド付き自己修正 : SQL実行フィードバックを活用した強化学習により、複数候補生成の計算オーバーヘッドを回避BIRD : 95個の大規模データベース、37個の専門分野、9,376訓練サンプル、1,534検証サンプルSpider 1.0 : 200個のデータベース、138個の分野、8,659訓練サンプル、1,034検証サンプル、2,147テストサンプル実行精度(EX) : 予測SQLと金標準SQLの実行結果の一貫性真陽性率(TPR) : 検索された関連列が金標準関連列に占める比率偽陽性率(FPR) : 検索された無関列が総検索列に占める比率スキーマリンキング再現率(SLR) : すべての関連列を完全に検索したクエリの比率文脈内学習手法 : ChatGPT+CoT、DIN-SQL、DAIL-SQL、CHESS、CHASE-SQLなど微調整手法 : CodeS、OmniSQL、DTS-SQL、Reasoning-SQLなど埋め込みモデル : Qwen3-0.6B-EmbeddingSQL生成器 : Qwen2.5-Coder (1.5B、3B、7B)ベクトルデータベース : ChromaDB訓練設定 : 4個のA100 GPU、AdamWオプティマイザー、LoRA適応手法カテゴリ モデル パラメータ数 BIRD(Dev) EX Spider 1.0(Test) EX 文脈内学習 CHASE-SQL Gemini 1.5 200B 73.01 87.60 MCS-SQL GPT-4 175B 63.36 89.60 微調整手法 Reasoning-SQL Qwen2.5-Coder-14B 14B 72.29 81.43 LitE-SQL Qwen2.5-Coder-7B 7B 72.10 88.45
パラメータ効率 : 7Bモデルが大部分の175B-200Bパラメータを持つLLM手法を上回るドメイン間汎化 : BIRDでMCS-SQLを8.74%上回り、Spiderではわずか1.15%の遅れ一貫した性能 : 同規模の微調整手法と比較して、平均10.87%(BIRD)および7.21%(Spider)の向上コンポーネント構成 BIRD EX Spider EX 向上幅 ベースライン(検索器+生成器なし) 39.31 61.61 - +スキーマ検索器 43.16 64.28 +3.85/+2.67 +SFT 58.21 83.56 +18.90/+21.95 +RFT 60.56 84.35 +21.25/+22.74
ベースライン手法との比較(BIRDデータセットのサブサンプリング):
LitE-SQL : TPR=95.23%、FPR=80.28%、SLR=82.31%、EX=56.46%CHESS : TPR=87.15%、FPR=8.27%、SLR=61.9%、EX=57.14%CodeS : TPR=89.64%、FPR=74.16%、SLR=65.31%、EX=51.70%FPRがより高いにもかかわらず、SLRの優位性が偽陽性の影響を補い、わずか0.6Bパラメータで200Bモデルと同等の性能を達成しています。
反復収益の逓減 : 最初の自己修正が最大の向上をもたらし、その後の反復は段階的に減少エラータイプの改善 : 構文エラー、列が存在しない、テーブルが存在しないなどのエラータイプがすべて大幅に減少規模効果 : より大きなモデルは意味的アライメントからより多くの利益を得る初期手法 : 分類器ベースの列ランキングLLM手法 : 多段階プロンプティング、マルチエージェントフレームワーク(CHESS)本論文の革新 : ベクトルデータベースに完全に基づく最初のスキーマリンキング手法文脈内学習 : 構造化プロンプティング、少数ショット学習、自己一貫性微調整手法 : ドメイン適応、データ拡張、タスク分解本論文の貢献 : 実行ガイド付き強化学習自己修正メカニズム軽量化の実現可能性 : 高品質なテキスト・ツー・SQL生成が軽量モデルで実現可能であることを証明効率と性能のバランス : パラメータ数を大幅に削減しながら競争力のある性能を維持実用的価値 : プライバシーに敏感で資源が限定されたシナリオに実用的なソリューションを提供固定k値の問題 : 固定数の列を検索することは必然的に偽陽性をもたらす意味的エラー検出 : 現在の自己修正メカニズムは主に構文エラーを処理し、意味的に正しいが論理的に誤ったクエリに対する効果は限定的動的検索戦略 : 質問の複雑さに基づいて検索列数を適応的に調整意味的エラー検出 : 意味的エラーをキャプチャするメカニズムの開発マルチモーダル拡張 : テーブルコンテンツとスキーマ情報の組み合わせ革新性が高い : ベクトルデータベースをテキスト・ツー・SQLのスキーマリンキングに初めて体系的に適用実用的価値が高い : LLM手法のプライバシーと展開の問題を解決実験が充分 : 包括的なアブレーション実験とエラー分析技術が堅実 : HN-SupCon損失と2段階訓練戦略の設計が合理的検索戦略が単純 : 固定k値検索が最適戦略ではない可能性エラータイプが限定的 : 自己修正は主に実行可能検出可能なエラーに対応データセットが限定的 : 主に英語データセットで検証、多言語汎化能力は未知学術的価値 : 軽量テキスト・ツー・SQL研究に新しい視点を提供実用的価値 : エッジコンピューティングとプライバシー保護シナリオに適用可能再現可能性 : オープンソースモデルに基づき、再現と拡張が容易リソース制約環境 : エッジデバイス、モバイルアプリケーションプライバシー敏感シナリオ : 企業内部データベース、医療金融分野などリアルタイムアプリケーション : 迅速な応答が必要なインタラクティブクエリシステム論文はテキスト・ツー・SQL分野の重要な研究を引用しており、以下を含みます:
SpiderおよびBIRDベンチマークデータセットの原論文 主要なLLMベース手法(DIN-SQL、CHESS、CHASE-SQLなど) 微調整手法の代表的研究(CodeS、OmniSQLなど) 関連技術基礎(DPO、LoRA、対比学習など)