2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic

LitE-SQL: Лёгкая и эффективная система Text-to-SQL с векторным связыванием схемы и самокоррекцией, управляемой выполнением

Основная информация

  • ID статьи: 2510.09014
  • Название: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
  • Авторы: Shengmin Piao, Jieun Lee, Sanghyun Park (Университет Йонсей)
  • Категория: cs.CL (Компьютерная лингвистика)
  • Дата публикации: Октябрь 2024
  • Ссылка на статью: https://arxiv.org/abs/2510.09014

Аннотация

Задача Text-to-SQL преобразует вопросы на естественном языке в SQL-запросы, обеспечивая интуитивное взаимодействие с базами данных для непрофессиональных пользователей. Хотя методы на основе больших языковых моделей (LLM) показывают отличные результаты, зависимость от проприетарных моделей вызывает опасения относительно осуществимости развёртывания и приватности данных. В данной статье предлагается LitE-SQL — лёгкая и эффективная система, содержащая два основных компонента: (i) Schema Retriever, выполняющий эффективное связывание схемы с использованием векторной базы данных с предварительно вычисленными встраиваниями схемы; (ii) SQL Generator, реализующий самокоррекцию посредством двухэтапной тонкой настройки (контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением) без дорогостоящей генерации множественных кандидатов. На наборе данных BIRD LitE-SQL достигает 72,10% точности выполнения, на Spider 1.0 — 88,45%, при этом имея в 2-30 раз меньше параметров, чем методы на основе LLM, но с сопоставимой или лучшей производительностью.

Исследовательский контекст и мотивация

Определение задачи

Задача Text-to-SQL направлена на преобразование вопросов на естественном языке в соответствующие SQL-запросы, снижая барьеры для непрофессиональных пользователей при доступе к структурированным базам данных. Эта задача имеет значительную практическую ценность, но сталкивается с проблемами кросс-доменной обобщаемости и генерации сложных запросов.

Ограничения существующих методов

  1. Проблема зависимости от LLM: Современные основные методы зависят от проприетарных больших моделей, таких как GPT-4 и Gemini, с риском утечки приватности данных и высокими затратами на развёртывание
  2. Потребление вычислительных ресурсов: Ввод полной информации о схеме приводит к резкому увеличению длины контекста, квадратичная сложность механизма самовнимания вызывает огромное потребление памяти
  3. Затраты на генерацию множественных кандидатов: Существующие методы генерируют несколько кандидатов запросов и выбирают оптимальное решение, что значительно увеличивает вычислительные затраты

Исследовательская мотивация

Для решения вышеупомянутых проблем данная работа направлена на разработку лёгкой и эффективной системы Text-to-SQL, которая при сохранении конкурентоспособной производительности значительно снижает количество параметров и вычислительные затраты, применяясь к сценариям, чувствительным к приватности и ограниченным в ресурсах.

Основные вклады

  1. Предложена система LitE-SQL: Первый метод связывания схемы, полностью использующий векторные базы данных, в сочетании с лёгким генератором SQL
  2. Инновационная функция потерь HN-SupCon: Оптимизация пространства встраиваний посредством контролируемого контрастивного обучения с фильтрацией жёстких отрицательных примеров
  3. Двухэтапная стратегия обучения: Контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением для эффективной самокоррекции
  4. Значительное повышение эффективности: Достижение конкурентоспособной производительности на наборах данных BIRD и Spider 1.0 с количеством параметров в 2-30 раз меньше, чем у существующих методов

Подробное описание методологии

Определение задачи

Учитывая вопрос на естественном языке Q и схему базы данных S, задача Text-to-SQL требует генерации SQL-запроса, результат выполнения которого на целевой базе данных совпадает с золотым стандартом запроса.

Архитектура модели

1. Schema Retriever (Извлекатель схемы)

Основной дизайн:

  • Кодирование каждого столбца в плотное встраивание, содержащее имя столбца, описание, имя таблицы и описание значений
  • Предварительное вычисление встраиваний схемы и сохранение в векторной базе данных
  • При выводе кодируется только вопрос, извлечение top-k релевантных столбцов через косинусное сходство

Функция потерь HN-SupCon:

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

где s(·,·) обозначает косинусное сходство, τ — параметр температуры, mij — функция маски для фильтрации простых отрицательных примеров, сосредоточиваясь на семантически похожих, но функционально не связанных жёстких отрицательных примерах.

2. SQL Generator (Генератор SQL)

Двухэтапная стратегия обучения:

Этап 1: Контролируемая тонкая настройка (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)
  • Обучение условному отображению от вопросов на естественном языке и информации о схеме к SQL-запросам
  • Увеличение данных путём случайной выборки нерелевантной информации о схеме для обеспечения согласованности между обучением и выводом

Этап 2: Обучение с подкреплением (RFT) Использование прямой оптимизации предпочтений (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)
  • Построение пар предпочтений на основе результатов выполнения: успешно выполненные запросы предпочтительнее неудачных
  • Комбинированное обучение самокоррекции с использованием сообщений об ошибках

Технические инновации

  1. Связывание схемы, управляемое векторной базой данных: В отличие от существующих методов, требующих повторного кодирования схемы каждый раз, данный метод требует кодирования только вопроса, значительно повышая эффективность
  2. Механизм фильтрации жёстких отрицательных примеров: Функция потерь HN-SupCon сосредоточена на различении семантически похожих, но функционально не связанных столбцов, повышая качество извлечения
  3. Самокоррекция, управляемая выполнением: Использование обратной связи от выполнения SQL для обучения с подкреплением, избегая вычислительных затрат на генерацию множественных кандидатов

Экспериментальная установка

Наборы данных

  • BIRD: 95 крупных баз данных, 37 профессиональных областей, 9376 обучающих образцов, 1534 образца валидации
  • Spider 1.0: 200 баз данных, 138 областей, 8659 обучающих образцов, 1034 образца валидации, 2147 тестовых образцов

Метрики оценки

  1. Точность выполнения (EX): Согласованность результатов выполнения предсказанного SQL и золотого стандарта SQL
  2. Истинно положительный коэффициент (TPR): Доля извлечённых релевантных столбцов от всех релевантных столбцов золотого стандарта
  3. Ложно положительный коэффициент (FPR): Доля извлечённых нерелевантных столбцов от всех извлечённых столбцов
  4. Коэффициент отзыва связывания схемы (SLR): Доля запросов, для которых полностью извлечены все релевантные столбцы

Методы сравнения

  • Методы контекстного обучения: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL и др.
  • Методы тонкой настройки: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL и др.

Детали реализации

  • Модель встраивания: Qwen3-0.6B-Embedding
  • Генератор SQL: Qwen2.5-Coder (1.5B, 3B, 7B)
  • Векторная база данных: ChromaDB
  • Параметры обучения: 4 GPU A100, оптимизатор AdamW, адаптер LoRA

Результаты экспериментов

Основные результаты

Категория методаМодельКоличество параметровBIRD(Dev) EXSpider 1.0(Test) EX
Контекстное обучение
CHASE-SQLGemini 1.5200B73.0187.60
MCS-SQLGPT-4175B63.3689.60
Методы тонкой настройки
Reasoning-SQLQwen2.5-Coder-14B14B72.2981.43
LitE-SQLQwen2.5-Coder-7B7B72.1088.45

Ключевые находки

  1. Эффективность параметров: Модель с 7B параметрами превосходит большинство методов LLM с 175B-200B параметрами
  2. Кросс-доменная обобщаемость: Превосходит MCS-SQL на 8.74% на BIRD, отстаёт только на 1.15% на Spider
  3. Последовательная производительность: В среднем улучшение на 10.87% (BIRD) и 7.21% (Spider) по сравнению с методами тонкой настройки аналогичного размера

Абляционные эксперименты

Конфигурация компонентовBIRD EXSpider EXВеличина улучшения
Базовая линия (без извлекателя + генератора)39.3161.61-
+Schema Retriever43.1664.28+3.85/+2.67
+SFT58.2183.56+18.90/+21.95
+RFT60.5684.35+21.25/+22.74

Анализ производительности связывания схемы

Сравнение с методами базовой линии (подвыборка набора данных BIRD):

  • LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
  • CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
  • CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

Несмотря на более высокий FPR, преимущество в SLR компенсирует влияние ложных положительных результатов, и использование только 0.6B параметров достигает производительности, сопоставимой с моделями с 200B параметрами.

Анализ эффекта самокоррекции

  • Убывающая отдача от итераций: Первая самокоррекция приносит наибольшее улучшение, последующие итерации показывают постепенно уменьшающуюся отдачу
  • Улучшение типов ошибок: Синтаксические ошибки, ошибки несуществования столбцов, ошибки несуществования таблиц и другие типы ошибок значительно снижаются
  • Эффект масштаба: Более крупные модели получают большую пользу в аспекте семантического выравнивания

Связанные работы

Исследования связывания схемы

  1. Ранние методы: Ранжирование столбцов на основе классификаторов
  2. Методы LLM: Многошаговые подсказки, многоагентные системы (CHESS)
  3. Инновация данной работы: Первый метод связывания схемы, полностью основанный на векторных базах данных

Исследования генерации SQL

  1. Контекстное обучение: Структурированные подсказки, обучение с малым количеством примеров, самосогласованность
  2. Методы тонкой настройки: Адаптация к доменам, увеличение данных, разложение задач
  3. Вклад данной работы: Механизм самокоррекции с подкреплением, управляемый выполнением

Заключение и обсуждение

Основные выводы

  1. Осуществимость лёгких систем: Доказано, что высококачественная генерация Text-to-SQL может быть реализована с использованием лёгких моделей
  2. Баланс эффективности и производительности: Сохранение конкурентоспособной производительности при значительном снижении количества параметров
  3. Практическая ценность: Предоставление практического решения для сценариев, чувствительных к приватности и ограниченных в ресурсах

Ограничения

  1. Проблема фиксированного значения k: Извлечение фиксированного количества столбцов неизбежно приводит к введению ложных положительных результатов
  2. Обнаружение семантических ошибок: Текущий механизм самокоррекции в основном обрабатывает синтаксические ошибки, имея ограниченную эффективность для семантически корректных, но логически неправильных запросов

Направления будущих исследований

  1. Динамическая стратегия извлечения: Адаптивная регулировка количества извлекаемых столбцов в зависимости от сложности вопроса
  2. Обнаружение семантических ошибок: Разработка механизмов для выявления семантических ошибок
  3. Мультимодальное расширение: Интеграция содержимого таблиц и информации о схеме

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое систематическое применение векторных баз данных к связыванию схемы в Text-to-SQL
  2. Высокая практическая ценность: Решение проблем приватности и развёртывания методов на основе LLM
  3. Полные эксперименты: Всесторонние абляционные эксперименты и анализ ошибок
  4. Надёжная техника: Разумный дизайн функции потерь HN-SupCon и двухэтапной стратегии обучения

Недостатки

  1. Простая стратегия извлечения: Извлечение с фиксированным значением k может быть не оптимальной стратегией
  2. Ограничение типов ошибок: Самокоррекция в основном направлена на ошибки, обнаруживаемые при выполнении
  3. Ограничение наборов данных: Основная валидация на английских наборах данных, способность к многоязычной обобщаемости неизвестна

Влияние

  1. Академическая ценность: Предоставление новых идей для исследований лёгких систем Text-to-SQL
  2. Практическая ценность: Применимость к вычислениям на периферии и сценариям защиты приватности
  3. Воспроизводимость: Основание на открытых моделях, простота воспроизведения и расширения

Применимые сценарии

  1. Среды с ограниченными ресурсами: Периферийные устройства, мобильные приложения
  2. Сценарии, чувствительные к приватности: Внутренние базы данных предприятий, области здравоохранения и финансов
  3. Приложения реального времени: Интерактивные системы запросов, требующие быстрого отклика

Библиография

Статья ссылается на важные работы в области Text-to-SQL, включая:

  • Оригинальные статьи наборов данных Spider и BIRD
  • Представительные методы на основе LLM (DIN-SQL, CHESS, CHASE-SQL и др.)
  • Репрезентативные работы по методам тонкой настройки (CodeS, OmniSQL и др.)
  • Связанные технические основы (DPO, LoRA, контрастивное обучение и др.)