2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL: Лёгкая и эффективная система Text-to-SQL с векторным связыванием схемы и самокоррекцией, управляемой выполнением

Основная информация

ID статьи: 2510.09014
Название: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Авторы: Shengmin Piao, Jieun Lee, Sanghyun Park (Университет Йонсей)
Категория: cs.CL (Компьютерная лингвистика)
Дата публикации: Октябрь 2024
Ссылка на статью: https://arxiv.org/abs/2510.09014

Аннотация

Задача Text-to-SQL преобразует вопросы на естественном языке в SQL-запросы, обеспечивая интуитивное взаимодействие с базами данных для непрофессиональных пользователей. Хотя методы на основе больших языковых моделей (LLM) показывают отличные результаты, зависимость от проприетарных моделей вызывает опасения относительно осуществимости развёртывания и приватности данных. В данной статье предлагается LitE-SQL — лёгкая и эффективная система, содержащая два основных компонента: (i) Schema Retriever, выполняющий эффективное связывание схемы с использованием векторной базы данных с предварительно вычисленными встраиваниями схемы; (ii) SQL Generator, реализующий самокоррекцию посредством двухэтапной тонкой настройки (контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением) без дорогостоящей генерации множественных кандидатов. На наборе данных BIRD LitE-SQL достигает 72,10% точности выполнения, на Spider 1.0 — 88,45%, при этом имея в 2-30 раз меньше параметров, чем методы на основе LLM, но с сопоставимой или лучшей производительностью.

Исследовательский контекст и мотивация

Определение задачи

Задача Text-to-SQL направлена на преобразование вопросов на естественном языке в соответствующие SQL-запросы, снижая барьеры для непрофессиональных пользователей при доступе к структурированным базам данных. Эта задача имеет значительную практическую ценность, но сталкивается с проблемами кросс-доменной обобщаемости и генерации сложных запросов.

Ограничения существующих методов

Проблема зависимости от LLM: Современные основные методы зависят от проприетарных больших моделей, таких как GPT-4 и Gemini, с риском утечки приватности данных и высокими затратами на развёртывание
Потребление вычислительных ресурсов: Ввод полной информации о схеме приводит к резкому увеличению длины контекста, квадратичная сложность механизма самовнимания вызывает огромное потребление памяти
Затраты на генерацию множественных кандидатов: Существующие методы генерируют несколько кандидатов запросов и выбирают оптимальное решение, что значительно увеличивает вычислительные затраты

Исследовательская мотивация

Для решения вышеупомянутых проблем данная работа направлена на разработку лёгкой и эффективной системы Text-to-SQL, которая при сохранении конкурентоспособной производительности значительно снижает количество параметров и вычислительные затраты, применяясь к сценариям, чувствительным к приватности и ограниченным в ресурсах.

Основные вклады

Предложена система LitE-SQL: Первый метод связывания схемы, полностью использующий векторные базы данных, в сочетании с лёгким генератором SQL
Инновационная функция потерь HN-SupCon: Оптимизация пространства встраиваний посредством контролируемого контрастивного обучения с фильтрацией жёстких отрицательных примеров
Двухэтапная стратегия обучения: Контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением для эффективной самокоррекции
Значительное повышение эффективности: Достижение конкурентоспособной производительности на наборах данных BIRD и Spider 1.0 с количеством параметров в 2-30 раз меньше, чем у существующих методов

Подробное описание методологии

Определение задачи

Учитывая вопрос на естественном языке Q и схему базы данных S, задача Text-to-SQL требует генерации SQL-запроса, результат выполнения которого на целевой базе данных совпадает с золотым стандартом запроса.

Архитектура модели

1. Schema Retriever (Извлекатель схемы)

Основной дизайн:

Кодирование каждого столбца в плотное встраивание, содержащее имя столбца, описание, имя таблицы и описание значений
Предварительное вычисление встраиваний схемы и сохранение в векторной базе данных
При выводе кодируется только вопрос, извлечение top-k релевантных столбцов через косинусное сходство

Функция потерь HN-SupCon:

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

где s(·,·) обозначает косинусное сходство, τ — параметр температуры, mij — функция маски для фильтрации простых отрицательных примеров, сосредоточиваясь на семантически похожих, но функционально не связанных жёстких отрицательных примерах.

2. SQL Generator (Генератор SQL)

Двухэтапная стратегия обучения:

Этап 1: Контролируемая тонкая настройка (SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

Обучение условному отображению от вопросов на естественном языке и информации о схеме к SQL-запросам
Увеличение данных путём случайной выборки нерелевантной информации о схеме для обеспечения согласованности между обучением и выводом

Этап 2: Обучение с подкреплением (RFT) Использование прямой оптимизации предпочтений (DPO):

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

Построение пар предпочтений на основе результатов выполнения: успешно выполненные запросы предпочтительнее неудачных
Комбинированное обучение самокоррекции с использованием сообщений об ошибках

Технические инновации

Связывание схемы, управляемое векторной базой данных: В отличие от существующих методов, требующих повторного кодирования схемы каждый раз, данный метод требует кодирования только вопроса, значительно повышая эффективность
Механизм фильтрации жёстких отрицательных примеров: Функция потерь HN-SupCon сосредоточена на различении семантически похожих, но функционально не связанных столбцов, повышая качество извлечения
Самокоррекция, управляемая выполнением: Использование обратной связи от выполнения SQL для обучения с подкреплением, избегая вычислительных затрат на генерацию множественных кандидатов

Экспериментальная установка

Наборы данных

BIRD: 95 крупных баз данных, 37 профессиональных областей, 9376 обучающих образцов, 1534 образца валидации
Spider 1.0: 200 баз данных, 138 областей, 8659 обучающих образцов, 1034 образца валидации, 2147 тестовых образцов

Метрики оценки

Точность выполнения (EX): Согласованность результатов выполнения предсказанного SQL и золотого стандарта SQL
Истинно положительный коэффициент (TPR): Доля извлечённых релевантных столбцов от всех релевантных столбцов золотого стандарта
Ложно положительный коэффициент (FPR): Доля извлечённых нерелевантных столбцов от всех извлечённых столбцов
Коэффициент отзыва связывания схемы (SLR): Доля запросов, для которых полностью извлечены все релевантные столбцы

Методы сравнения

Методы контекстного обучения: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL и др.
Методы тонкой настройки: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL и др.

Детали реализации

Модель встраивания: Qwen3-0.6B-Embedding
Генератор SQL: Qwen2.5-Coder (1.5B, 3B, 7B)
Векторная база данных: ChromaDB
Параметры обучения: 4 GPU A100, оптимизатор AdamW, адаптер LoRA

Результаты экспериментов

Основные результаты

Категория метода	Модель	Количество параметров	BIRD(Dev) EX	Spider 1.0(Test) EX
Контекстное обучение
CHASE-SQL	Gemini 1.5	200B	73.01	87.60
MCS-SQL	GPT-4	175B	63.36	89.60
Методы тонкой настройки
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72.29	81.43
LitE-SQL	Qwen2.5-Coder-7B	7B	72.10	88.45

Ключевые находки

Эффективность параметров: Модель с 7B параметрами превосходит большинство методов LLM с 175B-200B параметрами
Кросс-доменная обобщаемость: Превосходит MCS-SQL на 8.74% на BIRD, отстаёт только на 1.15% на Spider
Последовательная производительность: В среднем улучшение на 10.87% (BIRD) и 7.21% (Spider) по сравнению с методами тонкой настройки аналогичного размера

Абляционные эксперименты

Конфигурация компонентов	BIRD EX	Spider EX	Величина улучшения
Базовая линия (без извлекателя + генератора)	39.31	61.61	-
+Schema Retriever	43.16	64.28	+3.85/+2.67
+SFT	58.21	83.56	+18.90/+21.95
+RFT	60.56	84.35	+21.25/+22.74

Анализ производительности связывания схемы

Сравнение с методами базовой линии (подвыборка набора данных BIRD):

LitE-SQL: TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%
CHESS: TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%
CodeS: TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%

Несмотря на более высокий FPR, преимущество в SLR компенсирует влияние ложных положительных результатов, и использование только 0.6B параметров достигает производительности, сопоставимой с моделями с 200B параметрами.

Анализ эффекта самокоррекции

Убывающая отдача от итераций: Первая самокоррекция приносит наибольшее улучшение, последующие итерации показывают постепенно уменьшающуюся отдачу
Улучшение типов ошибок: Синтаксические ошибки, ошибки несуществования столбцов, ошибки несуществования таблиц и другие типы ошибок значительно снижаются
Эффект масштаба: Более крупные модели получают большую пользу в аспекте семантического выравнивания

Связанные работы

Исследования связывания схемы

Ранние методы: Ранжирование столбцов на основе классификаторов
Методы LLM: Многошаговые подсказки, многоагентные системы (CHESS)
Инновация данной работы: Первый метод связывания схемы, полностью основанный на векторных базах данных

Исследования генерации SQL

Контекстное обучение: Структурированные подсказки, обучение с малым количеством примеров, самосогласованность
Методы тонкой настройки: Адаптация к доменам, увеличение данных, разложение задач
Вклад данной работы: Механизм самокоррекции с подкреплением, управляемый выполнением

Заключение и обсуждение

Основные выводы

Осуществимость лёгких систем: Доказано, что высококачественная генерация Text-to-SQL может быть реализована с использованием лёгких моделей
Баланс эффективности и производительности: Сохранение конкурентоспособной производительности при значительном снижении количества параметров
Практическая ценность: Предоставление практического решения для сценариев, чувствительных к приватности и ограниченных в ресурсах

Ограничения

Проблема фиксированного значения k: Извлечение фиксированного количества столбцов неизбежно приводит к введению ложных положительных результатов
Обнаружение семантических ошибок: Текущий механизм самокоррекции в основном обрабатывает синтаксические ошибки, имея ограниченную эффективность для семантически корректных, но логически неправильных запросов

Направления будущих исследований

Динамическая стратегия извлечения: Адаптивная регулировка количества извлекаемых столбцов в зависимости от сложности вопроса
Обнаружение семантических ошибок: Разработка механизмов для выявления семантических ошибок
Мультимодальное расширение: Интеграция содержимого таблиц и информации о схеме

Глубокая оценка

Преимущества

Высокая инновационность: Первое систематическое применение векторных баз данных к связыванию схемы в Text-to-SQL
Высокая практическая ценность: Решение проблем приватности и развёртывания методов на основе LLM
Полные эксперименты: Всесторонние абляционные эксперименты и анализ ошибок
Надёжная техника: Разумный дизайн функции потерь HN-SupCon и двухэтапной стратегии обучения

Недостатки

Простая стратегия извлечения: Извлечение с фиксированным значением k может быть не оптимальной стратегией
Ограничение типов ошибок: Самокоррекция в основном направлена на ошибки, обнаруживаемые при выполнении
Ограничение наборов данных: Основная валидация на английских наборах данных, способность к многоязычной обобщаемости неизвестна

Влияние

Академическая ценность: Предоставление новых идей для исследований лёгких систем Text-to-SQL
Практическая ценность: Применимость к вычислениям на периферии и сценариям защиты приватности
Воспроизводимость: Основание на открытых моделях, простота воспроизведения и расширения

Применимые сценарии

Среды с ограниченными ресурсами: Периферийные устройства, мобильные приложения
Сценарии, чувствительные к приватности: Внутренние базы данных предприятий, области здравоохранения и финансов
Приложения реального времени: Интерактивные системы запросов, требующие быстрого отклика

Библиография

Статья ссылается на важные работы в области Text-to-SQL, включая:

Оригинальные статьи наборов данных Spider и BIRD
Представительные методы на основе LLM (DIN-SQL, CHESS, CHASE-SQL и др.)
Репрезентативные работы по методам тонкой настройки (CodeS, OmniSQL и др.)
Связанные технические основы (DPO, LoRA, контрастивное обучение и др.)