LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
Piao, Lee, Park
The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
academic
LitE-SQL: Лёгкая и эффективная система Text-to-SQL с векторным связыванием схемы и самокоррекцией, управляемой выполнением
Задача Text-to-SQL преобразует вопросы на естественном языке в SQL-запросы, обеспечивая интуитивное взаимодействие с базами данных для непрофессиональных пользователей. Хотя методы на основе больших языковых моделей (LLM) показывают отличные результаты, зависимость от проприетарных моделей вызывает опасения относительно осуществимости развёртывания и приватности данных. В данной статье предлагается LitE-SQL — лёгкая и эффективная система, содержащая два основных компонента: (i) Schema Retriever, выполняющий эффективное связывание схемы с использованием векторной базы данных с предварительно вычисленными встраиваниями схемы; (ii) SQL Generator, реализующий самокоррекцию посредством двухэтапной тонкой настройки (контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением) без дорогостоящей генерации множественных кандидатов. На наборе данных BIRD LitE-SQL достигает 72,10% точности выполнения, на Spider 1.0 — 88,45%, при этом имея в 2-30 раз меньше параметров, чем методы на основе LLM, но с сопоставимой или лучшей производительностью.
Задача Text-to-SQL направлена на преобразование вопросов на естественном языке в соответствующие SQL-запросы, снижая барьеры для непрофессиональных пользователей при доступе к структурированным базам данных. Эта задача имеет значительную практическую ценность, но сталкивается с проблемами кросс-доменной обобщаемости и генерации сложных запросов.
Проблема зависимости от LLM: Современные основные методы зависят от проприетарных больших моделей, таких как GPT-4 и Gemini, с риском утечки приватности данных и высокими затратами на развёртывание
Потребление вычислительных ресурсов: Ввод полной информации о схеме приводит к резкому увеличению длины контекста, квадратичная сложность механизма самовнимания вызывает огромное потребление памяти
Затраты на генерацию множественных кандидатов: Существующие методы генерируют несколько кандидатов запросов и выбирают оптимальное решение, что значительно увеличивает вычислительные затраты
Для решения вышеупомянутых проблем данная работа направлена на разработку лёгкой и эффективной системы Text-to-SQL, которая при сохранении конкурентоспособной производительности значительно снижает количество параметров и вычислительные затраты, применяясь к сценариям, чувствительным к приватности и ограниченным в ресурсах.
Предложена система LitE-SQL: Первый метод связывания схемы, полностью использующий векторные базы данных, в сочетании с лёгким генератором SQL
Инновационная функция потерь HN-SupCon: Оптимизация пространства встраиваний посредством контролируемого контрастивного обучения с фильтрацией жёстких отрицательных примеров
Двухэтапная стратегия обучения: Контролируемая тонкая настройка + управляемое выполнением обучение с подкреплением для эффективной самокоррекции
Значительное повышение эффективности: Достижение конкурентоспособной производительности на наборах данных BIRD и Spider 1.0 с количеством параметров в 2-30 раз меньше, чем у существующих методов
Учитывая вопрос на естественном языке Q и схему базы данных S, задача Text-to-SQL требует генерации SQL-запроса, результат выполнения которого на целевой базе данных совпадает с золотым стандартом запроса.
Кодирование каждого столбца в плотное встраивание, содержащее имя столбца, описание, имя таблицы и описание значений
Предварительное вычисление встраиваний схемы и сохранение в векторной базе данных
При выводе кодируется только вопрос, извлечение top-k релевантных столбцов через косинусное сходство
Функция потерь HN-SupCon:
L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)
Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)
mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}
где s(·,·) обозначает косинусное сходство, τ — параметр температуры, mij — функция маски для фильтрации простых отрицательных примеров, сосредоточиваясь на семантически похожих, но функционально не связанных жёстких отрицательных примерах.
Связывание схемы, управляемое векторной базой данных: В отличие от существующих методов, требующих повторного кодирования схемы каждый раз, данный метод требует кодирования только вопроса, значительно повышая эффективность
Механизм фильтрации жёстких отрицательных примеров: Функция потерь HN-SupCon сосредоточена на различении семантически похожих, но функционально не связанных столбцов, повышая качество извлечения
Самокоррекция, управляемая выполнением: Использование обратной связи от выполнения SQL для обучения с подкреплением, избегая вычислительных затрат на генерацию множественных кандидатов
Эффективность параметров: Модель с 7B параметрами превосходит большинство методов LLM с 175B-200B параметрами
Кросс-доменная обобщаемость: Превосходит MCS-SQL на 8.74% на BIRD, отстаёт только на 1.15% на Spider
Последовательная производительность: В среднем улучшение на 10.87% (BIRD) и 7.21% (Spider) по сравнению с методами тонкой настройки аналогичного размера
Несмотря на более высокий FPR, преимущество в SLR компенсирует влияние ложных положительных результатов, и использование только 0.6B параметров достигает производительности, сопоставимой с моделями с 200B параметрами.
Убывающая отдача от итераций: Первая самокоррекция приносит наибольшее улучшение, последующие итерации показывают постепенно уменьшающуюся отдачу
Улучшение типов ошибок: Синтаксические ошибки, ошибки несуществования столбцов, ошибки несуществования таблиц и другие типы ошибок значительно снижаются
Эффект масштаба: Более крупные модели получают большую пользу в аспекте семантического выравнивания
Проблема фиксированного значения k: Извлечение фиксированного количества столбцов неизбежно приводит к введению ложных положительных результатов
Обнаружение семантических ошибок: Текущий механизм самокоррекции в основном обрабатывает синтаксические ошибки, имея ограниченную эффективность для семантически корректных, но логически неправильных запросов