2025-11-20T20:49:21.880729

LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction

Piao, Lee, Park

The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.

academic

LitE-SQL: 벡터 기반 스키마 링킹 및 실행 유도 자체 수정을 갖춘 경량 효율적 텍스트-SQL 프레임워크

기본 정보

논문 ID: 2510.09014
제목: LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction
저자: Shengmin Piao, Jieun Lee, Sanghyun Park (연세대학교)
분류: cs.CL (계산 언어학)
발표 시간: 2024년 10월
논문 링크: https://arxiv.org/abs/2510.09014

초록

텍스트-SQL 작업은 자연어 질문을 SQL 쿼리로 변환하여 비전문가 사용자에게 직관적인 데이터베이스 상호작용 방식을 제공합니다. 대규모 언어 모델(LLM) 기반 방법이 우수한 성능을 보이지만, 독점 모델에 대한 의존성은 배포 가능성 및 데이터 개인정보 보호에 대한 우려를 야기합니다. 본 논문은 두 가지 핵심 구성 요소를 포함하는 경량 효율적 프레임워크인 LitE-SQL을 제안합니다: (i) 스키마 검색기(Schema Retriever)는 사전 계산된 스키마 임베딩의 벡터 데이터베이스를 사용하여 효율적인 스키마 링킹을 수행하고, (ii) SQL 생성기(SQL Generator)는 비용이 많이 드는 다중 후보 생성 없이 두 단계 미세 조정(지도 학습 미세 조정 + 실행 유도 강화 학습)을 통해 자체 수정을 구현합니다. BIRD 데이터셋에서 LitE-SQL은 72.10%의 실행 정확도를 달성하고, Spider 1.0에서는 88.45%를 달성하며, LLM 방법의 1/2에서 1/30의 매개변수만 사용하면서도 동등하거나 우수한 성능을 보입니다.

연구 배경 및 동기

문제 정의

텍스트-SQL 작업은 자연어 질문을 해당하는 SQL 쿼리로 변환하여 비전문가 사용자가 구조화된 데이터베이스에 접근하는 문턱을 낮추는 것을 목표로 합니다. 이 작업은 실제 응용에서 중요한 가치를 가지지만, 도메인 간 일반화 및 복잡한 쿼리 생성의 과제에 직면해 있습니다.

기존 방법의 한계

LLM 의존성 문제: 현재 주류 방법은 GPT-4, Gemini 등의 독점 대규모 모델에 의존하며, 데이터 개인정보 유출 위험이 있고 배포 비용이 높습니다.
계산 리소스 소비: 완전한 스키마 정보 입력으로 인한 컨텍스트 길이 증가, 자체 주의 메커니즘의 이차 복잡도로 인한 거대한 메모리 소비
다중 후보 생성 오버헤드: 기존 방법은 여러 후보 쿼리를 생성하고 최적 솔루션을 선택하여 계산 비용이 상당합니다.

연구 동기

위의 문제를 해결하기 위해, 본 논문은 경쟁력 있는 성능을 유지하면서 매개변수 수와 계산 비용을 크게 줄이는 경량 효율적 텍스트-SQL 프레임워크를 개발하여 개인정보 보호에 민감하고 리소스가 제한된 시나리오에 적용할 수 있도록 하는 것을 목표로 합니다.

핵심 기여

LitE-SQL 프레임워크 제안: 벡터 데이터베이스 기반 스키마 링킹 방법을 완전히 활용하는 첫 번째 프레임워크로, 경량 SQL 생성기와 결합
혁신적인 HN-SupCon 손실 함수: 하드 네거티브 샘플 필터링을 통한 지도 대조 학습으로 임베딩 공간 최적화
두 단계 훈련 전략: 지도 학습 미세 조정 + 실행 유도 강화 학습으로 효율적인 자체 오류 수정 구현
현저한 효율성 향상: BIRD 및 Spider 1.0 데이터셋에서 경쟁력 있는 성능 달성, 매개변수는 기존 방법의 1/2에서 1/30

방법 상세 설명

작업 정의

자연어 질문 Q와 데이터베이스 스키마 S가 주어졌을 때, 텍스트-SQL 작업은 목표 데이터베이스에서 실행 결과가 금표준 쿼리와 일치하는 SQL 쿼리를 생성하도록 요구합니다.

모델 아키텍처

1. 스키마 검색기(Schema Retriever)

핵심 설계:

각 열을 열 이름, 설명, 테이블 이름 및 값 설명을 포함하는 밀집 임베딩으로 인코딩
스키마 임베딩을 사전 계산하고 벡터 데이터베이스에 저장
추론 시 질문만 인코딩하고 코사인 유사도를 통해 상위 k개 관련 열 검색

HN-SupCon 손실 함수:

L_HN-SupCon = -1/B ∑(i=1 to B) log(e^(s(qi,pi)/τ) / Zi)

Zi = e^(s(qi,pi)/τ) + ∑(j=1 to Ni) mij * e^(s(qi,nij)/τ)

mij = {1 if qi⊙nij ≥ qi⊙pi - 0.1, 0 otherwise}

여기서 s(·,·)는 코사인 유사도를 나타내고, τ는 온도 매개변수이며, mij는 단순 네거티브 샘플을 필터링하고 의미론적으로 유사하지만 기능적으로 무관한 하드 네거티브 샘플에 초점을 맞추는 마스크 함수입니다.

2. SQL 생성기(SQL Generator)

두 단계 훈련 전략:

단계 1: 지도 학습 미세 조정(SFT)

L_SFT(θ) = -log P(SQL | Q, S; θ)

자연어 질문 및 스키마 정보에서 SQL 쿼리로의 조건부 매핑 학습
무관한 스키마 정보를 무작위로 샘플링하여 데이터 증강을 수행하여 훈련과 추론의 일관성 보장

단계 2: 강화 미세 조정(RFT) 직접 선호도 최적화(DPO) 사용:

L_RFT(πθ;π0) = L_DPO(y^w_i, y^l_i|xi) + αL_NLL(y^w_i|xi)

실행 결과를 기반으로 선호도 쌍 구성: 성공적으로 실행된 쿼리가 실패한 쿼리보다 우수
오류 메시지와 결합하여 자체 수정 훈련 수행

기술 혁신 포인트

벡터 데이터베이스 기반 스키마 링킹: 기존 방법이 매번 스키마를 다시 인코딩하는 것과 달리, 본 방법은 질문만 인코딩하여 효율성을 크게 향상
하드 네거티브 샘플 필터링 메커니즘: HN-SupCon 손실은 의미론적으로 유사하지만 기능적으로 무관한 열을 구분하는 데 초점을 맞춰 검색 품질 향상
실행 유도 자체 수정: SQL 실행 피드백을 활용한 강화 학습으로 다중 후보 생성의 계산 오버헤드 회피

실험 설정

데이터셋

BIRD: 95개의 대규모 데이터베이스, 37개의 전문 분야, 9,376개 훈련 샘플, 1,534개 검증 샘플
Spider 1.0: 200개의 데이터베이스, 138개의 도메인, 8,659개 훈련 샘플, 1,034개 검증 샘플, 2,147개 테스트 샘플

평가 지표

실행 정확도(EX): 예측 SQL과 금표준 SQL의 실행 결과 일치성
참 양성율(TPR): 검색된 관련 열이 금표준 관련 열에서 차지하는 비율
거짓 양성율(FPR): 검색된 무관 열이 총 검색 열에서 차지하는 비율
스키마 링킹 재현율(SLR): 모든 관련 열을 완전히 검색한 쿼리의 비율

비교 방법

문맥 학습 방법: ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL 등
미세 조정 방법: CodeS, OmniSQL, DTS-SQL, Reasoning-SQL 등

구현 세부사항

임베딩 모델: Qwen3-0.6B-Embedding
SQL 생성기: Qwen2.5-Coder (1.5B, 3B, 7B)
벡터 데이터베이스: ChromaDB
훈련 설정: 4개 A100 GPU, AdamW 최적화기, LoRA 어댑터

실험 결과

주요 결과

방법 범주	모델	매개변수	BIRD(Dev) EX	Spider 1.0(Test) EX
문맥 학습
CHASE-SQL	Gemini 1.5	200B	73.01	87.60
MCS-SQL	GPT-4	175B	63.36	89.60
미세 조정 방법
Reasoning-SQL	Qwen2.5-Coder-14B	14B	72.29	81.43
LitE-SQL	Qwen2.5-Coder-7B	7B	72.10	88.45

주요 발견

매개변수 효율성: 7B 모델이 대부분의 175B-200B 매개변수 LLM 방법을 초과
도메인 간 일반화: BIRD에서 MCS-SQL을 8.74% 초과, Spider에서 1.15%만 뒤짐
일관된 성능: 동일 규모 미세 조정 방법 대비 평균 10.87%(BIRD) 및 7.21%(Spider) 향상

소거 실험

구성 요소 설정	BIRD EX	Spider EX	향상도
기준선(검색기 + 생성기 없음)	39.31	61.61	-
+스키마 검색기	43.16	64.28	+3.85/+2.67
+SFT	58.21	83.56	+18.90/+21.95
+RFT	60.56	84.35	+21.25/+22.74