The Text-to-SQL task translates natural language questions into SQL queries, enabling intuitive database interaction for non-experts. While recent methods leveraging Large Language Models (LLMs) achieve strong performance, their reliance on proprietary models raise concerns about deployment feasibility and data privacy. In this work, we introduce LitE-SQL, a Lightweight and Efficient framework with two components: (i) a Schema Retriever that performs efficient schema linking using a vector database of pre-computed schema embeddings, and (ii) a SQL Generator fine-tuned in two stages-supervised fine-tuning followed by execution-guided reinforcement-enabling self-correction without costly multi-candidate generation. On BIRD, LitE-SQL achieves 72.10% execution accuracy, and on Spider 1.0 it reaches 88.45%, demonstrating comparable or superior performance to LLM-based methods despite using 2x to 30x fewer parameters. Our findings demonstrate that high-quality Text-to-SQL generation is feasible with lightweight models, offering a practical solution for privacy-sensitive and resource-constrained settings.
๋
ผ๋ฌธ ID : 2510.09014์ ๋ชฉ : LitE-SQL: A Lightweight and Efficient Text-to-SQL Framework with Vector-based Schema Linking and Execution-Guided Self-Correction์ ์ : Shengmin Piao, Jieun Lee, Sanghyun Park (์ฐ์ธ๋ํ๊ต)๋ถ๋ฅ : cs.CL (๊ณ์ฐ ์ธ์ดํ)๋ฐํ ์๊ฐ : 2024๋
10์๋
ผ๋ฌธ ๋งํฌ : https://arxiv.org/abs/2510.09014 ํ
์คํธ-SQL ์์
์ ์์ฐ์ด ์ง๋ฌธ์ SQL ์ฟผ๋ฆฌ๋ก ๋ณํํ์ฌ ๋น์ ๋ฌธ๊ฐ ์ฌ์ฉ์์๊ฒ ์ง๊ด์ ์ธ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ํธ์์ฉ ๋ฐฉ์์ ์ ๊ณตํฉ๋๋ค. ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง, ๋
์ ๋ชจ๋ธ์ ๋ํ ์์กด์ฑ์ ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ ๋ฐ ๋ฐ์ดํฐ ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ํ ์ฐ๋ ค๋ฅผ ์ผ๊ธฐํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ ๊ฐ์ง ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํ๋ ๊ฒฝ๋ ํจ์จ์ ํ๋ ์์ํฌ์ธ LitE-SQL์ ์ ์ํฉ๋๋ค: (i) ์คํค๋ง ๊ฒ์๊ธฐ(Schema Retriever)๋ ์ฌ์ ๊ณ์ฐ๋ ์คํค๋ง ์๋ฒ ๋ฉ์ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ํจ์จ์ ์ธ ์คํค๋ง ๋งํน์ ์ํํ๊ณ , (ii) SQL ์์ฑ๊ธฐ(SQL Generator)๋ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ค์ค ํ๋ณด ์์ฑ ์์ด ๋ ๋จ๊ณ ๋ฏธ์ธ ์กฐ์ (์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ + ์คํ ์ ๋ ๊ฐํ ํ์ต)์ ํตํด ์์ฒด ์์ ์ ๊ตฌํํฉ๋๋ค. BIRD ๋ฐ์ดํฐ์
์์ LitE-SQL์ 72.10%์ ์คํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ , Spider 1.0์์๋ 88.45%๋ฅผ ๋ฌ์ฑํ๋ฉฐ, LLM ๋ฐฉ๋ฒ์ 1/2์์ 1/30์ ๋งค๊ฐ๋ณ์๋ง ์ฌ์ฉํ๋ฉด์๋ ๋๋ฑํ๊ฑฐ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
ํ
์คํธ-SQL ์์
์ ์์ฐ์ด ์ง๋ฌธ์ ํด๋นํ๋ SQL ์ฟผ๋ฆฌ๋ก ๋ณํํ์ฌ ๋น์ ๋ฌธ๊ฐ ์ฌ์ฉ์๊ฐ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ๊ทผํ๋ ๋ฌธํฑ์ ๋ฎ์ถ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ด ์์
์ ์ค์ ์์ฉ์์ ์ค์ํ ๊ฐ์น๋ฅผ ๊ฐ์ง์ง๋ง, ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ ๋ฐ ๋ณต์กํ ์ฟผ๋ฆฌ ์์ฑ์ ๊ณผ์ ์ ์ง๋ฉดํด ์์ต๋๋ค.
LLM ์์กด์ฑ ๋ฌธ์ : ํ์ฌ ์ฃผ๋ฅ ๋ฐฉ๋ฒ์ GPT-4, Gemini ๋ฑ์ ๋
์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ์์กดํ๋ฉฐ, ๋ฐ์ดํฐ ๊ฐ์ธ์ ๋ณด ์ ์ถ ์ํ์ด ์๊ณ ๋ฐฐํฌ ๋น์ฉ์ด ๋์ต๋๋ค.๊ณ์ฐ ๋ฆฌ์์ค ์๋น : ์์ ํ ์คํค๋ง ์ ๋ณด ์
๋ ฅ์ผ๋ก ์ธํ ์ปจํ
์คํธ ๊ธธ์ด ์ฆ๊ฐ, ์์ฒด ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ด์ฐจ ๋ณต์ก๋๋ก ์ธํ ๊ฑฐ๋ํ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ค์ค ํ๋ณด ์์ฑ ์ค๋ฒํค๋ : ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ฌ๋ฌ ํ๋ณด ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๊ณ ์ต์ ์๋ฃจ์
์ ์ ํํ์ฌ ๊ณ์ฐ ๋น์ฉ์ด ์๋นํฉ๋๋ค.์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋
ผ๋ฌธ์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ๋งค๊ฐ๋ณ์ ์์ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ด๋ ๊ฒฝ๋ ํจ์จ์ ํ
์คํธ-SQL ํ๋ ์์ํฌ๋ฅผ ๊ฐ๋ฐํ์ฌ ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ฏผ๊ฐํ๊ณ ๋ฆฌ์์ค๊ฐ ์ ํ๋ ์๋๋ฆฌ์ค์ ์ ์ฉํ ์ ์๋๋ก ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
LitE-SQL ํ๋ ์์ํฌ ์ ์ : ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ธฐ๋ฐ ์คํค๋ง ๋งํน ๋ฐฉ๋ฒ์ ์์ ํ ํ์ฉํ๋ ์ฒซ ๋ฒ์งธ ํ๋ ์์ํฌ๋ก, ๊ฒฝ๋ SQL ์์ฑ๊ธฐ์ ๊ฒฐํฉํ์ ์ ์ธ HN-SupCon ์์ค ํจ์ : ํ๋ ๋ค๊ฑฐํฐ๋ธ ์ํ ํํฐ๋ง์ ํตํ ์ง๋ ๋์กฐ ํ์ต์ผ๋ก ์๋ฒ ๋ฉ ๊ณต๊ฐ ์ต์ ํ๋ ๋จ๊ณ ํ๋ จ ์ ๋ต : ์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ + ์คํ ์ ๋ ๊ฐํ ํ์ต์ผ๋ก ํจ์จ์ ์ธ ์์ฒด ์ค๋ฅ ์์ ๊ตฌํํ์ ํ ํจ์จ์ฑ ํฅ์ : BIRD ๋ฐ Spider 1.0 ๋ฐ์ดํฐ์
์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ ๋ฌ์ฑ, ๋งค๊ฐ๋ณ์๋ ๊ธฐ์กด ๋ฐฉ๋ฒ์ 1/2์์ 1/30์์ฐ์ด ์ง๋ฌธ Q์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์คํค๋ง S๊ฐ ์ฃผ์ด์ก์ ๋, ํ
์คํธ-SQL ์์
์ ๋ชฉํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์คํ ๊ฒฐ๊ณผ๊ฐ ๊ธํ์ค ์ฟผ๋ฆฌ์ ์ผ์นํ๋ SQL ์ฟผ๋ฆฌ๋ฅผ ์์ฑํ๋๋ก ์๊ตฌํฉ๋๋ค.
ํต์ฌ ์ค๊ณ :
๊ฐ ์ด์ ์ด ์ด๋ฆ, ์ค๋ช
, ํ
์ด๋ธ ์ด๋ฆ ๋ฐ ๊ฐ ์ค๋ช
์ ํฌํจํ๋ ๋ฐ์ง ์๋ฒ ๋ฉ์ผ๋ก ์ธ์ฝ๋ฉ ์คํค๋ง ์๋ฒ ๋ฉ์ ์ฌ์ ๊ณ์ฐํ๊ณ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅ ์ถ๋ก ์ ์ง๋ฌธ๋ง ์ธ์ฝ๋ฉํ๊ณ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํตํด ์์ k๊ฐ ๊ด๋ จ ์ด ๊ฒ์ HN-SupCon ์์ค ํจ์ :
L_HN-SupCon = -1/B โ(i=1 to B) log(e^(s(qi,pi)/ฯ) / Zi)
Zi = e^(s(qi,pi)/ฯ) + โ(j=1 to Ni) mij * e^(s(qi,nij)/ฯ)
mij = {1 if qiโnij โฅ qiโpi - 0.1, 0 otherwise}
์ฌ๊ธฐ์ s(ยท,ยท)๋ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๋ํ๋ด๊ณ , ฯ๋ ์จ๋ ๋งค๊ฐ๋ณ์์ด๋ฉฐ, mij๋ ๋จ์ ๋ค๊ฑฐํฐ๋ธ ์ํ์ ํํฐ๋งํ๊ณ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์ฌํ์ง๋ง ๊ธฐ๋ฅ์ ์ผ๋ก ๋ฌด๊ดํ ํ๋ ๋ค๊ฑฐํฐ๋ธ ์ํ์ ์ด์ ์ ๋ง์ถ๋ ๋ง์คํฌ ํจ์์
๋๋ค.
๋ ๋จ๊ณ ํ๋ จ ์ ๋ต :
๋จ๊ณ 1: ์ง๋ ํ์ต ๋ฏธ์ธ ์กฐ์ (SFT)
L_SFT(ฮธ) = -log P(SQL | Q, S; ฮธ)
์์ฐ์ด ์ง๋ฌธ ๋ฐ ์คํค๋ง ์ ๋ณด์์ SQL ์ฟผ๋ฆฌ๋ก์ ์กฐ๊ฑด๋ถ ๋งคํ ํ์ต ๋ฌด๊ดํ ์คํค๋ง ์ ๋ณด๋ฅผ ๋ฌด์์๋ก ์ํ๋งํ์ฌ ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํํ์ฌ ํ๋ จ๊ณผ ์ถ๋ก ์ ์ผ๊ด์ฑ ๋ณด์ฅ ๋จ๊ณ 2: ๊ฐํ ๋ฏธ์ธ ์กฐ์ (RFT)
์ง์ ์ ํธ๋ ์ต์ ํ(DPO) ์ฌ์ฉ:
L_RFT(ฯฮธ;ฯ0) = L_DPO(y^w_i, y^l_i|xi) + ฮฑL_NLL(y^w_i|xi)
์คํ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ํธ๋ ์ ๊ตฌ์ฑ: ์ฑ๊ณต์ ์ผ๋ก ์คํ๋ ์ฟผ๋ฆฌ๊ฐ ์คํจํ ์ฟผ๋ฆฌ๋ณด๋ค ์ฐ์ ์ค๋ฅ ๋ฉ์์ง์ ๊ฒฐํฉํ์ฌ ์์ฒด ์์ ํ๋ จ ์ํ ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ธฐ๋ฐ ์คํค๋ง ๋งํน : ๊ธฐ์กด ๋ฐฉ๋ฒ์ด ๋งค๋ฒ ์คํค๋ง๋ฅผ ๋ค์ ์ธ์ฝ๋ฉํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ๋ณธ ๋ฐฉ๋ฒ์ ์ง๋ฌธ๋ง ์ธ์ฝ๋ฉํ์ฌ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์ํ๋ ๋ค๊ฑฐํฐ๋ธ ์ํ ํํฐ๋ง ๋ฉ์ปค๋์ฆ : HN-SupCon ์์ค์ ์๋ฏธ๋ก ์ ์ผ๋ก ์ ์ฌํ์ง๋ง ๊ธฐ๋ฅ์ ์ผ๋ก ๋ฌด๊ดํ ์ด์ ๊ตฌ๋ถํ๋ ๋ฐ ์ด์ ์ ๋ง์ถฐ ๊ฒ์ ํ์ง ํฅ์์คํ ์ ๋ ์์ฒด ์์ : SQL ์คํ ํผ๋๋ฐฑ์ ํ์ฉํ ๊ฐํ ํ์ต์ผ๋ก ๋ค์ค ํ๋ณด ์์ฑ์ ๊ณ์ฐ ์ค๋ฒํค๋ ํํผBIRD : 95๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฒ ์ด์ค, 37๊ฐ์ ์ ๋ฌธ ๋ถ์ผ, 9,376๊ฐ ํ๋ จ ์ํ, 1,534๊ฐ ๊ฒ์ฆ ์ํSpider 1.0 : 200๊ฐ์ ๋ฐ์ดํฐ๋ฒ ์ด์ค, 138๊ฐ์ ๋๋ฉ์ธ, 8,659๊ฐ ํ๋ จ ์ํ, 1,034๊ฐ ๊ฒ์ฆ ์ํ, 2,147๊ฐ ํ
์คํธ ์ํ์คํ ์ ํ๋(EX) : ์์ธก SQL๊ณผ ๊ธํ์ค SQL์ ์คํ ๊ฒฐ๊ณผ ์ผ์น์ฑ์ฐธ ์์ฑ์จ(TPR) : ๊ฒ์๋ ๊ด๋ จ ์ด์ด ๊ธํ์ค ๊ด๋ จ ์ด์์ ์ฐจ์งํ๋ ๋น์จ๊ฑฐ์ง ์์ฑ์จ(FPR) : ๊ฒ์๋ ๋ฌด๊ด ์ด์ด ์ด ๊ฒ์ ์ด์์ ์ฐจ์งํ๋ ๋น์จ์คํค๋ง ๋งํน ์ฌํ์จ(SLR) : ๋ชจ๋ ๊ด๋ จ ์ด์ ์์ ํ ๊ฒ์ํ ์ฟผ๋ฆฌ์ ๋น์จ๋ฌธ๋งฅ ํ์ต ๋ฐฉ๋ฒ : ChatGPT+CoT, DIN-SQL, DAIL-SQL, CHESS, CHASE-SQL ๋ฑ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ : CodeS, OmniSQL, DTS-SQL, Reasoning-SQL ๋ฑ์๋ฒ ๋ฉ ๋ชจ๋ธ : Qwen3-0.6B-EmbeddingSQL ์์ฑ๊ธฐ : Qwen2.5-Coder (1.5B, 3B, 7B)๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค : ChromaDBํ๋ จ ์ค์ : 4๊ฐ A100 GPU, AdamW ์ต์ ํ๊ธฐ, LoRA ์ด๋ํฐ๋ฐฉ๋ฒ ๋ฒ์ฃผ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์ BIRD(Dev) EX Spider 1.0(Test) EX ๋ฌธ๋งฅ ํ์ต CHASE-SQL Gemini 1.5 200B 73.01 87.60 MCS-SQL GPT-4 175B 63.36 89.60 ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ Reasoning-SQL Qwen2.5-Coder-14B 14B 72.29 81.43 LitE-SQL Qwen2.5-Coder-7B 7B 72.10 88.45
๋งค๊ฐ๋ณ์ ํจ์จ์ฑ : 7B ๋ชจ๋ธ์ด ๋๋ถ๋ถ์ 175B-200B ๋งค๊ฐ๋ณ์ LLM ๋ฐฉ๋ฒ์ ์ด๊ณผ๋๋ฉ์ธ ๊ฐ ์ผ๋ฐํ : BIRD์์ MCS-SQL์ 8.74% ์ด๊ณผ, Spider์์ 1.15%๋ง ๋ค์ง์ผ๊ด๋ ์ฑ๋ฅ : ๋์ผ ๊ท๋ชจ ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ ๋๋น ํ๊ท 10.87%(BIRD) ๋ฐ 7.21%(Spider) ํฅ์๊ตฌ์ฑ ์์ ์ค์ BIRD EX Spider EX ํฅ์๋ ๊ธฐ์ค์ (๊ฒ์๊ธฐ + ์์ฑ๊ธฐ ์์) 39.31 61.61 - +์คํค๋ง ๊ฒ์๊ธฐ 43.16 64.28 +3.85/+2.67 +SFT 58.21 83.56 +18.90/+21.95 +RFT 60.56 84.35 +21.25/+22.74
๊ธฐ์ค์ ๋ฐฉ๋ฒ๊ณผ์ ๋น๊ต(BIRD ๋ฐ์ดํฐ์
๋ถ๋ถ ์ํ๋ง):
LitE-SQL : TPR=95.23%, FPR=80.28%, SLR=82.31%, EX=56.46%CHESS : TPR=87.15%, FPR=8.27%, SLR=61.9%, EX=57.14%CodeS : TPR=89.64%, FPR=74.16%, SLR=65.31%, EX=51.70%FPR์ด ๋์์๋ ๋ถ๊ตฌํ๊ณ , SLR์ ์ฐ์๊ฐ ๊ฑฐ์ง ์์ฑ์ ์ํฅ์ ๋ณด์ํ๋ฉฐ, 0.6B ๋งค๊ฐ๋ณ์๋ง์ผ๋ก 200B ๋ชจ๋ธ๊ณผ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
๋ฐ๋ณต ์์ต ๊ฐ์ : ์ฒซ ๋ฒ์งธ ์์ฒด ์์ ์ด ์ต๋ ํฅ์์ ๊ฐ์ ธ์ค๊ณ , ํ์ ๋ฐ๋ณต์ ์์ต์ด ์ ์ง์ ์ผ๋ก ๊ฐ์์ค๋ฅ ์ ํ ๊ฐ์ : ๊ตฌ๋ฌธ ์ค๋ฅ, ์ด ์กด์ฌ ์ ํจ, ํ
์ด๋ธ ์กด์ฌ ์ ํจ ๋ฑ์ ์ค๋ฅ ์ ํ์ด ๋ชจ๋ ํ์ ํ ๊ฐ์๊ท๋ชจ ํจ๊ณผ : ๋ ํฐ ๋ชจ๋ธ์ด ์๋ฏธ๋ก ์ ์ ๋ ฌ ์ธก๋ฉด์์ ๋ ๋ง์ ์ด์ ์ ์ป์์ด๊ธฐ ๋ฐฉ๋ฒ : ๋ถ๋ฅ๊ธฐ ๊ธฐ๋ฐ ์ด ์์ ์ง์ LLM ๋ฐฉ๋ฒ : ๋ค๋จ๊ณ ํ๋กฌํํ
, ๋ค์ค ์์ด์ ํธ ํ๋ ์์ํฌ(CHESS)๋ณธ ๋
ผ๋ฌธ ํ์ : ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ธฐ๋ฐ ์คํค๋ง ๋งํน์ ์ฒซ ๋ฒ์งธ ์์ ๊ตฌํ๋ฌธ๋งฅ ํ์ต : ๊ตฌ์กฐํ๋ ํ๋กฌํํ
, ์์ ์ํ ํ์ต, ์์ฒด ์ผ๊ด์ฑ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ : ๋๋ฉ์ธ ์ ์, ๋ฐ์ดํฐ ์ฆ๊ฐ, ์์
๋ถํด๋ณธ ๋
ผ๋ฌธ ๊ธฐ์ฌ : ์คํ ์ ๋ ๊ฐํ ํ์ต ์์ฒด ์์ ๋ฉ์ปค๋์ฆ๊ฒฝ๋ ๊ฐ๋ฅ์ฑ : ๊ณ ํ์ง ํ
์คํธ-SQL ์์ฑ์ด ๊ฒฝ๋ ๋ชจ๋ธ์ ํตํด ๊ตฌํ ๊ฐ๋ฅํจ์ ์ฆ๋ช
ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ ๊ท ํ : ๋งค๊ฐ๋ณ์ ์๋ฅผ ํ์ ํ ์ค์ด๋ฉด์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ ์ ์ง์ค์ฉ์ ๊ฐ์น : ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ฏผ๊ฐํ๊ณ ๋ฆฌ์์ค๊ฐ ์ ํ๋ ์๋๋ฆฌ์ค์ ์ค์ฉ์ ์๋ฃจ์
์ ๊ณต๊ณ ์ k๊ฐ ๋ฌธ์ : ๊ณ ์ ์์ ์ด ๊ฒ์์ ๋ถ๊ฐํผํ๊ฒ ๊ฑฐ์ง ์์ฑ ๋์
์๋ฏธ๋ก ์ ์ค๋ฅ ๊ฐ์ง : ํ์ฌ ์์ฒด ์์ ๋ฉ์ปค๋์ฆ์ ์ฃผ๋ก ๊ตฌ๋ฌธ ์ค๋ฅ๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ์๋ฏธ๋ก ์ ์ผ๋ก ์ฌ๋ฐ๋ฅด์ง๋ง ๋
ผ๋ฆฌ์ ์ผ๋ก ์๋ชป๋ ์ฟผ๋ฆฌ์ ๋ํ ํจ๊ณผ๊ฐ ์ ํ์ ๋์ ๊ฒ์ ์ ๋ต : ์ง๋ฌธ ๋ณต์ก๋์ ๋ฐ๋ผ ๊ฒ์ ์ด ์๋ฅผ ์์ ์์ ์ผ๋ก ์กฐ์ ์๋ฏธ๋ก ์ ์ค๋ฅ ๊ฐ์ง : ์๋ฏธ๋ก ์ ์ค๋ฅ๋ฅผ ํฌ์ฐฉํ๋ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ๋ค์ค ๋ชจ๋ฌ ํ์ฅ : ํ
์ด๋ธ ๋ด์ฉ ๋ฐ ์คํค๋ง ์ ๋ณด ๊ฒฐํฉ๋์ ํ์ ์ฑ : ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํ
์คํธ-SQL์ ์คํค๋ง ๋งํน์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ฉํ ์ฒซ ๋ฒ์งธ ์ฌ๋ก๋์ ์ค์ฉ์ ๊ฐ์น : LLM ๋ฐฉ๋ฒ์ ๊ฐ์ธ์ ๋ณด ๋ณดํธ ๋ฐ ๋ฐฐํฌ ๋ฌธ์ ํด๊ฒฐ์ถฉ๋ถํ ์คํ : ํฌ๊ด์ ์ธ ์๊ฑฐ ์คํ ๋ฐ ์ค๋ฅ ๋ถ์๊ฒฌ๊ณ ํ ๊ธฐ์ : HN-SupCon ์์ค ๋ฐ ๋ ๋จ๊ณ ํ๋ จ ์ ๋ต์ ํฉ๋ฆฌ์ ์ค๊ณ๋จ์ํ ๊ฒ์ ์ ๋ต : ๊ณ ์ k๊ฐ ๊ฒ์์ด ์ต์ ์ ๋ต์ด ์๋ ์ ์์์ค๋ฅ ์ ํ ์ ํ : ์์ฒด ์์ ์ด ์ฃผ๋ก ์คํ ๊ฐ๋ฅ ๊ฐ์ง ์ค๋ฅ์ ์ด์ ๋ฐ์ดํฐ์
์ ํ : ์ฃผ๋ก ์์ด ๋ฐ์ดํฐ์
์์ ๊ฒ์ฆ, ๋ค๊ตญ์ด ์ผ๋ฐํ ๋ฅ๋ ฅ ๋ฏธ์ง์ํ์ ์ ๊ฐ์น : ๊ฒฝ๋ ํ
์คํธ-SQL ์ฐ๊ตฌ์ ์๋ก์ด ์ฌ๊ณ ์ ๊ณต์ค์ฉ์ ๊ฐ์น : ์ฃ์ง ์ปดํจํ
๋ฐ ๊ฐ์ธ์ ๋ณด ๋ณดํธ ์๋๋ฆฌ์ค์ ์ ์ฉ ๊ฐ๋ฅ์ฌํ์ฑ : ์คํ ์์ค ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ์ฌํ ๋ฐ ํ์ฅ ์ฉ์ด๋ฆฌ์์ค ์ ํ ํ๊ฒฝ : ์ฃ์ง ๋๋ฐ์ด์ค, ๋ชจ๋ฐ์ผ ์ ํ๋ฆฌ์ผ์ด์
๊ฐ์ธ์ ๋ณด ๋ณดํธ ๋ฏผ๊ฐ ์๋๋ฆฌ์ค : ๊ธฐ์
๋ด๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค, ์๋ฃ ๊ธ์ต ๋ฑ ๋ถ์ผ์ค์๊ฐ ์์ฉ : ๋น ๋ฅธ ์๋ต์ด ํ์ํ ๋ํํ ์ฟผ๋ฆฌ ์์คํ
๋
ผ๋ฌธ์ ํ
์คํธ-SQL ๋ถ์ผ์ ์ค์ํ ์ฐ๊ตฌ๋ฅผ ์ธ์ฉํ๊ณ ์์ผ๋ฉฐ, ๋ค์์ ํฌํจํฉ๋๋ค:
Spider ๋ฐ BIRD ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์๋ณธ ๋
ผ๋ฌธ ์ฃผ์ LLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ(DIN-SQL, CHESS, CHASE-SQL ๋ฑ) ๋ฏธ์ธ ์กฐ์ ๋ฐฉ๋ฒ์ ๋ํ ์ฐ๊ตฌ(CodeS, OmniSQL ๋ฑ) ๊ด๋ จ ๊ธฐ์ ๊ธฐ์ด(DPO, LoRA, ๋์กฐ ํ์ต ๋ฑ)