2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.

Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.

academic

BenchPress: 신속한 Text-to-SQL 벤치마크 큐레이션을 위한 인간-루프 주석 시스템

기본 정보

논문 ID: 2510.13853
제목: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
저자: Fabian Wenz (TU Munich & MIT), Omar Bouattour (TU Munich & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
분류: cs.CL, cs.AI, cs.DB, cs.HC
발표 학회: CIDR 2026 (제16회 혁신적 데이터 시스템 연구 학술대회)
논문 링크: https://arxiv.org/abs/2510.13853

초록

대규모 언어 모델(LLMs)은 텍스트-SQL 생성을 포함한 다양한 작업에 성공적으로 적용되었습니다. 그러나 대부분의 연구는 공개 데이터셋(예: Fiben, Spider, Bird)에 집중되어 있습니다. 저자들의 이전 연구에서는 LLMs이 대규모 민간 기업 데이터 웨어하우스를 쿼리할 때 성능이 현저히 저하되며, 첫 번째 민간 기업 텍스트-SQL 벤치마크인 Beaver를 발표했습니다. SQL 로그의 수동 주석 작업의 어려움을 해결하기 위해, 본 논문은 BenchPress를 제안합니다. 이는 도메인 특화 텍스트-SQL 벤치마크 생성을 가속화하기 위한 인간-기계 협력 시스템입니다. 이 시스템은 검색 증강 생성(RAG)과 LLMs을 사용하여 SQL 쿼리에 대한 여러 자연어 설명을 생성하며, 인간 전문가는 이후 이러한 초안을 선택, 순위 지정 또는 편집하여 정확성과 도메인 정렬을 보장합니다. 실험 결과는 BenchPress가 고품질 벤치마크 생성에 필요한 시간과 노력을 현저히 감소시킴을 보여줍니다.

연구 배경 및 동기

핵심 문제

공개 벤치마크와 기업 현실의 격차: LLMs이 Spider, Bird, Fiben 등 공개 데이터셋에서 우수한 성능을 보이지만, 기업 데이터 웨어하우스에서의 실행 정확도는 급격히 저하됩니다(그림 1에서 보듯이 90% 이상에서 거의 0%로 하락).
기업 SQL 로그 주석의 어려움: SQL 쿼리에 대응하는 자연어 질문을 수동으로 생성하는 것은 시간이 많이 걸리고 비용이 많이 들며, 고급 기술을 가진 데이터베이스 관리자의 참여가 필요합니다.
도메인 특화 과제: 기업 데이터는 복잡한 스키마, 도메인 특화 용어, 개인정보 보호 제약 등의 특성을 가집니다.

중요성

기업은 텍스트-SQL 모델을 배포하기 전에 민간 데이터에서의 성능을 평가해야 합니다.
도메인 불일치로 인한 배포 실패를 방지합니다.
모델의 도메인 적응 및 미세 조정 전략 최적화를 지원합니다.

기존 방법의 한계

공개 벤치마크는 기업 특화 복잡성(스키마 모호성, 도메인 용어 등)이 부족합니다.
완전 수동 주석은 비용이 높고 효율성이 낮습니다.
범용 LLM은 도메인 맥락과 구조화된 지원이 부족합니다.

핵심 기여

BenchPress 시스템 제안: 도메인 특화 텍스트-SQL 벤치마크를 신속하게 생성하기 위한 첫 번째 인간-기계 협력 주석 시스템
혁신적인 워크플로우 설계: 검색 증강 생성(RAG), 쿼리 분해, 인간 피드백을 결합한 모듈식 아키텍처
포괄적인 사용자 연구: 비교 실험을 통해 주석 정확성, 효율성 및 의미론적 충실도 측면에서 BenchPress의 우수성을 입증
오픈소스 도구: 다양한 공개 벤치마크 및 기업 데이터를 지원하는 직접 사용 가능한 시스템 제공

방법론 상세 설명

작업 정의

입력: SQL 쿼리 + 데이터베이스 스키마 + 선택적 과거 주석 샘플 출력: 대응하는 자연어 설명 제약 조건: 의미론적 정확성 유지, 도메인 용어 일관성, 개인정보 보호

시스템 아키텍처

일회성 설정 단계

프로젝트 설정: 특정 기업 워크로드에 대한 주석 프로젝트 선택 또는 생성
데이터 수집: SQL 로그 및 스키마 파일 업로드 또는 지원되는 공개 벤치마크 선택
작업 구성: 주석 방향(현재 SQL-to-NL 지원) 및 언어 모델 선택

반복적 주석 루프

쿼리 분해(선택사항): 중첩된 SQL 쿼리를 공통 테이블 표현식(CTEs) 시리즈로 재작성
맥락 검색: Sentence-BERT 등의 밀집 벡터 임베딩을 사용하여 의미론적으로 유사한 샘플 및 관련 테이블 스키마 검색
후보 생성: LLM이 검색된 맥락을 기반으로 4개의 자연어 설명 후보 생성
재조합(선택사항): 부분 쿼리 수준의 설명을 완전한 쿼리 설명으로 병합
인간 피드백: 주석자가 LLM 출력을 순위 지정, 최적화 또는 폐기
검토 및 내보내기: 출력 품질 평가 및 벤치마크 형식으로 내보내기

기술 혁신 포인트

검색 증강 생성(RAG)

밀집 벡터 검색을 사용하여 의미론적으로 유사한 SQL 쿼리 및 해당 주석 검색
샘플을 프롬프트에 포함하여 현실적인 표현 패턴 및 스키마 사용 지침 제공
정보성과 프롬프트 효율성의 균형을 맞추어 상위-k 검색 샘플 선택

쿼리 분해 전략

구조적으로 복잡한 중첩 쿼리 분해
부분 쿼리의 자연어 설명을 독립적으로 생성한 후 재조립
인지 부하 감소 및 주석 정확도 향상

인간-기계 협력 설계

구조화된 반복적 검토 프로세스로 기업 품질 표준 보장
프롬프트 최적화 및 피드백 기반 개선 루프 지원
Google PAIR 원칙을 따르는 책임 있는 AI 설계

실험 설정

데이터셋

Beaver: 첫 번째 민간 기업 텍스트-SQL 벤치마크, MIT 등 기관의 SQL 로그 기반, 300개 이상의 스키마 및 약 4,000개의 쿼리 포함
Bird: 공개 대규모 데이터베이스 벤치마크
사용자 연구용 총 30개의 SQL 쿼리, Beaver 및 Bird 데이터셋에서 추출(익명화 처리)

평가 지표

주석 정확성: NL 설명이 SQL 쿼리의 충실도를 수동으로 확인
주석 지연: 각 참여자의 총 주석 시간
의미론적 충실도: 역번역 작업을 통해 평가, 5단계 평가 기준 사용

비교 방법

BenchPress 그룹: 완전한 BenchPress 인터페이스 사용
수동 그룹: 스키마 파일 및 로그만 제공, LLM 지원 없음
범용 LLM 그룹: 표준 ChatGPT 인터페이스 사용, RAG 지원 없음

구현 세부사항

18명의 참여자, SQL 능력에 따라 고급 및 비고급 두 계층으로 분류
균형 잡힌 라틴 방각 설계로 반평형화 보장
각 참여자가 동일한 30개의 SQL 쿼리 주석

실험 결과

주요 결과

주석 정확성

방법	Beaver	Bird	전체
BenchPress	86.1%	100.0%	93.0%
범용 LLM	66.2%	100.0%	83.1%
수동	60.1%	87.8%	73.9%

주석 지연

방법	Beaver	Bird	합계
BenchPress	16.1분	12.0분	28.1분
범용 LLM	16.2분	15.8분	32.0분
수동	102.1분	82.8분	183.9분

역번역 충실도

BenchPress는 5단계 명확성 평가에서 완전히 정확한(레벨 5) 출력의 가장 높은 비율을 생성하여 뛰어난 의미론적 명확성을 보여줍니다.

실험 발견

도구 효과성: BenchPress는 모든 지표에서 비교 방법을 능가합니다.
데이터셋 복잡성 영향: 복잡한 기업 데이터셋(Beaver)에서 도구 간 성능 차이가 더욱 명확합니다.
도메인 적응성: BenchPress는 기업 특화 용어 및 복잡한 스키마 처리에서 뛰어난 성능을 보입니다.

결론 및 논의

주요 결론

BenchPress는 도메인 특화 텍스트-SQL 벤치마크 생성의 효율성과 품질을 현저히 향상시킵니다.
인간-기계 협력 방법은 기업 데이터 복잡성 처리에서 순수 자동화 또는 순수 수동 방법보다 우수합니다.
공개 벤치마크는 기업 SQL 로그의 구조 및 언어 복잡성을 충분히 반영하지 못합니다.

한계

현재 시스템은 주로 SQL-to-텍스트 주석에 중점을 둡니다.
도메인 전문가의 참여가 필요하여 여전히 인력 비용이 발생합니다.
매우 복잡한 중첩 쿼리의 경우 분해 전략이 불충분할 수 있습니다.

향후 방향

양방향 주석: 텍스트-SQL 생성을 통합하여 반복적 검증 지원
견고성 평가: 기존 벤치마크의 자연어 쿼리를 체계적으로 재표현
자동화 강화: 인간 개입 필요성을 추가로 감소

심층 평가

장점

실용적 가치 높음: 기업 텍스트-SQL 모델 배포의 실질적 문제점 해결
방법론 혁신성 강함: RAG, 쿼리 분해 및 인간-기계 협력을 교묘하게 결합
실험 설계 엄밀함: 대조 실험 설계가 합리적이며 평가 차원이 포괄적
오픈소스 기여: 직접 사용 가능한 도구 및 자료 제공

부족한 점

사용자 연구 규모 제한: 18명 참여자의 표본 크기가 상대적으로 작음
도메인 일반화성: 주로 교육 및 기술 분야에서 검증되어 다른 산업의 적용 가능성 미지수
비용 분석 부족: 상세한 비용-편익 분석이 부족함

영향력

학술적 기여: 기업 AI 응용 평가를 위한 새로운 방법론 제공
실용적 가치: 산업계의 실제 필요를 직접 해결
재현 가능성: 오픈소스 코드 및 상세 문서로 재현 및 확장 지원

적용 시나리오

기업이 민간 데이터에서 텍스트-SQL 모델의 성능을 평가해야 할 때
연구 기관이 도메인 특화 텍스트-SQL 벤치마크를 구축할 때
데이터 팀이 모델 배포 및 미세 조정 전략을 최적화할 때

참고문헌

본 논문은 텍스트-SQL 벤치마크, LLM 응용, 주석 시스템 및 기업 데이터 과제 등 주요 분야를 포괄하는 21편의 관련 문헌을 인용하여 연구의 견고한 이론적 기초를 제공합니다.

요약: BenchPress는 인간-기계 협력의 혁신적 설계를 통해 기업 수준의 텍스트-SQL 벤치마크 생성의 효율성과 품질 문제를 효과적으로 해결하는 중요한 실용적 가치를 가진 시스템입니다. 이 연구는 기술적 혁신뿐만 아니라 기업 AI 응용의 안전한 배포를 위한 실용적 도구를 제공한다는 점에서 강한 학술적 및 상업적 가치를 가집니다.