2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.
Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

基本信息

  • 论文ID: 2510.13853
  • 标题: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
  • 作者: Fabian Wenz (TU Munich & MIT), Omar Bouattour (TU Munich & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
  • 分类: cs.CL, cs.AI, cs.DB, cs.HC
  • 发表会议: CIDR 2026 (16th Annual Conference on Innovative Data Systems Research)
  • 论文链接: https://arxiv.org/abs/2510.13853

摘要

大型语言模型(LLMs)已成功应用于包括文本到SQL生成在内的多项任务。然而,大部分工作集中在公开数据集(如Fiben、Spider和Bird)上。作者之前的工作表明,LLMs在查询大型私有企业数据仓库时效果显著下降,并发布了首个私有企业文本到SQL基准Beaver。为解决SQL日志手动标注的挑战,本文提出BenchPress——一个人机协作系统,旨在加速领域特定文本到SQL基准的创建。该系统使用检索增强生成(RAG)和LLMs为SQL查询生成多个自然语言描述,人类专家随后选择、排序或编辑这些草稿以确保准确性和领域对齐。实验表明,BenchPress显著减少了创建高质量基准所需的时间和精力。

研究背景与动机

核心问题

  1. 公开基准与企业现实的差距:虽然LLMs在Spider、Bird、Fiben等公开数据集上表现优异,但在企业数据仓库上的执行准确率急剧下降(如图1所示,从90%+下降到接近0%)
  2. 企业SQL日志标注困难:手动为SQL查询创建对应的自然语言问题既耗时又昂贵,需要高技能的数据库管理员参与
  3. 领域特定挑战:企业数据具有复杂的模式、领域特定术语、隐私约束等特点

重要性

  • 企业在部署文本到SQL模型前需要评估其在私有数据上的性能
  • 避免因领域不匹配导致的部署失败
  • 支持模型的领域适应和微调策略优化

现有方法局限性

  • 公开基准缺乏企业特定的复杂性(模式歧义、领域术语等)
  • 完全手动标注成本高昂且效率低下
  • 通用LLM缺乏领域上下文和结构化支持

核心贡献

  1. 提出BenchPress系统:首个专门用于快速创建领域特定文本到SQL基准的人机协作标注系统
  2. 创新的工作流设计:结合检索增强生成(RAG)、查询分解、人类反馈的模块化架构
  3. 全面的用户研究:通过对比实验证明BenchPress在标注准确性、效率和语义保真度方面的优势
  4. 开源工具:提供可直接使用的系统,支持多种公开基准和企业数据

方法详解

任务定义

输入:SQL查询 + 数据库模式 + 可选的历史标注样例 输出:对应的自然语言描述 约束:保持语义准确性、领域术语一致性、隐私保护

系统架构

一次性设置阶段

  1. 项目设置:选择或创建特定企业工作负载的标注项目
  2. 数据摄入:上传SQL日志和模式文件,或选择支持的公开基准
  3. 任务配置:选择标注方向(当前支持SQL到NL)和语言模型

迭代标注循环

  1. 查询分解(可选):对嵌套SQL查询重写为通用表表达式(CTEs)系列
  2. 上下文检索:使用Sentence-BERT等密集向量嵌入检索语义相似的样例和相关表模式
  3. 候选生成:LLM基于检索到的上下文生成4个候选自然语言描述
  4. 重组(可选):将子查询级别的描述合并为完整的查询解释
  5. 人类反馈:标注者对LLM输出进行排序、优化或丢弃
  6. 审核与导出:评估输出质量并导出为基准格式

技术创新点

检索增强生成(RAG)

  • 使用密集向量搜索检索语义相似的SQL查询及其标注
  • 将样例嵌入提示中以提供现实的表达模式和模式使用指导
  • 平衡信息性与提示效率,选择top-k检索样例

查询分解策略

  • 对结构复杂的嵌套查询进行分解
  • 独立生成子查询的自然语言描述后重新组装
  • 降低认知负荷,提高标注精度

人机协作设计

  • 结构化的迭代审核过程确保企业质量标准
  • 支持提示优化和反馈驱动的改进循环
  • 遵循Google PAIR原则的负责任AI设计

实验设置

数据集

  • Beaver:首个私有企业文本到SQL基准,基于MIT等机构的SQL日志,包含300+模式和近4000个查询
  • Bird:公开的大规模数据库基准
  • 总计30个SQL查询用于用户研究,来自Beaver和Bird数据集(匿名化处理)

评价指标

  1. 标注准确性:手动检查NL描述对SQL查询的保真度
  2. 标注延迟:每个参与者的总标注时间
  3. 语义保真度:通过回译任务评估,使用5级评分标准

对比方法

  • BenchPress组:使用完整的BenchPress界面
  • 手动组:仅提供模式文件和日志,无LLM支持
  • 通用LLM组:使用标准ChatGPT界面,无RAG支持

实现细节

  • 18名参与者,按SQL能力分为高级和非高级两个层次
  • 平衡拉丁方设计确保反平衡
  • 每个参与者标注相同的30个SQL查询

实验结果

主要结果

标注准确性

方法BeaverBird总体
BenchPress86.1%100.0%93.0%
通用LLM66.2%100.0%83.1%
手动60.1%87.8%73.9%

标注延迟

方法BeaverBird总计
BenchPress16.1分钟12.0分钟28.1分钟
通用LLM16.2分钟15.8分钟32.0分钟
手动102.1分钟82.8分钟183.9分钟

回译保真度

BenchPress在5级清晰度评估中产生了最高比例的完全正确(级别5)输出,显示出卓越的语义清晰度。

实验发现

  1. 工具有效性:BenchPress在所有指标上均优于对比方法
  2. 数据集复杂性影响:在复杂的企业数据集(Beaver)上,工具间性能差异更加明显
  3. 领域适应性:BenchPress在处理企业特定术语和复杂模式方面表现突出

相关工作

文本到SQL基准

  • 公开基准:Spider、Bird、Fiben等推动了通用文本到SQL任务的进展
  • 企业基准:Beaver首次引入企业级复杂性,暴露了LLM在异构模式上的困难

SQL生成的LLM应用

  • Codex、GPT-4、DeepSeek等在公开数据集上表现强劲
  • 但在领域特定或企业环境中性能显著下降

标注系统和工具

  • 现有系统主要面向公开或合成数据
  • BenchPress专门支持私有企业日志的人机协作工作流

结论与讨论

主要结论

  1. BenchPress显著提高了领域特定文本到SQL基准创建的效率和质量
  2. 人机协作方法在处理企业数据复杂性方面优于纯自动化或纯手动方法
  3. 公开基准无法充分反映企业SQL日志的结构和语言复杂性

局限性

  1. 当前系统主要专注于SQL到文本标注
  2. 需要领域专家参与,仍有一定的人力成本
  3. 对于极其复杂的嵌套查询,分解策略可能不够完善

未来方向

  1. 双向标注:集成文本到SQL生成以支持迭代验证
  2. 鲁棒性评估:系统性地重新表述现有基准中的自然语言查询
  3. 自动化增强:进一步减少人工干预需求

深度评价

优点

  1. 实际价值高:解决了企业部署文本到SQL模型的实际痛点
  2. 方法创新性强:巧妙结合RAG、查询分解和人机协作
  3. 实验设计严谨:对照实验设计合理,评估维度全面
  4. 开源贡献:提供了可直接使用的工具和资源

不足

  1. 用户研究规模有限:18名参与者的样本量相对较小
  2. 领域泛化性:主要在教育和技术领域验证,其他行业的适用性有待验证
  3. 成本分析不足:缺乏详细的成本效益分析

影响力

  1. 学术贡献:为企业AI应用评估提供了新的方法论
  2. 实用价值:直接解决了工业界的实际需求
  3. 可复现性:开源代码和详细文档支持复现和扩展

适用场景

  • 企业需要评估文本到SQL模型在私有数据上的性能
  • 研究机构构建领域特定的文本到SQL基准
  • 数据团队优化模型部署和微调策略

参考文献

本文引用了21篇相关文献,涵盖了文本到SQL基准、LLM应用、标注系统和企业数据挑战等关键领域,为研究提供了坚实的理论基础。


总结:BenchPress是一个具有重要实用价值的系统,通过人机协作的创新设计,有效解决了企业级文本到SQL基准创建的效率和质量问题。该工作不仅在技术上有所创新,更重要的是为企业AI应用的安全部署提供了实用工具,具有较强的学术和商业价值。