2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.

Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.

academic

BenchPress: テキスト・ツー・SQL ベンチマーク迅速キュレーションのための人間参加型注釈システム

基本情報

論文ID: 2510.13853
タイトル: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
著者: Fabian Wenz (TU Munich & MIT)、Omar Bouattour (TU Munich & MIT)、Devin Yang (MIT)、Justin Choi (MIT)、Cecil Gregg (MIT)、Nesime Tatbul (Intel Labs & MIT)、Çağatay Demiralp (AWS AI Labs & MIT)
分類: cs.CL、cs.AI、cs.DB、cs.HC
発表会議: CIDR 2026（第16回革新的データシステム研究年次会議）
論文リンク: https://arxiv.org/abs/2510.13853

要約

大規模言語モデル（LLMs）は、テキスト・ツー・SQL生成を含む複数のタスクに正常に適用されている。しかし、大部分の研究は公開データセット（Spider、Bird、Fibenなど）に集中している。著者らの先行研究では、LLMが大規模な民間企業データウェアハウスに対してクエリを実行する際に性能が大幅に低下することが示され、初の民間企業テキスト・ツー・SQLベンチマークであるBeaverが公開された。SQLログの手動注釈という課題に対処するため、本論文ではBenchPressを提案する。これは領域特定のテキスト・ツー・SQLベンチマーク作成を加速することを目的とした人間参加型システムである。本システムは検索拡張生成（RAG）とLLMを使用してSQLクエリに対する複数の自然言語記述を生成し、人間の専門家がその後、これらのドラフトを選択、順序付け、または編集して正確性と領域適合性を確保する。実験結果は、BenchPressが高品質ベンチマーク作成に必要な時間と労力を大幅に削減することを示している。

研究背景と動機

中核的な問題

公開ベンチマークと企業現実のギャップ: LLMはSpider、Bird、Fibenなどの公開データセットで優れた性能を示すが、企業データウェアハウスでの実行精度は急激に低下する（図1に示すように、90%以上から0%近くに低下）
企業SQLログ注釈の困難性: SQLクエリに対応する自然言語質問を手動で作成することは、時間がかかり、コストが高く、高度なスキルを持つデータベース管理者の参加が必要である
領域特定の課題: 企業データは複雑なスキーマ、領域特定用語、プライバシー制約などの特性を持つ

重要性

企業は民間データへのテキスト・ツー・SQLモデルの性能を評価してから展開する必要がある
領域不適合による展開失敗を回避する
モデルの領域適応とファインチューニング戦略最適化をサポートする

既存方法の限界

公開ベンチマークは企業特定の複雑性（スキーマあいまいさ、領域用語など）を欠いている
完全な手動注釈は高コストで効率が低い
汎用LLMは領域コンテキストと構造化サポートを欠いている

中核的貢献

BenchPressシステムの提案: 領域特定のテキスト・ツー・SQLベンチマーク迅速作成のための初の人間参加型注釈システム
革新的なワークフロー設計: 検索拡張生成（RAG）、クエリ分解、人間フィードバックを組み合わせたモジュール型アーキテクチャ
包括的なユーザー研究: 対比実験を通じてBenchPressの注釈精度、効率、意味的忠実性における優位性を証明
オープンソースツール: 複数の公開ベンチマークと企業データをサポートする直接使用可能なシステムを提供

方法の詳細

タスク定義

入力: SQLクエリ + データベーススキーマ + オプションの履歴注釈サンプル出力: 対応する自然言語記述制約: 意味的正確性、領域用語一貫性、プライバシー保護の維持

システムアーキテクチャ

ワンタイム設定フェーズ

プロジェクト設定: 特定の企業ワークロードの注釈プロジェクトを選択または作成
データ取り込み: SQLログとスキーマファイルをアップロード、またはサポートされている公開ベンチマークを選択
タスク構成: 注釈方向（現在SQLからNLをサポート）と言語モデルを選択

反復的注釈ループ

クエリ分解（オプション）: ネストされたSQLクエリを共通テーブル式（CTE）シリーズに書き換え
コンテキスト検索: Sentence-BERTなどの密集ベクトル埋め込みを使用して、意味的に類似したサンプルと関連テーブルスキーマを検索
候補生成: LLMが検索されたコンテキストに基づいて4つの候補自然言語記述を生成
再構成（オプション）: サブクエリレベルの記述を完全なクエリ説明に統合
人間フィードバック: 注釈者がLLM出力をランク付け、最適化、または破棄
レビューとエクスポート: 出力品質を評価し、ベンチマーク形式でエクスポート

技術的革新点

検索拡張生成（RAG）

密集ベクトル検索を使用して、意味的に類似したSQLクエリとその注釈を検索
サンプルをプロンプトに埋め込んで、現実的な表現パターンとスキーマ使用ガイダンスを提供
情報性とプロンプト効率のバランスを取り、上位k個の検索サンプルを選択

クエリ分解戦略

構造的に複雑なネストされたクエリを分解
サブクエリの自然言語記述を独立して生成した後、再組立
認知負荷を軽減し、注釈精度を向上

人間参加型協調設計

構造化された反復レビュープロセスが企業品質基準を確保
プロンプト最適化とフィードバック駆動の改善ループをサポート
Google PAIR原則に従う責任あるAI設計

実験設定

データセット

Beaver: 初の民間企業テキスト・ツー・SQLベンチマーク、MITなどの機関のSQLログに基づき、300以上のスキーマと約4000のクエリを含む
Bird: 公開の大規模データベースベンチマーク
ユーザー研究用に合計30個のSQLクエリ、BeaverおよびBirdデータセットから（匿名化処理済み）

評価指標

注釈精度: NL記述のSQLクエリに対する忠実性の手動確認
注釈遅延: 各参加者の総注釈時間
意味的忠実性: 逆翻訳タスクを通じた評価、5段階評価基準を使用

対比方法

BenchPressグループ: 完全なBenchPressインターフェースを使用
手動グループ: スキーマファイルとログのみ提供、LLMサポートなし
汎用LLMグループ: 標準ChatGPTインターフェースを使用、RAGサポートなし

実装詳細

18名の参加者、SQL能力に基づいて上級と非上級の2つのレベルに分類
バランスの取れたラテン方形設計が反平衡を確保
各参加者が同じ30個のSQLクエリに注釈

実験結果

主要結果

注釈精度

方法	Beaver	Bird	全体
BenchPress	86.1%	100.0%	93.0%
汎用LLM	66.2%	100.0%	83.1%
手動	60.1%	87.8%	73.9%

注釈遅延

方法	Beaver	Bird	合計
BenchPress	16.1分	12.0分	28.1分
汎用LLM	16.2分	15.8分	32.0分
手動	102.1分	82.8分	183.9分

逆翻訳忠実性

BenchPressは5段階の明確性評価において、完全に正確な（レベル5）出力の最高割合を生成し、優れた意味的明確性を示している。

実験的発見

ツール有効性: BenchPressはすべての指標で対比方法を上回る
データセット複雑性の影響: 複雑な企業データセット（Beaver）では、ツール間の性能差がより顕著
領域適応性: BenchPressは企業特定用語と複雑なスキーマの処理において優れた性能を示す

結論と考察

主要な結論

BenchPressは領域特定のテキスト・ツー・SQLベンチマーク作成の効率と品質を大幅に向上させる
人間参加型協調方法は、企業データの複雑性処理において、純粋な自動化または純粋な手動方法を上回る
公開ベンチマークは企業SQLログの構造的および言語的複雑性を十分に反映できない

限界

現在のシステムは主にSQLからテキストへの注釈に焦点を当てている
領域専門家の参加が必要であり、依然として一定の人的コストがある
極めて複雑なネストされたクエリの場合、分解戦略は十分でない可能性がある

将来の方向性

双方向注釈: テキスト・ツー・SQL生成を統合して反復検証をサポート
堅牢性評価: 既存ベンチマーク内の自然言語クエリを体系的に言い換え
自動化強化: 人的介入の必要性をさらに削減

深い評価

利点

実用的価値が高い: テキスト・ツー・SQLモデルの企業展開における実際の痛点を解決
方法の革新性が強い: RAG、クエリ分解、人間参加型協調を巧妙に組み合わせ
実験設計が厳密: 対照実験設計が合理的で、評価次元が包括的
オープンソース貢献: 直接使用可能なツールとリソースを提供

不足

ユーザー研究規模が限定的: 18名の参加者のサンプルサイズは相対的に小さい
領域汎化性: 主に教育および技術領域で検証され、他の業界への適用可能性は未検証
コスト分析が不十分: 詳細な費用便益分析が欠けている

影響力

学術的貢献: 企業AI応用評価に新しい方法論を提供
実用的価値: 産業界の実際のニーズを直接解決
再現可能性: オープンソースコードと詳細なドキュメントが再現と拡張をサポート

適用シーン

企業が民間データ上のテキスト・ツー・SQLモデルの性能を評価する必要がある場合
研究機関が領域特定のテキスト・ツー・SQLベンチマークを構築する場合
データチームがモデル展開とファインチューニング戦略を最適化する場合

参考文献

本論文は、テキスト・ツー・SQLベンチマーク、LLM応用、注釈システム、企業データの課題など、主要な領域をカバーする21の関連文献を引用しており、研究に堅実な理論的基礎を提供している。

要約: BenchPressは重要な実用的価値を持つシステムであり、人間参加型協調の革新的設計を通じて、企業レベルのテキスト・ツー・SQLベンチマーク作成の効率と品質の問題を効果的に解決している。本研究は技術的に革新的であるだけでなく、企業AI応用の安全な展開のための実用的ツールを提供することがより重要であり、強い学術的および商業的価値を持つ。