2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.
Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic

BenchPress: テキスト・ツー・SQL ベンチマーク迅速キュレーションのための人間参加型注釈システム

基本情報

  • 論文ID: 2510.13853
  • タイトル: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
  • 著者: Fabian Wenz (TU Munich & MIT)、Omar Bouattour (TU Munich & MIT)、Devin Yang (MIT)、Justin Choi (MIT)、Cecil Gregg (MIT)、Nesime Tatbul (Intel Labs & MIT)、Çağatay Demiralp (AWS AI Labs & MIT)
  • 分類: cs.CL、cs.AI、cs.DB、cs.HC
  • 発表会議: CIDR 2026(第16回革新的データシステム研究年次会議)
  • 論文リンク: https://arxiv.org/abs/2510.13853

要約

大規模言語モデル(LLMs)は、テキスト・ツー・SQL生成を含む複数のタスクに正常に適用されている。しかし、大部分の研究は公開データセット(Spider、Bird、Fibenなど)に集中している。著者らの先行研究では、LLMが大規模な民間企業データウェアハウスに対してクエリを実行する際に性能が大幅に低下することが示され、初の民間企業テキスト・ツー・SQLベンチマークであるBeaverが公開された。SQLログの手動注釈という課題に対処するため、本論文ではBenchPressを提案する。これは領域特定のテキスト・ツー・SQLベンチマーク作成を加速することを目的とした人間参加型システムである。本システムは検索拡張生成(RAG)とLLMを使用してSQLクエリに対する複数の自然言語記述を生成し、人間の専門家がその後、これらのドラフトを選択、順序付け、または編集して正確性と領域適合性を確保する。実験結果は、BenchPressが高品質ベンチマーク作成に必要な時間と労力を大幅に削減することを示している。

研究背景と動機

中核的な問題

  1. 公開ベンチマークと企業現実のギャップ: LLMはSpider、Bird、Fibenなどの公開データセットで優れた性能を示すが、企業データウェアハウスでの実行精度は急激に低下する(図1に示すように、90%以上から0%近くに低下)
  2. 企業SQLログ注釈の困難性: SQLクエリに対応する自然言語質問を手動で作成することは、時間がかかり、コストが高く、高度なスキルを持つデータベース管理者の参加が必要である
  3. 領域特定の課題: 企業データは複雑なスキーマ、領域特定用語、プライバシー制約などの特性を持つ

重要性

  • 企業は民間データへのテキスト・ツー・SQLモデルの性能を評価してから展開する必要がある
  • 領域不適合による展開失敗を回避する
  • モデルの領域適応とファインチューニング戦略最適化をサポートする

既存方法の限界

  • 公開ベンチマークは企業特定の複雑性(スキーマあいまいさ、領域用語など)を欠いている
  • 完全な手動注釈は高コストで効率が低い
  • 汎用LLMは領域コンテキストと構造化サポートを欠いている

中核的貢献

  1. BenchPressシステムの提案: 領域特定のテキスト・ツー・SQLベンチマーク迅速作成のための初の人間参加型注釈システム
  2. 革新的なワークフロー設計: 検索拡張生成(RAG)、クエリ分解、人間フィードバックを組み合わせたモジュール型アーキテクチャ
  3. 包括的なユーザー研究: 対比実験を通じてBenchPressの注釈精度、効率、意味的忠実性における優位性を証明
  4. オープンソースツール: 複数の公開ベンチマークと企業データをサポートする直接使用可能なシステムを提供

方法の詳細

タスク定義

入力: SQLクエリ + データベーススキーマ + オプションの履歴注釈サンプル 出力: 対応する自然言語記述 制約: 意味的正確性、領域用語一貫性、プライバシー保護の維持

システムアーキテクチャ

ワンタイム設定フェーズ

  1. プロジェクト設定: 特定の企業ワークロードの注釈プロジェクトを選択または作成
  2. データ取り込み: SQLログとスキーマファイルをアップロード、またはサポートされている公開ベンチマークを選択
  3. タスク構成: 注釈方向(現在SQLからNLをサポート)と言語モデルを選択

反復的注釈ループ

  1. クエリ分解(オプション): ネストされたSQLクエリを共通テーブル式(CTE)シリーズに書き換え
  2. コンテキスト検索: Sentence-BERTなどの密集ベクトル埋め込みを使用して、意味的に類似したサンプルと関連テーブルスキーマを検索
  3. 候補生成: LLMが検索されたコンテキストに基づいて4つの候補自然言語記述を生成
  4. 再構成(オプション): サブクエリレベルの記述を完全なクエリ説明に統合
  5. 人間フィードバック: 注釈者がLLM出力をランク付け、最適化、または破棄
  6. レビューとエクスポート: 出力品質を評価し、ベンチマーク形式でエクスポート

技術的革新点

検索拡張生成(RAG)

  • 密集ベクトル検索を使用して、意味的に類似したSQLクエリとその注釈を検索
  • サンプルをプロンプトに埋め込んで、現実的な表現パターンとスキーマ使用ガイダンスを提供
  • 情報性とプロンプト効率のバランスを取り、上位k個の検索サンプルを選択

クエリ分解戦略

  • 構造的に複雑なネストされたクエリを分解
  • サブクエリの自然言語記述を独立して生成した後、再組立
  • 認知負荷を軽減し、注釈精度を向上

人間参加型協調設計

  • 構造化された反復レビュープロセスが企業品質基準を確保
  • プロンプト最適化とフィードバック駆動の改善ループをサポート
  • Google PAIR原則に従う責任あるAI設計

実験設定

データセット

  • Beaver: 初の民間企業テキスト・ツー・SQLベンチマーク、MITなどの機関のSQLログに基づき、300以上のスキーマと約4000のクエリを含む
  • Bird: 公開の大規模データベースベンチマーク
  • ユーザー研究用に合計30個のSQLクエリ、BeaverおよびBirdデータセットから(匿名化処理済み)

評価指標

  1. 注釈精度: NL記述のSQLクエリに対する忠実性の手動確認
  2. 注釈遅延: 各参加者の総注釈時間
  3. 意味的忠実性: 逆翻訳タスクを通じた評価、5段階評価基準を使用

対比方法

  • BenchPressグループ: 完全なBenchPressインターフェースを使用
  • 手動グループ: スキーマファイルとログのみ提供、LLMサポートなし
  • 汎用LLMグループ: 標準ChatGPTインターフェースを使用、RAGサポートなし

実装詳細

  • 18名の参加者、SQL能力に基づいて上級と非上級の2つのレベルに分類
  • バランスの取れたラテン方形設計が反平衡を確保
  • 各参加者が同じ30個のSQLクエリに注釈

実験結果

主要結果

注釈精度

方法BeaverBird全体
BenchPress86.1%100.0%93.0%
汎用LLM66.2%100.0%83.1%
手動60.1%87.8%73.9%

注釈遅延

方法BeaverBird合計
BenchPress16.1分12.0分28.1分
汎用LLM16.2分15.8分32.0分
手動102.1分82.8分183.9分

逆翻訳忠実性

BenchPressは5段階の明確性評価において、完全に正確な(レベル5)出力の最高割合を生成し、優れた意味的明確性を示している。

実験的発見

  1. ツール有効性: BenchPressはすべての指標で対比方法を上回る
  2. データセット複雑性の影響: 複雑な企業データセット(Beaver)では、ツール間の性能差がより顕著
  3. 領域適応性: BenchPressは企業特定用語と複雑なスキーマの処理において優れた性能を示す

関連研究

テキスト・ツー・SQLベンチマーク

  • 公開ベンチマーク: Spider、Bird、Fibenなどが汎用テキスト・ツー・SQLタスクの進展を推進
  • 企業ベンチマーク: Beaverが初めて企業レベルの複雑性を導入し、異質なスキーマ上でのLLMの困難を露呈

SQL生成のLLM応用

  • Codex、GPT-4、DeepSeekなどは公開データセットで強力な性能を示す
  • しかし領域特定または企業環境では性能が大幅に低下

注釈システムとツール

  • 既存システムは主に公開またはシンセティックデータを対象
  • BenchPressは民間企業ログの人間参加型協調ワークフローを特別にサポート

結論と考察

主要な結論

  1. BenchPressは領域特定のテキスト・ツー・SQLベンチマーク作成の効率と品質を大幅に向上させる
  2. 人間参加型協調方法は、企業データの複雑性処理において、純粋な自動化または純粋な手動方法を上回る
  3. 公開ベンチマークは企業SQLログの構造的および言語的複雑性を十分に反映できない

限界

  1. 現在のシステムは主にSQLからテキストへの注釈に焦点を当てている
  2. 領域専門家の参加が必要であり、依然として一定の人的コストがある
  3. 極めて複雑なネストされたクエリの場合、分解戦略は十分でない可能性がある

将来の方向性

  1. 双方向注釈: テキスト・ツー・SQL生成を統合して反復検証をサポート
  2. 堅牢性評価: 既存ベンチマーク内の自然言語クエリを体系的に言い換え
  3. 自動化強化: 人的介入の必要性をさらに削減

深い評価

利点

  1. 実用的価値が高い: テキスト・ツー・SQLモデルの企業展開における実際の痛点を解決
  2. 方法の革新性が強い: RAG、クエリ分解、人間参加型協調を巧妙に組み合わせ
  3. 実験設計が厳密: 対照実験設計が合理的で、評価次元が包括的
  4. オープンソース貢献: 直接使用可能なツールとリソースを提供

不足

  1. ユーザー研究規模が限定的: 18名の参加者のサンプルサイズは相対的に小さい
  2. 領域汎化性: 主に教育および技術領域で検証され、他の業界への適用可能性は未検証
  3. コスト分析が不十分: 詳細な費用便益分析が欠けている

影響力

  1. 学術的貢献: 企業AI応用評価に新しい方法論を提供
  2. 実用的価値: 産業界の実際のニーズを直接解決
  3. 再現可能性: オープンソースコードと詳細なドキュメントが再現と拡張をサポート

適用シーン

  • 企業が民間データ上のテキスト・ツー・SQLモデルの性能を評価する必要がある場合
  • 研究機関が領域特定のテキスト・ツー・SQLベンチマークを構築する場合
  • データチームがモデル展開とファインチューニング戦略を最適化する場合

参考文献

本論文は、テキスト・ツー・SQLベンチマーク、LLM応用、注釈システム、企業データの課題など、主要な領域をカバーする21の関連文献を引用しており、研究に堅実な理論的基礎を提供している。


要約: BenchPressは重要な実用的価値を持つシステムであり、人間参加型協調の革新的設計を通じて、企業レベルのテキスト・ツー・SQLベンチマーク作成の効率と品質の問題を効果的に解決している。本研究は技術的に革新的であるだけでなく、企業AI応用の安全な展開のための実用的ツールを提供することがより重要であり、強い学術的および商業的価値を持つ。