2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.
Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic

BenchPress: Ein Human-in-the-Loop-Annotationssystem zur schnellen Kuratierung von Text-to-SQL-Benchmarks

Grundlegende Informationen

  • Papier-ID: 2510.13853
  • Titel: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
  • Autoren: Fabian Wenz (TU München & MIT), Omar Bouattour (TU München & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
  • Klassifizierung: cs.CL, cs.AI, cs.DB, cs.HC
  • Veröffentlichungskonferenz: CIDR 2026 (16. Jahreskonferenz über innovative Datensysteme)
  • Papierlink: https://arxiv.org/abs/2510.13853

Zusammenfassung

Große Sprachmodelle (LLMs) wurden erfolgreich auf mehrere Aufgaben angewendet, einschließlich der Text-to-SQL-Generierung. Der Großteil der Arbeiten konzentriert sich jedoch auf öffentliche Datensätze (wie Fiben, Spider und Bird). Frühere Arbeiten der Autoren zeigten, dass LLMs bei der Abfrage großer privater Unternehmensdatenbanken erheblich an Leistung verlieren, und sie veröffentlichten den ersten privaten Unternehmens-Text-to-SQL-Benchmark Beaver. Um die Herausforderungen der manuellen SQL-Log-Annotation zu bewältigen, präsentiert dieses Papier BenchPress – ein Human-in-the-Loop-System, das darauf abzielt, die Erstellung domänenspezifischer Text-to-SQL-Benchmarks zu beschleunigen. Das System nutzt Retrieval-Augmented Generation (RAG) und LLMs, um mehrere natürlichsprachige Beschreibungen für SQL-Abfragen zu generieren, die menschliche Experten anschließend auswählen, ordnen oder bearbeiten, um Genauigkeit und Domäneneinhaltung zu gewährleisten. Experimente zeigen, dass BenchPress die Zeit und den Aufwand zur Erstellung hochwertiger Benchmarks erheblich reduziert.

Forschungshintergrund und Motivation

Kernprobleme

  1. Lücke zwischen öffentlichen Benchmarks und Unternehmensrealität: Obwohl LLMs auf öffentlichen Datensätzen wie Spider, Bird und Fiben hervorragende Leistungen erbringen, fällt die Ausführungsgenauigkeit bei Unternehmensdatenbanken drastisch ab (wie in Abbildung 1 gezeigt, von über 90% auf nahe 0%)
  2. Schwierigkeiten bei der Annotation von Unternehmens-SQL-Logs: Das manuelle Erstellen entsprechender natürlichsprachiger Fragen für SQL-Abfragen ist zeitaufwändig und teuer und erfordert die Beteiligung hochqualifizierter Datenbankadministratoren
  3. Domänenspezifische Herausforderungen: Unternehmensdaten weisen komplexe Schemata, domänenspezifische Terminologie und Datenschutzbeschränkungen auf

Bedeutung

  • Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten, bevor sie diese einsetzen
  • Vermeidung von Bereitstellungsfehlern aufgrund von Domänenmismatch
  • Unterstützung von Modelldomänenanpassung und Optimierung von Feinabstimmungsstrategien

Einschränkungen bestehender Methoden

  • Öffentliche Benchmarks fehlt die unternehmenssspezifische Komplexität (Schemambiguität, Domänenterminologie usw.)
  • Vollständig manuelle Annotation ist kostspielig und ineffizient
  • Allgemeine LLMs fehlt der Domänenkontext und strukturierte Unterstützung

Kernbeiträge

  1. Vorstellung des BenchPress-Systems: Das erste spezialisierte Human-in-the-Loop-Annotationssystem zur schnellen Erstellung domänenspezifischer Text-to-SQL-Benchmarks
  2. Innovative Workflow-Gestaltung: Modulare Architektur, die Retrieval-Augmented Generation (RAG), Abfragezersetzung und menschliches Feedback kombiniert
  3. Umfassende Benutzerstudie: Kontrastexperimente demonstrieren die Vorteile von BenchPress bei Annotationsgenauigkeit, Effizienz und semantischer Treue
  4. Open-Source-Tool: Bereitstellung eines direkt nutzbaren Systems, das mehrere öffentliche Benchmarks und Unternehmensdaten unterstützt

Methodische Details

Aufgabendefinition

Eingabe: SQL-Abfrage + Datenbankschema + optionale historische Annotationsbeispiele Ausgabe: Entsprechende natürlichsprachige Beschreibung Einschränkungen: Beibehaltung semantischer Genauigkeit, Konsistenz der Domänenterminologie, Datenschutz

Systemarchitektur

Einmalige Einrichtungsphase

  1. Projekteinrichtung: Auswahl oder Erstellung eines Annotationsprojekts für spezifische Unternehmensworkloads
  2. Datenaufnahme: Hochladen von SQL-Logs und Schemadateien oder Auswahl unterstützter öffentlicher Benchmarks
  3. Aufgabenkonfiguration: Auswahl der Annotationsrichtung (derzeit SQL-zu-NL unterstützt) und des Sprachmodells

Iterative Annotationsschleife

  1. Abfragezersetzung (optional): Umschreiben verschachtelter SQL-Abfragen als Serien von Common Table Expressions (CTEs)
  2. Kontextabruf: Verwendung von Sentence-BERT und anderen dichten Vektor-Embeddings zum Abrufen semantisch ähnlicher Beispiele und relevanter Tabellenschemata
  3. Kandidatengenerierung: LLM generiert basierend auf abgerufenem Kontext 4 Kandidaten für natürlichsprachige Beschreibungen
  4. Rekombination (optional): Zusammenführung von Beschreibungen auf Subquery-Ebene zu vollständigen Abfrageerklärungen
  5. Menschliches Feedback: Annotatoren ordnen, optimieren oder verwerfen LLM-Ausgaben
  6. Überprüfung und Export: Bewertung der Ausgabequalität und Export im Benchmark-Format

Technische Innovationen

Retrieval-Augmented Generation (RAG)

  • Verwendung von dichter Vektorsuche zum Abrufen semantisch ähnlicher SQL-Abfragen und ihrer Annotationen
  • Einbettung von Beispielen in Prompts, um realistische Ausdrucksmuster und Schemaverwendungsanleitungen bereitzustellen
  • Ausgewogenheit zwischen Informativität und Prompt-Effizienz durch Auswahl der Top-k-Abrufergebnisse

Abfragezersetzungsstrategie

  • Zersetzung strukturell komplexer verschachtelter Abfragen
  • Unabhängige Generierung natürlichsprachiger Beschreibungen für Subqueries vor Wiederzusammensetzung
  • Reduzierung der kognitiven Belastung und Verbesserung der Annotationsgenauigkeit

Human-in-the-Loop-Designprinzipien

  • Strukturierter iterativer Überprüfungsprozess gewährleistet Unternehmensqualitätsstandards
  • Unterstützung für Prompt-Optimierung und feedback-gesteuerte Verbesserungsschleifen
  • Einhaltung der Google-PAIR-Prinzipien für verantwortungsvolle KI-Gestaltung

Experimentelle Einrichtung

Datensätze

  • Beaver: Erster privater Unternehmens-Text-to-SQL-Benchmark basierend auf SQL-Logs von MIT und anderen Institutionen mit über 300 Schemata und fast 4000 Abfragen
  • Bird: Öffentlicher großflächiger Datenbankbenchmark
  • Insgesamt 30 SQL-Abfragen für Benutzerstudie aus Beaver- und Bird-Datensätzen (anonymisiert)

Bewertungsmetriken

  1. Annotationsgenauigkeit: Manuelle Überprüfung der Treue von NL-Beschreibungen zu SQL-Abfragen
  2. Annotationsverzögerung: Gesamtannotationszeit pro Teilnehmer
  3. Semantische Treue: Bewertet durch Rückübersetzungsaufgaben mit 5-stufiger Bewertungsskala

Vergleichsmethoden

  • BenchPress-Gruppe: Verwendung der vollständigen BenchPress-Schnittstelle
  • Manuelle Gruppe: Nur Schemadateien und Logs ohne LLM-Unterstützung
  • Allgemeines LLM-Gruppe: Verwendung der Standard-ChatGPT-Schnittstelle ohne RAG-Unterstützung

Implementierungsdetails

  • 18 Teilnehmer, stratifiziert nach SQL-Fähigkeitsniveau in fortgeschrittene und nicht-fortgeschrittene Gruppen
  • Ausgewogenes lateinisches Quadrat-Design gewährleistet Ausgleich
  • Jeder Teilnehmer annotiert die gleichen 30 SQL-Abfragen

Experimentelle Ergebnisse

Hauptergebnisse

Annotationsgenauigkeit

MethodeBeaverBirdGesamt
BenchPress86,1%100,0%93,0%
Allgemeines LLM66,2%100,0%83,1%
Manuell60,1%87,8%73,9%

Annotationsverzögerung

MethodeBeaverBirdGesamt
BenchPress16,1 Min.12,0 Min.28,1 Min.
Allgemeines LLM16,2 Min.15,8 Min.32,0 Min.
Manuell102,1 Min.82,8 Min.183,9 Min.

Rückübersetzungstreue

BenchPress erzeugte den höchsten Anteil vollständig korrekter (Stufe 5) Ausgaben in der 5-stufigen Klarheitsbewertung und demonstriert überlegene semantische Klarheit.

Experimentelle Erkenntnisse

  1. Werkzeugeffektivität: BenchPress übertrifft Vergleichsmethoden bei allen Metriken
  2. Datensatzkomplexitätsauswirkungen: Bei komplexen Unternehmensdatensätzen (Beaver) sind Leistungsunterschiede zwischen Werkzeugen ausgeprägter
  3. Domänenadaptivität: BenchPress zeigt hervorragende Leistung bei der Handhabung unternehmenssspezifischer Terminologie und komplexer Schemata

Verwandte Arbeiten

Text-to-SQL-Benchmarks

  • Öffentliche Benchmarks: Spider, Bird, Fiben und andere fördern Fortschritte bei allgemeinen Text-to-SQL-Aufgaben
  • Unternehmens-Benchmarks: Beaver führt erstmals Unternehmenskomplexität ein und offenbart LLM-Schwierigkeiten bei heterogenen Schemata

LLM-Anwendungen in der SQL-Generierung

  • Codex, GPT-4, DeepSeek zeigen starke Leistung auf öffentlichen Datensätzen
  • Jedoch signifikante Leistungsabfälle in domänenspezifischen oder Unternehmensumgebungen

Annotationssysteme und Werkzeuge

  • Bestehende Systeme konzentrieren sich hauptsächlich auf öffentliche oder synthetische Daten
  • BenchPress unterstützt speziell Human-in-the-Loop-Workflows für private Unternehmens-Logs

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. BenchPress verbessert erheblich die Effizienz und Qualität der Erstellung domänenspezifischer Text-to-SQL-Benchmarks
  2. Human-in-the-Loop-Methoden übertreffen reine Automatisierung oder rein manuelle Ansätze bei der Handhabung von Unternehmens-Datenkomplexität
  3. Öffentliche Benchmarks spiegeln die strukturelle und sprachliche Komplexität von Unternehmens-SQL-Logs nicht angemessen wider

Einschränkungen

  1. Das aktuelle System konzentriert sich hauptsächlich auf SQL-zu-Text-Annotation
  2. Erfordert die Beteiligung von Domänenexperten mit gewissem Personalaufwand
  3. Bei extrem komplexen verschachtelten Abfragen kann die Zersetzungsstrategie unzureichend sein

Zukünftige Richtungen

  1. Bidirektionale Annotation: Integration von Text-to-SQL-Generierung zur Unterstützung iterativer Validierung
  2. Robustheits-Bewertung: Systematische Umformulierung natürlichsprachiger Abfragen in bestehenden Benchmarks
  3. Automatisierungsverstärkung: Weitere Reduzierung des Bedarfs an manueller Intervention

Tiefgreifende Bewertung

Stärken

  1. Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte bei der Bereitstellung von Text-to-SQL-Modellen in Unternehmen
  2. Starke methodische Innovation: Geschickte Kombination von RAG, Abfragezersetzung und Human-in-the-Loop-Zusammenarbeit
  3. Strenge Experimentgestaltung: Angemessene Kontrastexperimentgestaltung mit umfassenden Bewertungsdimensionen
  4. Open-Source-Beitrag: Bereitstellung direkt nutzbarer Werkzeuge und Ressourcen

Mängel

  1. Begrenzte Benutzerstudiengröße: Stichprobengröße von 18 Teilnehmern ist relativ klein
  2. Domänengeneralisierbarkeit: Hauptsächlich in Bildungs- und Technologiebereichen validiert; Anwendbarkeit in anderen Branchen bleibt zu überprüfen
  3. Unzureichende Kostenanalyse: Fehlende detaillierte Kosten-Nutzen-Analyse

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Methodik für die Bewertung von Unternehmens-KI-Anwendungen
  2. Praktischer Wert: Löst direkt tatsächliche Anforderungen der Industrie
  3. Reproduzierbarkeit: Open-Source-Code und detaillierte Dokumentation unterstützen Reproduktion und Erweiterung

Anwendungsszenarien

  • Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten
  • Forschungsinstitutionen konstruieren domänenspezifische Text-to-SQL-Benchmarks
  • Datateams optimieren Modellbereitstellung und Feinabstimmungsstrategien

Literaturverzeichnis

Dieses Papier zitiert 21 relevante Arbeiten, die Text-to-SQL-Benchmarks, LLM-Anwendungen, Annotationssysteme und Unternehmens-Datenchallenges abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Zusammenfassung: BenchPress ist ein System mit bedeutendem praktischen Wert, das durch innovative Human-in-the-Loop-Gestaltung die Effizienz- und Qualitätsprobleme bei der Erstellung von Unternehmens-Text-to-SQL-Benchmarks wirksam löst. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet vor allem praktische Werkzeuge für die sichere Bereitstellung von Unternehmens-KI-Anwendungen und hat starken akademischen und kommerziellen Wert.