2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.

Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.

academic

BenchPress: Ein Human-in-the-Loop-Annotationssystem zur schnellen Kuratierung von Text-to-SQL-Benchmarks

Grundlegende Informationen

Papier-ID: 2510.13853
Titel: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
Autoren: Fabian Wenz (TU München & MIT), Omar Bouattour (TU München & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
Klassifizierung: cs.CL, cs.AI, cs.DB, cs.HC
Veröffentlichungskonferenz: CIDR 2026 (16. Jahreskonferenz über innovative Datensysteme)
Papierlink: https://arxiv.org/abs/2510.13853

Zusammenfassung

Große Sprachmodelle (LLMs) wurden erfolgreich auf mehrere Aufgaben angewendet, einschließlich der Text-to-SQL-Generierung. Der Großteil der Arbeiten konzentriert sich jedoch auf öffentliche Datensätze (wie Fiben, Spider und Bird). Frühere Arbeiten der Autoren zeigten, dass LLMs bei der Abfrage großer privater Unternehmensdatenbanken erheblich an Leistung verlieren, und sie veröffentlichten den ersten privaten Unternehmens-Text-to-SQL-Benchmark Beaver. Um die Herausforderungen der manuellen SQL-Log-Annotation zu bewältigen, präsentiert dieses Papier BenchPress – ein Human-in-the-Loop-System, das darauf abzielt, die Erstellung domänenspezifischer Text-to-SQL-Benchmarks zu beschleunigen. Das System nutzt Retrieval-Augmented Generation (RAG) und LLMs, um mehrere natürlichsprachige Beschreibungen für SQL-Abfragen zu generieren, die menschliche Experten anschließend auswählen, ordnen oder bearbeiten, um Genauigkeit und Domäneneinhaltung zu gewährleisten. Experimente zeigen, dass BenchPress die Zeit und den Aufwand zur Erstellung hochwertiger Benchmarks erheblich reduziert.

Forschungshintergrund und Motivation

Kernprobleme

Lücke zwischen öffentlichen Benchmarks und Unternehmensrealität: Obwohl LLMs auf öffentlichen Datensätzen wie Spider, Bird und Fiben hervorragende Leistungen erbringen, fällt die Ausführungsgenauigkeit bei Unternehmensdatenbanken drastisch ab (wie in Abbildung 1 gezeigt, von über 90% auf nahe 0%)
Schwierigkeiten bei der Annotation von Unternehmens-SQL-Logs: Das manuelle Erstellen entsprechender natürlichsprachiger Fragen für SQL-Abfragen ist zeitaufwändig und teuer und erfordert die Beteiligung hochqualifizierter Datenbankadministratoren
Domänenspezifische Herausforderungen: Unternehmensdaten weisen komplexe Schemata, domänenspezifische Terminologie und Datenschutzbeschränkungen auf

Bedeutung

Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten, bevor sie diese einsetzen
Vermeidung von Bereitstellungsfehlern aufgrund von Domänenmismatch
Unterstützung von Modelldomänenanpassung und Optimierung von Feinabstimmungsstrategien

Einschränkungen bestehender Methoden

Öffentliche Benchmarks fehlt die unternehmenssspezifische Komplexität (Schemambiguität, Domänenterminologie usw.)
Vollständig manuelle Annotation ist kostspielig und ineffizient
Allgemeine LLMs fehlt der Domänenkontext und strukturierte Unterstützung

Kernbeiträge

Vorstellung des BenchPress-Systems: Das erste spezialisierte Human-in-the-Loop-Annotationssystem zur schnellen Erstellung domänenspezifischer Text-to-SQL-Benchmarks
Innovative Workflow-Gestaltung: Modulare Architektur, die Retrieval-Augmented Generation (RAG), Abfragezersetzung und menschliches Feedback kombiniert
Umfassende Benutzerstudie: Kontrastexperimente demonstrieren die Vorteile von BenchPress bei Annotationsgenauigkeit, Effizienz und semantischer Treue
Open-Source-Tool: Bereitstellung eines direkt nutzbaren Systems, das mehrere öffentliche Benchmarks und Unternehmensdaten unterstützt

Methodische Details

Aufgabendefinition

Eingabe: SQL-Abfrage + Datenbankschema + optionale historische Annotationsbeispiele Ausgabe: Entsprechende natürlichsprachige Beschreibung Einschränkungen: Beibehaltung semantischer Genauigkeit, Konsistenz der Domänenterminologie, Datenschutz

Systemarchitektur

Einmalige Einrichtungsphase

Projekteinrichtung: Auswahl oder Erstellung eines Annotationsprojekts für spezifische Unternehmensworkloads
Datenaufnahme: Hochladen von SQL-Logs und Schemadateien oder Auswahl unterstützter öffentlicher Benchmarks
Aufgabenkonfiguration: Auswahl der Annotationsrichtung (derzeit SQL-zu-NL unterstützt) und des Sprachmodells

Iterative Annotationsschleife

Abfragezersetzung (optional): Umschreiben verschachtelter SQL-Abfragen als Serien von Common Table Expressions (CTEs)
Kontextabruf: Verwendung von Sentence-BERT und anderen dichten Vektor-Embeddings zum Abrufen semantisch ähnlicher Beispiele und relevanter Tabellenschemata
Kandidatengenerierung: LLM generiert basierend auf abgerufenem Kontext 4 Kandidaten für natürlichsprachige Beschreibungen
Rekombination (optional): Zusammenführung von Beschreibungen auf Subquery-Ebene zu vollständigen Abfrageerklärungen
Menschliches Feedback: Annotatoren ordnen, optimieren oder verwerfen LLM-Ausgaben
Überprüfung und Export: Bewertung der Ausgabequalität und Export im Benchmark-Format

Technische Innovationen

Retrieval-Augmented Generation (RAG)

Verwendung von dichter Vektorsuche zum Abrufen semantisch ähnlicher SQL-Abfragen und ihrer Annotationen
Einbettung von Beispielen in Prompts, um realistische Ausdrucksmuster und Schemaverwendungsanleitungen bereitzustellen
Ausgewogenheit zwischen Informativität und Prompt-Effizienz durch Auswahl der Top-k-Abrufergebnisse

Abfragezersetzungsstrategie

Zersetzung strukturell komplexer verschachtelter Abfragen
Unabhängige Generierung natürlichsprachiger Beschreibungen für Subqueries vor Wiederzusammensetzung
Reduzierung der kognitiven Belastung und Verbesserung der Annotationsgenauigkeit

Human-in-the-Loop-Designprinzipien

Strukturierter iterativer Überprüfungsprozess gewährleistet Unternehmensqualitätsstandards
Unterstützung für Prompt-Optimierung und feedback-gesteuerte Verbesserungsschleifen
Einhaltung der Google-PAIR-Prinzipien für verantwortungsvolle KI-Gestaltung

Experimentelle Einrichtung

Datensätze

Beaver: Erster privater Unternehmens-Text-to-SQL-Benchmark basierend auf SQL-Logs von MIT und anderen Institutionen mit über 300 Schemata und fast 4000 Abfragen
Bird: Öffentlicher großflächiger Datenbankbenchmark
Insgesamt 30 SQL-Abfragen für Benutzerstudie aus Beaver- und Bird-Datensätzen (anonymisiert)

Bewertungsmetriken

Annotationsgenauigkeit: Manuelle Überprüfung der Treue von NL-Beschreibungen zu SQL-Abfragen
Annotationsverzögerung: Gesamtannotationszeit pro Teilnehmer
Semantische Treue: Bewertet durch Rückübersetzungsaufgaben mit 5-stufiger Bewertungsskala

Vergleichsmethoden

BenchPress-Gruppe: Verwendung der vollständigen BenchPress-Schnittstelle
Manuelle Gruppe: Nur Schemadateien und Logs ohne LLM-Unterstützung
Allgemeines LLM-Gruppe: Verwendung der Standard-ChatGPT-Schnittstelle ohne RAG-Unterstützung

Implementierungsdetails

18 Teilnehmer, stratifiziert nach SQL-Fähigkeitsniveau in fortgeschrittene und nicht-fortgeschrittene Gruppen
Ausgewogenes lateinisches Quadrat-Design gewährleistet Ausgleich
Jeder Teilnehmer annotiert die gleichen 30 SQL-Abfragen

Experimentelle Ergebnisse

Hauptergebnisse

Annotationsgenauigkeit

Methode	Beaver	Bird	Gesamt
BenchPress	86,1%	100,0%	93,0%
Allgemeines LLM	66,2%	100,0%	83,1%
Manuell	60,1%	87,8%	73,9%

Annotationsverzögerung

Methode	Beaver	Bird	Gesamt
BenchPress	16,1 Min.	12,0 Min.	28,1 Min.
Allgemeines LLM	16,2 Min.	15,8 Min.	32,0 Min.
Manuell	102,1 Min.	82,8 Min.	183,9 Min.

Rückübersetzungstreue

BenchPress erzeugte den höchsten Anteil vollständig korrekter (Stufe 5) Ausgaben in der 5-stufigen Klarheitsbewertung und demonstriert überlegene semantische Klarheit.

Experimentelle Erkenntnisse

Werkzeugeffektivität: BenchPress übertrifft Vergleichsmethoden bei allen Metriken
Datensatzkomplexitätsauswirkungen: Bei komplexen Unternehmensdatensätzen (Beaver) sind Leistungsunterschiede zwischen Werkzeugen ausgeprägter
Domänenadaptivität: BenchPress zeigt hervorragende Leistung bei der Handhabung unternehmenssspezifischer Terminologie und komplexer Schemata

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

BenchPress verbessert erheblich die Effizienz und Qualität der Erstellung domänenspezifischer Text-to-SQL-Benchmarks
Human-in-the-Loop-Methoden übertreffen reine Automatisierung oder rein manuelle Ansätze bei der Handhabung von Unternehmens-Datenkomplexität
Öffentliche Benchmarks spiegeln die strukturelle und sprachliche Komplexität von Unternehmens-SQL-Logs nicht angemessen wider

Einschränkungen

Das aktuelle System konzentriert sich hauptsächlich auf SQL-zu-Text-Annotation
Erfordert die Beteiligung von Domänenexperten mit gewissem Personalaufwand
Bei extrem komplexen verschachtelten Abfragen kann die Zersetzungsstrategie unzureichend sein

Zukünftige Richtungen

Bidirektionale Annotation: Integration von Text-to-SQL-Generierung zur Unterstützung iterativer Validierung
Robustheits-Bewertung: Systematische Umformulierung natürlichsprachiger Abfragen in bestehenden Benchmarks
Automatisierungsverstärkung: Weitere Reduzierung des Bedarfs an manueller Intervention

Tiefgreifende Bewertung

Stärken

Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte bei der Bereitstellung von Text-to-SQL-Modellen in Unternehmen
Starke methodische Innovation: Geschickte Kombination von RAG, Abfragezersetzung und Human-in-the-Loop-Zusammenarbeit
Strenge Experimentgestaltung: Angemessene Kontrastexperimentgestaltung mit umfassenden Bewertungsdimensionen
Open-Source-Beitrag: Bereitstellung direkt nutzbarer Werkzeuge und Ressourcen

Mängel

Begrenzte Benutzerstudiengröße: Stichprobengröße von 18 Teilnehmern ist relativ klein
Domänengeneralisierbarkeit: Hauptsächlich in Bildungs- und Technologiebereichen validiert; Anwendbarkeit in anderen Branchen bleibt zu überprüfen
Unzureichende Kostenanalyse: Fehlende detaillierte Kosten-Nutzen-Analyse

Auswirkungen

Akademischer Beitrag: Bietet neue Methodik für die Bewertung von Unternehmens-KI-Anwendungen
Praktischer Wert: Löst direkt tatsächliche Anforderungen der Industrie
Reproduzierbarkeit: Open-Source-Code und detaillierte Dokumentation unterstützen Reproduktion und Erweiterung

Anwendungsszenarien

Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten
Forschungsinstitutionen konstruieren domänenspezifische Text-to-SQL-Benchmarks
Datateams optimieren Modellbereitstellung und Feinabstimmungsstrategien

Literaturverzeichnis

Dieses Papier zitiert 21 relevante Arbeiten, die Text-to-SQL-Benchmarks, LLM-Anwendungen, Annotationssysteme und Unternehmens-Datenchallenges abdecken und eine solide theoretische Grundlage für die Forschung bieten.

Zusammenfassung: BenchPress ist ein System mit bedeutendem praktischen Wert, das durch innovative Human-in-the-Loop-Gestaltung die Effizienz- und Qualitätsprobleme bei der Erstellung von Unternehmens-Text-to-SQL-Benchmarks wirksam löst. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet vor allem praktische Werkzeuge für die sichere Bereitstellung von Unternehmens-KI-Anwendungen und hat starken akademischen und kommerziellen Wert.