Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic- Papier-ID: 2510.13853
- Titel: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
- Autoren: Fabian Wenz (TU München & MIT), Omar Bouattour (TU München & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
- Klassifizierung: cs.CL, cs.AI, cs.DB, cs.HC
- Veröffentlichungskonferenz: CIDR 2026 (16. Jahreskonferenz über innovative Datensysteme)
- Papierlink: https://arxiv.org/abs/2510.13853
Große Sprachmodelle (LLMs) wurden erfolgreich auf mehrere Aufgaben angewendet, einschließlich der Text-to-SQL-Generierung. Der Großteil der Arbeiten konzentriert sich jedoch auf öffentliche Datensätze (wie Fiben, Spider und Bird). Frühere Arbeiten der Autoren zeigten, dass LLMs bei der Abfrage großer privater Unternehmensdatenbanken erheblich an Leistung verlieren, und sie veröffentlichten den ersten privaten Unternehmens-Text-to-SQL-Benchmark Beaver. Um die Herausforderungen der manuellen SQL-Log-Annotation zu bewältigen, präsentiert dieses Papier BenchPress – ein Human-in-the-Loop-System, das darauf abzielt, die Erstellung domänenspezifischer Text-to-SQL-Benchmarks zu beschleunigen. Das System nutzt Retrieval-Augmented Generation (RAG) und LLMs, um mehrere natürlichsprachige Beschreibungen für SQL-Abfragen zu generieren, die menschliche Experten anschließend auswählen, ordnen oder bearbeiten, um Genauigkeit und Domäneneinhaltung zu gewährleisten. Experimente zeigen, dass BenchPress die Zeit und den Aufwand zur Erstellung hochwertiger Benchmarks erheblich reduziert.
- Lücke zwischen öffentlichen Benchmarks und Unternehmensrealität: Obwohl LLMs auf öffentlichen Datensätzen wie Spider, Bird und Fiben hervorragende Leistungen erbringen, fällt die Ausführungsgenauigkeit bei Unternehmensdatenbanken drastisch ab (wie in Abbildung 1 gezeigt, von über 90% auf nahe 0%)
- Schwierigkeiten bei der Annotation von Unternehmens-SQL-Logs: Das manuelle Erstellen entsprechender natürlichsprachiger Fragen für SQL-Abfragen ist zeitaufwändig und teuer und erfordert die Beteiligung hochqualifizierter Datenbankadministratoren
- Domänenspezifische Herausforderungen: Unternehmensdaten weisen komplexe Schemata, domänenspezifische Terminologie und Datenschutzbeschränkungen auf
- Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten, bevor sie diese einsetzen
- Vermeidung von Bereitstellungsfehlern aufgrund von Domänenmismatch
- Unterstützung von Modelldomänenanpassung und Optimierung von Feinabstimmungsstrategien
- Öffentliche Benchmarks fehlt die unternehmenssspezifische Komplexität (Schemambiguität, Domänenterminologie usw.)
- Vollständig manuelle Annotation ist kostspielig und ineffizient
- Allgemeine LLMs fehlt der Domänenkontext und strukturierte Unterstützung
- Vorstellung des BenchPress-Systems: Das erste spezialisierte Human-in-the-Loop-Annotationssystem zur schnellen Erstellung domänenspezifischer Text-to-SQL-Benchmarks
- Innovative Workflow-Gestaltung: Modulare Architektur, die Retrieval-Augmented Generation (RAG), Abfragezersetzung und menschliches Feedback kombiniert
- Umfassende Benutzerstudie: Kontrastexperimente demonstrieren die Vorteile von BenchPress bei Annotationsgenauigkeit, Effizienz und semantischer Treue
- Open-Source-Tool: Bereitstellung eines direkt nutzbaren Systems, das mehrere öffentliche Benchmarks und Unternehmensdaten unterstützt
Eingabe: SQL-Abfrage + Datenbankschema + optionale historische Annotationsbeispiele
Ausgabe: Entsprechende natürlichsprachige Beschreibung
Einschränkungen: Beibehaltung semantischer Genauigkeit, Konsistenz der Domänenterminologie, Datenschutz
- Projekteinrichtung: Auswahl oder Erstellung eines Annotationsprojekts für spezifische Unternehmensworkloads
- Datenaufnahme: Hochladen von SQL-Logs und Schemadateien oder Auswahl unterstützter öffentlicher Benchmarks
- Aufgabenkonfiguration: Auswahl der Annotationsrichtung (derzeit SQL-zu-NL unterstützt) und des Sprachmodells
- Abfragezersetzung (optional): Umschreiben verschachtelter SQL-Abfragen als Serien von Common Table Expressions (CTEs)
- Kontextabruf: Verwendung von Sentence-BERT und anderen dichten Vektor-Embeddings zum Abrufen semantisch ähnlicher Beispiele und relevanter Tabellenschemata
- Kandidatengenerierung: LLM generiert basierend auf abgerufenem Kontext 4 Kandidaten für natürlichsprachige Beschreibungen
- Rekombination (optional): Zusammenführung von Beschreibungen auf Subquery-Ebene zu vollständigen Abfrageerklärungen
- Menschliches Feedback: Annotatoren ordnen, optimieren oder verwerfen LLM-Ausgaben
- Überprüfung und Export: Bewertung der Ausgabequalität und Export im Benchmark-Format
- Verwendung von dichter Vektorsuche zum Abrufen semantisch ähnlicher SQL-Abfragen und ihrer Annotationen
- Einbettung von Beispielen in Prompts, um realistische Ausdrucksmuster und Schemaverwendungsanleitungen bereitzustellen
- Ausgewogenheit zwischen Informativität und Prompt-Effizienz durch Auswahl der Top-k-Abrufergebnisse
- Zersetzung strukturell komplexer verschachtelter Abfragen
- Unabhängige Generierung natürlichsprachiger Beschreibungen für Subqueries vor Wiederzusammensetzung
- Reduzierung der kognitiven Belastung und Verbesserung der Annotationsgenauigkeit
- Strukturierter iterativer Überprüfungsprozess gewährleistet Unternehmensqualitätsstandards
- Unterstützung für Prompt-Optimierung und feedback-gesteuerte Verbesserungsschleifen
- Einhaltung der Google-PAIR-Prinzipien für verantwortungsvolle KI-Gestaltung
- Beaver: Erster privater Unternehmens-Text-to-SQL-Benchmark basierend auf SQL-Logs von MIT und anderen Institutionen mit über 300 Schemata und fast 4000 Abfragen
- Bird: Öffentlicher großflächiger Datenbankbenchmark
- Insgesamt 30 SQL-Abfragen für Benutzerstudie aus Beaver- und Bird-Datensätzen (anonymisiert)
- Annotationsgenauigkeit: Manuelle Überprüfung der Treue von NL-Beschreibungen zu SQL-Abfragen
- Annotationsverzögerung: Gesamtannotationszeit pro Teilnehmer
- Semantische Treue: Bewertet durch Rückübersetzungsaufgaben mit 5-stufiger Bewertungsskala
- BenchPress-Gruppe: Verwendung der vollständigen BenchPress-Schnittstelle
- Manuelle Gruppe: Nur Schemadateien und Logs ohne LLM-Unterstützung
- Allgemeines LLM-Gruppe: Verwendung der Standard-ChatGPT-Schnittstelle ohne RAG-Unterstützung
- 18 Teilnehmer, stratifiziert nach SQL-Fähigkeitsniveau in fortgeschrittene und nicht-fortgeschrittene Gruppen
- Ausgewogenes lateinisches Quadrat-Design gewährleistet Ausgleich
- Jeder Teilnehmer annotiert die gleichen 30 SQL-Abfragen
| Methode | Beaver | Bird | Gesamt |
|---|
| BenchPress | 86,1% | 100,0% | 93,0% |
| Allgemeines LLM | 66,2% | 100,0% | 83,1% |
| Manuell | 60,1% | 87,8% | 73,9% |
| Methode | Beaver | Bird | Gesamt |
|---|
| BenchPress | 16,1 Min. | 12,0 Min. | 28,1 Min. |
| Allgemeines LLM | 16,2 Min. | 15,8 Min. | 32,0 Min. |
| Manuell | 102,1 Min. | 82,8 Min. | 183,9 Min. |
BenchPress erzeugte den höchsten Anteil vollständig korrekter (Stufe 5) Ausgaben in der 5-stufigen Klarheitsbewertung und demonstriert überlegene semantische Klarheit.
- Werkzeugeffektivität: BenchPress übertrifft Vergleichsmethoden bei allen Metriken
- Datensatzkomplexitätsauswirkungen: Bei komplexen Unternehmensdatensätzen (Beaver) sind Leistungsunterschiede zwischen Werkzeugen ausgeprägter
- Domänenadaptivität: BenchPress zeigt hervorragende Leistung bei der Handhabung unternehmenssspezifischer Terminologie und komplexer Schemata
- Öffentliche Benchmarks: Spider, Bird, Fiben und andere fördern Fortschritte bei allgemeinen Text-to-SQL-Aufgaben
- Unternehmens-Benchmarks: Beaver führt erstmals Unternehmenskomplexität ein und offenbart LLM-Schwierigkeiten bei heterogenen Schemata
- Codex, GPT-4, DeepSeek zeigen starke Leistung auf öffentlichen Datensätzen
- Jedoch signifikante Leistungsabfälle in domänenspezifischen oder Unternehmensumgebungen
- Bestehende Systeme konzentrieren sich hauptsächlich auf öffentliche oder synthetische Daten
- BenchPress unterstützt speziell Human-in-the-Loop-Workflows für private Unternehmens-Logs
- BenchPress verbessert erheblich die Effizienz und Qualität der Erstellung domänenspezifischer Text-to-SQL-Benchmarks
- Human-in-the-Loop-Methoden übertreffen reine Automatisierung oder rein manuelle Ansätze bei der Handhabung von Unternehmens-Datenkomplexität
- Öffentliche Benchmarks spiegeln die strukturelle und sprachliche Komplexität von Unternehmens-SQL-Logs nicht angemessen wider
- Das aktuelle System konzentriert sich hauptsächlich auf SQL-zu-Text-Annotation
- Erfordert die Beteiligung von Domänenexperten mit gewissem Personalaufwand
- Bei extrem komplexen verschachtelten Abfragen kann die Zersetzungsstrategie unzureichend sein
- Bidirektionale Annotation: Integration von Text-to-SQL-Generierung zur Unterstützung iterativer Validierung
- Robustheits-Bewertung: Systematische Umformulierung natürlichsprachiger Abfragen in bestehenden Benchmarks
- Automatisierungsverstärkung: Weitere Reduzierung des Bedarfs an manueller Intervention
- Hoher praktischer Wert: Löst tatsächliche Schmerzpunkte bei der Bereitstellung von Text-to-SQL-Modellen in Unternehmen
- Starke methodische Innovation: Geschickte Kombination von RAG, Abfragezersetzung und Human-in-the-Loop-Zusammenarbeit
- Strenge Experimentgestaltung: Angemessene Kontrastexperimentgestaltung mit umfassenden Bewertungsdimensionen
- Open-Source-Beitrag: Bereitstellung direkt nutzbarer Werkzeuge und Ressourcen
- Begrenzte Benutzerstudiengröße: Stichprobengröße von 18 Teilnehmern ist relativ klein
- Domänengeneralisierbarkeit: Hauptsächlich in Bildungs- und Technologiebereichen validiert; Anwendbarkeit in anderen Branchen bleibt zu überprüfen
- Unzureichende Kostenanalyse: Fehlende detaillierte Kosten-Nutzen-Analyse
- Akademischer Beitrag: Bietet neue Methodik für die Bewertung von Unternehmens-KI-Anwendungen
- Praktischer Wert: Löst direkt tatsächliche Anforderungen der Industrie
- Reproduzierbarkeit: Open-Source-Code und detaillierte Dokumentation unterstützen Reproduktion und Erweiterung
- Unternehmen müssen die Leistung von Text-to-SQL-Modellen auf privaten Daten bewerten
- Forschungsinstitutionen konstruieren domänenspezifische Text-to-SQL-Benchmarks
- Datateams optimieren Modellbereitstellung und Feinabstimmungsstrategien
Dieses Papier zitiert 21 relevante Arbeiten, die Text-to-SQL-Benchmarks, LLM-Anwendungen, Annotationssysteme und Unternehmens-Datenchallenges abdecken und eine solide theoretische Grundlage für die Forschung bieten.
Zusammenfassung: BenchPress ist ein System mit bedeutendem praktischen Wert, das durch innovative Human-in-the-Loop-Gestaltung die Effizienz- und Qualitätsprobleme bei der Erstellung von Unternehmens-Text-to-SQL-Benchmarks wirksam löst. Diese Arbeit ist nicht nur technisch innovativ, sondern bietet vor allem praktische Werkzeuge für die sichere Bereitstellung von Unternehmens-KI-Anwendungen und hat starken akademischen und kommerziellen Wert.