Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic- ID Articolo: 2510.13853
- Titolo: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
- Autori: Fabian Wenz (TU Munich & MIT), Omar Bouattour (TU Munich & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
- Classificazione: cs.CL, cs.AI, cs.DB, cs.HC
- Conferenza di Pubblicazione: CIDR 2026 (16ª Conferenza Annuale su Innovative Data Systems Research)
- Link Articolo: https://arxiv.org/abs/2510.13853
I modelli linguistici di grandi dimensioni (LLM) hanno trovato applicazione con successo in numerosi compiti, inclusa la generazione di query da testo a SQL. Tuttavia, la maggior parte dei lavori si concentra su dataset pubblici (come Fiben, Spider e Bird). Ricerche precedenti degli autori hanno dimostrato che gli LLM mostrano un calo significativo di prestazioni quando interrogano grandi data warehouse aziendali privati, portando alla pubblicazione del primo benchmark text-to-SQL aziendale privato, Beaver. Per affrontare le sfide dell'annotazione manuale dei log SQL, questo articolo propone BenchPress—un sistema di collaborazione uomo-macchina progettato per accelerare la creazione di benchmark text-to-SQL specifici del dominio. Il sistema utilizza la generazione aumentata da recupero (RAG) e gli LLM per generare molteplici descrizioni in linguaggio naturale per query SQL, che gli esperti umani successivamente selezionano, ordinano o modificano per garantire accuratezza e allineamento con il dominio. Gli esperimenti dimostrano che BenchPress riduce significativamente il tempo e lo sforzo necessari per creare benchmark di alta qualità.
- Divario tra benchmark pubblici e realtà aziendale: Sebbene gli LLM mostrino prestazioni eccellenti su dataset pubblici come Spider, Bird e Fiben, l'accuratezza di esecuzione su data warehouse aziendali cala drasticamente (come mostrato in Figura 1, da oltre il 90% a quasi lo 0%)
- Difficoltà nell'annotazione dei log SQL aziendali: La creazione manuale di domande in linguaggio naturale corrispondenti a query SQL è sia dispendiosa in termini di tempo che costosa, richiedendo il coinvolgimento di amministratori di database altamente qualificati
- Sfide specifiche del dominio: I dati aziendali presentano schemi complessi, terminologia specifica del dominio, vincoli di privacy e altre caratteristiche particolari
- Le aziende necessitano di valutare le prestazioni dei modelli text-to-SQL sui dati privati prima della distribuzione
- Evitare fallimenti di distribuzione causati da disallineamento con il dominio
- Supportare l'adattamento del modello al dominio e l'ottimizzazione delle strategie di fine-tuning
- I benchmark pubblici mancano della complessità specifica delle aziende (ambiguità dello schema, terminologia di dominio, ecc.)
- L'annotazione completamente manuale è costosa e inefficiente
- Gli LLM generici mancano di contesto di dominio e supporto strutturato
- Proposta del sistema BenchPress: Primo sistema di annotazione collaborativo uomo-macchina specificamente progettato per la creazione rapida di benchmark text-to-SQL specifici del dominio
- Design innovativo del flusso di lavoro: Architettura modulare che combina generazione aumentata da recupero (RAG), decomposizione di query e feedback umano
- Ricerca utente completa: Esperimenti comparativi che dimostrano i vantaggi di BenchPress in termini di accuratezza dell'annotazione, efficienza e fedeltà semantica
- Strumento open-source: Sistema direttamente utilizzabile che supporta molteplici benchmark pubblici e dati aziendali
Input: Query SQL + schema del database + campioni di annotazione storici opzionali
Output: Descrizione corrispondente in linguaggio naturale
Vincoli: Mantenere accuratezza semantica, coerenza della terminologia di dominio, protezione della privacy
- Configurazione del progetto: Selezione o creazione di un progetto di annotazione per carichi di lavoro aziendali specifici
- Acquisizione dati: Caricamento di log SQL e file di schema, o selezione di benchmark pubblici supportati
- Configurazione del compito: Scelta della direzione di annotazione (attualmente supporta SQL-to-NL) e modello linguistico
- Decomposizione della query (opzionale): Riscrittura di query SQL annidate come serie di espressioni di tabella comuni (CTE)
- Recupero del contesto: Utilizzo di embedding vettoriali densi come Sentence-BERT per recuperare campioni semanticamente simili e schemi di tabelle rilevanti
- Generazione di candidati: Generazione da parte dell'LLM di 4 descrizioni candidate in linguaggio naturale basate sul contesto recuperato
- Ricomposizione (opzionale): Fusione di descrizioni a livello di sottoquery in una spiegazione completa della query
- Feedback umano: Gli annotatori ordinano, ottimizzano o scartano gli output dell'LLM
- Revisione ed esportazione: Valutazione della qualità dell'output ed esportazione nel formato benchmark
- Utilizzo della ricerca vettoriale densa per recuperare query SQL semanticamente simili e relative annotazioni
- Incorporamento di campioni nel prompt per fornire modelli di espressione realistici e guida all'uso dello schema
- Equilibrio tra informatività ed efficienza del prompt, selezione dei top-k campioni recuperati
- Decomposizione di query annidate strutturalmente complesse
- Generazione indipendente di descrizioni in linguaggio naturale per sottoquery seguita da riassemblaggio
- Riduzione del carico cognitivo e miglioramento della precisione dell'annotazione
- Processo di revisione iterativo strutturato che garantisce standard di qualità aziendale
- Supporto per l'ottimizzazione del prompt e cicli di miglioramento guidati dal feedback
- Design dell'IA responsabile seguendo i principi Google PAIR
- Beaver: Primo benchmark text-to-SQL aziendale privato, basato su log SQL di MIT e altre istituzioni, contenente oltre 300 schemi e quasi 4000 query
- Bird: Benchmark di database pubblico su larga scala
- Totale di 30 query SQL per la ricerca utente, provenienti dai dataset Beaver e Bird (anonimizzati)
- Accuratezza dell'annotazione: Verifica manuale della fedeltà delle descrizioni NL alle query SQL
- Latenza dell'annotazione: Tempo totale di annotazione per ogni partecipante
- Fedeltà semantica: Valutazione attraverso compiti di back-translation, utilizzando una scala di valutazione a 5 livelli
- Gruppo BenchPress: Utilizzo dell'interfaccia BenchPress completa
- Gruppo manuale: Solo file di schema e log forniti, senza supporto LLM
- Gruppo LLM generico: Utilizzo dell'interfaccia ChatGPT standard, senza supporto RAG
- 18 partecipanti, stratificati in due livelli in base alle competenze SQL (avanzato e non avanzato)
- Design a quadrato latino bilanciato per garantire il controbilanciamento
- Ogni partecipante annota le stesse 30 query SQL
| Metodo | Beaver | Bird | Totale |
|---|
| BenchPress | 86,1% | 100,0% | 93,0% |
| LLM Generico | 66,2% | 100,0% | 83,1% |
| Manuale | 60,1% | 87,8% | 73,9% |
| Metodo | Beaver | Bird | Totale |
|---|
| BenchPress | 16,1 min | 12,0 min | 28,1 min |
| LLM Generico | 16,2 min | 15,8 min | 32,0 min |
| Manuale | 102,1 min | 82,8 min | 183,9 min |
BenchPress ha prodotto la più alta proporzione di output completamente corretti (livello 5) nella valutazione della chiarezza a 5 livelli, dimostrando una chiarezza semantica superiore.
- Efficacia dello strumento: BenchPress supera i metodi di confronto su tutte le metriche
- Impatto della complessità del dataset: Su dataset aziendali complessi (Beaver), le differenze di prestazione tra gli strumenti sono più evidenti
- Adattabilità al dominio: BenchPress eccelle nel gestire la terminologia specifica dell'azienda e gli schemi complessi
- Benchmark pubblici: Spider, Bird, Fiben e altri hanno promosso il progresso nel compito generico text-to-SQL
- Benchmark aziendali: Beaver introduce per la prima volta la complessità a livello aziendale, esponendo le difficoltà degli LLM con schemi eterogenei
- Codex, GPT-4, DeepSeek e altri mostrano prestazioni forti su dataset pubblici
- Tuttavia, le prestazioni calano significativamente in ambienti specifici del dominio o aziendali
- I sistemi esistenti sono principalmente orientati a dati pubblici o sintetici
- BenchPress supporta specificamente flussi di lavoro collaborativi uomo-macchina per log SQL aziendali privati
- BenchPress migliora significativamente l'efficienza e la qualità della creazione di benchmark text-to-SQL specifici del dominio
- L'approccio collaborativo uomo-macchina supera i metodi completamente automatizzati o completamente manuali nel gestire la complessità dei dati aziendali
- I benchmark pubblici non riflettono adeguatamente la complessità strutturale e linguistica dei log SQL aziendali
- Il sistema attuale si concentra principalmente sull'annotazione SQL-to-text
- Richiede il coinvolgimento di esperti di dominio, con ancora alcuni costi di manodopera
- Per query annidate estremamente complesse, la strategia di decomposizione potrebbe non essere sufficientemente sofisticata
- Annotazione bidirezionale: Integrazione della generazione text-to-SQL per supportare la validazione iterativa
- Valutazione della robustezza: Riformulazione sistematica delle query in linguaggio naturale nei benchmark esistenti
- Automazione migliorata: Ulteriore riduzione della necessità di intervento umano
- Alto valore pratico: Risolve i problemi reali della distribuzione di modelli text-to-SQL nelle aziende
- Forte innovazione metodologica: Combinazione intelligente di RAG, decomposizione di query e collaborazione uomo-macchina
- Progettazione sperimentale rigorosa: Esperimenti di controllo ben progettati, valutazione multidimensionale
- Contributo open-source: Fornisce uno strumento direttamente utilizzabile e risorse
- Scala limitata della ricerca utente: Campione di 18 partecipanti relativamente piccolo
- Generalizzabilità del dominio: Validazione principalmente nei settori dell'istruzione e della tecnologia, applicabilità in altri settori da verificare
- Analisi dei costi insufficiente: Mancanza di analisi dettagliata del rapporto costi-benefici
- Contributo accademico: Fornisce una nuova metodologia per la valutazione dell'IA aziendale
- Valore pratico: Risolve direttamente le esigenze reali dell'industria
- Riproducibilità: Codice open-source e documentazione dettagliata supportano la riproduzione e l'estensione
- Aziende che necessitano di valutare le prestazioni dei modelli text-to-SQL su dati privati
- Istituzioni di ricerca che costruiscono benchmark text-to-SQL specifici del dominio
- Team di dati che ottimizzano la distribuzione e le strategie di fine-tuning dei modelli
Questo articolo cita 21 riferimenti correlati, coprendo benchmark text-to-SQL, applicazioni LLM, sistemi di annotazione e sfide dei dati aziendali, fornendo una base teorica solida per la ricerca.
Sintesi: BenchPress è un sistema di notevole valore pratico che, attraverso un design innovativo della collaborazione uomo-macchina, risolve efficacemente i problemi di efficienza e qualità nella creazione di benchmark text-to-SQL a livello aziendale. Questo lavoro non solo presenta innovazioni tecniche, ma fornisce soprattutto uno strumento pratico per la distribuzione sicura dell'IA nelle aziende, con forte valore sia accademico che commerciale.