2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.

Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.

academic

BenchPress: Un Sistema de Anotación Interactivo Humano-Máquina para la Curación Rápida de Benchmarks Text-to-SQL

Información Básica

ID del Artículo: 2510.13853
Título: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
Autores: Fabian Wenz (TU Munich & MIT), Omar Bouattour (TU Munich & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
Clasificación: cs.CL, cs.AI, cs.DB, cs.HC
Conferencia de Publicación: CIDR 2026 (16ª Conferencia Anual sobre Sistemas de Investigación de Datos Innovadores)
Enlace del Artículo: https://arxiv.org/abs/2510.13853

Resumen

Los modelos de lenguaje de gran escala (LLMs) se han aplicado exitosamente en múltiples tareas, incluyendo la generación de texto a SQL. Sin embargo, la mayoría de los trabajos se concentran en conjuntos de datos públicos (como Fiben, Spider y Bird). Trabajos anteriores de los autores demostraron que los LLMs experimentan una disminución significativa en el rendimiento al consultar grandes almacenes de datos empresariales privados, y publicaron el primer benchmark privado empresarial de texto a SQL denominado Beaver. Para abordar los desafíos de la anotación manual de registros SQL, este artículo propone BenchPress, un sistema de colaboración humano-máquina diseñado para acelerar la creación de benchmarks de texto a SQL específicos del dominio. El sistema utiliza generación aumentada por recuperación (RAG) y LLMs para generar múltiples descripciones en lenguaje natural para consultas SQL, que posteriormente expertos humanos seleccionan, ordenan o editan para garantizar precisión y alineación con el dominio. Los experimentos demuestran que BenchPress reduce significativamente el tiempo y esfuerzo requeridos para crear benchmarks de alta calidad.

Contexto de Investigación y Motivación

Problemas Centrales

Brecha entre benchmarks públicos y realidad empresarial: Aunque los LLMs funcionan bien en conjuntos de datos públicos como Spider, Bird y Fiben, la precisión de ejecución en almacenes de datos empresariales disminuye drásticamente (como se muestra en la Figura 1, cayendo de más del 90% a casi 0%)
Dificultad en la anotación de registros SQL empresariales: Crear manualmente preguntas en lenguaje natural correspondientes a consultas SQL es tanto tedioso como costoso, requiriendo la participación de administradores de bases de datos altamente calificados
Desafíos específicos del dominio: Los datos empresariales poseen esquemas complejos, terminología específica del dominio y restricciones de privacidad

Importancia

Las empresas necesitan evaluar el rendimiento de modelos de texto a SQL en datos privados antes del despliegue
Evitar fallos de despliegue causados por desajuste de dominio
Apoyar estrategias de adaptación de dominio y optimización de ajuste fino del modelo

Limitaciones de Métodos Existentes

Los benchmarks públicos carecen de complejidad específica empresarial (ambigüedad de esquemas, terminología de dominio, etc.)
La anotación completamente manual tiene costos elevados e ineficiencia
Los LLMs genéricos carecen de contexto de dominio y soporte estructurado

Contribuciones Principales

Propuesta del sistema BenchPress: Primer sistema de anotación interactivo humano-máquina especializado en la creación rápida de benchmarks de texto a SQL específicos del dominio
Diseño innovador del flujo de trabajo: Arquitectura modular que combina generación aumentada por recuperación (RAG), descomposición de consultas y retroalimentación humana
Investigación integral con usuarios: Experimentos comparativos que demuestran las ventajas de BenchPress en precisión de anotación, eficiencia y fidelidad semántica
Herramienta de código abierto: Proporciona un sistema directamente utilizable que admite múltiples benchmarks públicos y datos empresariales

Explicación Detallada del Método

Definición de Tarea

Entrada: Consulta SQL + esquema de base de datos + ejemplos de anotación histórica opcional Salida: Descripción correspondiente en lenguaje natural Restricciones: Mantener precisión semántica, consistencia de terminología de dominio, protección de privacidad

Arquitectura del Sistema

Fase de Configuración Única

Configuración del proyecto: Seleccionar o crear un proyecto de anotación para cargas de trabajo empresariales específicas
Ingesta de datos: Cargar registros SQL y archivos de esquema, o seleccionar benchmarks públicos admitidos
Configuración de tareas: Elegir dirección de anotación (actualmente admite SQL a NL) y modelo de lenguaje

Ciclo de Anotación Iterativo

Descomposición de consultas (opcional): Reescribir consultas SQL anidadas como series de expresiones de tabla común (CTEs)
Recuperación de contexto: Utilizar incrustaciones de vectores densos como Sentence-BERT para recuperar ejemplos semánticamente similares y esquemas de tabla relevantes
Generación de candidatos: El LLM genera 4 descripciones candidatas en lenguaje natural basadas en el contexto recuperado
Recomposición (opcional): Fusionar descripciones a nivel de subconsulta en explicaciones de consulta completas
Retroalimentación humana: Los anotadores ordenan, optimizan o descartan los resultados del LLM
Revisión y exportación: Evaluar la calidad de los resultados y exportar en formato de benchmark

Puntos de Innovación Técnica

Generación Aumentada por Recuperación (RAG)

Utilizar búsqueda de vectores densos para recuperar consultas SQL semánticamente similares y sus anotaciones
Incrustar ejemplos en indicaciones para proporcionar patrones de expresión realistas y orientación sobre uso de esquemas
Equilibrar informatividad y eficiencia de indicaciones, seleccionando ejemplos recuperados top-k

Estrategia de Descomposición de Consultas

Descomponer consultas anidadas con estructura compleja
Generar independientemente descripciones en lenguaje natural de subconsultas y luego rearmar
Reducir carga cognitiva y mejorar precisión de anotación

Diseño de Colaboración Humano-Máquina

Proceso de revisión iterativo estructurado que garantiza estándares de calidad empresarial
Admite optimización de indicaciones y ciclos de mejora impulsados por retroalimentación
Diseño de IA responsable siguiendo principios PAIR de Google

Configuración Experimental

Conjuntos de Datos

Beaver: Primer benchmark privado empresarial de texto a SQL, basado en registros SQL de MIT y otras instituciones, que contiene más de 300 esquemas y casi 4000 consultas
Bird: Benchmark de base de datos público a gran escala
Total de 30 consultas SQL para investigación con usuarios, procedentes de conjuntos de datos Beaver y Bird (procesados de forma anónima)

Métricas de Evaluación

Precisión de anotación: Verificación manual de la fidelidad de descripciones NL respecto a consultas SQL
Latencia de anotación: Tiempo total de anotación por participante
Fidelidad semántica: Evaluación mediante tareas de retrotraducción, utilizando escala de calificación de 5 niveles

Métodos de Comparación

Grupo BenchPress: Utilizar la interfaz completa de BenchPress
Grupo manual: Solo se proporcionan archivos de esquema y registros, sin soporte de LLM
Grupo LLM genérico: Utilizar interfaz estándar de ChatGPT, sin soporte RAG

Detalles de Implementación

18 participantes, estratificados en dos niveles según habilidad SQL: avanzado y no avanzado
Diseño de cuadrado latino balanceado para garantizar contrabalanceo
Cada participante anota las mismas 30 consultas SQL

Resultados Experimentales

Resultados Principales

Precisión de Anotación

Método	Beaver	Bird	General
BenchPress	86.1%	100.0%	93.0%
LLM Genérico	66.2%	100.0%	83.1%
Manual	60.1%	87.8%	73.9%

Latencia de Anotación

Método	Beaver	Bird	Total
BenchPress	16.1 min	12.0 min	28.1 min
LLM Genérico	16.2 min	15.8 min	32.0 min
Manual	102.1 min	82.8 min	183.9 min

Fidelidad de Retrotraducción

BenchPress produjo la proporción más alta de resultados completamente correctos (Nivel 5) en la evaluación de claridad de 5 niveles, demostrando claridad semántica superior.

Hallazgos Experimentales

Efectividad de la herramienta: BenchPress supera a los métodos de comparación en todas las métricas
Impacto de la complejidad del conjunto de datos: Las diferencias de rendimiento entre herramientas son más pronunciadas en conjuntos de datos empresariales complejos (Beaver)
Adaptabilidad de dominio: BenchPress destaca en el manejo de terminología específica empresarial y esquemas complejos

Trabajo Relacionado

Benchmarks de Texto a SQL

Benchmarks públicos: Spider, Bird, Fiben y otros han impulsado el progreso en tareas genéricas de texto a SQL
Benchmarks empresariales: Beaver introduce por primera vez complejidad a nivel empresarial, exponiendo dificultades de LLMs en esquemas heterogéneos

Aplicaciones de LLM en Generación SQL

Codex, GPT-4, DeepSeek y otros funcionan bien en conjuntos de datos públicos
Sin embargo, el rendimiento disminuye significativamente en entornos específicos del dominio o empresariales

Sistemas y Herramientas de Anotación

Los sistemas existentes se orientan principalmente a datos públicos o sintéticos
BenchPress admite específicamente flujos de trabajo de colaboración humano-máquina para registros empresariales privados

Conclusiones y Discusión

Conclusiones Principales

BenchPress mejora significativamente la eficiencia y calidad de la creación de benchmarks de texto a SQL específicos del dominio
El enfoque de colaboración humano-máquina supera tanto a métodos completamente automatizados como completamente manuales en el manejo de la complejidad de datos empresariales
Los benchmarks públicos no reflejan adecuadamente la complejidad estructural y lingüística de los registros SQL empresariales

Limitaciones

El sistema actual se enfoca principalmente en anotación de SQL a texto
Requiere participación de expertos de dominio, aún con cierto costo de mano de obra
Para consultas anidadas extremadamente complejas, la estrategia de descomposición puede ser insuficiente

Direcciones Futuras

Anotación bidireccional: Integrar generación de texto a SQL para admitir validación iterativa
Evaluación de robustez: Reformular sistemáticamente consultas en lenguaje natural en benchmarks existentes
Mejora de automatización: Reducir aún más la necesidad de intervención humana

Evaluación Profunda

Fortalezas

Alto valor práctico: Resuelve puntos débiles reales en el despliegue empresarial de modelos de texto a SQL
Fuerte innovación metodológica: Combina ingeniosamente RAG, descomposición de consultas y colaboración humano-máquina
Diseño experimental riguroso: Diseño de experimentos de control bien fundamentado, dimensiones de evaluación exhaustivas
Contribución de código abierto: Proporciona herramientas y recursos directamente utilizables

Insuficiencias

Escala limitada de investigación con usuarios: El tamaño de muestra de 18 participantes es relativamente pequeño
Generalización de dominio: Validación principalmente en sectores educativo y tecnológico, aplicabilidad en otras industrias pendiente de verificación
Análisis de costos insuficiente: Falta análisis detallado de costo-beneficio

Impacto

Contribución académica: Proporciona nueva metodología para evaluación de aplicaciones de IA empresarial
Valor práctico: Resuelve directamente necesidades reales de la industria
Reproducibilidad: Código abierto y documentación detallada apoyan reproducción y extensión

Escenarios Aplicables

Empresas que necesitan evaluar el rendimiento de modelos de texto a SQL en datos privados
Instituciones de investigación que construyen benchmarks de texto a SQL específicos del dominio
Equipos de datos que optimizan estrategias de despliegue y ajuste fino de modelos

Referencias

Este artículo cita 21 referencias relevantes que abarcan benchmarks de texto a SQL, aplicaciones de LLM, sistemas de anotación y desafíos de datos empresariales, proporcionando una base teórica sólida para la investigación.

Resumen: BenchPress es un sistema con importante valor práctico que, mediante diseño innovador de colaboración humano-máquina, resuelve efectivamente los problemas de eficiencia y calidad en la creación de benchmarks de texto a SQL a nivel empresarial. Este trabajo no solo innova tecnológicamente, sino que más importantemente proporciona herramientas prácticas para el despliegue seguro de aplicaciones de IA empresarial, poseyendo un fuerte valor académico y comercial.