2025-11-10T03:03:44.502546

BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation

Wenz, Bouattour, Yang et al.
Large language models (LLMs) have been successfully applied to many tasks, including text-to-SQL generation. However, much of this work has focused on publicly available datasets, such as Fiben, Spider, and Bird. Our earlier work showed that LLMs are much less effective in querying large private enterprise data warehouses and released Beaver, the first private enterprise text-to-SQL benchmark. To create Beaver, we leveraged SQL logs, which are often readily available. However, manually annotating these logs to identify which natural language questions they answer is a daunting task. Asking database administrators, who are highly trained experts, to take on additional work to construct and validate corresponding natural language utterances is not only challenging but also quite costly. To address this challenge, we introduce BenchPress, a human-in-the-loop system designed to accelerate the creation of domain-specific text-to-SQL benchmarks. Given a SQL query, BenchPress uses retrieval-augmented generation (RAG) and LLMs to propose multiple natural language descriptions. Human experts then select, rank, or edit these drafts to ensure accuracy and domain alignment. We evaluated BenchPress on annotated enterprise SQL logs, demonstrating that LLM-assisted annotation drastically reduces the time and effort required to create high-quality benchmarks. Our results show that combining human verification with LLM-generated suggestions enhances annotation accuracy, benchmark reliability, and model evaluation robustness. By streamlining the creation of custom benchmarks, BenchPress offers researchers and practitioners a mechanism for assessing text-to-SQL models on a given domain-specific workload. BenchPress is freely available via our public GitHub repository at https://github.com/fabian-wenz/enterprise-txt2sql and is also accessible on our website at http://dsg-mcgraw.csail.mit.edu:5000.
academic

BenchPress: Un Sistema de Anotación Interactivo Humano-Máquina para la Curación Rápida de Benchmarks Text-to-SQL

Información Básica

  • ID del Artículo: 2510.13853
  • Título: BenchPress: A Human-in-the-Loop Annotation System for Rapid Text-to-SQL Benchmark Curation
  • Autores: Fabian Wenz (TU Munich & MIT), Omar Bouattour (TU Munich & MIT), Devin Yang (MIT), Justin Choi (MIT), Cecil Gregg (MIT), Nesime Tatbul (Intel Labs & MIT), Çağatay Demiralp (AWS AI Labs & MIT)
  • Clasificación: cs.CL, cs.AI, cs.DB, cs.HC
  • Conferencia de Publicación: CIDR 2026 (16ª Conferencia Anual sobre Sistemas de Investigación de Datos Innovadores)
  • Enlace del Artículo: https://arxiv.org/abs/2510.13853

Resumen

Los modelos de lenguaje de gran escala (LLMs) se han aplicado exitosamente en múltiples tareas, incluyendo la generación de texto a SQL. Sin embargo, la mayoría de los trabajos se concentran en conjuntos de datos públicos (como Fiben, Spider y Bird). Trabajos anteriores de los autores demostraron que los LLMs experimentan una disminución significativa en el rendimiento al consultar grandes almacenes de datos empresariales privados, y publicaron el primer benchmark privado empresarial de texto a SQL denominado Beaver. Para abordar los desafíos de la anotación manual de registros SQL, este artículo propone BenchPress, un sistema de colaboración humano-máquina diseñado para acelerar la creación de benchmarks de texto a SQL específicos del dominio. El sistema utiliza generación aumentada por recuperación (RAG) y LLMs para generar múltiples descripciones en lenguaje natural para consultas SQL, que posteriormente expertos humanos seleccionan, ordenan o editan para garantizar precisión y alineación con el dominio. Los experimentos demuestran que BenchPress reduce significativamente el tiempo y esfuerzo requeridos para crear benchmarks de alta calidad.

Contexto de Investigación y Motivación

Problemas Centrales

  1. Brecha entre benchmarks públicos y realidad empresarial: Aunque los LLMs funcionan bien en conjuntos de datos públicos como Spider, Bird y Fiben, la precisión de ejecución en almacenes de datos empresariales disminuye drásticamente (como se muestra en la Figura 1, cayendo de más del 90% a casi 0%)
  2. Dificultad en la anotación de registros SQL empresariales: Crear manualmente preguntas en lenguaje natural correspondientes a consultas SQL es tanto tedioso como costoso, requiriendo la participación de administradores de bases de datos altamente calificados
  3. Desafíos específicos del dominio: Los datos empresariales poseen esquemas complejos, terminología específica del dominio y restricciones de privacidad

Importancia

  • Las empresas necesitan evaluar el rendimiento de modelos de texto a SQL en datos privados antes del despliegue
  • Evitar fallos de despliegue causados por desajuste de dominio
  • Apoyar estrategias de adaptación de dominio y optimización de ajuste fino del modelo

Limitaciones de Métodos Existentes

  • Los benchmarks públicos carecen de complejidad específica empresarial (ambigüedad de esquemas, terminología de dominio, etc.)
  • La anotación completamente manual tiene costos elevados e ineficiencia
  • Los LLMs genéricos carecen de contexto de dominio y soporte estructurado

Contribuciones Principales

  1. Propuesta del sistema BenchPress: Primer sistema de anotación interactivo humano-máquina especializado en la creación rápida de benchmarks de texto a SQL específicos del dominio
  2. Diseño innovador del flujo de trabajo: Arquitectura modular que combina generación aumentada por recuperación (RAG), descomposición de consultas y retroalimentación humana
  3. Investigación integral con usuarios: Experimentos comparativos que demuestran las ventajas de BenchPress en precisión de anotación, eficiencia y fidelidad semántica
  4. Herramienta de código abierto: Proporciona un sistema directamente utilizable que admite múltiples benchmarks públicos y datos empresariales

Explicación Detallada del Método

Definición de Tarea

Entrada: Consulta SQL + esquema de base de datos + ejemplos de anotación histórica opcional Salida: Descripción correspondiente en lenguaje natural Restricciones: Mantener precisión semántica, consistencia de terminología de dominio, protección de privacidad

Arquitectura del Sistema

Fase de Configuración Única

  1. Configuración del proyecto: Seleccionar o crear un proyecto de anotación para cargas de trabajo empresariales específicas
  2. Ingesta de datos: Cargar registros SQL y archivos de esquema, o seleccionar benchmarks públicos admitidos
  3. Configuración de tareas: Elegir dirección de anotación (actualmente admite SQL a NL) y modelo de lenguaje

Ciclo de Anotación Iterativo

  1. Descomposición de consultas (opcional): Reescribir consultas SQL anidadas como series de expresiones de tabla común (CTEs)
  2. Recuperación de contexto: Utilizar incrustaciones de vectores densos como Sentence-BERT para recuperar ejemplos semánticamente similares y esquemas de tabla relevantes
  3. Generación de candidatos: El LLM genera 4 descripciones candidatas en lenguaje natural basadas en el contexto recuperado
  4. Recomposición (opcional): Fusionar descripciones a nivel de subconsulta en explicaciones de consulta completas
  5. Retroalimentación humana: Los anotadores ordenan, optimizan o descartan los resultados del LLM
  6. Revisión y exportación: Evaluar la calidad de los resultados y exportar en formato de benchmark

Puntos de Innovación Técnica

Generación Aumentada por Recuperación (RAG)

  • Utilizar búsqueda de vectores densos para recuperar consultas SQL semánticamente similares y sus anotaciones
  • Incrustar ejemplos en indicaciones para proporcionar patrones de expresión realistas y orientación sobre uso de esquemas
  • Equilibrar informatividad y eficiencia de indicaciones, seleccionando ejemplos recuperados top-k

Estrategia de Descomposición de Consultas

  • Descomponer consultas anidadas con estructura compleja
  • Generar independientemente descripciones en lenguaje natural de subconsultas y luego rearmar
  • Reducir carga cognitiva y mejorar precisión de anotación

Diseño de Colaboración Humano-Máquina

  • Proceso de revisión iterativo estructurado que garantiza estándares de calidad empresarial
  • Admite optimización de indicaciones y ciclos de mejora impulsados por retroalimentación
  • Diseño de IA responsable siguiendo principios PAIR de Google

Configuración Experimental

Conjuntos de Datos

  • Beaver: Primer benchmark privado empresarial de texto a SQL, basado en registros SQL de MIT y otras instituciones, que contiene más de 300 esquemas y casi 4000 consultas
  • Bird: Benchmark de base de datos público a gran escala
  • Total de 30 consultas SQL para investigación con usuarios, procedentes de conjuntos de datos Beaver y Bird (procesados de forma anónima)

Métricas de Evaluación

  1. Precisión de anotación: Verificación manual de la fidelidad de descripciones NL respecto a consultas SQL
  2. Latencia de anotación: Tiempo total de anotación por participante
  3. Fidelidad semántica: Evaluación mediante tareas de retrotraducción, utilizando escala de calificación de 5 niveles

Métodos de Comparación

  • Grupo BenchPress: Utilizar la interfaz completa de BenchPress
  • Grupo manual: Solo se proporcionan archivos de esquema y registros, sin soporte de LLM
  • Grupo LLM genérico: Utilizar interfaz estándar de ChatGPT, sin soporte RAG

Detalles de Implementación

  • 18 participantes, estratificados en dos niveles según habilidad SQL: avanzado y no avanzado
  • Diseño de cuadrado latino balanceado para garantizar contrabalanceo
  • Cada participante anota las mismas 30 consultas SQL

Resultados Experimentales

Resultados Principales

Precisión de Anotación

MétodoBeaverBirdGeneral
BenchPress86.1%100.0%93.0%
LLM Genérico66.2%100.0%83.1%
Manual60.1%87.8%73.9%

Latencia de Anotación

MétodoBeaverBirdTotal
BenchPress16.1 min12.0 min28.1 min
LLM Genérico16.2 min15.8 min32.0 min
Manual102.1 min82.8 min183.9 min

Fidelidad de Retrotraducción

BenchPress produjo la proporción más alta de resultados completamente correctos (Nivel 5) en la evaluación de claridad de 5 niveles, demostrando claridad semántica superior.

Hallazgos Experimentales

  1. Efectividad de la herramienta: BenchPress supera a los métodos de comparación en todas las métricas
  2. Impacto de la complejidad del conjunto de datos: Las diferencias de rendimiento entre herramientas son más pronunciadas en conjuntos de datos empresariales complejos (Beaver)
  3. Adaptabilidad de dominio: BenchPress destaca en el manejo de terminología específica empresarial y esquemas complejos

Trabajo Relacionado

Benchmarks de Texto a SQL

  • Benchmarks públicos: Spider, Bird, Fiben y otros han impulsado el progreso en tareas genéricas de texto a SQL
  • Benchmarks empresariales: Beaver introduce por primera vez complejidad a nivel empresarial, exponiendo dificultades de LLMs en esquemas heterogéneos

Aplicaciones de LLM en Generación SQL

  • Codex, GPT-4, DeepSeek y otros funcionan bien en conjuntos de datos públicos
  • Sin embargo, el rendimiento disminuye significativamente en entornos específicos del dominio o empresariales

Sistemas y Herramientas de Anotación

  • Los sistemas existentes se orientan principalmente a datos públicos o sintéticos
  • BenchPress admite específicamente flujos de trabajo de colaboración humano-máquina para registros empresariales privados

Conclusiones y Discusión

Conclusiones Principales

  1. BenchPress mejora significativamente la eficiencia y calidad de la creación de benchmarks de texto a SQL específicos del dominio
  2. El enfoque de colaboración humano-máquina supera tanto a métodos completamente automatizados como completamente manuales en el manejo de la complejidad de datos empresariales
  3. Los benchmarks públicos no reflejan adecuadamente la complejidad estructural y lingüística de los registros SQL empresariales

Limitaciones

  1. El sistema actual se enfoca principalmente en anotación de SQL a texto
  2. Requiere participación de expertos de dominio, aún con cierto costo de mano de obra
  3. Para consultas anidadas extremadamente complejas, la estrategia de descomposición puede ser insuficiente

Direcciones Futuras

  1. Anotación bidireccional: Integrar generación de texto a SQL para admitir validación iterativa
  2. Evaluación de robustez: Reformular sistemáticamente consultas en lenguaje natural en benchmarks existentes
  3. Mejora de automatización: Reducir aún más la necesidad de intervención humana

Evaluación Profunda

Fortalezas

  1. Alto valor práctico: Resuelve puntos débiles reales en el despliegue empresarial de modelos de texto a SQL
  2. Fuerte innovación metodológica: Combina ingeniosamente RAG, descomposición de consultas y colaboración humano-máquina
  3. Diseño experimental riguroso: Diseño de experimentos de control bien fundamentado, dimensiones de evaluación exhaustivas
  4. Contribución de código abierto: Proporciona herramientas y recursos directamente utilizables

Insuficiencias

  1. Escala limitada de investigación con usuarios: El tamaño de muestra de 18 participantes es relativamente pequeño
  2. Generalización de dominio: Validación principalmente en sectores educativo y tecnológico, aplicabilidad en otras industrias pendiente de verificación
  3. Análisis de costos insuficiente: Falta análisis detallado de costo-beneficio

Impacto

  1. Contribución académica: Proporciona nueva metodología para evaluación de aplicaciones de IA empresarial
  2. Valor práctico: Resuelve directamente necesidades reales de la industria
  3. Reproducibilidad: Código abierto y documentación detallada apoyan reproducción y extensión

Escenarios Aplicables

  • Empresas que necesitan evaluar el rendimiento de modelos de texto a SQL en datos privados
  • Instituciones de investigación que construyen benchmarks de texto a SQL específicos del dominio
  • Equipos de datos que optimizan estrategias de despliegue y ajuste fino de modelos

Referencias

Este artículo cita 21 referencias relevantes que abarcan benchmarks de texto a SQL, aplicaciones de LLM, sistemas de anotación y desafíos de datos empresariales, proporcionando una base teórica sólida para la investigación.


Resumen: BenchPress es un sistema con importante valor práctico que, mediante diseño innovador de colaboración humano-máquina, resuelve efectivamente los problemas de eficiencia y calidad en la creación de benchmarks de texto a SQL a nivel empresarial. Este trabajo no solo innova tecnológicamente, sino que más importantemente proporciona herramientas prácticas para el despliegue seguro de aplicaciones de IA empresarial, poseyendo un fuerte valor académico y comercial.