Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- ID del Artículo: 2510.10885
- Título: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- Autores: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- Clasificación: cs.CL (Lingüística Computacional), cs.DB (Bases de Datos)
- Conferencia de Publicación: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.10885
Los modelos de lenguaje de gran escala (LLMs) están siendo cada vez más utilizados para potenciar sistemas Text-to-SQL, permitiendo a usuarios no especializados consultar bases de datos industriales utilizando lenguaje natural. Aunque las estrategias de escalado en tiempo de prueba muestran promesa en soluciones basadas en LLMs, su efectividad en aplicaciones prácticas, particularmente en modelos de razonamiento más recientes, sigue siendo incierta. Este estudio realiza un análisis comparativo de seis estrategias de escalado en tiempo de prueba ligeras y orientadas a la industria, así como cuatro LLMs (incluyendo dos modelos de razonamiento), evaluando su desempeño en el referente BIRD Mini-Dev. Además de métricas de precisión estándar, se reportan latencia de inferencia y consumo de tokens, proporcionando perspectivas relevantes para el despliegue de sistemas prácticos. El estudio revela que la indicación de Divide-and-Conquer y las demostraciones de pocos ejemplos mejoran consistentemente el desempeño en LLMs generales y orientados al razonamiento. Sin embargo, la introducción de pasos de flujo de trabajo adicionales produce resultados mixtos, siendo la selección del modelo base un factor crítico.
El problema central que aborda esta investigación es: ¿Cuál es la efectividad de las estrategias de escalado en tiempo de prueba (test-time scaling strategies) en diferentes tipos de LLMs para tareas Text2SQL, particularmente considerando los compromisos de desempeño en escenarios de aplicación industrial práctica?
- Valor Práctico: Los sistemas Text2SQL permiten que usuarios no técnicos accedan a bases de datos empresariales mediante lenguaje natural, poseyendo importante valor comercial
- Desafío Técnico: Con la aparición de modelos de razonamiento como OpenAI o-series y Gemini 2.5, es necesario reevaluar la necesidad de métodos tradicionales de ingeniería de flujos de trabajo
- Demanda Industrial: El despliegue práctico requiere considerar el equilibrio entre precisión, latencia y complejidad
- La investigación existente se enfoca principalmente en flujos de trabajo de agentes complejos, que pueden ser excesivamente complicados para aplicaciones industriales
- Falta de evaluación sistemática de modelos de razonamiento en tareas Text2SQL
- Pocos estudios consideran simultáneamente precisión y métricas de desempeño del sistema (como latencia y consumo de tokens)
Los autores plantean tres preguntas clave:
- Considerando el avance de los modelos de razonamiento, ¿sigue siendo valioso el extenso trabajo de indicación e ingeniería de flujos de trabajo?
- ¿Cuáles estrategias de escalado en tiempo de prueba equilibran mejor precisión y latencia?
- ¿Cómo optimizar flujos de trabajo para aplicaciones industriales?
- Análisis Comparativo Sistemático: Evaluación exhaustiva de seis flujos de trabajo agénticos ligeros orientados a la industria, abarcando cuatro LLMs (incluyendo modelos generales y de razonamiento)
- Evaluación Multidimensional: Además de métricas de precisión, proporciona análisis detallado de latencia de inferencia y consumo de tokens
- Perspectivas Prácticas: Descubre que la indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los modelos
- Orientación para Despliegue Industrial: Proporciona guía accionable sobre compromisos entre precisión, eficiencia y complejidad para despliegue práctico de sistemas Text2SQL
La tarea Text2SQL tiene como objetivo traducir preguntas en lenguaje natural a consultas SQL ejecutables. La entrada consiste en una pregunta en lenguaje natural y un esquema de base de datos, mientras que la salida es la consulta SQL correspondiente.
- Proceso: SW > EX <> SR
- Descripción: Adopta el ciclo "pensar-actuar-observar" del agente ReAct, optimizando iterativamente consultas cuando se encuentran errores de ejecución o datos vacíos
- Proceso: SW > EX <> SR
- Punto de Innovación: Descompone problemas complejos en una serie de subproblemas más pequeños, resolviendo secuencialmente y combinando la respuesta final
- Variantes: Evalúa por separado el efecto con y sin demostraciones de pocos ejemplos
- Proceso: (SW > EX <> SR) ∥ 5 > MV / CS
- Mecanismo: Genera múltiples respuestas candidatas, seleccionando la respuesta final mediante votación mayoritaria; si no hay mayoría, utiliza un agente selector de candidatos
- Proceso: SW > EX <> SR <> FP
- Objetivo: Maneja consultas SQL sintácticamente correctas pero semánticamente erróneas, decidiendo mediante un proveedor de retroalimentación si se requiere optimización
- Proceso: KE > (ER ∥ CR) > SW > EX <> SR
- Adaptado de: Método CHESS
- Pasos:
- Extractor de palabras clave identifica palabras clave en la pregunta
- Ejecuta en paralelo recuperador de entidades (basado en índice LSH) y recuperador de columnas (basado en similitud semántica)
- Transmite información recuperada al escritor de SQL
- Diseño Ligero: Se enfoca en flujos de trabajo listos para la industria, en lugar de métodos complejos de la literatura
- Comparación Multimodelo: Evalúa simultáneamente modelos generales (GPT-4o, serie Gemini) y modelos de razonamiento (o4-mini)
- Marco de Evaluación Integral: Combina precisión, latencia y consumo de recursos en un marco de evaluación multidimensional
- Nombre: Referente BIRD Mini-Dev
- Escala: 500 pares pregunta-SQL
- Fuente: Subconjunto derivado de la colección BIRD Dev original
- Características: Incluye consultas complejas entre tablas y escenarios de bases de datos del mundo real
- Puntuación F1 Suave: Evalúa la corrección de consultas SQL midiendo la similitud entre tablas generadas por consultas predichas y reales
- Precisión de Ejecución (EX): Porcentaje de consultas SQL que generan resultados exactamente idénticos a los reales
- Puntuación de Eficiencia Válida Basada en Recompensa (R-VES): Cuantifica la eficiencia del modelo en generar consultas SQL correctas y optimizadas
- Tasa de Error de Ejecución: Porcentaje de tareas que encuentran errores de ejecución sintáctica en el flujo de trabajo
- Tiempo de Inferencia: Duración desde la recepción de la pregunta del usuario hasta la generación de la consulta SQL (en segundos)
- Número de Llamadas LLM: Número promedio de llamadas LLM utilizadas en el flujo de trabajo
- Conteo de Tokens: Número promedio de tokens de indicación y finalización necesarios para generar una consulta SQL individual (en miles)
Cuatro LLMs:
- Gemini 1.5 Flash (modelo general)
- Gemini 2.5 Flash (modelo general)
- GPT-4o (modelo general)
- o4-mini (modelo de razonamiento)
- Todos los flujos de trabajo incluyen iteración de corrección sintáctica
- La medición de latencia se ve afectada por múltiples factores (región del modelo, latencia de red, recursos del servidor, etc.)
- Se utiliza BIRD Mini-Dev para evaluación considerando eficiencia
- Hallazgo Clave: El flujo de trabajo DC 3-shot+ReAct mejora consistentemente la puntuación Soft-F1 en todos los modelos
- GPT-4o: Mejora de 61.1 a 64.4
- o4-mini: Mejora de 56.3 a 65.5
- Conclusión: Incluso modelos de razonamiento especializados se benefician de orientación programática explícita
- Combinación Óptima: Divide-and-Conquer + demostraciones de pocos ejemplos + ReAct produce mejoras consistentes en todos los modelos
- Método de Verificación: Proporciona mejoras de desempeño confiables en la mayoría de modelos
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
- Método Mejorado por Recuperación: Desempeño general deficiente, por debajo de DC 3-shot+ReAct en casi todos los modelos
- Diferencias Significativas en Latencia:
- Modelos Gemini Flash: 5.02-12.03 segundos
- GPT-4o y o4-mini: 15.70-18.43 segundos
- Costo de Respuestas Incorrectas: Las respuestas incorrectas se generan 19.58% más lentamente que las correctas
- Impacto de Complejidad: Las preguntas más desafiantes requieren más tiempo, consumen más tokens y típicamente tienen tasas de precisión más bajas
Mediante análisis de errores se descubre:
- Lógica de Consulta Incorrecta es el tipo de fallo más común en todos los métodos y modelos
- Los métodos mejorados por recuperación consistentemente exacerban este problema
- Los métodos de recuperación también aumentan la proporción de Errores de Vinculación de Esquema
El artículo realiza análisis detallado de errores, clasificando casos fallidos utilizando el modelo o4-mini, descubriendo que los métodos mejorados por recuperación pueden privar al modelo de información crítica en tareas de razonamiento complejo, resultando en degradación del desempeño.
El artículo sistematiza flujos de trabajo agénticos Text2SQL existentes, incluyendo:
- Aprendizaje contextual descompuesto de DIN-SQL
- Marco colaborativo multiagente de MAC-SQL
- Síntesis SQL contextual de CHESS
- Sistema multiagente de consenso R3
Abarca múltiples estrategias incluyendo pasos de razonamiento estructurado, ejecución paralela, verificación y agregación de resultados, descomponiendo la generación de consultas en pasos modulares mediante flujos de trabajo secuenciales.
- Importancia del Modelo Base: Los modelos base fuertes son más importantes que la complejidad del flujo de trabajo (el desempeño de línea base de Gemini 2.5 Flash supera los flujos de trabajo más complejos de GPT-4o y Gemini 1.5 Flash)
- Universalidad de DC+Pocos Ejemplos: La indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los tipos de modelos
- Rendimientos Decrecientes de Complejidad: Aumentar la complejidad del flujo de trabajo no siempre produce mejores resultados
- Alcance de Evaluación Limitado: Se enfoca solo en flujos de trabajo ligeros, posiblemente sin representar el límite de desempeño de diseños más complejos
- Conjunto de Datos Único: Evaluación solo en BIRD Mini-Dev, carece de validación más amplia
- Relatividad de Métricas de Latencia: La latencia y consumo de tokens reportados se ven afectados por factores externos, deben considerarse como indicativos en lugar de valores absolutos
- Examinar diseños de flujos de trabajo más complejos
- Validar hallazgos en conjuntos de datos más amplios
- Explorar aplicabilidad de estas estrategias en otras tareas
- Optimización de diseño de productos para gestionar expectativas de usuarios
- Orientación Práctica: Se enfoca en soluciones listas para la industria, considerando restricciones de despliegue real
- Evaluación Multidimensional: No solo considera precisión, sino también latencia y consumo de recursos, proporcionando perspectiva integral para aplicaciones prácticas
- Comparación Sistemática: Evalúa simultáneamente modelos generales y de razonamiento, proporcionando perspectivas comparativas valiosas
- Análisis Detallado de Errores: Comprende profundamente patrones de fallo de diferentes métodos mediante clasificación de errores
- Limitación de Tamaño de Muestra: Utiliza solo 500 muestras de BIRD Mini-Dev, posiblemente afectando la generalización de conclusiones
- Cobertura Incompleta de Modelos: Carece de comparación con otros modelos principales (como Claude, serie LLaMA)
- Diseño de Flujo de Trabajo Conservador: El enfoque en métodos ligeros puede perder el potencial de técnicas más avanzadas
- Falta de Investigación de Usuarios: Sin evaluación de experiencia de usuarios reales
- Contribución Académica: Proporciona análisis comparativo sistemático de estrategias de escalado en tiempo de prueba para el campo Text2SQL
- Valor Industrial: Proporciona principios de orientación práctica para despliegue empresarial de sistemas Text2SQL
- Inspiración Metodológica: El marco de evaluación multidimensional puede aplicarse al despliegue industrial de otras tareas de PNL
- Consultas de Bases de Datos Empresariales: Adecuado para entornos empresariales que requieren despliegue rápido, equilibrando precisión y eficiencia
- Desarrollo de Prototipos: Proporciona patrones de flujo de trabajo verificados para desarrollo rápido de prototipos de sistemas Text2SQL
- Orientación de Selección de Modelos: Ayuda a desarrolladores a seleccionar modelos base y estrategias de flujo de trabajo apropiados según necesidades específicas
El artículo cita trabajos importantes en el campo Text2SQL, incluyendo:
- Conjunto de referencia BIRD (Li et al., 2023)
- Método descompuesto DIN-SQL (Pourreza & Rafiei, 2023)
- Síntesis contextual CHESS (Talaei et al., 2024)
- Marco de razonamiento ReAct (Yao et al., 2023)
- Indicación Chain-of-Thought (Wei et al., 2022)
Esta investigación proporciona orientación empírica valiosa para el despliegue práctico de sistemas Text2SQL, particularmente en el equilibrio entre precisión, eficiencia y complejidad. Sus hallazgos son significativos para promover la transformación de la tecnología Text2SQL de prototipos de investigación a aplicaciones industriales.