2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

Replanteamiento de Flujos de Trabajo Agénticos: Evaluación de Estrategias de Escalado en Tiempo de Inferencia en Tareas Text2SQL

Información Básica

ID del Artículo: 2510.10885
Título: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
Autores: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
Clasificación: cs.CL (Lingüística Computacional), cs.DB (Bases de Datos)
Conferencia de Publicación: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
Enlace del Artículo: https://arxiv.org/abs/2510.10885

Resumen

Los modelos de lenguaje de gran escala (LLMs) están siendo cada vez más utilizados para potenciar sistemas Text-to-SQL, permitiendo a usuarios no especializados consultar bases de datos industriales utilizando lenguaje natural. Aunque las estrategias de escalado en tiempo de prueba muestran promesa en soluciones basadas en LLMs, su efectividad en aplicaciones prácticas, particularmente en modelos de razonamiento más recientes, sigue siendo incierta. Este estudio realiza un análisis comparativo de seis estrategias de escalado en tiempo de prueba ligeras y orientadas a la industria, así como cuatro LLMs (incluyendo dos modelos de razonamiento), evaluando su desempeño en el referente BIRD Mini-Dev. Además de métricas de precisión estándar, se reportan latencia de inferencia y consumo de tokens, proporcionando perspectivas relevantes para el despliegue de sistemas prácticos. El estudio revela que la indicación de Divide-and-Conquer y las demostraciones de pocos ejemplos mejoran consistentemente el desempeño en LLMs generales y orientados al razonamiento. Sin embargo, la introducción de pasos de flujo de trabajo adicionales produce resultados mixtos, siendo la selección del modelo base un factor crítico.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿Cuál es la efectividad de las estrategias de escalado en tiempo de prueba (test-time scaling strategies) en diferentes tipos de LLMs para tareas Text2SQL, particularmente considerando los compromisos de desempeño en escenarios de aplicación industrial práctica?

Importancia de la Investigación

Valor Práctico: Los sistemas Text2SQL permiten que usuarios no técnicos accedan a bases de datos empresariales mediante lenguaje natural, poseyendo importante valor comercial
Desafío Técnico: Con la aparición de modelos de razonamiento como OpenAI o-series y Gemini 2.5, es necesario reevaluar la necesidad de métodos tradicionales de ingeniería de flujos de trabajo
Demanda Industrial: El despliegue práctico requiere considerar el equilibrio entre precisión, latencia y complejidad

Limitaciones de Métodos Existentes

La investigación existente se enfoca principalmente en flujos de trabajo de agentes complejos, que pueden ser excesivamente complicados para aplicaciones industriales
Falta de evaluación sistemática de modelos de razonamiento en tareas Text2SQL
Pocos estudios consideran simultáneamente precisión y métricas de desempeño del sistema (como latencia y consumo de tokens)

Motivación de la Investigación

Los autores plantean tres preguntas clave:

Considerando el avance de los modelos de razonamiento, ¿sigue siendo valioso el extenso trabajo de indicación e ingeniería de flujos de trabajo?
¿Cuáles estrategias de escalado en tiempo de prueba equilibran mejor precisión y latencia?
¿Cómo optimizar flujos de trabajo para aplicaciones industriales?

Contribuciones Principales

Análisis Comparativo Sistemático: Evaluación exhaustiva de seis flujos de trabajo agénticos ligeros orientados a la industria, abarcando cuatro LLMs (incluyendo modelos generales y de razonamiento)
Evaluación Multidimensional: Además de métricas de precisión, proporciona análisis detallado de latencia de inferencia y consumo de tokens
Perspectivas Prácticas: Descubre que la indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los modelos
Orientación para Despliegue Industrial: Proporciona guía accionable sobre compromisos entre precisión, eficiencia y complejidad para despliegue práctico de sistemas Text2SQL

Explicación Detallada de Métodos

Definición de Tarea

La tarea Text2SQL tiene como objetivo traducir preguntas en lenguaje natural a consultas SQL ejecutables. La entrada consiste en una pregunta en lenguaje natural y un esquema de base de datos, mientras que la salida es la consulta SQL correspondiente.

Seis Flujos de Trabajo Agénticos

1. CoT + ReAct (Línea Base)

Proceso: SW > EX <> SR
Descripción: Adopta el ciclo "pensar-actuar-observar" del agente ReAct, optimizando iterativamente consultas cuando se encuentran errores de ejecución o datos vacíos

2. Divide-and-Conquer (Con/Sin Pocos Ejemplos)

Proceso: SW > EX <> SR
Punto de Innovación: Descompone problemas complejos en una serie de subproblemas más pequeños, resolviendo secuencialmente y combinando la respuesta final
Variantes: Evalúa por separado el efecto con y sin demostraciones de pocos ejemplos

3. Escalado Paralelo

Proceso: (SW > EX <> SR) ∥ 5 > MV / CS
Mecanismo: Genera múltiples respuestas candidatas, seleccionando la respuesta final mediante votación mayoritaria; si no hay mayoría, utiliza un agente selector de candidatos

4. Verificación de Resultados

Proceso: SW > EX <> SR <> FP
Objetivo: Maneja consultas SQL sintácticamente correctas pero semánticamente erróneas, decidiendo mediante un proveedor de retroalimentación si se requiere optimización

5. Razonamiento Estructurado Basado en Recuperación

Proceso: KE > (ER ∥ CR) > SW > EX <> SR
Adaptado de: Método CHESS
Pasos:
- Extractor de palabras clave identifica palabras clave en la pregunta
- Ejecuta en paralelo recuperador de entidades (basado en índice LSH) y recuperador de columnas (basado en similitud semántica)
- Transmite información recuperada al escritor de SQL

Puntos de Innovación Técnica

Diseño Ligero: Se enfoca en flujos de trabajo listos para la industria, en lugar de métodos complejos de la literatura
Comparación Multimodelo: Evalúa simultáneamente modelos generales (GPT-4o, serie Gemini) y modelos de razonamiento (o4-mini)
Marco de Evaluación Integral: Combina precisión, latencia y consumo de recursos en un marco de evaluación multidimensional

Configuración Experimental

Conjunto de Datos

Nombre: Referente BIRD Mini-Dev
Escala: 500 pares pregunta-SQL
Fuente: Subconjunto derivado de la colección BIRD Dev original
Características: Incluye consultas complejas entre tablas y escenarios de bases de datos del mundo real

Métricas de Evaluación

Métricas de Precisión

Puntuación F1 Suave: Evalúa la corrección de consultas SQL midiendo la similitud entre tablas generadas por consultas predichas y reales
Precisión de Ejecución (EX): Porcentaje de consultas SQL que generan resultados exactamente idénticos a los reales
Puntuación de Eficiencia Válida Basada en Recompensa (R-VES): Cuantifica la eficiencia del modelo en generar consultas SQL correctas y optimizadas

Métricas de Desempeño del Sistema

Tasa de Error de Ejecución: Porcentaje de tareas que encuentran errores de ejecución sintáctica en el flujo de trabajo
Tiempo de Inferencia: Duración desde la recepción de la pregunta del usuario hasta la generación de la consulta SQL (en segundos)
Número de Llamadas LLM: Número promedio de llamadas LLM utilizadas en el flujo de trabajo
Conteo de Tokens: Número promedio de tokens de indicación y finalización necesarios para generar una consulta SQL individual (en miles)

Métodos de Comparación

Cuatro LLMs:

Gemini 1.5 Flash (modelo general)
Gemini 2.5 Flash (modelo general)
GPT-4o (modelo general)
o4-mini (modelo de razonamiento)

Detalles de Implementación

Todos los flujos de trabajo incluyen iteración de corrección sintáctica
La medición de latencia se ve afectada por múltiples factores (región del modelo, latencia de red, recursos del servidor, etc.)
Se utiliza BIRD Mini-Dev para evaluación considerando eficiencia

Resultados Experimentales

Resultados Principales

RQ1: Desempeño de Modelos de Razonamiento vs Modelos Generales

Hallazgo Clave: El flujo de trabajo DC 3-shot+ReAct mejora consistentemente la puntuación Soft-F1 en todos los modelos
GPT-4o: Mejora de 61.1 a 64.4
o4-mini: Mejora de 56.3 a 65.5
Conclusión: Incluso modelos de razonamiento especializados se benefician de orientación programática explícita

RQ2: Métodos de Escalado Más Efectivos

Combinación Óptima: Divide-and-Conquer + demostraciones de pocos ejemplos + ReAct produce mejoras consistentes en todos los modelos
Método de Verificación: Proporciona mejoras de desempeño confiables en la mayoría de modelos
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
Método Mejorado por Recuperación: Desempeño general deficiente, por debajo de DC 3-shot+ReAct en casi todos los modelos

RQ3: Compromiso entre Precisión y Desempeño del Sistema

Diferencias Significativas en Latencia:
- Modelos Gemini Flash: 5.02-12.03 segundos
- GPT-4o y o4-mini: 15.70-18.43 segundos
Costo de Respuestas Incorrectas: Las respuestas incorrectas se generan 19.58% más lentamente que las correctas
Impacto de Complejidad: Las preguntas más desafiantes requieren más tiempo, consumen más tokens y típicamente tienen tasas de precisión más bajas

Experimentos de Ablación

Mediante análisis de errores se descubre:

Lógica de Consulta Incorrecta es el tipo de fallo más común en todos los métodos y modelos
Los métodos mejorados por recuperación consistentemente exacerban este problema
Los métodos de recuperación también aumentan la proporción de Errores de Vinculación de Esquema

Análisis de Casos

El artículo realiza análisis detallado de errores, clasificando casos fallidos utilizando el modelo o4-mini, descubriendo que los métodos mejorados por recuperación pueden privar al modelo de información crítica en tareas de razonamiento complejo, resultando en degradación del desempeño.

Trabajo Relacionado

Flujos de Trabajo Agénticos Text2SQL

El artículo sistematiza flujos de trabajo agénticos Text2SQL existentes, incluyendo:

Aprendizaje contextual descompuesto de DIN-SQL
Marco colaborativo multiagente de MAC-SQL
Síntesis SQL contextual de CHESS
Sistema multiagente de consenso R3

Estrategias de Escalado en Tiempo de Prueba

Abarca múltiples estrategias incluyendo pasos de razonamiento estructurado, ejecución paralela, verificación y agregación de resultados, descomponiendo la generación de consultas en pasos modulares mediante flujos de trabajo secuenciales.

Conclusiones y Discusión

Conclusiones Principales

Importancia del Modelo Base: Los modelos base fuertes son más importantes que la complejidad del flujo de trabajo (el desempeño de línea base de Gemini 2.5 Flash supera los flujos de trabajo más complejos de GPT-4o y Gemini 1.5 Flash)
Universalidad de DC+Pocos Ejemplos: La indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los tipos de modelos
Rendimientos Decrecientes de Complejidad: Aumentar la complejidad del flujo de trabajo no siempre produce mejores resultados

Limitaciones

Alcance de Evaluación Limitado: Se enfoca solo en flujos de trabajo ligeros, posiblemente sin representar el límite de desempeño de diseños más complejos
Conjunto de Datos Único: Evaluación solo en BIRD Mini-Dev, carece de validación más amplia
Relatividad de Métricas de Latencia: La latencia y consumo de tokens reportados se ven afectados por factores externos, deben considerarse como indicativos en lugar de valores absolutos

Direcciones Futuras

Examinar diseños de flujos de trabajo más complejos
Validar hallazgos en conjuntos de datos más amplios
Explorar aplicabilidad de estas estrategias en otras tareas
Optimización de diseño de productos para gestionar expectativas de usuarios

Evaluación Profunda

Fortalezas

Orientación Práctica: Se enfoca en soluciones listas para la industria, considerando restricciones de despliegue real
Evaluación Multidimensional: No solo considera precisión, sino también latencia y consumo de recursos, proporcionando perspectiva integral para aplicaciones prácticas
Comparación Sistemática: Evalúa simultáneamente modelos generales y de razonamiento, proporcionando perspectivas comparativas valiosas
Análisis Detallado de Errores: Comprende profundamente patrones de fallo de diferentes métodos mediante clasificación de errores

Deficiencias

Limitación de Tamaño de Muestra: Utiliza solo 500 muestras de BIRD Mini-Dev, posiblemente afectando la generalización de conclusiones
Cobertura Incompleta de Modelos: Carece de comparación con otros modelos principales (como Claude, serie LLaMA)
Diseño de Flujo de Trabajo Conservador: El enfoque en métodos ligeros puede perder el potencial de técnicas más avanzadas
Falta de Investigación de Usuarios: Sin evaluación de experiencia de usuarios reales

Impacto

Contribución Académica: Proporciona análisis comparativo sistemático de estrategias de escalado en tiempo de prueba para el campo Text2SQL
Valor Industrial: Proporciona principios de orientación práctica para despliegue empresarial de sistemas Text2SQL
Inspiración Metodológica: El marco de evaluación multidimensional puede aplicarse al despliegue industrial de otras tareas de PNL

Escenarios Aplicables

Consultas de Bases de Datos Empresariales: Adecuado para entornos empresariales que requieren despliegue rápido, equilibrando precisión y eficiencia
Desarrollo de Prototipos: Proporciona patrones de flujo de trabajo verificados para desarrollo rápido de prototipos de sistemas Text2SQL
Orientación de Selección de Modelos: Ayuda a desarrolladores a seleccionar modelos base y estrategias de flujo de trabajo apropiados según necesidades específicas

Referencias

El artículo cita trabajos importantes en el campo Text2SQL, incluyendo:

Conjunto de referencia BIRD (Li et al., 2023)
Método descompuesto DIN-SQL (Pourreza & Rafiei, 2023)
Síntesis contextual CHESS (Talaei et al., 2024)
Marco de razonamiento ReAct (Yao et al., 2023)
Indicación Chain-of-Thought (Wei et al., 2022)

Esta investigación proporciona orientación empírica valiosa para el despliegue práctico de sistemas Text2SQL, particularmente en el equilibrio entre precisión, eficiencia y complejidad. Sus hallazgos son significativos para promover la transformación de la tecnología Text2SQL de prototipos de investigación a aplicaciones industriales.