2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.
Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
academic

Replanteamiento de Flujos de Trabajo Agénticos: Evaluación de Estrategias de Escalado en Tiempo de Inferencia en Tareas Text2SQL

Información Básica

  • ID del Artículo: 2510.10885
  • Título: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
  • Autores: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
  • Clasificación: cs.CL (Lingüística Computacional), cs.DB (Bases de Datos)
  • Conferencia de Publicación: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.10885

Resumen

Los modelos de lenguaje de gran escala (LLMs) están siendo cada vez más utilizados para potenciar sistemas Text-to-SQL, permitiendo a usuarios no especializados consultar bases de datos industriales utilizando lenguaje natural. Aunque las estrategias de escalado en tiempo de prueba muestran promesa en soluciones basadas en LLMs, su efectividad en aplicaciones prácticas, particularmente en modelos de razonamiento más recientes, sigue siendo incierta. Este estudio realiza un análisis comparativo de seis estrategias de escalado en tiempo de prueba ligeras y orientadas a la industria, así como cuatro LLMs (incluyendo dos modelos de razonamiento), evaluando su desempeño en el referente BIRD Mini-Dev. Además de métricas de precisión estándar, se reportan latencia de inferencia y consumo de tokens, proporcionando perspectivas relevantes para el despliegue de sistemas prácticos. El estudio revela que la indicación de Divide-and-Conquer y las demostraciones de pocos ejemplos mejoran consistentemente el desempeño en LLMs generales y orientados al razonamiento. Sin embargo, la introducción de pasos de flujo de trabajo adicionales produce resultados mixtos, siendo la selección del modelo base un factor crítico.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿Cuál es la efectividad de las estrategias de escalado en tiempo de prueba (test-time scaling strategies) en diferentes tipos de LLMs para tareas Text2SQL, particularmente considerando los compromisos de desempeño en escenarios de aplicación industrial práctica?

Importancia de la Investigación

  1. Valor Práctico: Los sistemas Text2SQL permiten que usuarios no técnicos accedan a bases de datos empresariales mediante lenguaje natural, poseyendo importante valor comercial
  2. Desafío Técnico: Con la aparición de modelos de razonamiento como OpenAI o-series y Gemini 2.5, es necesario reevaluar la necesidad de métodos tradicionales de ingeniería de flujos de trabajo
  3. Demanda Industrial: El despliegue práctico requiere considerar el equilibrio entre precisión, latencia y complejidad

Limitaciones de Métodos Existentes

  1. La investigación existente se enfoca principalmente en flujos de trabajo de agentes complejos, que pueden ser excesivamente complicados para aplicaciones industriales
  2. Falta de evaluación sistemática de modelos de razonamiento en tareas Text2SQL
  3. Pocos estudios consideran simultáneamente precisión y métricas de desempeño del sistema (como latencia y consumo de tokens)

Motivación de la Investigación

Los autores plantean tres preguntas clave:

  • Considerando el avance de los modelos de razonamiento, ¿sigue siendo valioso el extenso trabajo de indicación e ingeniería de flujos de trabajo?
  • ¿Cuáles estrategias de escalado en tiempo de prueba equilibran mejor precisión y latencia?
  • ¿Cómo optimizar flujos de trabajo para aplicaciones industriales?

Contribuciones Principales

  1. Análisis Comparativo Sistemático: Evaluación exhaustiva de seis flujos de trabajo agénticos ligeros orientados a la industria, abarcando cuatro LLMs (incluyendo modelos generales y de razonamiento)
  2. Evaluación Multidimensional: Además de métricas de precisión, proporciona análisis detallado de latencia de inferencia y consumo de tokens
  3. Perspectivas Prácticas: Descubre que la indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los modelos
  4. Orientación para Despliegue Industrial: Proporciona guía accionable sobre compromisos entre precisión, eficiencia y complejidad para despliegue práctico de sistemas Text2SQL

Explicación Detallada de Métodos

Definición de Tarea

La tarea Text2SQL tiene como objetivo traducir preguntas en lenguaje natural a consultas SQL ejecutables. La entrada consiste en una pregunta en lenguaje natural y un esquema de base de datos, mientras que la salida es la consulta SQL correspondiente.

Seis Flujos de Trabajo Agénticos

1. CoT + ReAct (Línea Base)

  • Proceso: SW > EX <> SR
  • Descripción: Adopta el ciclo "pensar-actuar-observar" del agente ReAct, optimizando iterativamente consultas cuando se encuentran errores de ejecución o datos vacíos

2. Divide-and-Conquer (Con/Sin Pocos Ejemplos)

  • Proceso: SW > EX <> SR
  • Punto de Innovación: Descompone problemas complejos en una serie de subproblemas más pequeños, resolviendo secuencialmente y combinando la respuesta final
  • Variantes: Evalúa por separado el efecto con y sin demostraciones de pocos ejemplos

3. Escalado Paralelo

  • Proceso: (SW > EX <> SR) ∥ 5 > MV / CS
  • Mecanismo: Genera múltiples respuestas candidatas, seleccionando la respuesta final mediante votación mayoritaria; si no hay mayoría, utiliza un agente selector de candidatos

4. Verificación de Resultados

  • Proceso: SW > EX <> SR <> FP
  • Objetivo: Maneja consultas SQL sintácticamente correctas pero semánticamente erróneas, decidiendo mediante un proveedor de retroalimentación si se requiere optimización

5. Razonamiento Estructurado Basado en Recuperación

  • Proceso: KE > (ER ∥ CR) > SW > EX <> SR
  • Adaptado de: Método CHESS
  • Pasos:
    • Extractor de palabras clave identifica palabras clave en la pregunta
    • Ejecuta en paralelo recuperador de entidades (basado en índice LSH) y recuperador de columnas (basado en similitud semántica)
    • Transmite información recuperada al escritor de SQL

Puntos de Innovación Técnica

  1. Diseño Ligero: Se enfoca en flujos de trabajo listos para la industria, en lugar de métodos complejos de la literatura
  2. Comparación Multimodelo: Evalúa simultáneamente modelos generales (GPT-4o, serie Gemini) y modelos de razonamiento (o4-mini)
  3. Marco de Evaluación Integral: Combina precisión, latencia y consumo de recursos en un marco de evaluación multidimensional

Configuración Experimental

Conjunto de Datos

  • Nombre: Referente BIRD Mini-Dev
  • Escala: 500 pares pregunta-SQL
  • Fuente: Subconjunto derivado de la colección BIRD Dev original
  • Características: Incluye consultas complejas entre tablas y escenarios de bases de datos del mundo real

Métricas de Evaluación

Métricas de Precisión

  1. Puntuación F1 Suave: Evalúa la corrección de consultas SQL midiendo la similitud entre tablas generadas por consultas predichas y reales
  2. Precisión de Ejecución (EX): Porcentaje de consultas SQL que generan resultados exactamente idénticos a los reales
  3. Puntuación de Eficiencia Válida Basada en Recompensa (R-VES): Cuantifica la eficiencia del modelo en generar consultas SQL correctas y optimizadas

Métricas de Desempeño del Sistema

  1. Tasa de Error de Ejecución: Porcentaje de tareas que encuentran errores de ejecución sintáctica en el flujo de trabajo
  2. Tiempo de Inferencia: Duración desde la recepción de la pregunta del usuario hasta la generación de la consulta SQL (en segundos)
  3. Número de Llamadas LLM: Número promedio de llamadas LLM utilizadas en el flujo de trabajo
  4. Conteo de Tokens: Número promedio de tokens de indicación y finalización necesarios para generar una consulta SQL individual (en miles)

Métodos de Comparación

Cuatro LLMs:

  • Gemini 1.5 Flash (modelo general)
  • Gemini 2.5 Flash (modelo general)
  • GPT-4o (modelo general)
  • o4-mini (modelo de razonamiento)

Detalles de Implementación

  • Todos los flujos de trabajo incluyen iteración de corrección sintáctica
  • La medición de latencia se ve afectada por múltiples factores (región del modelo, latencia de red, recursos del servidor, etc.)
  • Se utiliza BIRD Mini-Dev para evaluación considerando eficiencia

Resultados Experimentales

Resultados Principales

RQ1: Desempeño de Modelos de Razonamiento vs Modelos Generales

  • Hallazgo Clave: El flujo de trabajo DC 3-shot+ReAct mejora consistentemente la puntuación Soft-F1 en todos los modelos
  • GPT-4o: Mejora de 61.1 a 64.4
  • o4-mini: Mejora de 56.3 a 65.5
  • Conclusión: Incluso modelos de razonamiento especializados se benefician de orientación programática explícita

RQ2: Métodos de Escalado Más Efectivos

  1. Combinación Óptima: Divide-and-Conquer + demostraciones de pocos ejemplos + ReAct produce mejoras consistentes en todos los modelos
  2. Método de Verificación: Proporciona mejoras de desempeño confiables en la mayoría de modelos
    • Gemini 1.5 Flash: 62.58 → 63.63
    • Gemini 2.5 Flash: 68.12 → 68.44
    • GPT-4o: 64.44 → 64.95
  3. Método Mejorado por Recuperación: Desempeño general deficiente, por debajo de DC 3-shot+ReAct en casi todos los modelos

RQ3: Compromiso entre Precisión y Desempeño del Sistema

  1. Diferencias Significativas en Latencia:
    • Modelos Gemini Flash: 5.02-12.03 segundos
    • GPT-4o y o4-mini: 15.70-18.43 segundos
  2. Costo de Respuestas Incorrectas: Las respuestas incorrectas se generan 19.58% más lentamente que las correctas
  3. Impacto de Complejidad: Las preguntas más desafiantes requieren más tiempo, consumen más tokens y típicamente tienen tasas de precisión más bajas

Experimentos de Ablación

Mediante análisis de errores se descubre:

  • Lógica de Consulta Incorrecta es el tipo de fallo más común en todos los métodos y modelos
  • Los métodos mejorados por recuperación consistentemente exacerban este problema
  • Los métodos de recuperación también aumentan la proporción de Errores de Vinculación de Esquema

Análisis de Casos

El artículo realiza análisis detallado de errores, clasificando casos fallidos utilizando el modelo o4-mini, descubriendo que los métodos mejorados por recuperación pueden privar al modelo de información crítica en tareas de razonamiento complejo, resultando en degradación del desempeño.

Trabajo Relacionado

Flujos de Trabajo Agénticos Text2SQL

El artículo sistematiza flujos de trabajo agénticos Text2SQL existentes, incluyendo:

  • Aprendizaje contextual descompuesto de DIN-SQL
  • Marco colaborativo multiagente de MAC-SQL
  • Síntesis SQL contextual de CHESS
  • Sistema multiagente de consenso R3

Estrategias de Escalado en Tiempo de Prueba

Abarca múltiples estrategias incluyendo pasos de razonamiento estructurado, ejecución paralela, verificación y agregación de resultados, descomponiendo la generación de consultas en pasos modulares mediante flujos de trabajo secuenciales.

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia del Modelo Base: Los modelos base fuertes son más importantes que la complejidad del flujo de trabajo (el desempeño de línea base de Gemini 2.5 Flash supera los flujos de trabajo más complejos de GPT-4o y Gemini 1.5 Flash)
  2. Universalidad de DC+Pocos Ejemplos: La indicación Divide-and-Conquer y las demostraciones de pocos ejemplos producen mejoras significativas en todos los tipos de modelos
  3. Rendimientos Decrecientes de Complejidad: Aumentar la complejidad del flujo de trabajo no siempre produce mejores resultados

Limitaciones

  1. Alcance de Evaluación Limitado: Se enfoca solo en flujos de trabajo ligeros, posiblemente sin representar el límite de desempeño de diseños más complejos
  2. Conjunto de Datos Único: Evaluación solo en BIRD Mini-Dev, carece de validación más amplia
  3. Relatividad de Métricas de Latencia: La latencia y consumo de tokens reportados se ven afectados por factores externos, deben considerarse como indicativos en lugar de valores absolutos

Direcciones Futuras

  1. Examinar diseños de flujos de trabajo más complejos
  2. Validar hallazgos en conjuntos de datos más amplios
  3. Explorar aplicabilidad de estas estrategias en otras tareas
  4. Optimización de diseño de productos para gestionar expectativas de usuarios

Evaluación Profunda

Fortalezas

  1. Orientación Práctica: Se enfoca en soluciones listas para la industria, considerando restricciones de despliegue real
  2. Evaluación Multidimensional: No solo considera precisión, sino también latencia y consumo de recursos, proporcionando perspectiva integral para aplicaciones prácticas
  3. Comparación Sistemática: Evalúa simultáneamente modelos generales y de razonamiento, proporcionando perspectivas comparativas valiosas
  4. Análisis Detallado de Errores: Comprende profundamente patrones de fallo de diferentes métodos mediante clasificación de errores

Deficiencias

  1. Limitación de Tamaño de Muestra: Utiliza solo 500 muestras de BIRD Mini-Dev, posiblemente afectando la generalización de conclusiones
  2. Cobertura Incompleta de Modelos: Carece de comparación con otros modelos principales (como Claude, serie LLaMA)
  3. Diseño de Flujo de Trabajo Conservador: El enfoque en métodos ligeros puede perder el potencial de técnicas más avanzadas
  4. Falta de Investigación de Usuarios: Sin evaluación de experiencia de usuarios reales

Impacto

  1. Contribución Académica: Proporciona análisis comparativo sistemático de estrategias de escalado en tiempo de prueba para el campo Text2SQL
  2. Valor Industrial: Proporciona principios de orientación práctica para despliegue empresarial de sistemas Text2SQL
  3. Inspiración Metodológica: El marco de evaluación multidimensional puede aplicarse al despliegue industrial de otras tareas de PNL

Escenarios Aplicables

  1. Consultas de Bases de Datos Empresariales: Adecuado para entornos empresariales que requieren despliegue rápido, equilibrando precisión y eficiencia
  2. Desarrollo de Prototipos: Proporciona patrones de flujo de trabajo verificados para desarrollo rápido de prototipos de sistemas Text2SQL
  3. Orientación de Selección de Modelos: Ayuda a desarrolladores a seleccionar modelos base y estrategias de flujo de trabajo apropiados según necesidades específicas

Referencias

El artículo cita trabajos importantes en el campo Text2SQL, incluyendo:

  • Conjunto de referencia BIRD (Li et al., 2023)
  • Método descompuesto DIN-SQL (Pourreza & Rafiei, 2023)
  • Síntesis contextual CHESS (Talaei et al., 2024)
  • Marco de razonamiento ReAct (Yao et al., 2023)
  • Indicación Chain-of-Thought (Wei et al., 2022)

Esta investigación proporciona orientación empírica valiosa para el despliegue práctico de sistemas Text2SQL, particularmente en el equilibrio entre precisión, eficiencia y complejidad. Sus hallazgos son significativos para promover la transformación de la tecnología Text2SQL de prototipos de investigación a aplicaciones industriales.