2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

Ripensare i Flussi di Lavoro Agentici: Valutazione delle Strategie di Scaling al Tempo di Inferenza nei Compiti Text2SQL

Informazioni Fondamentali

ID Articolo: 2510.10885
Titolo: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
Autori: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
Classificazione: cs.CL (Linguistica Computazionale), cs.DB (Basi di Dati)
Conferenza di Pubblicazione: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
Link Articolo: https://arxiv.org/abs/2510.10885

Riassunto

I modelli linguistici di grandi dimensioni (LLM) supportano sempre più frequentemente i sistemi Text-to-SQL, consentendo agli utenti non specializzati di interrogare database industriali utilizzando il linguaggio naturale. Sebbene le strategie di scaling al tempo di test mostrino promesse nelle soluzioni basate su LLM, la loro efficacia nelle applicazioni pratiche, in particolare nelle prestazioni dei modelli di ragionamento più recenti, rimane incerta. Questo studio effettua un benchmark di sei strategie di scaling al tempo di test leggere e orientate all'industria e quattro LLM (inclusi due modelli di ragionamento), valutando le loro prestazioni sul benchmark BIRD Mini-Dev. Oltre alle metriche di accuratezza standard, vengono riportate la latenza di inferenza e il consumo di token, fornendo intuizioni rilevanti per il deployment dei sistemi pratici. Lo studio rivela che il prompting divide-and-conquer e le dimostrazioni few-shot migliorano costantemente le prestazioni degli LLM generici e orientati al ragionamento. Tuttavia, l'introduzione di passaggi di flusso di lavoro aggiuntivi produce risultati misti, con la scelta del modello di base che gioca un ruolo critico.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è: come si comportano le strategie di scaling al tempo di test (test-time scaling strategies) nei compiti Text2SQL per diversi tipi di LLM, in particolare considerando i compromessi di prestazione negli scenari di applicazione industriale reale?

Importanza della Ricerca

Valore Pratico: I sistemi Text2SQL consentono agli utenti non tecnici di accedere ai database aziendali attraverso il linguaggio naturale, possedendo un significativo valore commerciale
Sfida Tecnica: Con l'emergere di modelli di ragionamento come OpenAI o-series e Gemini 2.5, è necessario rivalutare la necessità dei metodi tradizionali di ingegneria dei flussi di lavoro
Esigenze Industriali: Il deployment pratico richiede di considerare l'equilibrio tra accuratezza, latenza e complessità

Limitazioni degli Approcci Esistenti

La ricerca esistente si concentra principalmente su complessi flussi di lavoro agentici, che potrebbero essere eccessivamente complessi nelle applicazioni industriali
Manca una valutazione sistematica dei modelli di ragionamento nei compiti Text2SQL
Pochi studi considerano simultaneamente l'accuratezza e le metriche di prestazione del sistema (come latenza e consumo di token)

Motivazione della Ricerca

Gli autori propongono tre domande chiave:

Considerando i progressi nei modelli di ragionamento, il prompting e l'ingegneria dei flussi di lavoro estensivi mantengono ancora valore?
Quali strategie di scaling al tempo di test bilanciano meglio l'accuratezza e la latenza?
Come ottimizzare i flussi di lavoro per le applicazioni industriali?

Contributi Principali

Benchmark Sistematico: Valutazione completa di sei flussi di lavoro agentici leggeri e orientati all'industria, coprendo quattro LLM (inclusi modelli generici e modelli di ragionamento)
Valutazione Multidimensionale: Oltre alle metriche di accuratezza, fornisce analisi dettagliate della latenza di inferenza e del consumo di token
Intuizioni Pratiche: Scopre che le istruzioni divide-and-conquer e le dimostrazioni few-shot producono miglioramenti significativi per tutti i modelli
Guida al Deployment Industriale: Fornisce indicazioni attuabili sul compromesso tra accuratezza, efficienza e complessità per il deployment pratico dei sistemi Text2SQL

Dettagli Metodologici

Definizione del Compito

Il compito Text2SQL mira a tradurre domande in linguaggio naturale in query SQL eseguibili. L'input è una domanda in linguaggio naturale e uno schema di database, mentre l'output è la query SQL corrispondente.

Sei Flussi di Lavoro Agentici

1. CoT + ReAct (Baseline)

Processo: SW > EX <> SR
Descrizione: Adotta il ciclo "think-act-observe" dell'agente ReAct, ottimizzando iterativamente le query quando si incontrano errori di esecuzione o dati vuoti

2. Divide-and-Conquer (con/senza few-shot)

Processo: SW > EX <> SR
Punto di Innovazione: Scompone problemi complessi in una serie di sottoproblemi più piccoli, li risolve sequenzialmente e combina la risposta finale
Varianti: Valuta separatamente l'effetto con e senza dimostrazioni few-shot

3. Parallel Scaling

Processo: (SW > EX <> SR) ∥ 5 > MV / CS
Meccanismo: Genera più risposte candidate, seleziona la risposta finale tramite votazione per maggioranza; in assenza di maggioranza, utilizza un agente selezionatore di candidati

4. Result Verification

Processo: SW > EX <> SR <> FP
Obiettivo: Gestisce query SQL sintatticamente corrette ma semanticamente errate, decidendo tramite un fornitore di feedback se è necessaria l'ottimizzazione

5. Retrieval-based Structured Reasoning

Processo: KE > (ER ∥ CR) > SW > EX <> SR
Adattato da: Metodo CHESS
Passaggi:
- L'estrattore di parole chiave identifica le parole chiave nella domanda
- Esegue in parallelo il recuperatore di entità (basato su indice LSH) e il recuperatore di colonne (basato su similarità semantica)
- Trasmette le informazioni recuperate allo scrittore di SQL

Punti di Innovazione Tecnica

Design Leggero: Si concentra su flussi di lavoro pronti per l'industria, piuttosto che su metodi complessi della letteratura
Confronto Multi-Modello: Valuta simultaneamente modelli generici (GPT-4o, serie Gemini) e modelli di ragionamento (o4-mini)
Framework di Valutazione Completo: Combina accuratezza, latenza e consumo di risorse in un framework di valutazione multidimensionale

Configurazione Sperimentale

Dataset

Nome: Benchmark BIRD Mini-Dev
Scala: 500 coppie domanda-SQL
Fonte: Sottoinsieme derivato dalla raccolta originale BIRD Dev
Caratteristiche: Include query complesse tra tabelle e scenari di database del mondo reale

Metriche di Valutazione

Metriche di Accuratezza

Soft F1-Score: Valuta la correttezza della query SQL misurando la similarità delle tabelle generate dalla query predetta e dalla query vera
Execution Accuracy (EX): Percentuale di query SQL che generano risultati identici a quelli veri
Reward-based Valid Efficiency Score (R-VES): Quantifica l'efficienza del modello nel generare query SQL corrette e ottimizzate

Metriche di Prestazione del Sistema

Execution Error Rate: Percentuale di compiti che incontrano errori di esecuzione sintattica nel flusso di lavoro
Inference Time: Durata dal ricevimento della domanda dell'utente alla generazione della query SQL (in secondi)
Number of LLM Calls: Numero medio di chiamate LLM utilizzate nel flusso di lavoro
Token Count: Numero medio di token di prompt e completion necessari per generare una singola query SQL (in migliaia)

Metodi di Confronto

Quattro LLM:

Gemini 1.5 Flash (modello generico)
Gemini 2.5 Flash (modello generico)
GPT-4o (modello generico)
o4-mini (modello di ragionamento)

Dettagli di Implementazione

Tutti i flussi di lavoro includono iterazione di correzione sintattica
La misurazione della latenza è influenzata da molteplici fattori (regione del modello, latenza di rete, risorse del server, ecc.)
Utilizza BIRD Mini-Dev per la valutazione considerando l'efficienza

Risultati Sperimentali

Risultati Principali

RQ1: Prestazioni dei Modelli di Ragionamento vs Modelli Generici

Scoperta Chiave: Il flusso di lavoro DC 3-shot+ReAct migliora costantemente il punteggio Soft-F1 per tutti i modelli
GPT-4o: Miglioramento da 61.1 baseline a 64.4
o4-mini: Miglioramento da 56.3 baseline a 65.5
Conclusione: Anche i modelli di ragionamento specializzati traggono beneficio da istruzioni programmatiche esplicite

RQ2: Metodi di Scaling Più Efficaci

Combinazione Ottimale: Divide-and-Conquer + dimostrazioni few-shot + ReAct produce miglioramenti coerenti su tutti i modelli
Metodo di Verifica: Fornisce miglioramenti di prestazione affidabili sulla maggior parte dei modelli
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
Metodo Basato su Recupero: Prestazioni generalmente scadenti, inferiori a DC 3-shot+ReAct su quasi tutti i modelli

RQ3: Compromesso tra Accuratezza e Prestazione del Sistema

Differenze di Latenza Significative:
- Modelli Gemini Flash: 5.02-12.03 secondi
- GPT-4o e o4-mini: 15.70-18.43 secondi
Costo delle Risposte Errate: Le risposte errate richiedono il 19.58% di tempo in più rispetto alle risposte corrette
Impatto della Complessità: I problemi più impegnativi richiedono più tempo, consumano più token e spesso hanno tassi di accuratezza inferiori

Esperimenti di Ablazione

L'analisi degli errori rivela:

Wrong Query Logic è il tipo di fallimento più comune in tutti i metodi e modelli
I metodi basati su recupero aggravano costantemente questo problema
I metodi di recupero aumentano anche il rapporto di Schema Linking Errors

Analisi di Casi

L'articolo conduce un'analisi dettagliata degli errori, classificando i casi di fallimento utilizzando il modello o4-mini, scoprendo che i metodi basati su recupero potrebbero privare il modello di informazioni critiche nei compiti di ragionamento complesso, causando un calo di prestazioni.

Lavori Correlati

Flussi di Lavoro Agentici Text2SQL

L'articolo sistematizza i flussi di lavoro agentici Text2SQL esistenti, inclusi:

Apprendimento del contesto decomposizionale di DIN-SQL
Framework di collaborazione multi-agente MAC-SQL
Sintesi SQL contestuale CHESS
Sistema multi-agente di consenso R3

Strategie di Scaling al Tempo di Test

Copre molteplici strategie inclusi passaggi di ragionamento strutturato, esecuzione parallela, verifica e aggregazione dei risultati, con questi metodi che scompongono la generazione di query in passaggi modulari attraverso flussi di lavoro sequenziali.

Conclusioni e Discussione

Conclusioni Principali

Importanza del Modello di Base: Un modello di base forte è più importante della complessità del flusso di lavoro (le prestazioni baseline di Gemini 2.5 Flash superano i flussi di lavoro più complessi di GPT-4o e Gemini 1.5 Flash)
Universalità di DC+Few-shot: Le istruzioni divide-and-conquer e le dimostrazioni few-shot producono miglioramenti significativi per tutti i tipi di modello
Rendimenti Marginali Decrescenti della Complessità: Aumentare la complessità del flusso di lavoro non sempre produce risultati migliori

Limitazioni

Ambito di Valutazione Limitato: Si concentra solo su flussi di lavoro leggeri, potrebbe non rappresentare il limite superiore di prestazioni di design più complessi
Dataset Singolare: Valutazione solo su BIRD Mini-Dev, mancanza di validazione più ampia
Relatività delle Metriche di Latenza: La latenza e il consumo di token riportati sono influenzati da fattori esterni, dovrebbero essere considerati indicativi piuttosto che valori assoluti

Direzioni Future

Esaminare design di flussi di lavoro più complessi
Validare i risultati su dataset più ampi
Esplorare l'applicabilità di queste strategie ad altri compiti
Ottimizzazione della progettazione del prodotto per gestire le aspettative degli utenti

Valutazione Approfondita

Punti di Forza

Orientamento Pratico: Si concentra su soluzioni pronte per l'industria, considerando i vincoli del deployment reale
Valutazione Multidimensionale: Non solo considera l'accuratezza, ma anche latenza e consumo di risorse, fornendo una prospettiva completa per le applicazioni pratiche
Confronto Sistematico: Valuta simultaneamente modelli generici e modelli di ragionamento, fornendo intuizioni di confronto preziose
Analisi Dettagliata degli Errori: Comprende profondamente i modelli di fallimento di diversi metodi attraverso la classificazione degli errori

Carenze

Limitazione della Dimensione del Campione: Utilizza solo 500 campioni da BIRD Mini-Dev, potrebbe influenzare la generalizzabilità delle conclusioni
Copertura Incompleta dei Modelli: Manca il confronto con altri modelli mainstream (come Claude, serie LLaMA)
Design Conservatore dei Flussi di Lavoro: La concentrazione su metodi leggeri potrebbe perdere il potenziale di tecniche più avanzate
Mancanza di Ricerca Utente: Nessuna valutazione dell'esperienza di utenti reali

Impatto

Contributo Accademico: Fornisce un benchmark sistematico per le strategie di scaling al tempo di test nel campo Text2SQL
Valore Industriale: Fornisce principi guida pratici per il deployment dei sistemi Text2SQL nelle aziende
Ispirazione Metodologica: Il framework di valutazione multidimensionale può essere applicato al deployment industriale di altri compiti NLP

Scenari Applicabili

Query di Database Aziendali: Adatto agli ambienti aziendali che richiedono deployment rapido e equilibrio tra accuratezza ed efficienza
Sviluppo di Prototipi: Fornisce modelli di flussi di lavoro verificati per lo sviluppo rapido di prototipi di sistemi Text2SQL
Guida alla Selezione del Modello: Aiuta gli sviluppatori a scegliere il modello di base e la strategia di flusso di lavoro appropriati in base alle esigenze specifiche

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo Text2SQL, inclusi:

Dataset benchmark BIRD (Li et al., 2023)
Metodo decomposizionale DIN-SQL (Pourreza & Rafiei, 2023)
Sintesi contestuale CHESS (Talaei et al., 2024)
Framework di ragionamento ReAct (Yao et al., 2023)
Prompting Chain-of-Thought (Wei et al., 2022)

Questa ricerca fornisce una guida empirica preziosa per il deployment pratico dei sistemi Text2SQL, in particolare nel bilanciare accuratezza, efficienza e complessità. I suoi risultati hanno un significato importante nel promuovere la trasformazione della tecnologia Text2SQL da prototipi di ricerca ad applicazioni industriali.