Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- ID Articolo: 2510.10885
- Titolo: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- Autori: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- Classificazione: cs.CL (Linguistica Computazionale), cs.DB (Basi di Dati)
- Conferenza di Pubblicazione: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- Link Articolo: https://arxiv.org/abs/2510.10885
I modelli linguistici di grandi dimensioni (LLM) supportano sempre più frequentemente i sistemi Text-to-SQL, consentendo agli utenti non specializzati di interrogare database industriali utilizzando il linguaggio naturale. Sebbene le strategie di scaling al tempo di test mostrino promesse nelle soluzioni basate su LLM, la loro efficacia nelle applicazioni pratiche, in particolare nelle prestazioni dei modelli di ragionamento più recenti, rimane incerta. Questo studio effettua un benchmark di sei strategie di scaling al tempo di test leggere e orientate all'industria e quattro LLM (inclusi due modelli di ragionamento), valutando le loro prestazioni sul benchmark BIRD Mini-Dev. Oltre alle metriche di accuratezza standard, vengono riportate la latenza di inferenza e il consumo di token, fornendo intuizioni rilevanti per il deployment dei sistemi pratici. Lo studio rivela che il prompting divide-and-conquer e le dimostrazioni few-shot migliorano costantemente le prestazioni degli LLM generici e orientati al ragionamento. Tuttavia, l'introduzione di passaggi di flusso di lavoro aggiuntivi produce risultati misti, con la scelta del modello di base che gioca un ruolo critico.
Il problema centrale affrontato da questa ricerca è: come si comportano le strategie di scaling al tempo di test (test-time scaling strategies) nei compiti Text2SQL per diversi tipi di LLM, in particolare considerando i compromessi di prestazione negli scenari di applicazione industriale reale?
- Valore Pratico: I sistemi Text2SQL consentono agli utenti non tecnici di accedere ai database aziendali attraverso il linguaggio naturale, possedendo un significativo valore commerciale
- Sfida Tecnica: Con l'emergere di modelli di ragionamento come OpenAI o-series e Gemini 2.5, è necessario rivalutare la necessità dei metodi tradizionali di ingegneria dei flussi di lavoro
- Esigenze Industriali: Il deployment pratico richiede di considerare l'equilibrio tra accuratezza, latenza e complessità
- La ricerca esistente si concentra principalmente su complessi flussi di lavoro agentici, che potrebbero essere eccessivamente complessi nelle applicazioni industriali
- Manca una valutazione sistematica dei modelli di ragionamento nei compiti Text2SQL
- Pochi studi considerano simultaneamente l'accuratezza e le metriche di prestazione del sistema (come latenza e consumo di token)
Gli autori propongono tre domande chiave:
- Considerando i progressi nei modelli di ragionamento, il prompting e l'ingegneria dei flussi di lavoro estensivi mantengono ancora valore?
- Quali strategie di scaling al tempo di test bilanciano meglio l'accuratezza e la latenza?
- Come ottimizzare i flussi di lavoro per le applicazioni industriali?
- Benchmark Sistematico: Valutazione completa di sei flussi di lavoro agentici leggeri e orientati all'industria, coprendo quattro LLM (inclusi modelli generici e modelli di ragionamento)
- Valutazione Multidimensionale: Oltre alle metriche di accuratezza, fornisce analisi dettagliate della latenza di inferenza e del consumo di token
- Intuizioni Pratiche: Scopre che le istruzioni divide-and-conquer e le dimostrazioni few-shot producono miglioramenti significativi per tutti i modelli
- Guida al Deployment Industriale: Fornisce indicazioni attuabili sul compromesso tra accuratezza, efficienza e complessità per il deployment pratico dei sistemi Text2SQL
Il compito Text2SQL mira a tradurre domande in linguaggio naturale in query SQL eseguibili. L'input è una domanda in linguaggio naturale e uno schema di database, mentre l'output è la query SQL corrispondente.
- Processo: SW > EX <> SR
- Descrizione: Adotta il ciclo "think-act-observe" dell'agente ReAct, ottimizzando iterativamente le query quando si incontrano errori di esecuzione o dati vuoti
- Processo: SW > EX <> SR
- Punto di Innovazione: Scompone problemi complessi in una serie di sottoproblemi più piccoli, li risolve sequenzialmente e combina la risposta finale
- Varianti: Valuta separatamente l'effetto con e senza dimostrazioni few-shot
- Processo: (SW > EX <> SR) ∥ 5 > MV / CS
- Meccanismo: Genera più risposte candidate, seleziona la risposta finale tramite votazione per maggioranza; in assenza di maggioranza, utilizza un agente selezionatore di candidati
- Processo: SW > EX <> SR <> FP
- Obiettivo: Gestisce query SQL sintatticamente corrette ma semanticamente errate, decidendo tramite un fornitore di feedback se è necessaria l'ottimizzazione
- Processo: KE > (ER ∥ CR) > SW > EX <> SR
- Adattato da: Metodo CHESS
- Passaggi:
- L'estrattore di parole chiave identifica le parole chiave nella domanda
- Esegue in parallelo il recuperatore di entità (basato su indice LSH) e il recuperatore di colonne (basato su similarità semantica)
- Trasmette le informazioni recuperate allo scrittore di SQL
- Design Leggero: Si concentra su flussi di lavoro pronti per l'industria, piuttosto che su metodi complessi della letteratura
- Confronto Multi-Modello: Valuta simultaneamente modelli generici (GPT-4o, serie Gemini) e modelli di ragionamento (o4-mini)
- Framework di Valutazione Completo: Combina accuratezza, latenza e consumo di risorse in un framework di valutazione multidimensionale
- Nome: Benchmark BIRD Mini-Dev
- Scala: 500 coppie domanda-SQL
- Fonte: Sottoinsieme derivato dalla raccolta originale BIRD Dev
- Caratteristiche: Include query complesse tra tabelle e scenari di database del mondo reale
- Soft F1-Score: Valuta la correttezza della query SQL misurando la similarità delle tabelle generate dalla query predetta e dalla query vera
- Execution Accuracy (EX): Percentuale di query SQL che generano risultati identici a quelli veri
- Reward-based Valid Efficiency Score (R-VES): Quantifica l'efficienza del modello nel generare query SQL corrette e ottimizzate
- Execution Error Rate: Percentuale di compiti che incontrano errori di esecuzione sintattica nel flusso di lavoro
- Inference Time: Durata dal ricevimento della domanda dell'utente alla generazione della query SQL (in secondi)
- Number of LLM Calls: Numero medio di chiamate LLM utilizzate nel flusso di lavoro
- Token Count: Numero medio di token di prompt e completion necessari per generare una singola query SQL (in migliaia)
Quattro LLM:
- Gemini 1.5 Flash (modello generico)
- Gemini 2.5 Flash (modello generico)
- GPT-4o (modello generico)
- o4-mini (modello di ragionamento)
- Tutti i flussi di lavoro includono iterazione di correzione sintattica
- La misurazione della latenza è influenzata da molteplici fattori (regione del modello, latenza di rete, risorse del server, ecc.)
- Utilizza BIRD Mini-Dev per la valutazione considerando l'efficienza
- Scoperta Chiave: Il flusso di lavoro DC 3-shot+ReAct migliora costantemente il punteggio Soft-F1 per tutti i modelli
- GPT-4o: Miglioramento da 61.1 baseline a 64.4
- o4-mini: Miglioramento da 56.3 baseline a 65.5
- Conclusione: Anche i modelli di ragionamento specializzati traggono beneficio da istruzioni programmatiche esplicite
- Combinazione Ottimale: Divide-and-Conquer + dimostrazioni few-shot + ReAct produce miglioramenti coerenti su tutti i modelli
- Metodo di Verifica: Fornisce miglioramenti di prestazione affidabili sulla maggior parte dei modelli
- Gemini 1.5 Flash: 62.58 → 63.63
- Gemini 2.5 Flash: 68.12 → 68.44
- GPT-4o: 64.44 → 64.95
- Metodo Basato su Recupero: Prestazioni generalmente scadenti, inferiori a DC 3-shot+ReAct su quasi tutti i modelli
- Differenze di Latenza Significative:
- Modelli Gemini Flash: 5.02-12.03 secondi
- GPT-4o e o4-mini: 15.70-18.43 secondi
- Costo delle Risposte Errate: Le risposte errate richiedono il 19.58% di tempo in più rispetto alle risposte corrette
- Impatto della Complessità: I problemi più impegnativi richiedono più tempo, consumano più token e spesso hanno tassi di accuratezza inferiori
L'analisi degli errori rivela:
- Wrong Query Logic è il tipo di fallimento più comune in tutti i metodi e modelli
- I metodi basati su recupero aggravano costantemente questo problema
- I metodi di recupero aumentano anche il rapporto di Schema Linking Errors
L'articolo conduce un'analisi dettagliata degli errori, classificando i casi di fallimento utilizzando il modello o4-mini, scoprendo che i metodi basati su recupero potrebbero privare il modello di informazioni critiche nei compiti di ragionamento complesso, causando un calo di prestazioni.
L'articolo sistematizza i flussi di lavoro agentici Text2SQL esistenti, inclusi:
- Apprendimento del contesto decomposizionale di DIN-SQL
- Framework di collaborazione multi-agente MAC-SQL
- Sintesi SQL contestuale CHESS
- Sistema multi-agente di consenso R3
Copre molteplici strategie inclusi passaggi di ragionamento strutturato, esecuzione parallela, verifica e aggregazione dei risultati, con questi metodi che scompongono la generazione di query in passaggi modulari attraverso flussi di lavoro sequenziali.
- Importanza del Modello di Base: Un modello di base forte è più importante della complessità del flusso di lavoro (le prestazioni baseline di Gemini 2.5 Flash superano i flussi di lavoro più complessi di GPT-4o e Gemini 1.5 Flash)
- Universalità di DC+Few-shot: Le istruzioni divide-and-conquer e le dimostrazioni few-shot producono miglioramenti significativi per tutti i tipi di modello
- Rendimenti Marginali Decrescenti della Complessità: Aumentare la complessità del flusso di lavoro non sempre produce risultati migliori
- Ambito di Valutazione Limitato: Si concentra solo su flussi di lavoro leggeri, potrebbe non rappresentare il limite superiore di prestazioni di design più complessi
- Dataset Singolare: Valutazione solo su BIRD Mini-Dev, mancanza di validazione più ampia
- Relatività delle Metriche di Latenza: La latenza e il consumo di token riportati sono influenzati da fattori esterni, dovrebbero essere considerati indicativi piuttosto che valori assoluti
- Esaminare design di flussi di lavoro più complessi
- Validare i risultati su dataset più ampi
- Esplorare l'applicabilità di queste strategie ad altri compiti
- Ottimizzazione della progettazione del prodotto per gestire le aspettative degli utenti
- Orientamento Pratico: Si concentra su soluzioni pronte per l'industria, considerando i vincoli del deployment reale
- Valutazione Multidimensionale: Non solo considera l'accuratezza, ma anche latenza e consumo di risorse, fornendo una prospettiva completa per le applicazioni pratiche
- Confronto Sistematico: Valuta simultaneamente modelli generici e modelli di ragionamento, fornendo intuizioni di confronto preziose
- Analisi Dettagliata degli Errori: Comprende profondamente i modelli di fallimento di diversi metodi attraverso la classificazione degli errori
- Limitazione della Dimensione del Campione: Utilizza solo 500 campioni da BIRD Mini-Dev, potrebbe influenzare la generalizzabilità delle conclusioni
- Copertura Incompleta dei Modelli: Manca il confronto con altri modelli mainstream (come Claude, serie LLaMA)
- Design Conservatore dei Flussi di Lavoro: La concentrazione su metodi leggeri potrebbe perdere il potenziale di tecniche più avanzate
- Mancanza di Ricerca Utente: Nessuna valutazione dell'esperienza di utenti reali
- Contributo Accademico: Fornisce un benchmark sistematico per le strategie di scaling al tempo di test nel campo Text2SQL
- Valore Industriale: Fornisce principi guida pratici per il deployment dei sistemi Text2SQL nelle aziende
- Ispirazione Metodologica: Il framework di valutazione multidimensionale può essere applicato al deployment industriale di altri compiti NLP
- Query di Database Aziendali: Adatto agli ambienti aziendali che richiedono deployment rapido e equilibrio tra accuratezza ed efficienza
- Sviluppo di Prototipi: Fornisce modelli di flussi di lavoro verificati per lo sviluppo rapido di prototipi di sistemi Text2SQL
- Guida alla Selezione del Modello: Aiuta gli sviluppatori a scegliere il modello di base e la strategia di flusso di lavoro appropriati in base alle esigenze specifiche
L'articolo cita lavori importanti nel campo Text2SQL, inclusi:
- Dataset benchmark BIRD (Li et al., 2023)
- Metodo decomposizionale DIN-SQL (Pourreza & Rafiei, 2023)
- Sintesi contestuale CHESS (Talaei et al., 2024)
- Framework di ragionamento ReAct (Yao et al., 2023)
- Prompting Chain-of-Thought (Wei et al., 2022)
Questa ricerca fornisce una guida empirica preziosa per il deployment pratico dei sistemi Text2SQL, in particolare nel bilanciare accuratezza, efficienza e complessità. I suoi risultati hanno un significato importante nel promuovere la trasformazione della tecnologia Text2SQL da prototipi di ricerca ad applicazioni industriali.