Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- Paper-ID: 2510.10885
- Titel: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- Autoren: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- Klassifizierung: cs.CL (Computerlinguistik), cs.DB (Datenbanken)
- Veröffentlichungskonferenz: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- Paper-Link: https://arxiv.org/abs/2510.10885
Große Sprachmodelle (LLMs) unterstützen zunehmend Text-zu-SQL-Systeme und ermöglichen es Nicht-Experten, Industriedatenbanken mit natürlicher Sprache abzufragen. Obwohl Test-Time-Skalierungsstrategien in LLM-basierten Lösungen vielversprechend sind, bleibt ihre Wirksamkeit in praktischen Anwendungen, insbesondere bei neuesten Inferenzmodellen, ungewiss. Diese Forschung führt Benchmarks für sechs leichte, industrieorientierte Test-Time-Skalierungsstrategien und vier LLMs (einschließlich zwei Inferenzmodellen) durch und bewertet ihre Leistung auf der BIRD Mini-Dev-Benchmark. Neben standardmäßigen Genauigkeitsmetriken werden Inferenzlatenz und Token-Verbrauch gemeldet, um relevante Erkenntnisse für die praktische Systemimplementierung zu liefern. Die Forschung zeigt, dass Divide-and-Conquer-Prompting und Few-Shot-Demonstrationen die Leistung von allgemeinen und inferenzgesteuerten LLMs konsistent verbessern. Allerdings führt die Einführung zusätzlicher Workflow-Schritte zu gemischten Ergebnissen, wobei die Wahl des Basismodells eine entscheidende Rolle spielt.
Die Kernfrage dieser Forschung ist: Wie wirken sich Test-Time-Skalierungsstrategien (test-time scaling strategies) auf verschiedene Arten von LLMs in Text2SQL-Aufgaben aus, insbesondere im Hinblick auf Leistungskompromisse in praktischen Industrieanwendungsszenarien?
- Praktischer Wert: Text2SQL-Systeme ermöglichen es Nicht-Technikern, über natürliche Sprache auf Unternehmensdatenbanken zuzugreifen und haben erheblichen kommerziellen Wert
- Technische Herausforderung: Mit dem Aufkommen von Inferenzmodellen wie OpenAI o-series und Gemini 2.5 ist eine Neubewertung der Notwendigkeit traditioneller Workflow-Engineering-Methoden erforderlich
- Industrielle Anforderungen: Die praktische Implementierung erfordert ein Gleichgewicht zwischen Genauigkeit, Latenz und Komplexität
- Bestehende Forschung konzentriert sich häufig auf komplexe Agenten-Workflows, die in Industrieanwendungen möglicherweise zu komplex sind
- Es fehlt eine systematische Bewertung von Inferenzmodellen in Text2SQL-Aufgaben
- Nur wenige Studien berücksichtigen gleichzeitig Genauigkeit und Systemleistungskennzahlen (wie Latenz, Token-Verbrauch)
Die Autoren stellen drei Schlüsselfragen:
- Angesichts der Fortschritte bei Inferenzmodellen hat umfangreiches Prompting und Workflow-Engineering noch Wert?
- Welche Test-Time-Skalierungsstrategien bieten die beste Balance zwischen Genauigkeit und Latenz?
- Wie optimiert man Workflows für Industrieanwendungen?
- Systematische Benchmarking: Umfassende Bewertung von sechs leichten, industriegesteuerten Agenten-Workflows mit vier LLMs (einschließlich allgemeiner Modelle und Inferenzmodelle)
- Mehrdimensionale Bewertung: Neben Genauigkeitsmetriken auch detaillierte Analyse von Inferenzlatenz und Token-Verbrauch
- Praktische Erkenntnisse: Feststellung, dass Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen für alle Modelle erhebliche Verbesserungen bieten
- Leitfaden für Industrieimplementierung: Umsetzbare Anleitung zu Genauigkeit, Effizienz und Komplexitätskompromissen für die praktische Implementierung von Text2SQL-Systemen
Die Text2SQL-Aufgabe zielt darauf ab, natürlichsprachige Fragen in ausführbare SQL-Abfragen zu übersetzen. Die Eingabe besteht aus einer natürlichsprachigen Frage und einem Datenbankschema, die Ausgabe ist die entsprechende SQL-Abfrage.
- Prozess: SW > EX <> SR
- Beschreibung: Verwendet den "Think-Act-Observe"-Zyklus des ReAct-Agenten und optimiert Abfragen iterativ bei Ausführungsfehlern oder leeren Daten
- Prozess: SW > EX <> SR
- Innovationspunkt: Zerlegt komplexe Probleme in eine Reihe kleinerer Teilprobleme, löst sie sequenziell und kombiniert die endgültige Antwort
- Varianten: Separate Bewertung mit und ohne Few-Shot-Demonstrationen
- Prozess: (SW > EX <> SR) ∥ 5 > MV / CS
- Mechanismus: Generiert mehrere Kandidatantworten, wählt die endgültige Antwort durch Mehrheitsvotum; bei fehlender Mehrheit wird ein Kandidatenauswahlagens verwendet
- Prozess: SW > EX <> SR <> FP
- Ziel: Behandelt syntaktisch korrekte, aber semantisch fehlerhafte SQL-Abfragen, wobei ein Feedback-Provider entscheidet, ob eine Optimierung erforderlich ist
- Prozess: KE > (ER ∥ CR) > SW > EX <> SR
- Angepasst von: CHESS-Methode
- Schritte:
- Schlüsselwortextraktor identifiziert Schlüsselwörter in der Frage
- Parallele Ausführung von Entity Retriever (basierend auf LSH-Index) und Column Retriever (basierend auf semantischer Ähnlichkeit)
- Übergibt abgerufene Informationen an SQL-Writer
- Leichte Gestaltung: Konzentriert sich auf industriereife Workflows statt auf komplexe Methoden aus der Literatur
- Multi-Modell-Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen (GPT-4o, Gemini-Serie) und Inferenzmodellen (o4-mini)
- Umfassender Bewertungsrahmen: Kombiniert Genauigkeit, Latenz und Ressourcenverbrauch in einem mehrdimensionalen Bewertungsrahmen
- Name: BIRD Mini-Dev Benchmark
- Umfang: 500 Frage-SQL-Paare
- Quelle: Teilmenge aus der ursprünglichen BIRD Dev-Sammlung
- Merkmale: Enthält komplexe tabellenübergreifende Abfragen und reale Datenbankszenarien
- Soft F1-Score: Bewertet die Korrektheit von SQL-Abfragen durch Messung der Ähnlichkeit der von vorhergesagten und echten Abfragen generierten Tabellen
- Execution Accuracy (EX): Prozentsatz der SQL-Abfragen, die genau die gleichen Ergebnisse wie die echten Abfragen generieren
- Reward-based Valid Efficiency Score (R-VES): Quantifiziert die Effizienz des Modells bei der Generierung korrekter und optimierter SQL-Abfragen
- Execution Error Rate: Prozentsatz der Aufgaben, bei denen im Workflow Syntaxausführungsfehler auftreten
- Inference Time: Dauer von der Empfangung der Benutzerfrage bis zur Generierung der SQL-Abfrage (in Sekunden)
- Number of LLM Calls: Durchschnittliche Anzahl der LLM-Aufrufe im Workflow
- Token Count: Durchschnittliche Anzahl der erforderlichen Prompt- und Completion-Token zur Generierung einer einzelnen SQL-Abfrage (in Tausenden)
Vier LLMs:
- Gemini 1.5 Flash (allgemeines Modell)
- Gemini 2.5 Flash (allgemeines Modell)
- GPT-4o (allgemeines Modell)
- o4-mini (Inferenzmodell)
- Alle Workflows enthalten Syntaxreparatur-Iterationen
- Latenzmessungen werden durch mehrere Faktoren beeinflusst (Modellregion, Netzwerklatenz, Serverressourcen usw.)
- Verwendung von BIRD Mini-Dev für Effizienzbetrachtungen
- Schlüsselfeststellung: DC 3-shot+ReAct-Workflow verbessert konsistent den Soft-F1-Score für alle Modelle
- GPT-4o: Verbesserung von Baseline 61,1 auf 64,4
- o4-mini: Verbesserung von Baseline 56,3 auf 65,5
- Schlussfolgerung: Auch spezialisierte Inferenzmodelle profitieren von expliziter programmatischer Anleitung
- Beste Kombination: Divide-and-Conquer + Few-Shot-Demonstrationen + ReAct zeigen konsistente Verbesserungen über alle Modelle
- Verifizierungsmethode: Bietet zuverlässige Leistungsverbesserungen bei den meisten Modellen
- Gemini 1.5 Flash: 62,58 → 63,63
- Gemini 2.5 Flash: 68,12 → 68,44
- GPT-4o: 64,44 → 64,95
- Abruf-verbesserte Methode: Insgesamt schlechte Leistung, unterschreitet DC 3-shot+ReAct bei fast allen Modellen
- Signifikante Latenzunterschiede:
- Gemini Flash-Modelle: 5,02-12,03 Sekunden
- GPT-4o und o4-mini: 15,70-18,43 Sekunden
- Kosten falscher Antworten: Generierung falscher Antworten dauert 19,58% länger als korrekte Antworten
- Komplexitätsauswirkungen: Schwierigere Fragen erfordern mehr Zeit, verbrauchen mehr Token und haben oft niedrigere Genauigkeitsraten
Durch Fehleranalyse entdeckt:
- Wrong Query Logic ist der häufigste Fehlertyp bei allen Methoden und Modellen
- Abruf-verbesserte Methoden verschärfen dieses Problem konsistent
- Abrufmethoden erhöhen auch die Quote von Schema Linking Errors
Das Paper führt detaillierte Fehleranalysen durch, klassifiziert fehlgeschlagene Fälle mit dem o4-mini-Modell und stellt fest, dass abruf-verbesserte Methoden in komplexen Reasoning-Aufgaben möglicherweise kritische Informationen vom Modell entziehen und die Leistung beeinträchtigen.
Das Paper systematisiert bestehende Text2SQL-Agenten-Workflows, einschließlich:
- DIN-SQL's Decomposition Context Learning
- MAC-SQL's Multi-Agent Collaboration Framework
- CHESS's Contextual SQL Synthesis
- R3's Consensus Multi-Agent System
Umfasst mehrere Strategien wie strukturierte Reasoning-Schritte, parallele Ausführung, Verifizierung und Ergebnisgregation, die die Abfragegenerierung durch sequenzielle Workflows in modulare Schritte zerlegen.
- Bedeutung des Basismodells: Ein starkes Basismodell ist wichtiger als Workflow-Komplexität (Gemini 2.5 Flash Baseline-Leistung übertrifft die komplexesten Workflows von GPT-4o und Gemini 1.5 Flash)
- Universalität von DC+Few-Shot: Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen bieten signifikante Verbesserungen für alle Modelltypen
- Abnehmende Grenzerträge der Komplexität: Die Erhöhung der Workflow-Komplexität führt nicht immer zu besseren Ergebnissen
- Begrenzte Bewertungsreichweite: Konzentriert sich nur auf leichte Workflows, kann möglicherweise nicht die Leistungsobergrenze komplexerer Designs darstellen
- Einzelner Datensatz: Nur auf BIRD Mini-Dev bewertet, fehlt umfassendere Validierung
- Relativität von Latenzmetriken: Gemeldete Latenz- und Token-Verbrauchswerte werden durch externe Faktoren beeinflusst und sollten als indikativ statt absolut betrachtet werden
- Prüfung komplexerer Workflow-Designs
- Validierung von Erkenntnissen auf umfassenderen Datensätzen
- Erkundung der Anwendbarkeit dieser Strategien auf andere Aufgaben
- Produktdesign-Optimierung zur Verwaltung von Benutzererwartungen
- Praxisorientierung: Konzentriert sich auf industriereife Lösungen und berücksichtigt Einschränkungen praktischer Implementierung
- Mehrdimensionale Bewertung: Berücksichtigt nicht nur Genauigkeit, sondern auch Latenz und Ressourcenverbrauch und bietet eine umfassende Perspektive für praktische Anwendungen
- Systematischer Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen und Inferenzmodellen bietet wertvolle Vergleichserkenntnisse
- Detaillierte Fehleranalyse: Tiefes Verständnis der Fehlermuster verschiedener Methoden durch Fehlerklassifizierung
- Begrenzte Stichprobengröße: Verwendung von nur 500 Samples aus BIRD Mini-Dev kann die Verallgemeinerbarkeit von Schlussfolgerungen beeinträchtigen
- Unvollständige Modellabdeckung: Fehlen von Vergleichen mit anderen Mainstream-Modellen (wie Claude, LLaMA-Serie)
- Konservatives Workflow-Design: Konzentration auf leichte Methoden könnte das Potenzial fortgeschrittenerer Techniken übersehen
- Fehlende Benutzerforschung: Keine Bewertung der Erfahrung echter Benutzer
- Akademischer Beitrag: Bietet systematische Benchmarks für Test-Time-Skalierungsstrategien im Text2SQL-Bereich
- Industrieller Wert: Bietet praktische Richtlinien für die Unternehmensimplementierung von Text2SQL-Systemen
- Methodologische Inspiration: Der mehrdimensionale Bewertungsrahmen kann auf andere NLP-Aufgaben in der Industrialisierung angewendet werden
- Unternehmens-Datenbankabfragen: Geeignet für Unternehmensumgebungen, die schnelle Implementierung mit ausgewogener Genauigkeit und Effizienz erfordern
- Prototypentwicklung: Bietet validierte Workflow-Muster für schnelle Prototypentwicklung von Text2SQL-Systemen
- Modellauswahlleitung: Hilft Entwicklern, basierend auf spezifischen Anforderungen geeignete Basismodelle und Workflow-Strategien auszuwählen
Das Paper zitiert wichtige Arbeiten im Text2SQL-Bereich, einschließlich:
- BIRD Benchmark-Datensatz (Li et al., 2023)
- DIN-SQL Decomposition-Methode (Pourreza & Rafiei, 2023)
- CHESS Contextual Synthesis (Talaei et al., 2024)
- ReAct Reasoning Framework (Yao et al., 2023)
- Chain-of-Thought Prompting (Wei et al., 2022)
Diese Forschung bietet wertvolle empirische Richtlinien für die praktische Implementierung von Text2SQL-Systemen, insbesondere beim Ausgleich von Genauigkeit, Effizienz und Komplexität. Die Erkenntnisse sind von großer Bedeutung für die Förderung der Umwandlung von Text2SQL-Technologie von Forschungsprototypen zu Industrieanwendungen.