2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

Umdenken von agentengestützten Workflows: Bewertung von Inferenz-basierten Test-Time-Skalierungsstrategien in Text2SQL-Aufgaben

Grundlegende Informationen

Paper-ID: 2510.10885
Titel: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
Autoren: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
Klassifizierung: cs.CL (Computerlinguistik), cs.DB (Datenbanken)
Veröffentlichungskonferenz: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
Paper-Link: https://arxiv.org/abs/2510.10885

Zusammenfassung

Große Sprachmodelle (LLMs) unterstützen zunehmend Text-zu-SQL-Systeme und ermöglichen es Nicht-Experten, Industriedatenbanken mit natürlicher Sprache abzufragen. Obwohl Test-Time-Skalierungsstrategien in LLM-basierten Lösungen vielversprechend sind, bleibt ihre Wirksamkeit in praktischen Anwendungen, insbesondere bei neuesten Inferenzmodellen, ungewiss. Diese Forschung führt Benchmarks für sechs leichte, industrieorientierte Test-Time-Skalierungsstrategien und vier LLMs (einschließlich zwei Inferenzmodellen) durch und bewertet ihre Leistung auf der BIRD Mini-Dev-Benchmark. Neben standardmäßigen Genauigkeitsmetriken werden Inferenzlatenz und Token-Verbrauch gemeldet, um relevante Erkenntnisse für die praktische Systemimplementierung zu liefern. Die Forschung zeigt, dass Divide-and-Conquer-Prompting und Few-Shot-Demonstrationen die Leistung von allgemeinen und inferenzgesteuerten LLMs konsistent verbessern. Allerdings führt die Einführung zusätzlicher Workflow-Schritte zu gemischten Ergebnissen, wobei die Wahl des Basismodells eine entscheidende Rolle spielt.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernfrage dieser Forschung ist: Wie wirken sich Test-Time-Skalierungsstrategien (test-time scaling strategies) auf verschiedene Arten von LLMs in Text2SQL-Aufgaben aus, insbesondere im Hinblick auf Leistungskompromisse in praktischen Industrieanwendungsszenarien?

Forschungsbedeutung

Praktischer Wert: Text2SQL-Systeme ermöglichen es Nicht-Technikern, über natürliche Sprache auf Unternehmensdatenbanken zuzugreifen und haben erheblichen kommerziellen Wert
Technische Herausforderung: Mit dem Aufkommen von Inferenzmodellen wie OpenAI o-series und Gemini 2.5 ist eine Neubewertung der Notwendigkeit traditioneller Workflow-Engineering-Methoden erforderlich
Industrielle Anforderungen: Die praktische Implementierung erfordert ein Gleichgewicht zwischen Genauigkeit, Latenz und Komplexität

Einschränkungen bestehender Methoden

Bestehende Forschung konzentriert sich häufig auf komplexe Agenten-Workflows, die in Industrieanwendungen möglicherweise zu komplex sind
Es fehlt eine systematische Bewertung von Inferenzmodellen in Text2SQL-Aufgaben
Nur wenige Studien berücksichtigen gleichzeitig Genauigkeit und Systemleistungskennzahlen (wie Latenz, Token-Verbrauch)

Forschungsmotivation

Die Autoren stellen drei Schlüsselfragen:

Angesichts der Fortschritte bei Inferenzmodellen hat umfangreiches Prompting und Workflow-Engineering noch Wert?
Welche Test-Time-Skalierungsstrategien bieten die beste Balance zwischen Genauigkeit und Latenz?
Wie optimiert man Workflows für Industrieanwendungen?

Kernbeiträge

Systematische Benchmarking: Umfassende Bewertung von sechs leichten, industriegesteuerten Agenten-Workflows mit vier LLMs (einschließlich allgemeiner Modelle und Inferenzmodelle)
Mehrdimensionale Bewertung: Neben Genauigkeitsmetriken auch detaillierte Analyse von Inferenzlatenz und Token-Verbrauch
Praktische Erkenntnisse: Feststellung, dass Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen für alle Modelle erhebliche Verbesserungen bieten
Leitfaden für Industrieimplementierung: Umsetzbare Anleitung zu Genauigkeit, Effizienz und Komplexitätskompromissen für die praktische Implementierung von Text2SQL-Systemen

Methodische Details

Aufgabendefinition

Die Text2SQL-Aufgabe zielt darauf ab, natürlichsprachige Fragen in ausführbare SQL-Abfragen zu übersetzen. Die Eingabe besteht aus einer natürlichsprachigen Frage und einem Datenbankschema, die Ausgabe ist die entsprechende SQL-Abfrage.

Sechs Agenten-Workflows

1. CoT + ReAct (Baseline)

Prozess: SW > EX <> SR
Beschreibung: Verwendet den "Think-Act-Observe"-Zyklus des ReAct-Agenten und optimiert Abfragen iterativ bei Ausführungsfehlern oder leeren Daten

2. Divide-and-Conquer (mit/ohne Few-Shot)

Prozess: SW > EX <> SR
Innovationspunkt: Zerlegt komplexe Probleme in eine Reihe kleinerer Teilprobleme, löst sie sequenziell und kombiniert die endgültige Antwort
Varianten: Separate Bewertung mit und ohne Few-Shot-Demonstrationen

3. Parallel Scaling

Prozess: (SW > EX <> SR) ∥ 5 > MV / CS
Mechanismus: Generiert mehrere Kandidatantworten, wählt die endgültige Antwort durch Mehrheitsvotum; bei fehlender Mehrheit wird ein Kandidatenauswahlagens verwendet

4. Result Verification

Prozess: SW > EX <> SR <> FP
Ziel: Behandelt syntaktisch korrekte, aber semantisch fehlerhafte SQL-Abfragen, wobei ein Feedback-Provider entscheidet, ob eine Optimierung erforderlich ist

5. Retrieval-based Structured Reasoning

Prozess: KE > (ER ∥ CR) > SW > EX <> SR
Angepasst von: CHESS-Methode
Schritte:
- Schlüsselwortextraktor identifiziert Schlüsselwörter in der Frage
- Parallele Ausführung von Entity Retriever (basierend auf LSH-Index) und Column Retriever (basierend auf semantischer Ähnlichkeit)
- Übergibt abgerufene Informationen an SQL-Writer

Technische Innovationspunkte

Leichte Gestaltung: Konzentriert sich auf industriereife Workflows statt auf komplexe Methoden aus der Literatur
Multi-Modell-Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen (GPT-4o, Gemini-Serie) und Inferenzmodellen (o4-mini)
Umfassender Bewertungsrahmen: Kombiniert Genauigkeit, Latenz und Ressourcenverbrauch in einem mehrdimensionalen Bewertungsrahmen

Experimentelle Einrichtung

Datensatz

Name: BIRD Mini-Dev Benchmark
Umfang: 500 Frage-SQL-Paare
Quelle: Teilmenge aus der ursprünglichen BIRD Dev-Sammlung
Merkmale: Enthält komplexe tabellenübergreifende Abfragen und reale Datenbankszenarien

Bewertungsmetriken

Genauigkeitsmetriken

Soft F1-Score: Bewertet die Korrektheit von SQL-Abfragen durch Messung der Ähnlichkeit der von vorhergesagten und echten Abfragen generierten Tabellen
Execution Accuracy (EX): Prozentsatz der SQL-Abfragen, die genau die gleichen Ergebnisse wie die echten Abfragen generieren
Reward-based Valid Efficiency Score (R-VES): Quantifiziert die Effizienz des Modells bei der Generierung korrekter und optimierter SQL-Abfragen

Systemleistungskennzahlen

Execution Error Rate: Prozentsatz der Aufgaben, bei denen im Workflow Syntaxausführungsfehler auftreten
Inference Time: Dauer von der Empfangung der Benutzerfrage bis zur Generierung der SQL-Abfrage (in Sekunden)
Number of LLM Calls: Durchschnittliche Anzahl der LLM-Aufrufe im Workflow
Token Count: Durchschnittliche Anzahl der erforderlichen Prompt- und Completion-Token zur Generierung einer einzelnen SQL-Abfrage (in Tausenden)

Vergleichsmethoden

Vier LLMs:

Gemini 1.5 Flash (allgemeines Modell)
Gemini 2.5 Flash (allgemeines Modell)
GPT-4o (allgemeines Modell)
o4-mini (Inferenzmodell)

Implementierungsdetails

Alle Workflows enthalten Syntaxreparatur-Iterationen
Latenzmessungen werden durch mehrere Faktoren beeinflusst (Modellregion, Netzwerklatenz, Serverressourcen usw.)
Verwendung von BIRD Mini-Dev für Effizienzbetrachtungen

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Leistung von Inferenzmodellen vs. allgemeinen Modellen

Schlüsselfeststellung: DC 3-shot+ReAct-Workflow verbessert konsistent den Soft-F1-Score für alle Modelle
GPT-4o: Verbesserung von Baseline 61,1 auf 64,4
o4-mini: Verbesserung von Baseline 56,3 auf 65,5
Schlussfolgerung: Auch spezialisierte Inferenzmodelle profitieren von expliziter programmatischer Anleitung

RQ2: Wirksamste Skalierungsmethoden

Beste Kombination: Divide-and-Conquer + Few-Shot-Demonstrationen + ReAct zeigen konsistente Verbesserungen über alle Modelle
Verifizierungsmethode: Bietet zuverlässige Leistungsverbesserungen bei den meisten Modellen
- Gemini 1.5 Flash: 62,58 → 63,63
- Gemini 2.5 Flash: 68,12 → 68,44
- GPT-4o: 64,44 → 64,95
Abruf-verbesserte Methode: Insgesamt schlechte Leistung, unterschreitet DC 3-shot+ReAct bei fast allen Modellen

RQ3: Kompromiss zwischen Genauigkeit und Systemleistung

Signifikante Latenzunterschiede:
- Gemini Flash-Modelle: 5,02-12,03 Sekunden
- GPT-4o und o4-mini: 15,70-18,43 Sekunden
Kosten falscher Antworten: Generierung falscher Antworten dauert 19,58% länger als korrekte Antworten
Komplexitätsauswirkungen: Schwierigere Fragen erfordern mehr Zeit, verbrauchen mehr Token und haben oft niedrigere Genauigkeitsraten

Ablationsstudien

Durch Fehleranalyse entdeckt:

Wrong Query Logic ist der häufigste Fehlertyp bei allen Methoden und Modellen
Abruf-verbesserte Methoden verschärfen dieses Problem konsistent
Abrufmethoden erhöhen auch die Quote von Schema Linking Errors

Fallstudien

Das Paper führt detaillierte Fehleranalysen durch, klassifiziert fehlgeschlagene Fälle mit dem o4-mini-Modell und stellt fest, dass abruf-verbesserte Methoden in komplexen Reasoning-Aufgaben möglicherweise kritische Informationen vom Modell entziehen und die Leistung beeinträchtigen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Bedeutung des Basismodells: Ein starkes Basismodell ist wichtiger als Workflow-Komplexität (Gemini 2.5 Flash Baseline-Leistung übertrifft die komplexesten Workflows von GPT-4o und Gemini 1.5 Flash)
Universalität von DC+Few-Shot: Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen bieten signifikante Verbesserungen für alle Modelltypen
Abnehmende Grenzerträge der Komplexität: Die Erhöhung der Workflow-Komplexität führt nicht immer zu besseren Ergebnissen

Einschränkungen

Begrenzte Bewertungsreichweite: Konzentriert sich nur auf leichte Workflows, kann möglicherweise nicht die Leistungsobergrenze komplexerer Designs darstellen
Einzelner Datensatz: Nur auf BIRD Mini-Dev bewertet, fehlt umfassendere Validierung
Relativität von Latenzmetriken: Gemeldete Latenz- und Token-Verbrauchswerte werden durch externe Faktoren beeinflusst und sollten als indikativ statt absolut betrachtet werden

Zukünftige Richtungen

Prüfung komplexerer Workflow-Designs
Validierung von Erkenntnissen auf umfassenderen Datensätzen
Erkundung der Anwendbarkeit dieser Strategien auf andere Aufgaben
Produktdesign-Optimierung zur Verwaltung von Benutzererwartungen

Tiefgreifende Bewertung

Stärken

Praxisorientierung: Konzentriert sich auf industriereife Lösungen und berücksichtigt Einschränkungen praktischer Implementierung
Mehrdimensionale Bewertung: Berücksichtigt nicht nur Genauigkeit, sondern auch Latenz und Ressourcenverbrauch und bietet eine umfassende Perspektive für praktische Anwendungen
Systematischer Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen und Inferenzmodellen bietet wertvolle Vergleichserkenntnisse
Detaillierte Fehleranalyse: Tiefes Verständnis der Fehlermuster verschiedener Methoden durch Fehlerklassifizierung

Mängel

Begrenzte Stichprobengröße: Verwendung von nur 500 Samples aus BIRD Mini-Dev kann die Verallgemeinerbarkeit von Schlussfolgerungen beeinträchtigen
Unvollständige Modellabdeckung: Fehlen von Vergleichen mit anderen Mainstream-Modellen (wie Claude, LLaMA-Serie)
Konservatives Workflow-Design: Konzentration auf leichte Methoden könnte das Potenzial fortgeschrittenerer Techniken übersehen
Fehlende Benutzerforschung: Keine Bewertung der Erfahrung echter Benutzer

Auswirkungen

Akademischer Beitrag: Bietet systematische Benchmarks für Test-Time-Skalierungsstrategien im Text2SQL-Bereich
Industrieller Wert: Bietet praktische Richtlinien für die Unternehmensimplementierung von Text2SQL-Systemen
Methodologische Inspiration: Der mehrdimensionale Bewertungsrahmen kann auf andere NLP-Aufgaben in der Industrialisierung angewendet werden

Anwendungsszenarien

Unternehmens-Datenbankabfragen: Geeignet für Unternehmensumgebungen, die schnelle Implementierung mit ausgewogener Genauigkeit und Effizienz erfordern
Prototypentwicklung: Bietet validierte Workflow-Muster für schnelle Prototypentwicklung von Text2SQL-Systemen
Modellauswahlleitung: Hilft Entwicklern, basierend auf spezifischen Anforderungen geeignete Basismodelle und Workflow-Strategien auszuwählen

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten im Text2SQL-Bereich, einschließlich:

BIRD Benchmark-Datensatz (Li et al., 2023)
DIN-SQL Decomposition-Methode (Pourreza & Rafiei, 2023)
CHESS Contextual Synthesis (Talaei et al., 2024)
ReAct Reasoning Framework (Yao et al., 2023)
Chain-of-Thought Prompting (Wei et al., 2022)

Diese Forschung bietet wertvolle empirische Richtlinien für die praktische Implementierung von Text2SQL-Systemen, insbesondere beim Ausgleich von Genauigkeit, Effizienz und Komplexität. Die Erkenntnisse sind von großer Bedeutung für die Förderung der Umwandlung von Text2SQL-Technologie von Forschungsprototypen zu Industrieanwendungen.