2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.
Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
academic

Umdenken von agentengestützten Workflows: Bewertung von Inferenz-basierten Test-Time-Skalierungsstrategien in Text2SQL-Aufgaben

Grundlegende Informationen

  • Paper-ID: 2510.10885
  • Titel: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
  • Autoren: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
  • Klassifizierung: cs.CL (Computerlinguistik), cs.DB (Datenbanken)
  • Veröffentlichungskonferenz: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
  • Paper-Link: https://arxiv.org/abs/2510.10885

Zusammenfassung

Große Sprachmodelle (LLMs) unterstützen zunehmend Text-zu-SQL-Systeme und ermöglichen es Nicht-Experten, Industriedatenbanken mit natürlicher Sprache abzufragen. Obwohl Test-Time-Skalierungsstrategien in LLM-basierten Lösungen vielversprechend sind, bleibt ihre Wirksamkeit in praktischen Anwendungen, insbesondere bei neuesten Inferenzmodellen, ungewiss. Diese Forschung führt Benchmarks für sechs leichte, industrieorientierte Test-Time-Skalierungsstrategien und vier LLMs (einschließlich zwei Inferenzmodellen) durch und bewertet ihre Leistung auf der BIRD Mini-Dev-Benchmark. Neben standardmäßigen Genauigkeitsmetriken werden Inferenzlatenz und Token-Verbrauch gemeldet, um relevante Erkenntnisse für die praktische Systemimplementierung zu liefern. Die Forschung zeigt, dass Divide-and-Conquer-Prompting und Few-Shot-Demonstrationen die Leistung von allgemeinen und inferenzgesteuerten LLMs konsistent verbessern. Allerdings führt die Einführung zusätzlicher Workflow-Schritte zu gemischten Ergebnissen, wobei die Wahl des Basismodells eine entscheidende Rolle spielt.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernfrage dieser Forschung ist: Wie wirken sich Test-Time-Skalierungsstrategien (test-time scaling strategies) auf verschiedene Arten von LLMs in Text2SQL-Aufgaben aus, insbesondere im Hinblick auf Leistungskompromisse in praktischen Industrieanwendungsszenarien?

Forschungsbedeutung

  1. Praktischer Wert: Text2SQL-Systeme ermöglichen es Nicht-Technikern, über natürliche Sprache auf Unternehmensdatenbanken zuzugreifen und haben erheblichen kommerziellen Wert
  2. Technische Herausforderung: Mit dem Aufkommen von Inferenzmodellen wie OpenAI o-series und Gemini 2.5 ist eine Neubewertung der Notwendigkeit traditioneller Workflow-Engineering-Methoden erforderlich
  3. Industrielle Anforderungen: Die praktische Implementierung erfordert ein Gleichgewicht zwischen Genauigkeit, Latenz und Komplexität

Einschränkungen bestehender Methoden

  1. Bestehende Forschung konzentriert sich häufig auf komplexe Agenten-Workflows, die in Industrieanwendungen möglicherweise zu komplex sind
  2. Es fehlt eine systematische Bewertung von Inferenzmodellen in Text2SQL-Aufgaben
  3. Nur wenige Studien berücksichtigen gleichzeitig Genauigkeit und Systemleistungskennzahlen (wie Latenz, Token-Verbrauch)

Forschungsmotivation

Die Autoren stellen drei Schlüsselfragen:

  • Angesichts der Fortschritte bei Inferenzmodellen hat umfangreiches Prompting und Workflow-Engineering noch Wert?
  • Welche Test-Time-Skalierungsstrategien bieten die beste Balance zwischen Genauigkeit und Latenz?
  • Wie optimiert man Workflows für Industrieanwendungen?

Kernbeiträge

  1. Systematische Benchmarking: Umfassende Bewertung von sechs leichten, industriegesteuerten Agenten-Workflows mit vier LLMs (einschließlich allgemeiner Modelle und Inferenzmodelle)
  2. Mehrdimensionale Bewertung: Neben Genauigkeitsmetriken auch detaillierte Analyse von Inferenzlatenz und Token-Verbrauch
  3. Praktische Erkenntnisse: Feststellung, dass Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen für alle Modelle erhebliche Verbesserungen bieten
  4. Leitfaden für Industrieimplementierung: Umsetzbare Anleitung zu Genauigkeit, Effizienz und Komplexitätskompromissen für die praktische Implementierung von Text2SQL-Systemen

Methodische Details

Aufgabendefinition

Die Text2SQL-Aufgabe zielt darauf ab, natürlichsprachige Fragen in ausführbare SQL-Abfragen zu übersetzen. Die Eingabe besteht aus einer natürlichsprachigen Frage und einem Datenbankschema, die Ausgabe ist die entsprechende SQL-Abfrage.

Sechs Agenten-Workflows

1. CoT + ReAct (Baseline)

  • Prozess: SW > EX <> SR
  • Beschreibung: Verwendet den "Think-Act-Observe"-Zyklus des ReAct-Agenten und optimiert Abfragen iterativ bei Ausführungsfehlern oder leeren Daten

2. Divide-and-Conquer (mit/ohne Few-Shot)

  • Prozess: SW > EX <> SR
  • Innovationspunkt: Zerlegt komplexe Probleme in eine Reihe kleinerer Teilprobleme, löst sie sequenziell und kombiniert die endgültige Antwort
  • Varianten: Separate Bewertung mit und ohne Few-Shot-Demonstrationen

3. Parallel Scaling

  • Prozess: (SW > EX <> SR) ∥ 5 > MV / CS
  • Mechanismus: Generiert mehrere Kandidatantworten, wählt die endgültige Antwort durch Mehrheitsvotum; bei fehlender Mehrheit wird ein Kandidatenauswahlagens verwendet

4. Result Verification

  • Prozess: SW > EX <> SR <> FP
  • Ziel: Behandelt syntaktisch korrekte, aber semantisch fehlerhafte SQL-Abfragen, wobei ein Feedback-Provider entscheidet, ob eine Optimierung erforderlich ist

5. Retrieval-based Structured Reasoning

  • Prozess: KE > (ER ∥ CR) > SW > EX <> SR
  • Angepasst von: CHESS-Methode
  • Schritte:
    • Schlüsselwortextraktor identifiziert Schlüsselwörter in der Frage
    • Parallele Ausführung von Entity Retriever (basierend auf LSH-Index) und Column Retriever (basierend auf semantischer Ähnlichkeit)
    • Übergibt abgerufene Informationen an SQL-Writer

Technische Innovationspunkte

  1. Leichte Gestaltung: Konzentriert sich auf industriereife Workflows statt auf komplexe Methoden aus der Literatur
  2. Multi-Modell-Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen (GPT-4o, Gemini-Serie) und Inferenzmodellen (o4-mini)
  3. Umfassender Bewertungsrahmen: Kombiniert Genauigkeit, Latenz und Ressourcenverbrauch in einem mehrdimensionalen Bewertungsrahmen

Experimentelle Einrichtung

Datensatz

  • Name: BIRD Mini-Dev Benchmark
  • Umfang: 500 Frage-SQL-Paare
  • Quelle: Teilmenge aus der ursprünglichen BIRD Dev-Sammlung
  • Merkmale: Enthält komplexe tabellenübergreifende Abfragen und reale Datenbankszenarien

Bewertungsmetriken

Genauigkeitsmetriken

  1. Soft F1-Score: Bewertet die Korrektheit von SQL-Abfragen durch Messung der Ähnlichkeit der von vorhergesagten und echten Abfragen generierten Tabellen
  2. Execution Accuracy (EX): Prozentsatz der SQL-Abfragen, die genau die gleichen Ergebnisse wie die echten Abfragen generieren
  3. Reward-based Valid Efficiency Score (R-VES): Quantifiziert die Effizienz des Modells bei der Generierung korrekter und optimierter SQL-Abfragen

Systemleistungskennzahlen

  1. Execution Error Rate: Prozentsatz der Aufgaben, bei denen im Workflow Syntaxausführungsfehler auftreten
  2. Inference Time: Dauer von der Empfangung der Benutzerfrage bis zur Generierung der SQL-Abfrage (in Sekunden)
  3. Number of LLM Calls: Durchschnittliche Anzahl der LLM-Aufrufe im Workflow
  4. Token Count: Durchschnittliche Anzahl der erforderlichen Prompt- und Completion-Token zur Generierung einer einzelnen SQL-Abfrage (in Tausenden)

Vergleichsmethoden

Vier LLMs:

  • Gemini 1.5 Flash (allgemeines Modell)
  • Gemini 2.5 Flash (allgemeines Modell)
  • GPT-4o (allgemeines Modell)
  • o4-mini (Inferenzmodell)

Implementierungsdetails

  • Alle Workflows enthalten Syntaxreparatur-Iterationen
  • Latenzmessungen werden durch mehrere Faktoren beeinflusst (Modellregion, Netzwerklatenz, Serverressourcen usw.)
  • Verwendung von BIRD Mini-Dev für Effizienzbetrachtungen

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Leistung von Inferenzmodellen vs. allgemeinen Modellen

  • Schlüsselfeststellung: DC 3-shot+ReAct-Workflow verbessert konsistent den Soft-F1-Score für alle Modelle
  • GPT-4o: Verbesserung von Baseline 61,1 auf 64,4
  • o4-mini: Verbesserung von Baseline 56,3 auf 65,5
  • Schlussfolgerung: Auch spezialisierte Inferenzmodelle profitieren von expliziter programmatischer Anleitung

RQ2: Wirksamste Skalierungsmethoden

  1. Beste Kombination: Divide-and-Conquer + Few-Shot-Demonstrationen + ReAct zeigen konsistente Verbesserungen über alle Modelle
  2. Verifizierungsmethode: Bietet zuverlässige Leistungsverbesserungen bei den meisten Modellen
    • Gemini 1.5 Flash: 62,58 → 63,63
    • Gemini 2.5 Flash: 68,12 → 68,44
    • GPT-4o: 64,44 → 64,95
  3. Abruf-verbesserte Methode: Insgesamt schlechte Leistung, unterschreitet DC 3-shot+ReAct bei fast allen Modellen

RQ3: Kompromiss zwischen Genauigkeit und Systemleistung

  1. Signifikante Latenzunterschiede:
    • Gemini Flash-Modelle: 5,02-12,03 Sekunden
    • GPT-4o und o4-mini: 15,70-18,43 Sekunden
  2. Kosten falscher Antworten: Generierung falscher Antworten dauert 19,58% länger als korrekte Antworten
  3. Komplexitätsauswirkungen: Schwierigere Fragen erfordern mehr Zeit, verbrauchen mehr Token und haben oft niedrigere Genauigkeitsraten

Ablationsstudien

Durch Fehleranalyse entdeckt:

  • Wrong Query Logic ist der häufigste Fehlertyp bei allen Methoden und Modellen
  • Abruf-verbesserte Methoden verschärfen dieses Problem konsistent
  • Abrufmethoden erhöhen auch die Quote von Schema Linking Errors

Fallstudien

Das Paper führt detaillierte Fehleranalysen durch, klassifiziert fehlgeschlagene Fälle mit dem o4-mini-Modell und stellt fest, dass abruf-verbesserte Methoden in komplexen Reasoning-Aufgaben möglicherweise kritische Informationen vom Modell entziehen und die Leistung beeinträchtigen.

Verwandte Arbeiten

Text2SQL-Agenten-Workflows

Das Paper systematisiert bestehende Text2SQL-Agenten-Workflows, einschließlich:

  • DIN-SQL's Decomposition Context Learning
  • MAC-SQL's Multi-Agent Collaboration Framework
  • CHESS's Contextual SQL Synthesis
  • R3's Consensus Multi-Agent System

Test-Time-Skalierungsstrategien

Umfasst mehrere Strategien wie strukturierte Reasoning-Schritte, parallele Ausführung, Verifizierung und Ergebnisgregation, die die Abfragegenerierung durch sequenzielle Workflows in modulare Schritte zerlegen.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Bedeutung des Basismodells: Ein starkes Basismodell ist wichtiger als Workflow-Komplexität (Gemini 2.5 Flash Baseline-Leistung übertrifft die komplexesten Workflows von GPT-4o und Gemini 1.5 Flash)
  2. Universalität von DC+Few-Shot: Divide-and-Conquer-Anweisungen und Few-Shot-Demonstrationen bieten signifikante Verbesserungen für alle Modelltypen
  3. Abnehmende Grenzerträge der Komplexität: Die Erhöhung der Workflow-Komplexität führt nicht immer zu besseren Ergebnissen

Einschränkungen

  1. Begrenzte Bewertungsreichweite: Konzentriert sich nur auf leichte Workflows, kann möglicherweise nicht die Leistungsobergrenze komplexerer Designs darstellen
  2. Einzelner Datensatz: Nur auf BIRD Mini-Dev bewertet, fehlt umfassendere Validierung
  3. Relativität von Latenzmetriken: Gemeldete Latenz- und Token-Verbrauchswerte werden durch externe Faktoren beeinflusst und sollten als indikativ statt absolut betrachtet werden

Zukünftige Richtungen

  1. Prüfung komplexerer Workflow-Designs
  2. Validierung von Erkenntnissen auf umfassenderen Datensätzen
  3. Erkundung der Anwendbarkeit dieser Strategien auf andere Aufgaben
  4. Produktdesign-Optimierung zur Verwaltung von Benutzererwartungen

Tiefgreifende Bewertung

Stärken

  1. Praxisorientierung: Konzentriert sich auf industriereife Lösungen und berücksichtigt Einschränkungen praktischer Implementierung
  2. Mehrdimensionale Bewertung: Berücksichtigt nicht nur Genauigkeit, sondern auch Latenz und Ressourcenverbrauch und bietet eine umfassende Perspektive für praktische Anwendungen
  3. Systematischer Vergleich: Gleichzeitige Bewertung von allgemeinen Modellen und Inferenzmodellen bietet wertvolle Vergleichserkenntnisse
  4. Detaillierte Fehleranalyse: Tiefes Verständnis der Fehlermuster verschiedener Methoden durch Fehlerklassifizierung

Mängel

  1. Begrenzte Stichprobengröße: Verwendung von nur 500 Samples aus BIRD Mini-Dev kann die Verallgemeinerbarkeit von Schlussfolgerungen beeinträchtigen
  2. Unvollständige Modellabdeckung: Fehlen von Vergleichen mit anderen Mainstream-Modellen (wie Claude, LLaMA-Serie)
  3. Konservatives Workflow-Design: Konzentration auf leichte Methoden könnte das Potenzial fortgeschrittenerer Techniken übersehen
  4. Fehlende Benutzerforschung: Keine Bewertung der Erfahrung echter Benutzer

Auswirkungen

  1. Akademischer Beitrag: Bietet systematische Benchmarks für Test-Time-Skalierungsstrategien im Text2SQL-Bereich
  2. Industrieller Wert: Bietet praktische Richtlinien für die Unternehmensimplementierung von Text2SQL-Systemen
  3. Methodologische Inspiration: Der mehrdimensionale Bewertungsrahmen kann auf andere NLP-Aufgaben in der Industrialisierung angewendet werden

Anwendungsszenarien

  1. Unternehmens-Datenbankabfragen: Geeignet für Unternehmensumgebungen, die schnelle Implementierung mit ausgewogener Genauigkeit und Effizienz erfordern
  2. Prototypentwicklung: Bietet validierte Workflow-Muster für schnelle Prototypentwicklung von Text2SQL-Systemen
  3. Modellauswahlleitung: Hilft Entwicklern, basierend auf spezifischen Anforderungen geeignete Basismodelle und Workflow-Strategien auszuwählen

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten im Text2SQL-Bereich, einschließlich:

  • BIRD Benchmark-Datensatz (Li et al., 2023)
  • DIN-SQL Decomposition-Methode (Pourreza & Rafiei, 2023)
  • CHESS Contextual Synthesis (Talaei et al., 2024)
  • ReAct Reasoning Framework (Yao et al., 2023)
  • Chain-of-Thought Prompting (Wei et al., 2022)

Diese Forschung bietet wertvolle empirische Richtlinien für die praktische Implementierung von Text2SQL-Systemen, insbesondere beim Ausgleich von Genauigkeit, Effizienz und Komplexität. Die Erkenntnisse sind von großer Bedeutung für die Förderung der Umwandlung von Text2SQL-Technologie von Forschungsprototypen zu Industrieanwendungen.