2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.

Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.

academic

Переосмысление Агентных Рабочих Процессов: Оценка Стратегий Масштабирования на Этапе Тестирования в Задачах Text2SQL

Основная информация

ID статьи: 2510.10885
Название: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
Авторы: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
Классификация: cs.CL (Вычислительная лингвистика), cs.DB (Базы данных)
Конференция: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
Ссылка на статью: https://arxiv.org/abs/2510.10885

Аннотация

Большие языковые модели (LLMs) все чаще используются для поддержки систем Text-to-SQL, позволяя непрофессиональным пользователям запрашивать промышленные базы данных на естественном языке. Хотя стратегии масштабирования на этапе тестирования показывают перспективность в решениях на основе LLM, их эффективность в практических приложениях, особенно с использованием новейших моделей рассуждений, остается неопределенной. В данном исследовании проводится бенчмаркинг шести легковесных, ориентированных на промышленность стратегий масштабирования на этапе тестирования и четырех LLMs (включая две модели рассуждений) на бенчмарке BIRD Mini-Dev. Помимо стандартных метрик точности, сообщаются задержки вывода и потребление токенов, обеспечивая релевантные выводы для практического развертывания систем. Исследование показывает, что подсказки "разделяй и властвуй" и демонстрации с несколькими примерами последовательно улучшают производительность как универсальных, так и ориентированных на рассуждения LLMs. Однако введение дополнительных этапов рабочего процесса дает смешанные результаты, при этом выбор базовой модели играет критическую роль.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: как стратегии масштабирования на этапе тестирования (test-time scaling strategies) влияют на различные типы LLMs в задачах Text2SQL, особенно в отношении компромиссов производительности в практических промышленных сценариях.

Значимость исследования

Практическая ценность: Системы Text2SQL позволяют нетехническим пользователям получать доступ к корпоративным базам данных через естественный язык, что имеет значительную коммерческую ценность
Технические вызовы: С появлением моделей рассуждений, таких как OpenAI o-series и Gemini 2.5, необходимо переоценить необходимость традиционных методов инженерии рабочих процессов
Промышленные требования: Практическое развертывание требует баланса между точностью, задержкой и сложностью

Ограничения существующих подходов

Существующие исследования часто сосредоточены на сложных агентных рабочих процессах, которые могут быть чрезмерно сложными для промышленного применения
Отсутствует систематическая оценка моделей рассуждений в задачах Text2SQL
Мало исследований, которые одновременно рассматривают точность и системные метрики производительности (такие как задержка и потребление токенов)

Исследовательская мотивация

Авторы выдвигают три ключевых вопроса:

Учитывая прогресс в моделях рассуждений, остается ли ценным обширное инженерное проектирование подсказок и рабочих процессов?
Какие стратегии масштабирования на этапе тестирования лучше всего балансируют точность и задержку?
Как оптимизировать рабочие процессы для промышленного применения?

Основные вклады

Систематический бенчмаркинг: Комплексная оценка шести легковесных, ориентированных на промышленность агентных рабочих процессов, охватывающая четыре LLMs (включая универсальные модели и модели рассуждений)
Многомерная оценка: Помимо метрик точности, предоставляется детальный анализ задержек вывода и потребления токенов
Практические выводы: Обнаружено, что инструкции "разделяй и властвуй" и демонстрации с несколькими примерами обеспечивают значительные улучшения для всех моделей
Руководство по промышленному развертыванию: Предоставляет практические рекомендации для развертывания систем Text2SQL, касающиеся компромиссов между точностью, эффективностью и сложностью

Подробное описание методологии

Определение задачи

Задача Text2SQL направлена на преобразование вопросов на естественном языке в исполняемые SQL-запросы. Входные данные включают вопрос на естественном языке и схему базы данных, выходные данные — соответствующий SQL-запрос.

Шесть агентных рабочих процессов

1. CoT + ReAct (базовый уровень)

Процесс: SW > EX <> SR
Описание: Использует цикл "думай-действуй-наблюдай" агента ReAct, итеративно оптимизируя запросы при возникновении ошибок выполнения или пустых данных

2. Divide-and-Conquer (с/без несколько примеров)

Процесс: SW > EX <> SR
Инновация: Разбивает сложные проблемы на серию меньших подзадач, решает их последовательно и объединяет окончательный ответ
Варианты: Отдельно оценивается эффект с демонстрациями несколько примеров и без них

3. Parallel Scaling

Процесс: (SW > EX <> SR) ∥ 5 > MV / CS
Механизм: Генерирует несколько кандидатов ответов, выбирая окончательный ответ путем голосования большинством; при отсутствии большинства используется агент выбора кандидатов

4. Result Verification

Процесс: SW > EX <> SR <> FP
Цель: Обрабатывает SQL-запросы, синтаксически корректные, но семантически ошибочные, через поставщика обратной связи, определяя необходимость оптимизации

5. Retrieval-based Structured Reasoning

Процесс: KE > (ER ∥ CR) > SW > EX <> SR
Адаптировано из: Метода CHESS
Этапы:
- Извлекатель ключевых слов идентифицирует ключевые слова в вопросе
- Параллельно запускаются извлекатель сущностей (на основе индекса LSH) и извлекатель столбцов (на основе семантического сходства)
- Извлеченная информация передается писателю SQL

Технические инновации

Легковесный дизайн: Сосредоточение на готовых к промышленности рабочих процессах, а не на сложных методах из литературы
Сравнение нескольких моделей: Одновременная оценка универсальных моделей (GPT-4o, серия Gemini) и моделей рассуждений (o4-mini)
Комплексная оценка: Многомерная структура оценки, объединяющая точность, задержку и потребление ресурсов

Экспериментальная установка

Набор данных

Название: BIRD Mini-Dev benchmark
Размер: 500 пар вопрос-SQL
Источник: Подмножество, полученное из исходного набора BIRD Dev
Характеристики: Включает сложные кросс-табличные запросы и сценарии реальных баз данных

Метрики оценки

Метрики точности

Soft F1-Score: Оценивает корректность SQL-запроса путем измерения сходства таблиц, генерируемых предсказанным и истинным запросами
Execution Accuracy (EX): Процент SQL-запросов, генерирующих результаты, полностью идентичные истинным результатам
Reward-based Valid Efficiency Score (R-VES): Количественно определяет эффективность модели в генерировании корректных и оптимизированных SQL-запросов

Метрики системной производительности

Execution Error Rate: Процент задач, в которых рабочий процесс встречает синтаксические ошибки выполнения
Inference Time: Продолжительность от получения вопроса пользователя до генерирования SQL-запроса (в секундах)
Number of LLM Calls: Среднее количество вызовов LLM, используемых в рабочем процессе
Token Count: Среднее количество токенов подсказки и завершения, необходимых для генерирования одного SQL-запроса (в тысячах)

Методы сравнения

Четыре LLMs:

Gemini 1.5 Flash (универсальная модель)
Gemini 2.5 Flash (универсальная модель)
GPT-4o (универсальная модель)
o4-mini (модель рассуждений)

Детали реализации

Все рабочие процессы включают итерацию исправления синтаксиса
Измерение задержки зависит от множества факторов (регион модели, сетевая задержка, ресурсы сервера и т.д.)
Использование BIRD Mini-Dev для оценки эффективности

Результаты экспериментов

Основные результаты

RQ1: Производительность моделей рассуждений vs универсальных моделей

Ключевое открытие: Рабочий процесс DC 3-shot+ReAct последовательно повышает оценку Soft-F1 для всех моделей
GPT-4o: Улучшение с базовых 61,1 до 64,4
o4-mini: Улучшение с базовых 56,3 до 65,5
Вывод: Даже специализированные модели рассуждений выигрывают от явного программного руководства

RQ2: Наиболее эффективные методы масштабирования

Оптимальная комбинация: Divide-and-Conquer + демонстрации несколько примеров + ReAct показывают последовательное улучшение на всех моделях
Метод верификации: Обеспечивает надежное повышение производительности на большинстве моделей
- Gemini 1.5 Flash: 62,58 → 63,63
- Gemini 2.5 Flash: 68,12 → 68,44
- GPT-4o: 64,44 → 64,95
Методы, основанные на извлечении: Показывают в целом слабую производительность, уступая DC 3-shot+ReAct почти на всех моделях

RQ3: Компромисс между точностью и системной производительностью

Значительные различия в задержке:
- Модели Gemini Flash: 5,02-12,03 секунды
- GPT-4o и o4-mini: 15,70-18,43 секунды
Стоимость неправильных ответов: Генерирование неправильных ответов занимает на 19,58% больше времени, чем правильных
Влияние сложности: Более сложные вопросы требуют больше времени, потребляют больше токенов и часто имеют более низкую точность

Абляционные эксперименты

Посредством анализа ошибок обнаружено:

Wrong Query Logic является наиболее распространенным типом отказа для всех методов и моделей
Методы, основанные на извлечении, последовательно усугубляют эту проблему
Методы извлечения также увеличивают долю ошибок Schema Linking

Анализ примеров

Статья проводит детальный анализ ошибок, классифицируя неудачные случаи с использованием модели o4-mini, обнаруживая, что методы, основанные на извлечении, могут лишить модель критической информации в сложных задачах рассуждений, приводя к снижению производительности.

Связанные работы

Агентные рабочие процессы Text2SQL

Статья систематически рассматривает существующие агентные рабочие процессы Text2SQL, включая:

Контекстное обучение разложению DIN-SQL
Структуру многоагентного сотрудничества MAC-SQL
Синтез контекстного SQL CHESS
Систему консенсуса многоагентов R3

Стратегии масштабирования на этапе тестирования

Охватывает множество стратегий, включая этапы структурированного рассуждения, параллельное выполнение, верификацию и агрегацию результатов, при этом эти методы разбивают генерирование запросов на модульные этапы посредством последовательных рабочих процессов.

Выводы и обсуждение

Основные выводы

Важность базовой модели: Мощная базовая модель важнее сложности рабочего процесса (базовая производительность Gemini 2.5 Flash превосходит самые сложные рабочие процессы GPT-4o и Gemini 1.5 Flash)
Универсальность DC+несколько примеров: Инструкции "разделяй и властвуй" и демонстрации несколько примеров обеспечивают значительные улучшения для всех типов моделей
Убывающая предельная отдача сложности: Увеличение сложности рабочего процесса не всегда приводит к лучшим результатам

Ограничения

Ограниченный объем оценки: Сосредоточение только на легковесных рабочих процессах может не представлять верхний предел производительности более сложных конструкций
Единственный набор данных: Оценка только на BIRD Mini-Dev, отсутствие более широкой валидации
Относительность метрик задержки: Сообщаемые задержки и потребление токенов зависят от внешних факторов и должны рассматриваться как индикативные, а не абсолютные значения

Направления будущих исследований

Исследование более сложных конструкций рабочих процессов
Валидация выводов на более широких наборах данных
Изучение применимости этих стратегий к другим задачам
Оптимизация дизайна продукта для управления ожиданиями пользователей

Глубокая оценка

Преимущества

Практическая ориентация: Сосредоточение на готовых к промышленности решениях, учитывающих ограничения практического развертывания
Многомерная оценка: Рассмотрение не только точности, но и задержки и потребления ресурсов, обеспечивающее комплексный взгляд на практическое применение
Систематическое сравнение: Одновременная оценка универсальных моделей и моделей рассуждений, предоставляющая ценные сравнительные выводы
Детальный анализ ошибок: Глубокое понимание паттернов отказа различных методов посредством классификации ошибок

Недостатки

Ограничение размера выборки: Использование только 500 образцов из BIRD Mini-Dev может повлиять на обобщаемость выводов
Неполное покрытие моделей: Отсутствие сравнения с другими основными моделями (такими как Claude, серия LLaMA)
Консервативный дизайн рабочего процесса: Сосредоточение на легковесных методах может упустить потенциал более передовых технологий
Отсутствие исследования пользователей: Нет оценки опыта реальных пользователей

Влияние

Академический вклад: Предоставляет систематический бенчмарк для стратегий масштабирования на этапе тестирования в области Text2SQL
Промышленная ценность: Предоставляет практические руководящие принципы для развертывания систем Text2SQL в корпоративной среде
Методологическое вдохновение: Многомерная структура оценки может быть применена к индустриализации других задач NLP

Применимые сценарии

Запросы к корпоративным базам данных: Подходит для корпоративной среды, требующей быстрого развертывания и баланса между точностью и эффективностью
Разработка прототипов: Предоставляет проверенные паттерны рабочих процессов для быстрого прототипирования систем Text2SQL
Руководство по выбору модели: Помогает разработчикам выбирать подходящие базовые модели и стратегии рабочих процессов в соответствии с конкретными требованиями

Библиография

Статья цитирует важные работы в области Text2SQL, включая:

Набор данных BIRD (Li et al., 2023)
Метод разложения DIN-SQL (Pourreza & Rafiei, 2023)
Синтез контекстного SQL CHESS (Talaei et al., 2024)
Структура рассуждений ReAct (Yao et al., 2023)
Подсказки Chain-of-Thought (Wei et al., 2022)

Данное исследование предоставляет ценные эмпирические руководящие принципы для практического развертывания систем Text2SQL, особенно в отношении баланса между точностью, эффективностью и сложностью. Его выводы имеют важное значение для содействия преобразованию технологии Text2SQL от исследовательских прототипов к промышленному применению.