2025-11-17T07:49:13.607812

Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks

Guo, Patel, Ono et al.
Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
academic

Переосмысление Агентных Рабочих Процессов: Оценка Стратегий Масштабирования на Этапе Тестирования в Задачах Text2SQL

Основная информация

  • ID статьи: 2510.10885
  • Название: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
  • Авторы: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
  • Классификация: cs.CL (Вычислительная лингвистика), cs.DB (Базы данных)
  • Конференция: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
  • Ссылка на статью: https://arxiv.org/abs/2510.10885

Аннотация

Большие языковые модели (LLMs) все чаще используются для поддержки систем Text-to-SQL, позволяя непрофессиональным пользователям запрашивать промышленные базы данных на естественном языке. Хотя стратегии масштабирования на этапе тестирования показывают перспективность в решениях на основе LLM, их эффективность в практических приложениях, особенно с использованием новейших моделей рассуждений, остается неопределенной. В данном исследовании проводится бенчмаркинг шести легковесных, ориентированных на промышленность стратегий масштабирования на этапе тестирования и четырех LLMs (включая две модели рассуждений) на бенчмарке BIRD Mini-Dev. Помимо стандартных метрик точности, сообщаются задержки вывода и потребление токенов, обеспечивая релевантные выводы для практического развертывания систем. Исследование показывает, что подсказки "разделяй и властвуй" и демонстрации с несколькими примерами последовательно улучшают производительность как универсальных, так и ориентированных на рассуждения LLMs. Однако введение дополнительных этапов рабочего процесса дает смешанные результаты, при этом выбор базовой модели играет критическую роль.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: как стратегии масштабирования на этапе тестирования (test-time scaling strategies) влияют на различные типы LLMs в задачах Text2SQL, особенно в отношении компромиссов производительности в практических промышленных сценариях.

Значимость исследования

  1. Практическая ценность: Системы Text2SQL позволяют нетехническим пользователям получать доступ к корпоративным базам данных через естественный язык, что имеет значительную коммерческую ценность
  2. Технические вызовы: С появлением моделей рассуждений, таких как OpenAI o-series и Gemini 2.5, необходимо переоценить необходимость традиционных методов инженерии рабочих процессов
  3. Промышленные требования: Практическое развертывание требует баланса между точностью, задержкой и сложностью

Ограничения существующих подходов

  1. Существующие исследования часто сосредоточены на сложных агентных рабочих процессах, которые могут быть чрезмерно сложными для промышленного применения
  2. Отсутствует систематическая оценка моделей рассуждений в задачах Text2SQL
  3. Мало исследований, которые одновременно рассматривают точность и системные метрики производительности (такие как задержка и потребление токенов)

Исследовательская мотивация

Авторы выдвигают три ключевых вопроса:

  • Учитывая прогресс в моделях рассуждений, остается ли ценным обширное инженерное проектирование подсказок и рабочих процессов?
  • Какие стратегии масштабирования на этапе тестирования лучше всего балансируют точность и задержку?
  • Как оптимизировать рабочие процессы для промышленного применения?

Основные вклады

  1. Систематический бенчмаркинг: Комплексная оценка шести легковесных, ориентированных на промышленность агентных рабочих процессов, охватывающая четыре LLMs (включая универсальные модели и модели рассуждений)
  2. Многомерная оценка: Помимо метрик точности, предоставляется детальный анализ задержек вывода и потребления токенов
  3. Практические выводы: Обнаружено, что инструкции "разделяй и властвуй" и демонстрации с несколькими примерами обеспечивают значительные улучшения для всех моделей
  4. Руководство по промышленному развертыванию: Предоставляет практические рекомендации для развертывания систем Text2SQL, касающиеся компромиссов между точностью, эффективностью и сложностью

Подробное описание методологии

Определение задачи

Задача Text2SQL направлена на преобразование вопросов на естественном языке в исполняемые SQL-запросы. Входные данные включают вопрос на естественном языке и схему базы данных, выходные данные — соответствующий SQL-запрос.

Шесть агентных рабочих процессов

1. CoT + ReAct (базовый уровень)

  • Процесс: SW > EX <> SR
  • Описание: Использует цикл "думай-действуй-наблюдай" агента ReAct, итеративно оптимизируя запросы при возникновении ошибок выполнения или пустых данных

2. Divide-and-Conquer (с/без несколько примеров)

  • Процесс: SW > EX <> SR
  • Инновация: Разбивает сложные проблемы на серию меньших подзадач, решает их последовательно и объединяет окончательный ответ
  • Варианты: Отдельно оценивается эффект с демонстрациями несколько примеров и без них

3. Parallel Scaling

  • Процесс: (SW > EX <> SR) ∥ 5 > MV / CS
  • Механизм: Генерирует несколько кандидатов ответов, выбирая окончательный ответ путем голосования большинством; при отсутствии большинства используется агент выбора кандидатов

4. Result Verification

  • Процесс: SW > EX <> SR <> FP
  • Цель: Обрабатывает SQL-запросы, синтаксически корректные, но семантически ошибочные, через поставщика обратной связи, определяя необходимость оптимизации

5. Retrieval-based Structured Reasoning

  • Процесс: KE > (ER ∥ CR) > SW > EX <> SR
  • Адаптировано из: Метода CHESS
  • Этапы:
    • Извлекатель ключевых слов идентифицирует ключевые слова в вопросе
    • Параллельно запускаются извлекатель сущностей (на основе индекса LSH) и извлекатель столбцов (на основе семантического сходства)
    • Извлеченная информация передается писателю SQL

Технические инновации

  1. Легковесный дизайн: Сосредоточение на готовых к промышленности рабочих процессах, а не на сложных методах из литературы
  2. Сравнение нескольких моделей: Одновременная оценка универсальных моделей (GPT-4o, серия Gemini) и моделей рассуждений (o4-mini)
  3. Комплексная оценка: Многомерная структура оценки, объединяющая точность, задержку и потребление ресурсов

Экспериментальная установка

Набор данных

  • Название: BIRD Mini-Dev benchmark
  • Размер: 500 пар вопрос-SQL
  • Источник: Подмножество, полученное из исходного набора BIRD Dev
  • Характеристики: Включает сложные кросс-табличные запросы и сценарии реальных баз данных

Метрики оценки

Метрики точности

  1. Soft F1-Score: Оценивает корректность SQL-запроса путем измерения сходства таблиц, генерируемых предсказанным и истинным запросами
  2. Execution Accuracy (EX): Процент SQL-запросов, генерирующих результаты, полностью идентичные истинным результатам
  3. Reward-based Valid Efficiency Score (R-VES): Количественно определяет эффективность модели в генерировании корректных и оптимизированных SQL-запросов

Метрики системной производительности

  1. Execution Error Rate: Процент задач, в которых рабочий процесс встречает синтаксические ошибки выполнения
  2. Inference Time: Продолжительность от получения вопроса пользователя до генерирования SQL-запроса (в секундах)
  3. Number of LLM Calls: Среднее количество вызовов LLM, используемых в рабочем процессе
  4. Token Count: Среднее количество токенов подсказки и завершения, необходимых для генерирования одного SQL-запроса (в тысячах)

Методы сравнения

Четыре LLMs:

  • Gemini 1.5 Flash (универсальная модель)
  • Gemini 2.5 Flash (универсальная модель)
  • GPT-4o (универсальная модель)
  • o4-mini (модель рассуждений)

Детали реализации

  • Все рабочие процессы включают итерацию исправления синтаксиса
  • Измерение задержки зависит от множества факторов (регион модели, сетевая задержка, ресурсы сервера и т.д.)
  • Использование BIRD Mini-Dev для оценки эффективности

Результаты экспериментов

Основные результаты

RQ1: Производительность моделей рассуждений vs универсальных моделей

  • Ключевое открытие: Рабочий процесс DC 3-shot+ReAct последовательно повышает оценку Soft-F1 для всех моделей
  • GPT-4o: Улучшение с базовых 61,1 до 64,4
  • o4-mini: Улучшение с базовых 56,3 до 65,5
  • Вывод: Даже специализированные модели рассуждений выигрывают от явного программного руководства

RQ2: Наиболее эффективные методы масштабирования

  1. Оптимальная комбинация: Divide-and-Conquer + демонстрации несколько примеров + ReAct показывают последовательное улучшение на всех моделях
  2. Метод верификации: Обеспечивает надежное повышение производительности на большинстве моделей
    • Gemini 1.5 Flash: 62,58 → 63,63
    • Gemini 2.5 Flash: 68,12 → 68,44
    • GPT-4o: 64,44 → 64,95
  3. Методы, основанные на извлечении: Показывают в целом слабую производительность, уступая DC 3-shot+ReAct почти на всех моделях

RQ3: Компромисс между точностью и системной производительностью

  1. Значительные различия в задержке:
    • Модели Gemini Flash: 5,02-12,03 секунды
    • GPT-4o и o4-mini: 15,70-18,43 секунды
  2. Стоимость неправильных ответов: Генерирование неправильных ответов занимает на 19,58% больше времени, чем правильных
  3. Влияние сложности: Более сложные вопросы требуют больше времени, потребляют больше токенов и часто имеют более низкую точность

Абляционные эксперименты

Посредством анализа ошибок обнаружено:

  • Wrong Query Logic является наиболее распространенным типом отказа для всех методов и моделей
  • Методы, основанные на извлечении, последовательно усугубляют эту проблему
  • Методы извлечения также увеличивают долю ошибок Schema Linking

Анализ примеров

Статья проводит детальный анализ ошибок, классифицируя неудачные случаи с использованием модели o4-mini, обнаруживая, что методы, основанные на извлечении, могут лишить модель критической информации в сложных задачах рассуждений, приводя к снижению производительности.

Связанные работы

Агентные рабочие процессы Text2SQL

Статья систематически рассматривает существующие агентные рабочие процессы Text2SQL, включая:

  • Контекстное обучение разложению DIN-SQL
  • Структуру многоагентного сотрудничества MAC-SQL
  • Синтез контекстного SQL CHESS
  • Систему консенсуса многоагентов R3

Стратегии масштабирования на этапе тестирования

Охватывает множество стратегий, включая этапы структурированного рассуждения, параллельное выполнение, верификацию и агрегацию результатов, при этом эти методы разбивают генерирование запросов на модульные этапы посредством последовательных рабочих процессов.

Выводы и обсуждение

Основные выводы

  1. Важность базовой модели: Мощная базовая модель важнее сложности рабочего процесса (базовая производительность Gemini 2.5 Flash превосходит самые сложные рабочие процессы GPT-4o и Gemini 1.5 Flash)
  2. Универсальность DC+несколько примеров: Инструкции "разделяй и властвуй" и демонстрации несколько примеров обеспечивают значительные улучшения для всех типов моделей
  3. Убывающая предельная отдача сложности: Увеличение сложности рабочего процесса не всегда приводит к лучшим результатам

Ограничения

  1. Ограниченный объем оценки: Сосредоточение только на легковесных рабочих процессах может не представлять верхний предел производительности более сложных конструкций
  2. Единственный набор данных: Оценка только на BIRD Mini-Dev, отсутствие более широкой валидации
  3. Относительность метрик задержки: Сообщаемые задержки и потребление токенов зависят от внешних факторов и должны рассматриваться как индикативные, а не абсолютные значения

Направления будущих исследований

  1. Исследование более сложных конструкций рабочих процессов
  2. Валидация выводов на более широких наборах данных
  3. Изучение применимости этих стратегий к другим задачам
  4. Оптимизация дизайна продукта для управления ожиданиями пользователей

Глубокая оценка

Преимущества

  1. Практическая ориентация: Сосредоточение на готовых к промышленности решениях, учитывающих ограничения практического развертывания
  2. Многомерная оценка: Рассмотрение не только точности, но и задержки и потребления ресурсов, обеспечивающее комплексный взгляд на практическое применение
  3. Систематическое сравнение: Одновременная оценка универсальных моделей и моделей рассуждений, предоставляющая ценные сравнительные выводы
  4. Детальный анализ ошибок: Глубокое понимание паттернов отказа различных методов посредством классификации ошибок

Недостатки

  1. Ограничение размера выборки: Использование только 500 образцов из BIRD Mini-Dev может повлиять на обобщаемость выводов
  2. Неполное покрытие моделей: Отсутствие сравнения с другими основными моделями (такими как Claude, серия LLaMA)
  3. Консервативный дизайн рабочего процесса: Сосредоточение на легковесных методах может упустить потенциал более передовых технологий
  4. Отсутствие исследования пользователей: Нет оценки опыта реальных пользователей

Влияние

  1. Академический вклад: Предоставляет систематический бенчмарк для стратегий масштабирования на этапе тестирования в области Text2SQL
  2. Промышленная ценность: Предоставляет практические руководящие принципы для развертывания систем Text2SQL в корпоративной среде
  3. Методологическое вдохновение: Многомерная структура оценки может быть применена к индустриализации других задач NLP

Применимые сценарии

  1. Запросы к корпоративным базам данных: Подходит для корпоративной среды, требующей быстрого развертывания и баланса между точностью и эффективностью
  2. Разработка прототипов: Предоставляет проверенные паттерны рабочих процессов для быстрого прототипирования систем Text2SQL
  3. Руководство по выбору модели: Помогает разработчикам выбирать подходящие базовые модели и стратегии рабочих процессов в соответствии с конкретными требованиями

Библиография

Статья цитирует важные работы в области Text2SQL, включая:

  • Набор данных BIRD (Li et al., 2023)
  • Метод разложения DIN-SQL (Pourreza & Rafiei, 2023)
  • Синтез контекстного SQL CHESS (Talaei et al., 2024)
  • Структура рассуждений ReAct (Yao et al., 2023)
  • Подсказки Chain-of-Thought (Wei et al., 2022)

Данное исследование предоставляет ценные эмпирические руководящие принципы для практического развертывания систем Text2SQL, особенно в отношении баланса между точностью, эффективностью и сложностью. Его выводы имеют важное значение для содействия преобразованию технологии Text2SQL от исследовательских прототипов к промышленному применению.