Large language models (LLMs) are increasingly powering Text-to-SQL (Text2SQL) systems, enabling non-expert users to query industrial databases using natural language. While test-time scaling strategies have shown promise in LLM-based solutions, their effectiveness in real-world applications, especially with the latest reasoning models, remains uncertain. In this work, we benchmark six lightweight, industry-oriented test-time scaling strategies and four LLMs, including two reasoning models, evaluating their performance on the BIRD Mini-Dev benchmark. Beyond standard accuracy metrics, we also report inference latency and token consumption, providing insights relevant for practical system deployment. Our findings reveal that Divide-and-Conquer prompting and few-shot demonstrations consistently enhance performance for both general-purpose and reasoning-focused LLMs. However, introducing additional workflow steps yields mixed results, and base model selection plays a critical role. This work sheds light on the practical trade-offs between accuracy, efficiency, and complexity when deploying Text2SQL systems.
- ID статьи: 2510.10885
- Название: Rethinking Agentic Workflows: Evaluating Inference-Based Test-Time Scaling Strategies in Text2SQL Tasks
- Авторы: Jiajing Guo, Kenil Patel, Jorge Piazentin Ono, Wenbin He, Liu Ren (Bosch Research North America, USA)
- Классификация: cs.CL (Вычислительная лингвистика), cs.DB (Базы данных)
- Конференция: Workshop on Test-time Scaling and Reasoning Models at COLM 2025
- Ссылка на статью: https://arxiv.org/abs/2510.10885
Большие языковые модели (LLMs) все чаще используются для поддержки систем Text-to-SQL, позволяя непрофессиональным пользователям запрашивать промышленные базы данных на естественном языке. Хотя стратегии масштабирования на этапе тестирования показывают перспективность в решениях на основе LLM, их эффективность в практических приложениях, особенно с использованием новейших моделей рассуждений, остается неопределенной. В данном исследовании проводится бенчмаркинг шести легковесных, ориентированных на промышленность стратегий масштабирования на этапе тестирования и четырех LLMs (включая две модели рассуждений) на бенчмарке BIRD Mini-Dev. Помимо стандартных метрик точности, сообщаются задержки вывода и потребление токенов, обеспечивая релевантные выводы для практического развертывания систем. Исследование показывает, что подсказки "разделяй и властвуй" и демонстрации с несколькими примерами последовательно улучшают производительность как универсальных, так и ориентированных на рассуждения LLMs. Однако введение дополнительных этапов рабочего процесса дает смешанные результаты, при этом выбор базовой модели играет критическую роль.
Основной вопрос, который решает данное исследование: как стратегии масштабирования на этапе тестирования (test-time scaling strategies) влияют на различные типы LLMs в задачах Text2SQL, особенно в отношении компромиссов производительности в практических промышленных сценариях.
- Практическая ценность: Системы Text2SQL позволяют нетехническим пользователям получать доступ к корпоративным базам данных через естественный язык, что имеет значительную коммерческую ценность
- Технические вызовы: С появлением моделей рассуждений, таких как OpenAI o-series и Gemini 2.5, необходимо переоценить необходимость традиционных методов инженерии рабочих процессов
- Промышленные требования: Практическое развертывание требует баланса между точностью, задержкой и сложностью
- Существующие исследования часто сосредоточены на сложных агентных рабочих процессах, которые могут быть чрезмерно сложными для промышленного применения
- Отсутствует систематическая оценка моделей рассуждений в задачах Text2SQL
- Мало исследований, которые одновременно рассматривают точность и системные метрики производительности (такие как задержка и потребление токенов)
Авторы выдвигают три ключевых вопроса:
- Учитывая прогресс в моделях рассуждений, остается ли ценным обширное инженерное проектирование подсказок и рабочих процессов?
- Какие стратегии масштабирования на этапе тестирования лучше всего балансируют точность и задержку?
- Как оптимизировать рабочие процессы для промышленного применения?
- Систематический бенчмаркинг: Комплексная оценка шести легковесных, ориентированных на промышленность агентных рабочих процессов, охватывающая четыре LLMs (включая универсальные модели и модели рассуждений)
- Многомерная оценка: Помимо метрик точности, предоставляется детальный анализ задержек вывода и потребления токенов
- Практические выводы: Обнаружено, что инструкции "разделяй и властвуй" и демонстрации с несколькими примерами обеспечивают значительные улучшения для всех моделей
- Руководство по промышленному развертыванию: Предоставляет практические рекомендации для развертывания систем Text2SQL, касающиеся компромиссов между точностью, эффективностью и сложностью
Задача Text2SQL направлена на преобразование вопросов на естественном языке в исполняемые SQL-запросы. Входные данные включают вопрос на естественном языке и схему базы данных, выходные данные — соответствующий SQL-запрос.
- Процесс: SW > EX <> SR
- Описание: Использует цикл "думай-действуй-наблюдай" агента ReAct, итеративно оптимизируя запросы при возникновении ошибок выполнения или пустых данных
- Процесс: SW > EX <> SR
- Инновация: Разбивает сложные проблемы на серию меньших подзадач, решает их последовательно и объединяет окончательный ответ
- Варианты: Отдельно оценивается эффект с демонстрациями несколько примеров и без них
- Процесс: (SW > EX <> SR) ∥ 5 > MV / CS
- Механизм: Генерирует несколько кандидатов ответов, выбирая окончательный ответ путем голосования большинством; при отсутствии большинства используется агент выбора кандидатов
- Процесс: SW > EX <> SR <> FP
- Цель: Обрабатывает SQL-запросы, синтаксически корректные, но семантически ошибочные, через поставщика обратной связи, определяя необходимость оптимизации
- Процесс: KE > (ER ∥ CR) > SW > EX <> SR
- Адаптировано из: Метода CHESS
- Этапы:
- Извлекатель ключевых слов идентифицирует ключевые слова в вопросе
- Параллельно запускаются извлекатель сущностей (на основе индекса LSH) и извлекатель столбцов (на основе семантического сходства)
- Извлеченная информация передается писателю SQL
- Легковесный дизайн: Сосредоточение на готовых к промышленности рабочих процессах, а не на сложных методах из литературы
- Сравнение нескольких моделей: Одновременная оценка универсальных моделей (GPT-4o, серия Gemini) и моделей рассуждений (o4-mini)
- Комплексная оценка: Многомерная структура оценки, объединяющая точность, задержку и потребление ресурсов
- Название: BIRD Mini-Dev benchmark
- Размер: 500 пар вопрос-SQL
- Источник: Подмножество, полученное из исходного набора BIRD Dev
- Характеристики: Включает сложные кросс-табличные запросы и сценарии реальных баз данных
- Soft F1-Score: Оценивает корректность SQL-запроса путем измерения сходства таблиц, генерируемых предсказанным и истинным запросами
- Execution Accuracy (EX): Процент SQL-запросов, генерирующих результаты, полностью идентичные истинным результатам
- Reward-based Valid Efficiency Score (R-VES): Количественно определяет эффективность модели в генерировании корректных и оптимизированных SQL-запросов
- Execution Error Rate: Процент задач, в которых рабочий процесс встречает синтаксические ошибки выполнения
- Inference Time: Продолжительность от получения вопроса пользователя до генерирования SQL-запроса (в секундах)
- Number of LLM Calls: Среднее количество вызовов LLM, используемых в рабочем процессе
- Token Count: Среднее количество токенов подсказки и завершения, необходимых для генерирования одного SQL-запроса (в тысячах)
Четыре LLMs:
- Gemini 1.5 Flash (универсальная модель)
- Gemini 2.5 Flash (универсальная модель)
- GPT-4o (универсальная модель)
- o4-mini (модель рассуждений)
- Все рабочие процессы включают итерацию исправления синтаксиса
- Измерение задержки зависит от множества факторов (регион модели, сетевая задержка, ресурсы сервера и т.д.)
- Использование BIRD Mini-Dev для оценки эффективности
- Ключевое открытие: Рабочий процесс DC 3-shot+ReAct последовательно повышает оценку Soft-F1 для всех моделей
- GPT-4o: Улучшение с базовых 61,1 до 64,4
- o4-mini: Улучшение с базовых 56,3 до 65,5
- Вывод: Даже специализированные модели рассуждений выигрывают от явного программного руководства
- Оптимальная комбинация: Divide-and-Conquer + демонстрации несколько примеров + ReAct показывают последовательное улучшение на всех моделях
- Метод верификации: Обеспечивает надежное повышение производительности на большинстве моделей
- Gemini 1.5 Flash: 62,58 → 63,63
- Gemini 2.5 Flash: 68,12 → 68,44
- GPT-4o: 64,44 → 64,95
- Методы, основанные на извлечении: Показывают в целом слабую производительность, уступая DC 3-shot+ReAct почти на всех моделях
- Значительные различия в задержке:
- Модели Gemini Flash: 5,02-12,03 секунды
- GPT-4o и o4-mini: 15,70-18,43 секунды
- Стоимость неправильных ответов: Генерирование неправильных ответов занимает на 19,58% больше времени, чем правильных
- Влияние сложности: Более сложные вопросы требуют больше времени, потребляют больше токенов и часто имеют более низкую точность
Посредством анализа ошибок обнаружено:
- Wrong Query Logic является наиболее распространенным типом отказа для всех методов и моделей
- Методы, основанные на извлечении, последовательно усугубляют эту проблему
- Методы извлечения также увеличивают долю ошибок Schema Linking
Статья проводит детальный анализ ошибок, классифицируя неудачные случаи с использованием модели o4-mini, обнаруживая, что методы, основанные на извлечении, могут лишить модель критической информации в сложных задачах рассуждений, приводя к снижению производительности.
Статья систематически рассматривает существующие агентные рабочие процессы Text2SQL, включая:
- Контекстное обучение разложению DIN-SQL
- Структуру многоагентного сотрудничества MAC-SQL
- Синтез контекстного SQL CHESS
- Систему консенсуса многоагентов R3
Охватывает множество стратегий, включая этапы структурированного рассуждения, параллельное выполнение, верификацию и агрегацию результатов, при этом эти методы разбивают генерирование запросов на модульные этапы посредством последовательных рабочих процессов.
- Важность базовой модели: Мощная базовая модель важнее сложности рабочего процесса (базовая производительность Gemini 2.5 Flash превосходит самые сложные рабочие процессы GPT-4o и Gemini 1.5 Flash)
- Универсальность DC+несколько примеров: Инструкции "разделяй и властвуй" и демонстрации несколько примеров обеспечивают значительные улучшения для всех типов моделей
- Убывающая предельная отдача сложности: Увеличение сложности рабочего процесса не всегда приводит к лучшим результатам
- Ограниченный объем оценки: Сосредоточение только на легковесных рабочих процессах может не представлять верхний предел производительности более сложных конструкций
- Единственный набор данных: Оценка только на BIRD Mini-Dev, отсутствие более широкой валидации
- Относительность метрик задержки: Сообщаемые задержки и потребление токенов зависят от внешних факторов и должны рассматриваться как индикативные, а не абсолютные значения
- Исследование более сложных конструкций рабочих процессов
- Валидация выводов на более широких наборах данных
- Изучение применимости этих стратегий к другим задачам
- Оптимизация дизайна продукта для управления ожиданиями пользователей
- Практическая ориентация: Сосредоточение на готовых к промышленности решениях, учитывающих ограничения практического развертывания
- Многомерная оценка: Рассмотрение не только точности, но и задержки и потребления ресурсов, обеспечивающее комплексный взгляд на практическое применение
- Систематическое сравнение: Одновременная оценка универсальных моделей и моделей рассуждений, предоставляющая ценные сравнительные выводы
- Детальный анализ ошибок: Глубокое понимание паттернов отказа различных методов посредством классификации ошибок
- Ограничение размера выборки: Использование только 500 образцов из BIRD Mini-Dev может повлиять на обобщаемость выводов
- Неполное покрытие моделей: Отсутствие сравнения с другими основными моделями (такими как Claude, серия LLaMA)
- Консервативный дизайн рабочего процесса: Сосредоточение на легковесных методах может упустить потенциал более передовых технологий
- Отсутствие исследования пользователей: Нет оценки опыта реальных пользователей
- Академический вклад: Предоставляет систематический бенчмарк для стратегий масштабирования на этапе тестирования в области Text2SQL
- Промышленная ценность: Предоставляет практические руководящие принципы для развертывания систем Text2SQL в корпоративной среде
- Методологическое вдохновение: Многомерная структура оценки может быть применена к индустриализации других задач NLP
- Запросы к корпоративным базам данных: Подходит для корпоративной среды, требующей быстрого развертывания и баланса между точностью и эффективностью
- Разработка прототипов: Предоставляет проверенные паттерны рабочих процессов для быстрого прототипирования систем Text2SQL
- Руководство по выбору модели: Помогает разработчикам выбирать подходящие базовые модели и стратегии рабочих процессов в соответствии с конкретными требованиями
Статья цитирует важные работы в области Text2SQL, включая:
- Набор данных BIRD (Li et al., 2023)
- Метод разложения DIN-SQL (Pourreza & Rafiei, 2023)
- Синтез контекстного SQL CHESS (Talaei et al., 2024)
- Структура рассуждений ReAct (Yao et al., 2023)
- Подсказки Chain-of-Thought (Wei et al., 2022)
Данное исследование предоставляет ценные эмпирические руководящие принципы для практического развертывания систем Text2SQL, особенно в отношении баланса между точностью, эффективностью и сложностью. Его выводы имеют важное значение для содействия преобразованию технологии Text2SQL от исследовательских прототипов к промышленному применению.