2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

Классификатор-Дополненная Генерация для Предсказания Структурированных Рабочих Процессов

Основная информация

ID статьи: 2510.12825
Название: Classifier-Augmented Generation for Structured Workflow Prediction
Авторы: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta и Sameep Mehta (IBM Research)
Классификация: cs.CL cs.AI cs.DB cs.LG
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12825

Аннотация

Инструменты ETL (Extract, Transform, Load), такие как IBM DataStage, позволяют пользователям визуально собирать сложные рабочие процессы обработки данных, однако этап конфигурации и его атрибуты остаются трудоёмкими и требуют глубоких знаний инструмента. В данной работе предлагается система преобразования описаний на естественном языке в исполняемые рабочие процессы с автоматическим предсказанием структуры процесса и детальной конфигурации. В основе лежит метод классификатор-дополненной генерации (CAG), который объединяет декомпозицию высказываний с классификаторами и специфичными для этапов примерами с малым числом примеров, обеспечивая точное предсказание этапов. Эти этапы соединяются в нелинейные рабочие процессы посредством предсказания рёбер, а атрибуты этапов выводятся из контекста подвысказываний. По сравнению с сильными базовыми методами CAG демонстрирует повышенную точность и эффективность при одновременном значительном снижении использования токенов.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Сложность конфигурации инструментов ETL препятствует их использованию; даже опытные пользователи должны вручную конфигурировать этапы трансформации и указывать десятки низкоуровневых атрибутов для каждого этапа, что делает процесс создания утомительным и подверженным ошибкам.
Значимость: Рабочие процессы ETL и ELT являются основой современных корпоративных конвейеров интеграции и анализа данных, однако традиционные графические интерфейсы по-прежнему требуют значительного объёма ручной конфигурации.
Ограничения существующих подходов:
- Ранние методы решали проблемы посредством пользовательских скриптов или упрощений на основе GUI
- Некоторые исследовали семантическое и онтологическое управление генерацией ETL
- Отсутствуют комплексные системы преобразования естественного языка в исполняемые рабочие процессы
Исследовательская мотивация: Прогресс в области больших языковых моделей открывает новые возможности для прямого автоматического синтеза рабочих процессов из естественного языка, что может снизить затраты на конфигурацию и повысить доступность.

Основные вклады

Предложен метод Classifier-Augmented Generation (CAG): объединяет декомпозицию высказываний, поиск этапов на основе классификации и примеры с малым числом примеров для предсказания последовательности этапов рабочего процесса
Разработана комплексная система генерации рабочих процессов: включает три основных модуля — предсказание этапов, предсказание рёбер и предсказание атрибутов
Достигнуто значительное повышение производительности: точность предсказания этапов превышает 97%, одновременно снижая использование токенов более чем на 60%
Реализована модульная и интерпретируемая архитектура: поддерживает надёжную валидацию и проверку ограничений
Завершено развёртывание в производственной среде: система интегрирована в производственный инструмент IBM DataStage

Подробное описание метода

Определение задачи

Входные данные: описание требований рабочего процесса ETL на естественном языке Выходные данные: полный исполняемый рабочий процесс DataStage, включающий:

последовательность этапов рабочего процесса
связи между этапами (рёбра)
детальную конфигурацию атрибутов для каждого этапа

Архитектура модели

1. Предсказание этапов (Stage Prediction)

Метод CAG включает следующие шаги:

Декомпозиция высказываний: разделение пользовательского ввода на подвысказывания, описывающие отдельные этапы
Поиск с использованием классификатора: использование обученной модели классификации для определения кандидатов на этапы
Сопоставление ключевых слов: сканирование пользовательского высказывания на предмет названий этапов и их синонимов
Целевая генерация: создание целевых описаний и примеров с малым числом примеров на основе кандидатов на этапы для окончательного многометкового предсказания LLM

2. Предсказание рёбер (Edge Prediction)

Обработка структур нелинейных рабочих процессов:

присвоение уникальных имён повторяющимся этапам
разделение высказываний на подвысказывания на основе предсказанных этапов
предсказание структуры потока на основе списка узлов и исходного высказывания
валидация количества рёбер в соответствии с ограничениями кратности

3. Предсказание атрибутов (Property Prediction)

Предсказание конкретной конфигурации для каждого этапа:

использование подвысказываний, специфичных для этапа, для избежания неоднозначности
включение инструкций задачи, подвысказываний, названия этапа, списка атрибутов и примеров
многомерная стратегия валидации для обеспечения корректности атрибутов

Технические инновации

Гибридная архитектура поиска-генерации: объединение быстрого классификатора и генерации LLM для баланса между эффективностью и точностью
Многоуровневый механизм валидации: проверка ограничений и валидация согласованности на нескольких уровнях
Модульный дизайн: независимая оптимизация и отладка каждого компонента
Локализация контекста: снижение сложности обработки LLM посредством разделения подвысказываний

Экспериментальная установка

Набор данных

Предсказание этапов: 1010 описаний процессов на естественном языке
Предсказание атрибутов: 308 процессов, содержащих 1410 атрибутов
Предсказание рёбер: 54 сложных нелинейных процесса (6-14 этапов)
Обучение классификатора: 2697 пар (высказывание, оператор) с однометковой разметкой, охватывающих 138 семантических меток

Метрики оценки

Предсказание этапов: точность (общая, однооперационная, многооперационная)
Предсказание рёбер: сходство структур, точное совпадение
Предсказание атрибутов: точность, полнота, F1-мера

Методы сравнения

Single-prompt: представление всех 142 этапов в одном запросе
Agentic: метод интеллектуального агента в стиле ReAct, где LLM самостоятельно декомпозирует высказывания и вызывает инструменты классификации
CAG: предложенный в данной работе метод классификатор-дополненной генерации

Детали реализации

Модели: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
Классификатор: RoBERTa-large и IBM slate-125m-english-rtrvr
Использование токенов: CAG примерно 4000-4700 токенов против примерно 14000 токенов для Single-prompt

Результаты экспериментов

Основные результаты

Сравнение точности предсказания этапов

Метод	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71.1%	88.0%	96.4%	95.8%
Agentic	33.4%	45.6%	69.3%	40.0%
CAG	90.1%	94.0%	97.2%	97.7%

Результаты предсказания рёбер (54 нелинейных процесса)

Сходство структур: 73% (LLaMA-3.3-70B)
Точное совпадение: 37% (LLaMA-3.3-70B)

Результаты предсказания атрибутов (F1-мера)

LLaMA-3.2-3B: 0.79
Granite-3.3-8B: 0.81
LLaMA-3.3-70B: 0.86
LLaMA-4-17B: 0.78

Абляционные исследования

Вклад классификатора: фильтрация кандидатов на этапы значительно повышает точность
Сопоставление ключевых слов: снижает ошибочные предсказания для явных высказываний
Примеры с малым числом примеров: целевые примеры повышают способность различения похожих этапов

Анализ примеров

Случаи отказа: для высказывания "Split the full_name field...then capitalize the first letter..." большинство моделей возвращают только этап split_subrecord, пропуская этап modify, поскольку классификатор ошибочно отображает "capitalize" на этап head.

Экспериментальные находки

Эффект масштаба модели: более крупные модели показывают лучшие результаты во всех задачах
Повышение эффективности: CAG повышает точность при одновременном снижении использования токенов на 66%
Сложность предсказания рёбер: предсказание сложных нелинейных структур остаётся наиболее сложной задачей

Связанные работы

Основные направления исследований

Генерация рабочих процессов на основе ИИ: коммерческие инструменты Zap builder, Power Automate и др.
Рабочие процессы интеграции приложений: GOFA создаёт рабочие процессы интеграции приложений на основе естественного языка
Рабочие процессы выполнения запросов: FlowMind, AutoFlow и другие инструменты для временного выполнения
Генерация SQL: Analyza и другие инструменты преобразования естественного языка в SQL

Преимущества данной работы

Первая система создания ETL на основе естественного языка с детальной оценкой предсказания этапов, компоновки рёбер и генерации атрибутов
Генерирует переиспользуемые универсальные рабочие процессы, а не временное выполнение
Полное комплексное решение, включающее детальную конфигурацию атрибутов

Заключение и обсуждение

Основные выводы

Метод CAG значительно превосходит существующие методы в задаче генерации рабочих процессов ETL
Модульная архитектура поддерживает прозрачное рассуждение и надёжную валидацию
Система успешно развёрнута в производственной среде, что подтверждает её практическую полезность и масштабируемость

Ограничения

Ограничения классификатора: обучен только на однометковых данных, может пропустить релевантные кандидаты на этапы
Сложность предсказания рёбер: точное совпадение рёбер составляет только 37%, требует пересмотра пользователем
Логика валидации: предполагает корректность или игнорируемость названий таблиц и столбцов, отсутствует нечёткое сопоставление
Портативность запросов: оптимизирована для конкретного семейства моделей, может влиять на обобщение между архитектурами

Будущие направления

Исследование гибридных архитектур, объединяющих графические нейронные сети для улучшения предсказания рёбер
Разработка многометковых классификаторов для повышения определения кандидатов на этапы
Усиление логики валидации с поддержкой нечёткого сопоставления и исправления ошибок
Расширение на другие платформы ETL и предметные области

Глубокая оценка

Преимущества

Инновационность метода: метод CAG умело объединяет преимущества классификации и генерации, сохраняя высокую точность при повышении эффективности
Полнота экспериментов: охватывает полный процесс генерации рабочих процессов с детальной оценкой предсказания этапов, рёбер и атрибутов
Практическая ценность: система развёрнута в производственной среде, что доказывает реальную прикладную ценность
Ясность изложения: статья хорошо структурирована, технические детали описаны точно

Недостатки

Размер набора данных: наборы данных для оценки относительно небольшие, особенно нелинейные процессы (только 54 образца)
Специфичность для домена: в основном ориентирована на платформу IBM DataStage, способность обобщения требует проверки
Производительность предсказания рёбер: точное совпадение 37% указывает на необходимость значительного улучшения этого модуля
Анализ ошибок: анализ случаев отказа относительно ограничен

Влияние

Академический вклад: первая систематическая работа, решающая полную задачу преобразования естественного языка в рабочие процессы ETL
Промышленная ценность: предоставляет жизнеспособный технологический путь для интеллектуализации инструментов ETL
Воспроизводимость: предоставляет детальные детали реализации и шаблоны запросов

Применимые сценарии

Корпоративная интеграция данных: упрощение создания и конфигурации рабочих процессов ETL
Инструменты для науки о данных: предоставление более удобного интерфейса обработки данных для непрофессиональных пользователей
Платформы низкого кода/без кода: интеграция в качестве компонента интеллектуализации в визуальные среды разработки

Библиография

Данная работа ссылается на важные работы в соответствующих областях, включая:

Обзоры технологии ETL (Rahm and Do, 2000; Vassiliadis, 2009)
Обучение больших языковых моделей с малым числом примеров (Brown et al., 2020)
Метод интеллектуального агента ReAct (Yao et al., 2023)
Исследования обучения инструментам (Schick et al., 2023; Qin et al., 2024)

Общая оценка: это высококачественная прикладная исследовательская работа, предлагающая инновационный метод CAG для решения практических проблем и подтверждённая эффективностью в производственной среде. Хотя в некоторых технических деталях остаётся место для улучшения, работа вносит значительный вклад в область генерации рабочих процессов на основе естественного языка.