2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

分類器拡張生成による構造化ワークフロー予測

基本情報

論文ID: 2510.12825
タイトル: Classifier-Augmented Generation for Structured Workflow Prediction
著者: Thomas Gschwind、Shramona Chakraborty、Nitin Gupta、Sameep Mehta（IBM Research）
分類: cs.CL cs.AI cs.DB cs.LG
発表日: 2025年10月10日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2510.12825

概要

ETL（抽出、変換、ロード）ツール（IBM DataStageなど）により、ユーザーは複雑なデータワークフローを視覚的に組み立てることができますが、構成段階とその属性の設定は依然として時間がかかり、ツールに関する深い知識が必要です。本論文は、自然言語記述を実行可能なワークフローに変換するシステムを提案し、プロセスの構造と詳細な構成を自動的に予測します。中核となるのは分類器拡張生成（CAG）方法であり、発話の分解を分類器と段階固有の少数ショットプロンプトと組み合わせて、正確な段階予測を生成します。これらの段階は辺予測を通じて非線形ワークフローに接続され、段階属性は部分発話コンテキストから推論されます。強力なベースライン方法と比較して、CAGはより高い精度と効率を示しながら、トークン使用量を大幅に削減します。

研究背景と動機

問題定義

中核的問題: ETLツールの構成の複雑さがユーザーの利用を妨げており、専門家ユーザーであっても変換段階を手動で構成し、各段階の数十の低レベル属性を指定する必要があり、作成プロセスが煩雑でエラーが発生しやすくなっています。
重要性: ETLおよびELTワークフローは、現代的なエンタープライズデータ統合および分析パイプラインの基礎ですが、従来のグラフィカルインターフェースは依然として大量の手動構成作業を必要とします。
既存方法の限界:
- 初期の方法はカスタムスクリプトまたはGUIベースの簡略化を通じて課題に対処していました
- セマンティックおよびオントロジー駆動のETL生成を探索したものもあります
- エンドツーエンドの自然言語から実行可能なワークフローへのシステムが不足しています
研究動機: 大規模言語モデルの進歩により、自然言語から直接ワークフローを自動合成する新たな機会が提供され、構成のオーバーヘッドを削減し、アクセス可能性を向上させることができます。

中核的貢献

分類器拡張生成（CAG）方法の提案: 発話分解、分類ベースの段階検索、少数ショットプロンプトを組み合わせてワークフロー段階シーケンスを予測
エンドツーエンドのワークフロー生成システムの構築: 段階予測、辺予測、属性予測の3つの中核モジュールを含む
顕著なパフォーマンス向上の実現: 段階予測で97%以上の精度を達成しながら、トークン使用量を60%以上削減
モジュール化および解釈可能なアーキテクチャの提供: 堅牢な検証と制約チェックをサポート
本番環境への展開の完了: システムはIBM DataStage本番ツールに統合されています

方法の詳細

タスク定義

入力: 自然言語で記述されたETLワークフロー要件出力: 完全な実行可能なDataStageワークフロー（以下を含む）:

ワークフロー段階シーケンス
段階間の接続関係（辺）
各段階の詳細な属性構成

モデルアーキテクチャ

1. 段階予測（Stage Prediction）

CAG方法は以下のステップを含みます:

発話分解: ユーザー入力を個々の段階を記述する部分発話に分解
分類器検索: 訓練済み分類モデルを使用して候補段階を識別
キーワードマッチング: ユーザー発話内の段階名とその同義語をスキャン
ターゲット生成: 候補段階に基づいてターゲット記述と少数ショット例を生成し、LLMによる最終的な多ラベル予測を実施

2. 辺予測（Edge Prediction）

非線形ワークフロー構造を処理:

重複段階に一意の名前を割り当て
予測段階に基づいて発話を部分発話に分割
ノードリストと元の発話に基づいてフロー構造を予測
辺の数が基数制約に適合しているかを検証

3. 属性予測（Property Prediction）

各段階の具体的な構成を予測:

段階固有の部分発話を使用して曖昧性を回避
タスク指示、部分発話、段階名、属性リスト、例を含む
多次元検証戦略により属性の正確性を確保

技術的革新点

ハイブリッド検索生成アーキテクチャ: 高速分類器とLLM生成を組み合わせ、効率と精度のバランスを取る
階層的検証メカニズム: 複数のレベルで制約チェックと一貫性検証を実施
モジュール化設計: 各コンポーネントを独立して最適化およびデバッグ可能
コンテキスト局所化: 部分発話分割によりLLMが処理する複雑性を削減

実験設定

データセット

段階予測: 1010個の自然言語プロセス記述
属性予測: 308個のプロセス（1410個の属性を含む）
辺予測: 54個の複雑な非線形プロセス（6～14段階）
分類器訓練: 2697個の（発話、オペレータ）単一ラベルペア（138個のセマンティックラベルをカバー）

評価指標

段階予測: 精度（全体、単一オペレータ、複数オペレータ）
辺予測: 構造類似度、完全一致率
属性予測: 適合率、再現率、F1スコア

比較方法

Single-prompt: すべての142個の段階を単一プロンプトで提示
Agentic: ReActスタイルのエージェント方法、LLMが自律的に発話を分解し分類ツールを呼び出す
CAG: 本論文で提案された分類器拡張生成方法

実装詳細

モデル: LLaMA-3.2-3B、Granite-3.1-8B、LLaMA-3.3-70B、LLaMA-4-17B
分類器: RoBERTa-largeおよびIBM slate-125m-english-rtrvr
トークン使用: CAGは約4000～4700トークン対Single-promptは約14000トークン

実験結果

主要結果

段階予測精度の比較

方法	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71.1%	88.0%	96.4%	95.8%
Agentic	33.4%	45.6%	69.3%	40.0%
CAG	90.1%	94.0%	97.2%	97.7%

辺予測結果（54個の非線形プロセス）

構造類似度: 73%（LLaMA-3.3-70B）
完全一致: 37%（LLaMA-3.3-70B）

属性予測結果（F1スコア）

LLaMA-3.2-3B: 0.79
Granite-3.3-8B: 0.81
LLaMA-3.3-70B: 0.86
LLaMA-4-17B: 0.78

アブレーション実験

分類器の貢献: 候補段階のフィルタリングを通じて精度を大幅に向上
キーワードマッチング: 明らかな発話の誤予測を削減
少数ショット例: ターゲット例により類似段階の区別能力を向上

ケース分析

失敗ケース: 「Split the full_name field...then capitalize the first letter...」という発話に対して、ほとんどのモデルはsplit_subrecord段階のみを返し、modify段階を見落としました。これは分類器が「capitalize」をhead段階に誤ってマッピングしたためです。