ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
academic- 論文ID: 2510.12825
- タイトル: Classifier-Augmented Generation for Structured Workflow Prediction
- 著者: Thomas Gschwind、Shramona Chakraborty、Nitin Gupta、Sameep Mehta(IBM Research)
- 分類: cs.CL cs.AI cs.DB cs.LG
- 発表日: 2025年10月10日(arXivプレプリント)
- 論文リンク: https://arxiv.org/abs/2510.12825
ETL(抽出、変換、ロード)ツール(IBM DataStageなど)により、ユーザーは複雑なデータワークフローを視覚的に組み立てることができますが、構成段階とその属性の設定は依然として時間がかかり、ツールに関する深い知識が必要です。本論文は、自然言語記述を実行可能なワークフローに変換するシステムを提案し、プロセスの構造と詳細な構成を自動的に予測します。中核となるのは分類器拡張生成(CAG)方法であり、発話の分解を分類器と段階固有の少数ショットプロンプトと組み合わせて、正確な段階予測を生成します。これらの段階は辺予測を通じて非線形ワークフローに接続され、段階属性は部分発話コンテキストから推論されます。強力なベースライン方法と比較して、CAGはより高い精度と効率を示しながら、トークン使用量を大幅に削減します。
- 中核的問題: ETLツールの構成の複雑さがユーザーの利用を妨げており、専門家ユーザーであっても変換段階を手動で構成し、各段階の数十の低レベル属性を指定する必要があり、作成プロセスが煩雑でエラーが発生しやすくなっています。
- 重要性: ETLおよびELTワークフローは、現代的なエンタープライズデータ統合および分析パイプラインの基礎ですが、従来のグラフィカルインターフェースは依然として大量の手動構成作業を必要とします。
- 既存方法の限界:
- 初期の方法はカスタムスクリプトまたはGUIベースの簡略化を通じて課題に対処していました
- セマンティックおよびオントロジー駆動のETL生成を探索したものもあります
- エンドツーエンドの自然言語から実行可能なワークフローへのシステムが不足しています
- 研究動機: 大規模言語モデルの進歩により、自然言語から直接ワークフローを自動合成する新たな機会が提供され、構成のオーバーヘッドを削減し、アクセス可能性を向上させることができます。
- 分類器拡張生成(CAG)方法の提案: 発話分解、分類ベースの段階検索、少数ショットプロンプトを組み合わせてワークフロー段階シーケンスを予測
- エンドツーエンドのワークフロー生成システムの構築: 段階予測、辺予測、属性予測の3つの中核モジュールを含む
- 顕著なパフォーマンス向上の実現: 段階予測で97%以上の精度を達成しながら、トークン使用量を60%以上削減
- モジュール化および解釈可能なアーキテクチャの提供: 堅牢な検証と制約チェックをサポート
- 本番環境への展開の完了: システムはIBM DataStage本番ツールに統合されています
入力: 自然言語で記述されたETLワークフロー要件
出力: 完全な実行可能なDataStageワークフロー(以下を含む):
- ワークフロー段階シーケンス
- 段階間の接続関係(辺)
- 各段階の詳細な属性構成
CAG方法は以下のステップを含みます:
- 発話分解: ユーザー入力を個々の段階を記述する部分発話に分解
- 分類器検索: 訓練済み分類モデルを使用して候補段階を識別
- キーワードマッチング: ユーザー発話内の段階名とその同義語をスキャン
- ターゲット生成: 候補段階に基づいてターゲット記述と少数ショット例を生成し、LLMによる最終的な多ラベル予測を実施
非線形ワークフロー構造を処理:
- 重複段階に一意の名前を割り当て
- 予測段階に基づいて発話を部分発話に分割
- ノードリストと元の発話に基づいてフロー構造を予測
- 辺の数が基数制約に適合しているかを検証
各段階の具体的な構成を予測:
- 段階固有の部分発話を使用して曖昧性を回避
- タスク指示、部分発話、段階名、属性リスト、例を含む
- 多次元検証戦略により属性の正確性を確保
- ハイブリッド検索生成アーキテクチャ: 高速分類器とLLM生成を組み合わせ、効率と精度のバランスを取る
- 階層的検証メカニズム: 複数のレベルで制約チェックと一貫性検証を実施
- モジュール化設計: 各コンポーネントを独立して最適化およびデバッグ可能
- コンテキスト局所化: 部分発話分割によりLLMが処理する複雑性を削減
- 段階予測: 1010個の自然言語プロセス記述
- 属性予測: 308個のプロセス(1410個の属性を含む)
- 辺予測: 54個の複雑な非線形プロセス(6~14段階)
- 分類器訓練: 2697個の(発話、オペレータ)単一ラベルペア(138個のセマンティックラベルをカバー)
- 段階予測: 精度(全体、単一オペレータ、複数オペレータ)
- 辺予測: 構造類似度、完全一致率
- 属性予測: 適合率、再現率、F1スコア
- Single-prompt: すべての142個の段階を単一プロンプトで提示
- Agentic: ReActスタイルのエージェント方法、LLMが自律的に発話を分解し分類ツールを呼び出す
- CAG: 本論文で提案された分類器拡張生成方法
- モデル: LLaMA-3.2-3B、Granite-3.1-8B、LLaMA-3.3-70B、LLaMA-4-17B
- 分類器: RoBERTa-largeおよびIBM slate-125m-english-rtrvr
- トークン使用: CAGは約4000~4700トークン対Single-promptは約14000トークン
| 方法 | LLaMA-3.2-3B | Granite-3.1-8B | LLaMA-3.3-70B | LLaMA-4-17B |
|---|
| Single-prompt | 71.1% | 88.0% | 96.4% | 95.8% |
| Agentic | 33.4% | 45.6% | 69.3% | 40.0% |
| CAG | 90.1% | 94.0% | 97.2% | 97.7% |
- 構造類似度: 73%(LLaMA-3.3-70B)
- 完全一致: 37%(LLaMA-3.3-70B)
- LLaMA-3.2-3B: 0.79
- Granite-3.3-8B: 0.81
- LLaMA-3.3-70B: 0.86
- LLaMA-4-17B: 0.78
- 分類器の貢献: 候補段階のフィルタリングを通じて精度を大幅に向上
- キーワードマッチング: 明らかな発話の誤予測を削減
- 少数ショット例: ターゲット例により類似段階の区別能力を向上
失敗ケース: 「Split the full_name field...then capitalize the first letter...」という発話に対して、ほとんどのモデルはsplit_subrecord段階のみを返し、modify段階を見落としました。これは分類器が「capitalize」をhead段階に誤ってマッピングしたためです。
- モデルスケール効果: より大きなモデルはすべてのタスクでより良いパフォーマンスを示す
- 効率向上: CAGは精度を向上させながらトークン使用量を66%削減
- 辺予測の課題: 複雑な非線形構造の予測は依然として最も課題の多いタスク
- AI駆動のワークフロー生成: Zapビルダー、Power Automateなどの商用ツール
- アプリケーション統合ワークフロー: GOFAは自然言語を通じてアプリケーション統合ワークフローを作成
- クエリ実行ワークフロー: FlowMind、AutoFlowなどのアドホック実行ツール
- SQL生成: Analyza等の自然言語からSQLへの変換ツール
- 段階予測、辺レイアウト、属性生成の詳細な評価を提供する最初の自然言語駆動ETL作成システム
- 一時的な実行ではなく、再利用可能な汎用ワークフローを生成
- 詳細な属性構成を含む完全なエンドツーエンドソリューション
- CAG方法はETLワークフロー生成タスクで既存方法を大幅に上回る
- モジュール化アーキテクチャは透明な推論と堅牢な検証をサポート
- システムは本番環境に正常に展開され、実用性とスケーラビリティが検証されている
- 分類器の限界: 単一ラベル訓練データのみで訓練され、関連する候補段階を見落とす可能性がある
- 辺予測の課題: 正確な辺マッチングは37%のみで、ユーザー修正が必要
- 検証ロジック: テーブル名と列名が正確であるか無視可能であると仮定し、ファジーマッチングが不足している
- プロンプトの移植性: 特定のモデルファミリーに最適化されており、アーキテクチャ間の汎化に影響する可能性がある
- グラフニューラルネットワークを組み合わせたハイブリッドアーキテクチャを探索して辺予測を改善
- 候補段階識別を強化するための多ラベル分類器の開発
- ファジーマッチングとエラー修正をサポートするための検証ロジックの強化
- 他のETLプラットフォームおよび領域への拡張
- 方法の革新性: CAG方法は分類と生成の利点を巧みに組み合わせ、高い精度を維持しながら効率を向上
- 実験の充実性: 完全なワークフロー生成プロセスをカバーし、段階、辺、属性予測の詳細な評価を含む
- 実用的価値: システムは本番環境に展開され、実際の応用価値を証明
- 記述の明確性: 論文構造は明確で、技術詳細は正確に記述されている
- データセット規模: 評価データセットは比較的小さく、特に非線形プロセスは54サンプルのみ
- 領域特異性: 主にIBM DataStageプラットフォームを対象とし、汎化能力の検証が必要
- 辺予測性能: 37%の完全一致率は、このモジュールがまだ大幅な改善が必要であることを示唆
- エラー分析: 失敗ケースの分析は比較的限定的
- 学術的貢献: 自然言語からETLワークフローへの完全な変換問題を初めて体系的に解決
- 産業的価値: ETLツールのインテリジェント化に実行可能な技術パスを提供
- 再現性: 詳細な実装詳細とプロンプトテンプレートを提供
- エンタープライズデータ統合: ETLワークフローの作成と構成プロセスを簡素化
- データサイエンスツール: 非専門家ユーザーにより友好的なデータ処理インターフェースを提供
- ローコード/ノーコードプラットフォーム: ビジュアル開発環境にインテリジェントコンポーネントとして統合
本論文は関連領域の重要な研究を引用しており、以下を含みます:
- ETL技術の概要(Rahm and Do、2000; Vassiliadis、2009)
- 大規模言語モデルの少数ショット学習(Brown et al.、2020)
- ReActエージェント方法(Yao et al.、2023)
- ツール学習関連研究(Schick et al.、2023; Qin et al.、2024)
総合評価: これは高品質の応用研究論文であり、実際の問題を解決するための革新的なCAG方法を提案し、本番環境での有効性を検証しています。技術詳細の一部にはまだ改善の余地がありますが、自然言語駆動のワークフロー生成分野に重要な貢献をしています。