2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.
ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
academic

Classifier-Augmented Generation for Structured Workflow Prediction

基本信息

  • 论文ID: 2510.12825
  • 标题: Classifier-Augmented Generation for Structured Workflow Prediction
  • 作者: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, and Sameep Mehta (IBM Research)
  • 分类: cs.CL cs.AI cs.DB cs.LG
  • 发表时间: 2025年10月10日 (arXiv preprint)
  • 论文链接: https://arxiv.org/abs/2510.12825

摘要

ETL (Extract, Transform, Load) 工具如IBM DataStage允许用户可视化地组装复杂的数据工作流,但配置阶段及其属性仍然耗时且需要深入的工具知识。本文提出了一个将自然语言描述转换为可执行工作流的系统,自动预测流程的结构和详细配置。核心是分类器增强生成(CAG)方法,将话语分解与分类器和阶段特定的少样本提示相结合,产生准确的阶段预测。这些阶段通过边预测连接成非线性工作流,并从子话语上下文推断阶段属性。与强基线方法相比,CAG显示出更高的准确性和效率,同时大幅减少token使用量。

研究背景与动机

问题定义

  1. 核心问题: ETL工具的配置复杂性阻碍了用户使用,即使是专家用户也需要手动配置转换阶段并指定每个阶段数十个低级属性,使得创作过程繁琐且容易出错。
  2. 重要性: ETL和ELT工作流是现代企业数据集成和分析管道的基础,但传统的图形界面仍需要大量手动配置工作。
  3. 现有方法局限性:
    • 早期方法通过自定义脚本或基于GUI的简化来解决挑战
    • 一些探索了语义和本体驱动的ETL生成
    • 缺乏端到端的自然语言到可执行工作流的系统
  4. 研究动机: 大语言模型的进步为直接从自然语言自动合成工作流提供了新机会,可以减少配置开销并提高可访问性。

核心贡献

  1. 提出了Classifier-Augmented Generation (CAG)方法: 结合话语分解、基于分类的阶段检索和少样本提示来预测工作流阶段序列
  2. 构建了端到端的工作流生成系统: 包括阶段预测、边预测和属性预测三个核心模块
  3. 实现了显著的性能提升: 在阶段预测上达到97%以上准确率,同时减少60%以上的token使用
  4. 提供了模块化和可解释的架构: 支持鲁棒验证和约束检查
  5. 完成了生产环境部署: 系统已集成到IBM DataStage生产工具中

方法详解

任务定义

输入: 自然语言描述的ETL工作流需求 输出: 完整的可执行DataStage工作流,包括:

  • 工作流阶段序列
  • 阶段间的连接关系(边)
  • 每个阶段的详细属性配置

模型架构

1. 阶段预测 (Stage Prediction)

CAG方法包含以下步骤:

  1. 话语分解: 将用户输入分解为描述单个阶段的子话语
  2. 分类器检索: 使用训练好的分类模型识别候选阶段
  3. 关键词匹配: 扫描用户话语中的阶段名称及其同义词
  4. 目标生成: 基于候选阶段生成针对性的描述和少样本示例,由LLM进行最终的多标签预测

2. 边预测 (Edge Prediction)

处理非线性工作流结构:

  • 为重复阶段分配唯一名称
  • 根据预测阶段将话语分割为子话语
  • 基于节点列表和原始话语预测流程结构
  • 验证边数量是否符合基数约束

3. 属性预测 (Property Prediction)

为每个阶段预测具体配置:

  • 使用阶段特定的子话语避免歧义
  • 包含任务指令、子话语、阶段名称、属性列表和示例
  • 多维验证策略确保属性正确性

技术创新点

  1. 混合检索-生成架构: 结合快速分类器和LLM生成,平衡效率和准确性
  2. 分层验证机制: 在多个层面进行约束检查和一致性验证
  3. 模块化设计: 各组件可独立优化和调试
  4. 上下文局部化: 通过子话语分割减少LLM处理的复杂性

实验设置

数据集

  • 阶段预测: 1010个自然语言流程描述
  • 属性预测: 308个流程,包含1410个属性
  • 边预测: 54个复杂非线性流程(6-14个阶段)
  • 分类器训练: 2697个(话语,操作符)单标签对,覆盖138个语义标签

评价指标

  • 阶段预测: 准确率(总体、单操作、多操作)
  • 边预测: 结构相似度、精确匹配率
  • 属性预测: 精确率、召回率、F1分数

对比方法

  1. Single-prompt: 在单个提示中呈现所有142个阶段
  2. Agentic: ReAct风格的智能体方法,LLM自主分解话语并调用分类工具
  3. CAG: 本文提出的分类器增强生成方法

实现细节

  • 模型: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
  • 分类器: RoBERTa-large和IBM slate-125m-english-rtrvr
  • Token使用: CAG约4000-4700 tokens vs Single-prompt约14000 tokens

实验结果

主要结果

阶段预测准确率对比

方法LLaMA-3.2-3BGranite-3.1-8BLLaMA-3.3-70BLLaMA-4-17B
Single-prompt71.1%88.0%96.4%95.8%
Agentic33.4%45.6%69.3%40.0%
CAG90.1%94.0%97.2%97.7%

边预测结果 (54个非线性流程)

  • 结构相似度: 73% (LLaMA-3.3-70B)
  • 精确匹配: 37% (LLaMA-3.3-70B)

属性预测结果 (F1分数)

  • LLaMA-3.2-3B: 0.79
  • Granite-3.3-8B: 0.81
  • LLaMA-3.3-70B: 0.86
  • LLaMA-4-17B: 0.78

消融实验

  • 分类器贡献: 通过候选阶段筛选显著提升准确率
  • 关键词匹配: 减少了明显话语的误预测
  • 少样本示例: 针对性示例提高了相似阶段的区分能力

案例分析

失败案例: 对于话语"Split the full_name field...then capitalize the first letter...",多数模型只返回split_subrecord阶段而遗漏了modify阶段,因为分类器错误地将"capitalize"映射到head阶段。

实验发现

  1. 模型规模效应: 更大的模型在所有任务上表现更好
  2. 效率提升: CAG在提高准确率的同时减少了66%的token使用
  3. 边预测挑战: 复杂非线性结构预测仍是最具挑战性的任务

相关工作

主要研究方向

  1. AI驱动的工作流生成: Zap builder、Power Automate等商业工具
  2. 应用集成工作流: GOFA通过自然语言创建应用集成工作流
  3. 查询执行工作流: FlowMind、AutoFlow等临时执行工具
  4. SQL生成: Analyza等自然语言到SQL的转换工具

本文优势

  • 首个提供阶段预测、边布局和属性生成详细评估的自然语言驱动ETL创作系统
  • 生成可重复使用的通用工作流,而非临时执行
  • 完整的端到端解决方案,包括详细的属性配置

结论与讨论

主要结论

  1. CAG方法在ETL工作流生成任务上显著优于现有方法
  2. 模块化架构支持透明推理和鲁棒验证
  3. 系统已成功部署到生产环境,验证了实用性和可扩展性

局限性

  1. 分类器限制: 仅在单标签训练数据上训练,可能遗漏相关候选阶段
  2. 边预测挑战: 精确边匹配仅37%,需要用户修订
  3. 验证逻辑: 假设表名和列名正确或可忽略,缺乏模糊匹配
  4. 提示可移植性: 针对特定模型族调优,可能影响跨架构泛化

未来方向

  1. 探索混合架构结合图神经网络改进边预测
  2. 开发多标签分类器提高候选阶段识别
  3. 增强验证逻辑支持模糊匹配和错误纠正
  4. 扩展到其他ETL平台和领域

深度评价

优点

  1. 方法创新性: CAG方法巧妙结合了分类和生成的优势,既保持了高准确率又提高了效率
  2. 实验充分性: 涵盖了完整的工作流生成流程,包括阶段、边和属性预测的详细评估
  3. 实用价值: 系统已部署到生产环境,证明了实际应用价值
  4. 写作清晰: 论文结构清晰,技术细节描述准确

不足

  1. 数据集规模: 评估数据集相对较小,特别是非线性流程只有54个样本
  2. 领域特定性: 主要针对IBM DataStage平台,泛化能力有待验证
  3. 边预测性能: 37%的精确匹配率表明该模块仍需显著改进
  4. 错误分析: 对失败案例的分析相对有限

影响力

  1. 学术贡献: 首次系统性地解决了自然语言到ETL工作流的完整转换问题
  2. 工业价值: 为ETL工具的智能化提供了可行的技术路径
  3. 可复现性: 提供了详细的实现细节和提示模板

适用场景

  1. 企业数据集成: 简化ETL工作流的创建和配置过程
  2. 数据科学工具: 为非专业用户提供更友好的数据处理接口
  3. 低代码/无代码平台: 作为智能化组件集成到可视化开发环境中

参考文献

本文引用了相关领域的重要工作,包括:

  • ETL技术综述 (Rahm and Do, 2000; Vassiliadis, 2009)
  • 大语言模型少样本学习 (Brown et al., 2020)
  • ReAct智能体方法 (Yao et al., 2023)
  • 工具学习相关研究 (Schick et al., 2023; Qin et al., 2024)

总体评价: 这是一篇高质量的应用研究论文,提出了创新的CAG方法解决实际问题,并在生产环境中验证了有效性。虽然在某些技术细节上仍有改进空间,但为自然语言驱动的工作流生成领域做出了重要贡献。