2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.
ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
academic

Generación Aumentada por Clasificador para Predicción de Flujos de Trabajo Estructurados

Información Básica

  • ID del Artículo: 2510.12825
  • Título: Classifier-Augmented Generation for Structured Workflow Prediction
  • Autores: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, and Sameep Mehta (IBM Research)
  • Clasificación: cs.CL cs.AI cs.DB cs.LG
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12825

Resumen

Las herramientas ETL (Extracción, Transformación, Carga) como IBM DataStage permiten a los usuarios ensamblar visualmente flujos de trabajo de datos complejos, pero la fase de configuración y sus atributos siguen siendo laboriosos y requieren conocimiento profundo de la herramienta. Este artículo propone un sistema que convierte descripciones en lenguaje natural en flujos de trabajo ejecutables, prediciendo automáticamente la estructura del proceso y la configuración detallada. El núcleo es el método de Generación Aumentada por Clasificador (CAG), que combina descomposición de enunciados con clasificadores y avisos específicos de pocas muestras, produciendo predicciones de etapas precisas. Estas etapas se conectan en flujos de trabajo no lineales mediante predicción de bordes, e inferencia de atributos de etapas a partir del contexto de subenunciados. En comparación con métodos de línea base sólida, CAG muestra mayor precisión y eficiencia, mientras reduce significativamente el uso de tokens.

Contexto de Investigación y Motivación

Definición del Problema

  1. Problema Central: La complejidad de configuración de herramientas ETL obstaculiza su uso, incluso los usuarios expertos requieren configurar manualmente etapas de transformación y especificar decenas de atributos de bajo nivel para cada etapa, haciendo el proceso de autoría tedioso y propenso a errores.
  2. Importancia: Los flujos de trabajo ETL y ELT son fundamentales para las tuberías modernas de integración y análisis de datos empresariales, pero las interfaces gráficas tradicionales aún requieren una cantidad sustancial de trabajo de configuración manual.
  3. Limitaciones de Métodos Existentes:
    • Los primeros enfoques abordaron los desafíos mediante scripts personalizados o simplificaciones basadas en GUI
    • Algunos exploraron generación de ETL impulsada por semántica y ontología
    • Falta de sistemas de extremo a extremo de lenguaje natural a flujo de trabajo ejecutable
  4. Motivación de Investigación: Los avances en modelos de lenguaje grande proporcionan nuevas oportunidades para sintetizar automáticamente flujos de trabajo directamente desde lenguaje natural, reduciendo la sobrecarga de configuración y mejorando la accesibilidad.

Contribuciones Principales

  1. Propone el método de Generación Aumentada por Clasificador (CAG): Combina descomposición de enunciados, recuperación de etapas basada en clasificación y avisos de pocas muestras para predecir secuencias de etapas de flujo de trabajo
  2. Construye un sistema de generación de flujos de trabajo de extremo a extremo: Incluye tres módulos principales: predicción de etapas, predicción de bordes y predicción de atributos
  3. Logra mejoras significativas de rendimiento: Alcanza precisión superior al 97% en predicción de etapas, mientras reduce el uso de tokens en más del 60%
  4. Proporciona una arquitectura modular e interpretable: Soporta validación robusta y verificación de restricciones
  5. Completa el despliegue en entorno de producción: El sistema se ha integrado en la herramienta de producción IBM DataStage

Explicación Detallada del Método

Definición de Tarea

Entrada: Descripción en lenguaje natural de requisitos de flujo de trabajo ETL Salida: Flujo de trabajo DataStage completamente ejecutable, incluyendo:

  • Secuencia de etapas del flujo de trabajo
  • Relaciones de conexión entre etapas (bordes)
  • Configuración de atributos detallados para cada etapa

Arquitectura del Modelo

1. Predicción de Etapas (Stage Prediction)

El método CAG contiene los siguientes pasos:

  1. Descomposición de Enunciados: Descompone la entrada del usuario en subenunciados que describen etapas individuales
  2. Recuperación por Clasificador: Utiliza un modelo de clasificación entrenado para identificar etapas candidatas
  3. Coincidencia de Palabras Clave: Escanea nombres de etapas en el enunciado del usuario y sus sinónimos
  4. Generación Dirigida: Genera descripciones dirigidas y ejemplos de pocas muestras basados en etapas candidatas, realizando predicción multiétiqueta final por el LLM

2. Predicción de Bordes (Edge Prediction)

Maneja estructuras de flujo de trabajo no lineales:

  • Asigna nombres únicos a etapas repetidas
  • Divide enunciados en subenunciados basados en etapas predichas
  • Predice estructura de flujo basada en lista de nodos y enunciado original
  • Valida que el número de bordes cumpla con restricciones de cardinalidad

3. Predicción de Atributos (Property Prediction)

Predice configuración específica para cada etapa:

  • Utiliza subenunciados específicos de etapa para evitar ambigüedad
  • Incluye instrucciones de tarea, subenunciado, nombre de etapa, lista de atributos y ejemplos
  • Estrategia de validación multidimensional asegura corrección de atributos

Puntos de Innovación Técnica

  1. Arquitectura Híbrida de Recuperación-Generación: Combina clasificadores rápidos y generación por LLM, equilibrando eficiencia y precisión
  2. Mecanismo de Validación Jerárquica: Realiza verificación de restricciones y validación de consistencia en múltiples niveles
  3. Diseño Modular: Cada componente puede optimizarse y depurarse independientemente
  4. Localización de Contexto: Reduce la complejidad procesada por LLM mediante segmentación de subenunciados

Configuración Experimental

Conjunto de Datos

  • Predicción de Etapas: 1010 descripciones de procesos en lenguaje natural
  • Predicción de Atributos: 308 procesos, conteniendo 1410 atributos
  • Predicción de Bordes: 54 procesos complejos no lineales (6-14 etapas)
  • Entrenamiento de Clasificador: 2697 pares (enunciado, operador) de etiqueta única, cubriendo 138 etiquetas semánticas

Métricas de Evaluación

  • Predicción de Etapas: Precisión (general, operador único, múltiples operadores)
  • Predicción de Bordes: Similitud estructural, tasa de coincidencia exacta
  • Predicción de Atributos: Precisión, recuperación, puntuación F1

Métodos de Comparación

  1. Single-prompt: Presenta las 142 etapas en un único aviso
  2. Agentic: Método de agente estilo ReAct, LLM descompone autónomamente enunciados e invoca herramientas de clasificación
  3. CAG: Método de Generación Aumentada por Clasificador propuesto en este artículo

Detalles de Implementación

  • Modelos: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
  • Clasificador: RoBERTa-large e IBM slate-125m-english-rtrvr
  • Uso de Tokens: CAG aproximadamente 4000-4700 tokens vs Single-prompt aproximadamente 14000 tokens

Resultados Experimentales

Resultados Principales

Comparación de Precisión en Predicción de Etapas

MétodoLLaMA-3.2-3BGranite-3.1-8BLLaMA-3.3-70BLLaMA-4-17B
Single-prompt71.1%88.0%96.4%95.8%
Agentic33.4%45.6%69.3%40.0%
CAG90.1%94.0%97.2%97.7%

Resultados de Predicción de Bordes (54 procesos no lineales)

  • Similitud Estructural: 73% (LLaMA-3.3-70B)
  • Coincidencia Exacta: 37% (LLaMA-3.3-70B)

Resultados de Predicción de Atributos (Puntuación F1)

  • LLaMA-3.2-3B: 0.79
  • Granite-3.3-8B: 0.81
  • LLaMA-3.3-70B: 0.86
  • LLaMA-4-17B: 0.78

Experimentos de Ablación

  • Contribución del Clasificador: El filtrado de etapas candidatas mejora significativamente la precisión
  • Coincidencia de Palabras Clave: Reduce predicciones erróneas en enunciados obvios
  • Ejemplos de Pocas Muestras: Los ejemplos dirigidos mejoran la capacidad de discriminación entre etapas similares

Análisis de Casos

Caso de Fallo: Para el enunciado "Split the full_name field...then capitalize the first letter...", la mayoría de modelos devuelven solo la etapa split_subrecord omitiendo la etapa modify, porque el clasificador mapea erróneamente "capitalize" a la etapa head.

Hallazgos Experimentales

  1. Efecto del Tamaño del Modelo: Los modelos más grandes funcionan mejor en todas las tareas
  2. Mejora de Eficiencia: CAG reduce el uso de tokens en 66% mientras mejora la precisión
  3. Desafío de Predicción de Bordes: La predicción de estructuras no lineales complejas sigue siendo la tarea más desafiante

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Generación de Flujos de Trabajo Impulsada por IA: Herramientas comerciales como Zap builder, Power Automate
  2. Flujos de Trabajo de Integración de Aplicaciones: GOFA crea flujos de trabajo de integración de aplicaciones mediante lenguaje natural
  3. Flujos de Trabajo de Ejecución de Consultas: Herramientas ad hoc como FlowMind, AutoFlow
  4. Generación SQL: Herramientas de conversión de lenguaje natural a SQL como Analyza

Ventajas de Este Artículo

  • Primer sistema de autoría ETL impulsado por lenguaje natural que proporciona evaluación detallada de predicción de etapas, disposición de bordes y generación de atributos
  • Genera flujos de trabajo reutilizables generales, no ejecución ad hoc
  • Solución completa de extremo a extremo, incluyendo configuración de atributos detallados

Conclusiones y Discusión

Conclusiones Principales

  1. El método CAG supera significativamente los métodos existentes en la tarea de generación de flujos de trabajo ETL
  2. La arquitectura modular soporta razonamiento transparente y validación robusta
  3. El sistema se ha desplegado exitosamente en producción, validando su practicidad y escalabilidad

Limitaciones

  1. Limitaciones del Clasificador: Entrenado solo en datos de etiqueta única, puede omitir etapas candidatas relevantes
  2. Desafío de Predicción de Bordes: La coincidencia exacta de bordes es solo 37%, requiere revisión del usuario
  3. Lógica de Validación: Asume que nombres de tabla y columna son correctos o ignorables, carece de coincidencia difusa
  4. Portabilidad de Avisos: Optimizado para familias de modelos específicas, puede afectar generalización entre arquitecturas

Direcciones Futuras

  1. Explorar arquitecturas híbridas combinando redes neuronales de grafos para mejorar predicción de bordes
  2. Desarrollar clasificadores multiétiqueta para mejorar identificación de etapas candidatas
  3. Mejorar lógica de validación soportando coincidencia difusa y corrección de errores
  4. Extender a otras plataformas ETL y dominios

Evaluación Profunda

Fortalezas

  1. Innovación de Método: El método CAG combina ingeniosamente las ventajas de clasificación y generación, manteniendo alta precisión mientras mejora eficiencia
  2. Suficiencia Experimental: Cubre el proceso completo de generación de flujos de trabajo, con evaluación detallada de predicción de etapas, bordes y atributos
  3. Valor Práctico: El sistema desplegado en producción demuestra valor de aplicación real
  4. Escritura Clara: Estructura de artículo clara, descripción de detalles técnicos precisa

Insuficiencias

  1. Escala de Conjunto de Datos: Conjunto de evaluación relativamente pequeño, particularmente solo 54 muestras de procesos no lineales
  2. Especificidad de Dominio: Principalmente dirigido a plataforma IBM DataStage, capacidad de generalización por verificar
  3. Rendimiento de Predicción de Bordes: Tasa de coincidencia exacta 37% indica que este módulo requiere mejora significativa
  4. Análisis de Errores: Análisis de casos de fallo relativamente limitado

Impacto

  1. Contribución Académica: Primer abordaje sistemático del problema completo de conversión de lenguaje natural a flujo de trabajo ETL
  2. Valor Industrial: Proporciona ruta técnica viable para inteligencia de herramientas ETL
  3. Reproducibilidad: Proporciona detalles de implementación detallados y plantillas de avisos

Escenarios Aplicables

  1. Integración de Datos Empresariales: Simplifica creación y configuración de flujos de trabajo ETL
  2. Herramientas de Ciencia de Datos: Proporciona interfaz más amigable para usuarios no profesionales de procesamiento de datos
  3. Plataformas Bajo Código/Sin Código: Se integra como componente inteligente en entornos de desarrollo visual

Referencias

Este artículo cita trabajos importantes en campos relacionados, incluyendo:

  • Revisiones de tecnología ETL (Rahm and Do, 2000; Vassiliadis, 2009)
  • Aprendizaje de pocas muestras en modelos de lenguaje grande (Brown et al., 2020)
  • Método de agente ReAct (Yao et al., 2023)
  • Investigación relacionada con aprendizaje de herramientas (Schick et al., 2023; Qin et al., 2024)

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que propone el método innovador CAG para resolver problemas prácticos, validado en entorno de producción. Aunque hay espacio para mejora en ciertos detalles técnicos, hace contribuciones importantes al campo de generación de flujos de trabajo impulsada por lenguaje natural.