2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

Generación Aumentada por Clasificador para Predicción de Flujos de Trabajo Estructurados

Información Básica

ID del Artículo: 2510.12825
Título: Classifier-Augmented Generation for Structured Workflow Prediction
Autores: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, and Sameep Mehta (IBM Research)
Clasificación: cs.CL cs.AI cs.DB cs.LG
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12825

Resumen

Las herramientas ETL (Extracción, Transformación, Carga) como IBM DataStage permiten a los usuarios ensamblar visualmente flujos de trabajo de datos complejos, pero la fase de configuración y sus atributos siguen siendo laboriosos y requieren conocimiento profundo de la herramienta. Este artículo propone un sistema que convierte descripciones en lenguaje natural en flujos de trabajo ejecutables, prediciendo automáticamente la estructura del proceso y la configuración detallada. El núcleo es el método de Generación Aumentada por Clasificador (CAG), que combina descomposición de enunciados con clasificadores y avisos específicos de pocas muestras, produciendo predicciones de etapas precisas. Estas etapas se conectan en flujos de trabajo no lineales mediante predicción de bordes, e inferencia de atributos de etapas a partir del contexto de subenunciados. En comparación con métodos de línea base sólida, CAG muestra mayor precisión y eficiencia, mientras reduce significativamente el uso de tokens.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: La complejidad de configuración de herramientas ETL obstaculiza su uso, incluso los usuarios expertos requieren configurar manualmente etapas de transformación y especificar decenas de atributos de bajo nivel para cada etapa, haciendo el proceso de autoría tedioso y propenso a errores.
Importancia: Los flujos de trabajo ETL y ELT son fundamentales para las tuberías modernas de integración y análisis de datos empresariales, pero las interfaces gráficas tradicionales aún requieren una cantidad sustancial de trabajo de configuración manual.
Limitaciones de Métodos Existentes:
- Los primeros enfoques abordaron los desafíos mediante scripts personalizados o simplificaciones basadas en GUI
- Algunos exploraron generación de ETL impulsada por semántica y ontología
- Falta de sistemas de extremo a extremo de lenguaje natural a flujo de trabajo ejecutable
Motivación de Investigación: Los avances en modelos de lenguaje grande proporcionan nuevas oportunidades para sintetizar automáticamente flujos de trabajo directamente desde lenguaje natural, reduciendo la sobrecarga de configuración y mejorando la accesibilidad.

Contribuciones Principales

Propone el método de Generación Aumentada por Clasificador (CAG): Combina descomposición de enunciados, recuperación de etapas basada en clasificación y avisos de pocas muestras para predecir secuencias de etapas de flujo de trabajo
Construye un sistema de generación de flujos de trabajo de extremo a extremo: Incluye tres módulos principales: predicción de etapas, predicción de bordes y predicción de atributos
Logra mejoras significativas de rendimiento: Alcanza precisión superior al 97% en predicción de etapas, mientras reduce el uso de tokens en más del 60%
Proporciona una arquitectura modular e interpretable: Soporta validación robusta y verificación de restricciones
Completa el despliegue en entorno de producción: El sistema se ha integrado en la herramienta de producción IBM DataStage

Explicación Detallada del Método

Definición de Tarea

Entrada: Descripción en lenguaje natural de requisitos de flujo de trabajo ETL Salida: Flujo de trabajo DataStage completamente ejecutable, incluyendo:

Secuencia de etapas del flujo de trabajo
Relaciones de conexión entre etapas (bordes)
Configuración de atributos detallados para cada etapa

Arquitectura del Modelo

1. Predicción de Etapas (Stage Prediction)

El método CAG contiene los siguientes pasos:

Descomposición de Enunciados: Descompone la entrada del usuario en subenunciados que describen etapas individuales
Recuperación por Clasificador: Utiliza un modelo de clasificación entrenado para identificar etapas candidatas
Coincidencia de Palabras Clave: Escanea nombres de etapas en el enunciado del usuario y sus sinónimos
Generación Dirigida: Genera descripciones dirigidas y ejemplos de pocas muestras basados en etapas candidatas, realizando predicción multiétiqueta final por el LLM

2. Predicción de Bordes (Edge Prediction)

Maneja estructuras de flujo de trabajo no lineales:

Asigna nombres únicos a etapas repetidas
Divide enunciados en subenunciados basados en etapas predichas
Predice estructura de flujo basada en lista de nodos y enunciado original
Valida que el número de bordes cumpla con restricciones de cardinalidad

3. Predicción de Atributos (Property Prediction)

Predice configuración específica para cada etapa:

Utiliza subenunciados específicos de etapa para evitar ambigüedad
Incluye instrucciones de tarea, subenunciado, nombre de etapa, lista de atributos y ejemplos
Estrategia de validación multidimensional asegura corrección de atributos

Puntos de Innovación Técnica

Arquitectura Híbrida de Recuperación-Generación: Combina clasificadores rápidos y generación por LLM, equilibrando eficiencia y precisión
Mecanismo de Validación Jerárquica: Realiza verificación de restricciones y validación de consistencia en múltiples niveles
Diseño Modular: Cada componente puede optimizarse y depurarse independientemente
Localización de Contexto: Reduce la complejidad procesada por LLM mediante segmentación de subenunciados

Configuración Experimental

Conjunto de Datos

Predicción de Etapas: 1010 descripciones de procesos en lenguaje natural
Predicción de Atributos: 308 procesos, conteniendo 1410 atributos
Predicción de Bordes: 54 procesos complejos no lineales (6-14 etapas)
Entrenamiento de Clasificador: 2697 pares (enunciado, operador) de etiqueta única, cubriendo 138 etiquetas semánticas

Métricas de Evaluación

Predicción de Etapas: Precisión (general, operador único, múltiples operadores)
Predicción de Bordes: Similitud estructural, tasa de coincidencia exacta
Predicción de Atributos: Precisión, recuperación, puntuación F1

Métodos de Comparación

Single-prompt: Presenta las 142 etapas en un único aviso
Agentic: Método de agente estilo ReAct, LLM descompone autónomamente enunciados e invoca herramientas de clasificación
CAG: Método de Generación Aumentada por Clasificador propuesto en este artículo

Detalles de Implementación

Modelos: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
Clasificador: RoBERTa-large e IBM slate-125m-english-rtrvr
Uso de Tokens: CAG aproximadamente 4000-4700 tokens vs Single-prompt aproximadamente 14000 tokens

Resultados Experimentales

Resultados Principales

Comparación de Precisión en Predicción de Etapas

Método	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71.1%	88.0%	96.4%	95.8%
Agentic	33.4%	45.6%	69.3%	40.0%
CAG	90.1%	94.0%	97.2%	97.7%

Resultados de Predicción de Bordes (54 procesos no lineales)

Similitud Estructural: 73% (LLaMA-3.3-70B)
Coincidencia Exacta: 37% (LLaMA-3.3-70B)

Resultados de Predicción de Atributos (Puntuación F1)

LLaMA-3.2-3B: 0.79
Granite-3.3-8B: 0.81
LLaMA-3.3-70B: 0.86
LLaMA-4-17B: 0.78

Experimentos de Ablación

Contribución del Clasificador: El filtrado de etapas candidatas mejora significativamente la precisión
Coincidencia de Palabras Clave: Reduce predicciones erróneas en enunciados obvios
Ejemplos de Pocas Muestras: Los ejemplos dirigidos mejoran la capacidad de discriminación entre etapas similares

Análisis de Casos

Caso de Fallo: Para el enunciado "Split the full_name field...then capitalize the first letter...", la mayoría de modelos devuelven solo la etapa split_subrecord omitiendo la etapa modify, porque el clasificador mapea erróneamente "capitalize" a la etapa head.

Hallazgos Experimentales

Efecto del Tamaño del Modelo: Los modelos más grandes funcionan mejor en todas las tareas
Mejora de Eficiencia: CAG reduce el uso de tokens en 66% mientras mejora la precisión
Desafío de Predicción de Bordes: La predicción de estructuras no lineales complejas sigue siendo la tarea más desafiante

Trabajo Relacionado

Direcciones Principales de Investigación

Generación de Flujos de Trabajo Impulsada por IA: Herramientas comerciales como Zap builder, Power Automate
Flujos de Trabajo de Integración de Aplicaciones: GOFA crea flujos de trabajo de integración de aplicaciones mediante lenguaje natural
Flujos de Trabajo de Ejecución de Consultas: Herramientas ad hoc como FlowMind, AutoFlow
Generación SQL: Herramientas de conversión de lenguaje natural a SQL como Analyza

Ventajas de Este Artículo

Primer sistema de autoría ETL impulsado por lenguaje natural que proporciona evaluación detallada de predicción de etapas, disposición de bordes y generación de atributos
Genera flujos de trabajo reutilizables generales, no ejecución ad hoc
Solución completa de extremo a extremo, incluyendo configuración de atributos detallados

Conclusiones y Discusión

Conclusiones Principales

El método CAG supera significativamente los métodos existentes en la tarea de generación de flujos de trabajo ETL
La arquitectura modular soporta razonamiento transparente y validación robusta
El sistema se ha desplegado exitosamente en producción, validando su practicidad y escalabilidad

Limitaciones

Limitaciones del Clasificador: Entrenado solo en datos de etiqueta única, puede omitir etapas candidatas relevantes
Desafío de Predicción de Bordes: La coincidencia exacta de bordes es solo 37%, requiere revisión del usuario
Lógica de Validación: Asume que nombres de tabla y columna son correctos o ignorables, carece de coincidencia difusa
Portabilidad de Avisos: Optimizado para familias de modelos específicas, puede afectar generalización entre arquitecturas

Direcciones Futuras

Explorar arquitecturas híbridas combinando redes neuronales de grafos para mejorar predicción de bordes
Desarrollar clasificadores multiétiqueta para mejorar identificación de etapas candidatas
Mejorar lógica de validación soportando coincidencia difusa y corrección de errores
Extender a otras plataformas ETL y dominios

Evaluación Profunda

Fortalezas

Innovación de Método: El método CAG combina ingeniosamente las ventajas de clasificación y generación, manteniendo alta precisión mientras mejora eficiencia
Suficiencia Experimental: Cubre el proceso completo de generación de flujos de trabajo, con evaluación detallada de predicción de etapas, bordes y atributos
Valor Práctico: El sistema desplegado en producción demuestra valor de aplicación real
Escritura Clara: Estructura de artículo clara, descripción de detalles técnicos precisa

Insuficiencias

Escala de Conjunto de Datos: Conjunto de evaluación relativamente pequeño, particularmente solo 54 muestras de procesos no lineales
Especificidad de Dominio: Principalmente dirigido a plataforma IBM DataStage, capacidad de generalización por verificar
Rendimiento de Predicción de Bordes: Tasa de coincidencia exacta 37% indica que este módulo requiere mejora significativa
Análisis de Errores: Análisis de casos de fallo relativamente limitado

Impacto

Contribución Académica: Primer abordaje sistemático del problema completo de conversión de lenguaje natural a flujo de trabajo ETL
Valor Industrial: Proporciona ruta técnica viable para inteligencia de herramientas ETL
Reproducibilidad: Proporciona detalles de implementación detallados y plantillas de avisos

Escenarios Aplicables

Integración de Datos Empresariales: Simplifica creación y configuración de flujos de trabajo ETL
Herramientas de Ciencia de Datos: Proporciona interfaz más amigable para usuarios no profesionales de procesamiento de datos
Plataformas Bajo Código/Sin Código: Se integra como componente inteligente en entornos de desarrollo visual

Referencias

Este artículo cita trabajos importantes en campos relacionados, incluyendo:

Revisiones de tecnología ETL (Rahm and Do, 2000; Vassiliadis, 2009)
Aprendizaje de pocas muestras en modelos de lenguaje grande (Brown et al., 2020)
Método de agente ReAct (Yao et al., 2023)
Investigación relacionada con aprendizaje de herramientas (Schick et al., 2023; Qin et al., 2024)

Evaluación General: Este es un artículo de investigación aplicada de alta calidad que propone el método innovador CAG para resolver problemas prácticos, validado en entorno de producción. Aunque hay espacio para mejora en ciertos detalles técnicos, hace contribuciones importantes al campo de generación de flujos de trabajo impulsada por lenguaje natural.