ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
- ID del Artículo: 2510.12825
- Título: Classifier-Augmented Generation for Structured Workflow Prediction
- Autores: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, and Sameep Mehta (IBM Research)
- Clasificación: cs.CL cs.AI cs.DB cs.LG
- Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.12825
Las herramientas ETL (Extracción, Transformación, Carga) como IBM DataStage permiten a los usuarios ensamblar visualmente flujos de trabajo de datos complejos, pero la fase de configuración y sus atributos siguen siendo laboriosos y requieren conocimiento profundo de la herramienta. Este artículo propone un sistema que convierte descripciones en lenguaje natural en flujos de trabajo ejecutables, prediciendo automáticamente la estructura del proceso y la configuración detallada. El núcleo es el método de Generación Aumentada por Clasificador (CAG), que combina descomposición de enunciados con clasificadores y avisos específicos de pocas muestras, produciendo predicciones de etapas precisas. Estas etapas se conectan en flujos de trabajo no lineales mediante predicción de bordes, e inferencia de atributos de etapas a partir del contexto de subenunciados. En comparación con métodos de línea base sólida, CAG muestra mayor precisión y eficiencia, mientras reduce significativamente el uso de tokens.
- Problema Central: La complejidad de configuración de herramientas ETL obstaculiza su uso, incluso los usuarios expertos requieren configurar manualmente etapas de transformación y especificar decenas de atributos de bajo nivel para cada etapa, haciendo el proceso de autoría tedioso y propenso a errores.
- Importancia: Los flujos de trabajo ETL y ELT son fundamentales para las tuberías modernas de integración y análisis de datos empresariales, pero las interfaces gráficas tradicionales aún requieren una cantidad sustancial de trabajo de configuración manual.
- Limitaciones de Métodos Existentes:
- Los primeros enfoques abordaron los desafíos mediante scripts personalizados o simplificaciones basadas en GUI
- Algunos exploraron generación de ETL impulsada por semántica y ontología
- Falta de sistemas de extremo a extremo de lenguaje natural a flujo de trabajo ejecutable
- Motivación de Investigación: Los avances en modelos de lenguaje grande proporcionan nuevas oportunidades para sintetizar automáticamente flujos de trabajo directamente desde lenguaje natural, reduciendo la sobrecarga de configuración y mejorando la accesibilidad.
- Propone el método de Generación Aumentada por Clasificador (CAG): Combina descomposición de enunciados, recuperación de etapas basada en clasificación y avisos de pocas muestras para predecir secuencias de etapas de flujo de trabajo
- Construye un sistema de generación de flujos de trabajo de extremo a extremo: Incluye tres módulos principales: predicción de etapas, predicción de bordes y predicción de atributos
- Logra mejoras significativas de rendimiento: Alcanza precisión superior al 97% en predicción de etapas, mientras reduce el uso de tokens en más del 60%
- Proporciona una arquitectura modular e interpretable: Soporta validación robusta y verificación de restricciones
- Completa el despliegue en entorno de producción: El sistema se ha integrado en la herramienta de producción IBM DataStage
Entrada: Descripción en lenguaje natural de requisitos de flujo de trabajo ETL
Salida: Flujo de trabajo DataStage completamente ejecutable, incluyendo:
- Secuencia de etapas del flujo de trabajo
- Relaciones de conexión entre etapas (bordes)
- Configuración de atributos detallados para cada etapa
El método CAG contiene los siguientes pasos:
- Descomposición de Enunciados: Descompone la entrada del usuario en subenunciados que describen etapas individuales
- Recuperación por Clasificador: Utiliza un modelo de clasificación entrenado para identificar etapas candidatas
- Coincidencia de Palabras Clave: Escanea nombres de etapas en el enunciado del usuario y sus sinónimos
- Generación Dirigida: Genera descripciones dirigidas y ejemplos de pocas muestras basados en etapas candidatas, realizando predicción multiétiqueta final por el LLM
Maneja estructuras de flujo de trabajo no lineales:
- Asigna nombres únicos a etapas repetidas
- Divide enunciados en subenunciados basados en etapas predichas
- Predice estructura de flujo basada en lista de nodos y enunciado original
- Valida que el número de bordes cumpla con restricciones de cardinalidad
Predice configuración específica para cada etapa:
- Utiliza subenunciados específicos de etapa para evitar ambigüedad
- Incluye instrucciones de tarea, subenunciado, nombre de etapa, lista de atributos y ejemplos
- Estrategia de validación multidimensional asegura corrección de atributos
- Arquitectura Híbrida de Recuperación-Generación: Combina clasificadores rápidos y generación por LLM, equilibrando eficiencia y precisión
- Mecanismo de Validación Jerárquica: Realiza verificación de restricciones y validación de consistencia en múltiples niveles
- Diseño Modular: Cada componente puede optimizarse y depurarse independientemente
- Localización de Contexto: Reduce la complejidad procesada por LLM mediante segmentación de subenunciados
- Predicción de Etapas: 1010 descripciones de procesos en lenguaje natural
- Predicción de Atributos: 308 procesos, conteniendo 1410 atributos
- Predicción de Bordes: 54 procesos complejos no lineales (6-14 etapas)
- Entrenamiento de Clasificador: 2697 pares (enunciado, operador) de etiqueta única, cubriendo 138 etiquetas semánticas
- Predicción de Etapas: Precisión (general, operador único, múltiples operadores)
- Predicción de Bordes: Similitud estructural, tasa de coincidencia exacta
- Predicción de Atributos: Precisión, recuperación, puntuación F1
- Single-prompt: Presenta las 142 etapas en un único aviso
- Agentic: Método de agente estilo ReAct, LLM descompone autónomamente enunciados e invoca herramientas de clasificación
- CAG: Método de Generación Aumentada por Clasificador propuesto en este artículo
- Modelos: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
- Clasificador: RoBERTa-large e IBM slate-125m-english-rtrvr
- Uso de Tokens: CAG aproximadamente 4000-4700 tokens vs Single-prompt aproximadamente 14000 tokens
| Método | LLaMA-3.2-3B | Granite-3.1-8B | LLaMA-3.3-70B | LLaMA-4-17B |
|---|
| Single-prompt | 71.1% | 88.0% | 96.4% | 95.8% |
| Agentic | 33.4% | 45.6% | 69.3% | 40.0% |
| CAG | 90.1% | 94.0% | 97.2% | 97.7% |
- Similitud Estructural: 73% (LLaMA-3.3-70B)
- Coincidencia Exacta: 37% (LLaMA-3.3-70B)
- LLaMA-3.2-3B: 0.79
- Granite-3.3-8B: 0.81
- LLaMA-3.3-70B: 0.86
- LLaMA-4-17B: 0.78
- Contribución del Clasificador: El filtrado de etapas candidatas mejora significativamente la precisión
- Coincidencia de Palabras Clave: Reduce predicciones erróneas en enunciados obvios
- Ejemplos de Pocas Muestras: Los ejemplos dirigidos mejoran la capacidad de discriminación entre etapas similares
Caso de Fallo: Para el enunciado "Split the full_name field...then capitalize the first letter...", la mayoría de modelos devuelven solo la etapa split_subrecord omitiendo la etapa modify, porque el clasificador mapea erróneamente "capitalize" a la etapa head.
- Efecto del Tamaño del Modelo: Los modelos más grandes funcionan mejor en todas las tareas
- Mejora de Eficiencia: CAG reduce el uso de tokens en 66% mientras mejora la precisión
- Desafío de Predicción de Bordes: La predicción de estructuras no lineales complejas sigue siendo la tarea más desafiante
- Generación de Flujos de Trabajo Impulsada por IA: Herramientas comerciales como Zap builder, Power Automate
- Flujos de Trabajo de Integración de Aplicaciones: GOFA crea flujos de trabajo de integración de aplicaciones mediante lenguaje natural
- Flujos de Trabajo de Ejecución de Consultas: Herramientas ad hoc como FlowMind, AutoFlow
- Generación SQL: Herramientas de conversión de lenguaje natural a SQL como Analyza
- Primer sistema de autoría ETL impulsado por lenguaje natural que proporciona evaluación detallada de predicción de etapas, disposición de bordes y generación de atributos
- Genera flujos de trabajo reutilizables generales, no ejecución ad hoc
- Solución completa de extremo a extremo, incluyendo configuración de atributos detallados
- El método CAG supera significativamente los métodos existentes en la tarea de generación de flujos de trabajo ETL
- La arquitectura modular soporta razonamiento transparente y validación robusta
- El sistema se ha desplegado exitosamente en producción, validando su practicidad y escalabilidad
- Limitaciones del Clasificador: Entrenado solo en datos de etiqueta única, puede omitir etapas candidatas relevantes
- Desafío de Predicción de Bordes: La coincidencia exacta de bordes es solo 37%, requiere revisión del usuario
- Lógica de Validación: Asume que nombres de tabla y columna son correctos o ignorables, carece de coincidencia difusa
- Portabilidad de Avisos: Optimizado para familias de modelos específicas, puede afectar generalización entre arquitecturas
- Explorar arquitecturas híbridas combinando redes neuronales de grafos para mejorar predicción de bordes
- Desarrollar clasificadores multiétiqueta para mejorar identificación de etapas candidatas
- Mejorar lógica de validación soportando coincidencia difusa y corrección de errores
- Extender a otras plataformas ETL y dominios
- Innovación de Método: El método CAG combina ingeniosamente las ventajas de clasificación y generación, manteniendo alta precisión mientras mejora eficiencia
- Suficiencia Experimental: Cubre el proceso completo de generación de flujos de trabajo, con evaluación detallada de predicción de etapas, bordes y atributos
- Valor Práctico: El sistema desplegado en producción demuestra valor de aplicación real
- Escritura Clara: Estructura de artículo clara, descripción de detalles técnicos precisa
- Escala de Conjunto de Datos: Conjunto de evaluación relativamente pequeño, particularmente solo 54 muestras de procesos no lineales
- Especificidad de Dominio: Principalmente dirigido a plataforma IBM DataStage, capacidad de generalización por verificar
- Rendimiento de Predicción de Bordes: Tasa de coincidencia exacta 37% indica que este módulo requiere mejora significativa
- Análisis de Errores: Análisis de casos de fallo relativamente limitado
- Contribución Académica: Primer abordaje sistemático del problema completo de conversión de lenguaje natural a flujo de trabajo ETL
- Valor Industrial: Proporciona ruta técnica viable para inteligencia de herramientas ETL
- Reproducibilidad: Proporciona detalles de implementación detallados y plantillas de avisos
- Integración de Datos Empresariales: Simplifica creación y configuración de flujos de trabajo ETL
- Herramientas de Ciencia de Datos: Proporciona interfaz más amigable para usuarios no profesionales de procesamiento de datos
- Plataformas Bajo Código/Sin Código: Se integra como componente inteligente en entornos de desarrollo visual
Este artículo cita trabajos importantes en campos relacionados, incluyendo:
- Revisiones de tecnología ETL (Rahm and Do, 2000; Vassiliadis, 2009)
- Aprendizaje de pocas muestras en modelos de lenguaje grande (Brown et al., 2020)
- Método de agente ReAct (Yao et al., 2023)
- Investigación relacionada con aprendizaje de herramientas (Schick et al., 2023; Qin et al., 2024)
Evaluación General: Este es un artículo de investigación aplicada de alta calidad que propone el método innovador CAG para resolver problemas prácticos, validado en entorno de producción. Aunque hay espacio para mejora en ciertos detalles técnicos, hace contribuciones importantes al campo de generación de flujos de trabajo impulsada por lenguaje natural.