2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

Generazione Aumentata da Classificatore per la Previsione di Flussi di Lavoro Strutturati

Informazioni Fondamentali

ID Articolo: 2510.12825
Titolo: Classifier-Augmented Generation for Structured Workflow Prediction
Autori: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, e Sameep Mehta (IBM Research)
Classificazione: cs.CL cs.AI cs.DB cs.LG
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.12825

Riassunto

Gli strumenti ETL (Extract, Transform, Load) come IBM DataStage consentono agli utenti di assemblare visivamente complessi flussi di lavoro dati, tuttavia la fase di configurazione e i relativi attributi rimangono dispendiosi in termini di tempo e richiedono una profonda conoscenza dello strumento. Questo articolo propone un sistema che converte descrizioni in linguaggio naturale in flussi di lavoro eseguibili, prevedendo automaticamente la struttura del processo e le configurazioni dettagliate. Il nucleo è il metodo Classifier-Augmented Generation (CAG), che combina la decomposizione del discorso con classificatori e prompt con pochi esempi specifici della fase, producendo previsioni di fase accurate. Queste fasi sono collegate in flussi di lavoro non lineari attraverso la previsione dei bordi, e gli attributi della fase sono dedotti dal contesto del sotto-discorso. Rispetto ai metodi di base forti, CAG mostra maggiore accuratezza ed efficienza, riducendo significativamente l'utilizzo di token.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: La complessità della configurazione degli strumenti ETL ostacola l'utilizzo da parte degli utenti; anche gli utenti esperti devono configurare manualmente le fasi di trasformazione e specificare decine di attributi di basso livello per ogni fase, rendendo il processo di creazione tedioso e soggetto a errori.
Importanza: I flussi di lavoro ETL ed ELT sono fondamentali per le moderne pipeline di integrazione e analisi dei dati aziendali, tuttavia le interfacce grafiche tradizionali richiedono ancora un notevole lavoro di configurazione manuale.
Limitazioni degli Approcci Esistenti:
- I metodi iniziali affrontavano le sfide attraverso script personalizzati o semplificazioni basate su GUI
- Alcuni hanno esplorato la generazione di ETL guidata da semantica e ontologia
- Manca un sistema end-to-end da linguaggio naturale a flusso di lavoro eseguibile
Motivazione della Ricerca: I progressi nei modelli linguistici di grandi dimensioni offrono nuove opportunità per sintetizzare automaticamente i flussi di lavoro direttamente dal linguaggio naturale, riducendo il sovraccarico di configurazione e migliorando l'accessibilità.

Contributi Principali

Propone il metodo Classifier-Augmented Generation (CAG): Combina decomposizione del discorso, recupero di fasi basato su classificazione e prompt con pochi esempi per prevedere sequenze di fasi del flusso di lavoro
Costruisce un sistema di generazione di flussi di lavoro end-to-end: Include tre moduli principali: previsione della fase, previsione dei bordi e previsione degli attributi
Realizza miglioramenti significativi delle prestazioni: Raggiunge un'accuratezza superiore al 97% nella previsione della fase, riducendo contemporaneamente l'utilizzo di token di oltre il 60%
Fornisce un'architettura modulare e interpretabile: Supporta validazione robusta e controllo dei vincoli
Completa la distribuzione in ambiente di produzione: Il sistema è stato integrato nello strumento di produzione IBM DataStage

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Descrizione in linguaggio naturale dei requisiti del flusso di lavoro ETL Output: Flusso di lavoro DataStage completamente eseguibile, incluso:

Sequenza di fasi del flusso di lavoro
Relazioni di connessione tra fasi (bordi)
Configurazione dettagliata degli attributi per ogni fase

Architettura del Modello

1. Previsione della Fase (Stage Prediction)

Il metodo CAG comprende i seguenti passaggi:

Decomposizione del Discorso: Scompone l'input dell'utente in sotto-discorsi che descrivono singole fasi
Recupero del Classificatore: Utilizza un modello di classificazione addestrato per identificare le fasi candidate
Corrispondenza di Parole Chiave: Scansiona il discorso dell'utente per nomi di fase e loro sinonimi
Generazione Mirata: Genera descrizioni mirate e esempi con pochi esempi basati su fasi candidate, con previsione multi-etichetta finale da parte dell'LLM

2. Previsione dei Bordi (Edge Prediction)

Gestisce strutture di flusso di lavoro non lineari:

Assegna nomi univoci alle fasi ripetute
Divide il discorso in sotto-discorsi in base alle fasi previste
Prevede la struttura del flusso in base all'elenco dei nodi e al discorso originale
Convalida che il numero di bordi sia conforme ai vincoli di cardinalità

3. Previsione degli Attributi (Property Prediction)

Prevede configurazioni specifiche per ogni fase:

Utilizza sotto-discorsi specifici della fase per evitare ambiguità
Include istruzioni di compito, sotto-discorso, nome della fase, elenco di attributi ed esempi
Strategia di validazione multidimensionale per garantire la correttezza degli attributi

Punti di Innovazione Tecnica

Architettura Ibrida Recupero-Generazione: Combina classificatori veloci e generazione LLM, bilanciando efficienza e accuratezza
Meccanismo di Validazione Stratificato: Esegue controlli dei vincoli e validazione della coerenza a più livelli
Progettazione Modulare: Ogni componente può essere ottimizzato e sottoposto a debug in modo indipendente
Localizzazione del Contesto: Riduce la complessità elaborata dall'LLM attraverso la segmentazione del sotto-discorso

Configurazione Sperimentale

Dataset

Previsione della Fase: 1010 descrizioni di processi in linguaggio naturale
Previsione degli Attributi: 308 processi contenenti 1410 attributi
Previsione dei Bordi: 54 processi complessi non lineari (6-14 fasi)
Addestramento del Classificatore: 2697 coppie (discorso, operatore) a etichetta singola, coprendo 138 etichette semantiche

Metriche di Valutazione

Previsione della Fase: Accuratezza (complessiva, singolo operatore, multi-operatore)
Previsione dei Bordi: Somiglianza strutturale, tasso di corrispondenza esatta
Previsione degli Attributi: Precisione, Richiamo, Punteggio F1

Metodi di Confronto

Single-prompt: Presenta tutte le 142 fasi in un singolo prompt
Agentic: Metodo agente in stile ReAct, con LLM che decompone autonomamente il discorso e chiama strumenti di classificazione
CAG: Metodo di generazione aumentata da classificatore proposto in questo articolo

Dettagli di Implementazione

Modelli: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
Classificatore: RoBERTa-large e IBM slate-125m-english-rtrvr
Utilizzo di Token: CAG circa 4000-4700 token vs Single-prompt circa 14000 token

Risultati Sperimentali

Risultati Principali

Confronto dell'Accuratezza della Previsione della Fase

Metodo	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71.1%	88.0%	96.4%	95.8%
Agentic	33.4%	45.6%	69.3%	40.0%
CAG	90.1%	94.0%	97.2%	97.7%

Risultati della Previsione dei Bordi (54 processi non lineari)

Somiglianza Strutturale: 73% (LLaMA-3.3-70B)
Corrispondenza Esatta: 37% (LLaMA-3.3-70B)

Risultati della Previsione degli Attributi (Punteggio F1)

LLaMA-3.2-3B: 0.79
Granite-3.3-8B: 0.81
LLaMA-3.3-70B: 0.86
LLaMA-4-17B: 0.78

Esperimenti di Ablazione

Contributo del Classificatore: La selezione delle fasi candidate attraverso il classificatore migliora significativamente l'accuratezza
Corrispondenza di Parole Chiave: Riduce le previsioni errate per discorsi ovvi
Esempi con Pochi Esempi: Gli esempi mirati migliorano la capacità di discriminazione tra fasi simili

Analisi dei Casi

Caso di Fallimento: Per il discorso "Split the full_name field...then capitalize the first letter...", la maggior parte dei modelli restituisce solo la fase split_subrecord omettendo la fase modify, perché il classificatore ha mappato erroneamente "capitalize" alla fase head.

Scoperte Sperimentali

Effetto della Dimensione del Modello: I modelli più grandi funzionano meglio in tutti i compiti
Miglioramento dell'Efficienza: CAG riduce l'utilizzo di token del 66% mentre migliora l'accuratezza
Sfida della Previsione dei Bordi: La previsione di strutture non lineari complesse rimane il compito più impegnativo

Lavori Correlati

Principali Direzioni di Ricerca

Generazione di Flussi di Lavoro Guidata da IA: Strumenti commerciali come Zap builder e Power Automate
Flussi di Lavoro di Integrazione di Applicazioni: GOFA crea flussi di lavoro di integrazione di applicazioni attraverso il linguaggio naturale
Flussi di Lavoro di Esecuzione di Query: Strumenti ad hoc come FlowMind e AutoFlow
Generazione SQL: Strumenti di conversione da linguaggio naturale a SQL come Analyza

Vantaggi di Questo Articolo

Primo sistema di creazione ETL guidato dal linguaggio naturale che fornisce una valutazione dettagliata della previsione della fase, del layout dei bordi e della generazione degli attributi
Genera flussi di lavoro riutilizzabili e generici, non esecuzioni ad hoc
Soluzione end-to-end completa, inclusa la configurazione dettagliata degli attributi

Conclusioni e Discussione

Conclusioni Principali

Il metodo CAG supera significativamente i metodi esistenti nel compito di generazione di flussi di lavoro ETL
L'architettura modulare supporta il ragionamento trasparente e la validazione robusta
Il sistema è stato distribuito con successo in ambiente di produzione, verificandone l'utilità pratica e la scalabilità

Limitazioni

Limitazioni del Classificatore: Addestrato solo su dati di addestramento a etichetta singola, potrebbe omettere fasi candidate rilevanti
Sfida della Previsione dei Bordi: La corrispondenza esatta dei bordi è solo del 37%, richiedendo revisioni da parte dell'utente
Logica di Validazione: Presume che i nomi di tabella e colonna siano corretti o ignorabili, mancando di corrispondenza fuzzy
Portabilità del Prompt: Ottimizzato per famiglie di modelli specifiche, potrebbe influenzare la generalizzazione tra architetture

Direzioni Future

Esplorare architetture ibride che combinano reti neurali grafiche per migliorare la previsione dei bordi
Sviluppare classificatori multi-etichetta per migliorare l'identificazione delle fasi candidate
Migliorare la logica di validazione per supportare corrispondenza fuzzy e correzione degli errori
Estendere ad altre piattaforme ETL e domini

Valutazione Approfondita

Punti di Forza

Innovazione del Metodo: Il metodo CAG combina abilmente i vantaggi della classificazione e della generazione, mantenendo alta accuratezza e migliorando l'efficienza
Completezza Sperimentale: Copre il processo completo di generazione del flusso di lavoro, inclusa una valutazione dettagliata della previsione della fase, dei bordi e degli attributi
Valore Pratico: Il sistema è distribuito in ambiente di produzione, provando il valore di applicazione pratica
Chiarezza della Scrittura: La struttura dell'articolo è chiara e i dettagli tecnici sono descritti accuratamente

Insufficienze

Dimensione del Dataset: Il dataset di valutazione è relativamente piccolo, in particolare con solo 54 campioni di processi non lineari
Specificità del Dominio: Principalmente focalizzato sulla piattaforma IBM DataStage, la capacità di generalizzazione rimane da verificare
Prestazioni della Previsione dei Bordi: Il tasso di corrispondenza esatta del 37% indica che questo modulo necessita ancora di miglioramenti significativi
Analisi degli Errori: L'analisi dei casi di fallimento è relativamente limitata

Impatto

Contributo Accademico: Primo a risolvere sistematicamente il problema completo della conversione da linguaggio naturale a flusso di lavoro ETL
Valore Industriale: Fornisce un percorso tecnologico praticabile per l'intelligenza degli strumenti ETL
Riproducibilità: Fornisce dettagli di implementazione dettagliati e modelli di prompt

Scenari Applicabili

Integrazione Dati Aziendale: Semplifica il processo di creazione e configurazione dei flussi di lavoro ETL
Strumenti di Data Science: Fornisce un'interfaccia più intuitiva per gli utenti non professionisti nel trattamento dei dati
Piattaforme Low-Code/No-Code: Integrazione come componente intelligente negli ambienti di sviluppo visuale

Riferimenti Bibliografici

Questo articolo cita importanti lavori nel campo correlato, inclusi:

Rassegne sulla tecnologia ETL (Rahm e Do, 2000; Vassiliadis, 2009)
Apprendimento con pochi esempi nei modelli linguistici di grandi dimensioni (Brown et al., 2020)
Metodo agente ReAct (Yao et al., 2023)
Ricerca correlata all'apprendimento degli strumenti (Schick et al., 2023; Qin et al., 2024)

Valutazione Complessiva: Questo è un articolo di ricerca applicata di alta qualità che propone il metodo innovativo CAG per risolvere problemi pratici e ne verifica l'efficacia in ambiente di produzione. Sebbene vi sia ancora spazio per miglioramenti in alcuni dettagli tecnici, fornisce contributi importanti al campo della generazione di flussi di lavoro guidata dal linguaggio naturale.