2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

Klassifizierer-Augmentierte Generierung für strukturierte Workflow-Vorhersage

Grundlegende Informationen

Papier-ID: 2510.12825
Titel: Classifier-Augmented Generation for Structured Workflow Prediction
Autoren: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta und Sameep Mehta (IBM Research)
Klassifizierung: cs.CL cs.AI cs.DB cs.LG
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
Papier-Link: https://arxiv.org/abs/2510.12825

Zusammenfassung

ETL-Tools (Extract, Transform, Load) wie IBM DataStage ermöglichen Benutzern, komplexe Daten-Workflows visuell zusammenzustellen, aber die Konfigurationsphase und ihre Attribute sind zeitaufwändig und erfordern tiefgreifendes Werkzeugwissen. Dieses Papier präsentiert ein System, das natürlichsprachliche Beschreibungen in ausführbare Workflows umwandelt und automatisch die Struktur und detaillierte Konfiguration von Prozessen vorhersagt. Der Kern ist die Klassifizierer-Augmentierte Generierung (CAG), eine Methode, die Aussage-Zerlegung mit Klassifizierern und phasespezifischen Few-Shot-Prompts kombiniert, um genaue Phasenvorhersagen zu erzeugen. Diese Phasen werden durch Kantenvorhersage zu nichtlinearen Workflows verbunden, und Phaseneigenschaften werden aus Unter-Aussage-Kontext abgeleitet. Im Vergleich zu starken Baseline-Methoden zeigt CAG höhere Genauigkeit und Effizienz bei gleichzeitiger deutlicher Reduzierung der Token-Nutzung.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Die Konfigurationskomplexität von ETL-Tools behindert die Benutzernutzung. Selbst Experten müssen Transformationsphasen manuell konfigurieren und für jede Phase Dutzende von Low-Level-Attributen angeben, was den Erstellungsprozess mühsam und fehleranfällig macht.
Bedeutung: ETL- und ELT-Workflows sind die Grundlage moderner unternehmensweiter Datenintegrations- und Analyse-Pipelines, aber traditionelle grafische Schnittstellen erfordern immer noch erhebliche manuelle Konfigurationsarbeit.
Einschränkungen bestehender Methoden:
- Frühe Ansätze adressierten Herausforderungen durch benutzerdefinierte Skripte oder GUI-basierte Vereinfachungen
- Einige erkundeten semantik- und ontologie-gesteuerte ETL-Generierung
- Mangel an End-to-End-Systemen für natürliche Sprache zu ausführbarem Workflow
Forschungsmotivation: Fortschritte in großen Sprachmodellen bieten neue Möglichkeiten für die automatische Synthese von Workflows direkt aus natürlicher Sprache, was Konfigurationsaufwand reduzieren und Zugänglichkeit verbessern kann.

Kernbeiträge

Vorschlag der Klassifizierer-Augmentierten Generierung (CAG) Methode: Kombiniert Aussage-Zerlegung, klassifiziererbasierte Phasenabruf und Few-Shot-Prompting zur Vorhersage von Workflow-Phasensequenzen
Entwicklung eines End-to-End-Workflow-Generierungssystems: Umfasst drei Kernmodule: Phasenvorhersage, Kantenvorhersage und Attributvorhersage
Erreichung signifikanter Leistungsverbesserungen: Über 97% Genauigkeit bei der Phasenvorhersage bei gleichzeitiger Reduktion der Token-Nutzung um über 60%
Bereitstellung einer modularen und interpretierbaren Architektur: Unterstützt robuste Validierung und Constraint-Überprüfung
Abschluss der Produktionsumgebungs-Bereitstellung: System wurde in IBM DataStage Produktionswerkzeug integriert

Methodische Details

Aufgabendefinition

Eingabe: Natürlichsprachliche Beschreibung von ETL-Workflow-Anforderungen Ausgabe: Vollständiger ausführbarer DataStage-Workflow, einschließlich:

Workflow-Phasensequenz
Verbindungsbeziehungen zwischen Phasen (Kanten)
Detaillierte Attributkonfiguration für jede Phase

Modellarchitektur

1. Phasenvorhersage (Stage Prediction)

Die CAG-Methode umfasst folgende Schritte:

Aussage-Zerlegung: Zerlegung der Benutzereingabe in Unter-Aussagen, die einzelne Phasen beschreiben
Klassifizierer-Abruf: Verwendung eines trainierten Klassifizierungsmodells zur Identifikation von Kandidatenphasen
Schlüsselwort-Matching: Scannen der Benutzeraussage nach Phasennamen und deren Synonymen
Zielgenerierung: Generierung gezielter Beschreibungen und Few-Shot-Beispiele basierend auf Kandidatenphasen für die endgültige Multi-Label-Vorhersage durch das LLM

2. Kantenvorhersage (Edge Prediction)

Behandlung nichtlinearer Workflow-Strukturen:

Zuweisung eindeutiger Namen für wiederholte Phasen
Aufteilung der Aussage in Unter-Aussagen basierend auf vorhergesagten Phasen
Vorhersage der Flussstruktur basierend auf Knotenliste und ursprünglicher Aussage
Validierung, dass die Kantenzahl Kardinalitäts-Constraints erfüllt

3. Attributvorhersage (Property Prediction)

Vorhersage spezifischer Konfigurationen für jede Phase:

Verwendung phasenspezifischer Unter-Aussagen zur Vermeidung von Mehrdeutigkeit
Einbeziehung von Aufgabenanweisungen, Unter-Aussagen, Phasennamen, Attributlisten und Beispielen
Mehrdimensionale Validierungsstrategie zur Gewährleistung der Attributkorrektheit

Technische Innovationen

Hybride Abruf-Generierungs-Architektur: Kombiniert schnelle Klassifizierer und LLM-Generierung, um Effizienz und Genauigkeit auszugleichen
Hierarchischer Validierungsmechanismus: Constraint-Überprüfung und Konsistenzvalidierung auf mehreren Ebenen
Modulares Design: Jede Komponente kann unabhängig optimiert und debuggt werden
Kontextuelle Lokalisierung: Reduzierung der LLM-Verarbeitungskomplexität durch Unter-Aussage-Aufteilung

Experimentelle Einrichtung

Datensätze

Phasenvorhersage: 1010 natürlichsprachliche Prozessbeschreibungen
Attributvorhersage: 308 Prozesse mit 1410 Attributen
Kantenvorhersage: 54 komplexe nichtlineare Prozesse (6-14 Phasen)
Klassifizierer-Training: 2697 (Aussage, Operator) Single-Label-Paare, abdeckend 138 semantische Labels

Bewertungsmetriken

Phasenvorhersage: Genauigkeit (gesamt, einzelne Operation, mehrere Operationen)
Kantenvorhersage: Strukturähnlichkeit, exakte Übereinstimmungsrate
Attributvorhersage: Präzision, Recall, F1-Score

Vergleichsmethoden

Single-prompt: Präsentation aller 142 Phasen in einem einzigen Prompt
Agentic: ReAct-Stil-Agent-Methode, LLM zerlegt Aussagen autonom und ruft Klassifizierungswerkzeuge auf
CAG: Die in diesem Papier vorgeschlagene Klassifizierer-Augmentierte Generierungsmethode

Implementierungsdetails

Modelle: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
Klassifizierer: RoBERTa-large und IBM slate-125m-english-rtrvr
Token-Nutzung: CAG etwa 4000-4700 Tokens vs. Single-prompt etwa 14000 Tokens

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Phasenvorhersage-Genauigkeit

Methode	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71,1%	88,0%	96,4%	95,8%
Agentic	33,4%	45,6%	69,3%	40,0%
CAG	90,1%	94,0%	97,2%	97,7%

Kantenvorhersage-Ergebnisse (54 nichtlineare Prozesse)

Strukturähnlichkeit: 73% (LLaMA-3.3-70B)
Exakte Übereinstimmung: 37% (LLaMA-3.3-70B)

Attributvorhersage-Ergebnisse (F1-Score)

LLaMA-3.2-3B: 0,79
Granite-3.3-8B: 0,81
LLaMA-3.3-70B: 0,86
LLaMA-4-17B: 0,78

Ablationsstudien

Klassifizierer-Beitrag: Kandidatenphasen-Filterung führt zu signifikanter Genauigkeitssteigerung
Schlüsselwort-Matching: Reduziert Fehlvorhersagen bei offensichtlichen Aussagen
Few-Shot-Beispiele: Gezielt ausgewählte Beispiele verbessern die Unterscheidungsfähigkeit ähnlicher Phasen

Fallstudienanalyse

Fehlgeschlagene Fälle: Für die Aussage "Split the full_name field...then capitalize the first letter..." geben die meisten Modelle nur die split_subrecord-Phase zurück und übersehen die modify-Phase, da der Klassifizierer "capitalize" fälschlicherweise der head-Phase zuordnet.

Experimentelle Erkenntnisse

Modellgröße-Effekt: Größere Modelle zeigen bessere Leistung bei allen Aufgaben
Effizienzsteigerung: CAG reduziert die Token-Nutzung um 66%, während die Genauigkeit verbessert wird
Kantenvorhersage-Herausforderung: Vorhersage komplexer nichtlinearer Strukturen bleibt die anspruchsvollste Aufgabe

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Die CAG-Methode übertrifft bestehende Methoden signifikant bei der ETL-Workflow-Generierungsaufgabe
Die modulare Architektur unterstützt transparentes Reasoning und robuste Validierung
Das System wurde erfolgreich in der Produktionsumgebung bereitgestellt und validiert Praktikabilität und Skalierbarkeit

Einschränkungen

Klassifizierer-Limitierungen: Nur auf Single-Label-Trainingsdaten trainiert, kann relevante Kandidatenphasen übersehen
Kantenvorhersage-Herausforderung: Exakte Kantenübereinstimmung nur 37%, erfordert Benutzerüberprüfung
Validierungslogik: Geht davon aus, dass Tabellen- und Spaltennamen korrekt oder vernachlässigbar sind, fehlt Fuzzy-Matching
Prompt-Portabilität: Optimiert für spezifische Modellfamilien, kann architekturübergreifende Verallgemeinerung beeinträchtigen

Zukünftige Richtungen

Erkundung hybrider Architekturen mit Graphenneuralen Netzen zur Verbesserung der Kantenvorhersage
Entwicklung von Multi-Label-Klassifizierern zur Verbesserung der Kandidatenphasen-Identifikation
Verbesserung der Validierungslogik zur Unterstützung von Fuzzy-Matching und Fehlerkorrektur
Erweiterung auf andere ETL-Plattformen und Domänen

Tiefgreifende Bewertung

Stärken

Methodische Innovativität: Die CAG-Methode kombiniert geschickt die Vorteile von Klassifizierung und Generierung und bewahrt hohe Genauigkeit bei verbesserter Effizienz
Experimentelle Vollständigkeit: Umfasst den kompletten Workflow-Generierungsprozess mit detaillierter Bewertung von Phasen-, Kanten- und Attributvorhersage
Praktischer Wert: System wurde in der Produktionsumgebung bereitgestellt und beweist praktischen Anwendungswert
Klare Schreibweise: Papierstruktur ist klar, technische Details sind genau beschrieben

Schwächen

Datensatzgröße: Bewertungsdatensätze sind relativ klein, besonders nichtlineare Prozesse mit nur 54 Samples
Domänenspezifität: Hauptsächlich auf IBM DataStage-Plattform ausgerichtet, Verallgemeinerungsfähigkeit bleibt zu überprüfen
Kantenvorhersage-Leistung: 37% exakte Übereinstimmungsrate deutet darauf hin, dass dieses Modul erhebliche Verbesserungen benötigt
Fehleranalyse: Analyse fehlgeschlagener Fälle ist relativ begrenzt

Auswirkungen

Akademischer Beitrag: Erste systematische Lösung des vollständigen Konvertierungsproblems von natürlicher Sprache zu ETL-Workflows
Industrieller Wert: Bietet praktikable technische Wege zur Intelligenzsteigerung von ETL-Tools
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Prompt-Vorlagen

Anwendungsszenarien

Unternehmens-Datenintegration: Vereinfachung der Erstellung und Konfiguration von ETL-Workflows
Data-Science-Tools: Bereitstellung benutzerfreundlicherer Datenverarbeitungsschnittstellen für nicht-spezialisierte Benutzer
Low-Code/No-Code-Plattformen: Integration als intelligente Komponente in visuelle Entwicklungsumgebungen

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich:

ETL-Technologie-Übersichten (Rahm und Do, 2000; Vassiliadis, 2009)
Few-Shot-Learning mit großen Sprachmodellen (Brown et al., 2020)
ReAct-Agent-Methode (Yao et al., 2023)
Werkzeug-Lernforschung (Schick et al., 2023; Qin et al., 2024)

Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das eine innovative CAG-Methode zur Lösung praktischer Probleme vorschlägt und ihre Wirksamkeit in der Produktionsumgebung validiert. Obwohl in einigen technischen Details Verbesserungsspielraum besteht, leistet es wichtige Beiträge zum Bereich der natürlichsprachlich gesteuerten Workflow-Generierung.