ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
- Papier-ID: 2510.12825
- Titel: Classifier-Augmented Generation for Structured Workflow Prediction
- Autoren: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta und Sameep Mehta (IBM Research)
- Klassifizierung: cs.CL cs.AI cs.DB cs.LG
- Veröffentlichungsdatum: 10. Oktober 2025 (arXiv Preprint)
- Papier-Link: https://arxiv.org/abs/2510.12825
ETL-Tools (Extract, Transform, Load) wie IBM DataStage ermöglichen Benutzern, komplexe Daten-Workflows visuell zusammenzustellen, aber die Konfigurationsphase und ihre Attribute sind zeitaufwändig und erfordern tiefgreifendes Werkzeugwissen. Dieses Papier präsentiert ein System, das natürlichsprachliche Beschreibungen in ausführbare Workflows umwandelt und automatisch die Struktur und detaillierte Konfiguration von Prozessen vorhersagt. Der Kern ist die Klassifizierer-Augmentierte Generierung (CAG), eine Methode, die Aussage-Zerlegung mit Klassifizierern und phasespezifischen Few-Shot-Prompts kombiniert, um genaue Phasenvorhersagen zu erzeugen. Diese Phasen werden durch Kantenvorhersage zu nichtlinearen Workflows verbunden, und Phaseneigenschaften werden aus Unter-Aussage-Kontext abgeleitet. Im Vergleich zu starken Baseline-Methoden zeigt CAG höhere Genauigkeit und Effizienz bei gleichzeitiger deutlicher Reduzierung der Token-Nutzung.
- Kernproblem: Die Konfigurationskomplexität von ETL-Tools behindert die Benutzernutzung. Selbst Experten müssen Transformationsphasen manuell konfigurieren und für jede Phase Dutzende von Low-Level-Attributen angeben, was den Erstellungsprozess mühsam und fehleranfällig macht.
- Bedeutung: ETL- und ELT-Workflows sind die Grundlage moderner unternehmensweiter Datenintegrations- und Analyse-Pipelines, aber traditionelle grafische Schnittstellen erfordern immer noch erhebliche manuelle Konfigurationsarbeit.
- Einschränkungen bestehender Methoden:
- Frühe Ansätze adressierten Herausforderungen durch benutzerdefinierte Skripte oder GUI-basierte Vereinfachungen
- Einige erkundeten semantik- und ontologie-gesteuerte ETL-Generierung
- Mangel an End-to-End-Systemen für natürliche Sprache zu ausführbarem Workflow
- Forschungsmotivation: Fortschritte in großen Sprachmodellen bieten neue Möglichkeiten für die automatische Synthese von Workflows direkt aus natürlicher Sprache, was Konfigurationsaufwand reduzieren und Zugänglichkeit verbessern kann.
- Vorschlag der Klassifizierer-Augmentierten Generierung (CAG) Methode: Kombiniert Aussage-Zerlegung, klassifiziererbasierte Phasenabruf und Few-Shot-Prompting zur Vorhersage von Workflow-Phasensequenzen
- Entwicklung eines End-to-End-Workflow-Generierungssystems: Umfasst drei Kernmodule: Phasenvorhersage, Kantenvorhersage und Attributvorhersage
- Erreichung signifikanter Leistungsverbesserungen: Über 97% Genauigkeit bei der Phasenvorhersage bei gleichzeitiger Reduktion der Token-Nutzung um über 60%
- Bereitstellung einer modularen und interpretierbaren Architektur: Unterstützt robuste Validierung und Constraint-Überprüfung
- Abschluss der Produktionsumgebungs-Bereitstellung: System wurde in IBM DataStage Produktionswerkzeug integriert
Eingabe: Natürlichsprachliche Beschreibung von ETL-Workflow-Anforderungen
Ausgabe: Vollständiger ausführbarer DataStage-Workflow, einschließlich:
- Workflow-Phasensequenz
- Verbindungsbeziehungen zwischen Phasen (Kanten)
- Detaillierte Attributkonfiguration für jede Phase
Die CAG-Methode umfasst folgende Schritte:
- Aussage-Zerlegung: Zerlegung der Benutzereingabe in Unter-Aussagen, die einzelne Phasen beschreiben
- Klassifizierer-Abruf: Verwendung eines trainierten Klassifizierungsmodells zur Identifikation von Kandidatenphasen
- Schlüsselwort-Matching: Scannen der Benutzeraussage nach Phasennamen und deren Synonymen
- Zielgenerierung: Generierung gezielter Beschreibungen und Few-Shot-Beispiele basierend auf Kandidatenphasen für die endgültige Multi-Label-Vorhersage durch das LLM
Behandlung nichtlinearer Workflow-Strukturen:
- Zuweisung eindeutiger Namen für wiederholte Phasen
- Aufteilung der Aussage in Unter-Aussagen basierend auf vorhergesagten Phasen
- Vorhersage der Flussstruktur basierend auf Knotenliste und ursprünglicher Aussage
- Validierung, dass die Kantenzahl Kardinalitäts-Constraints erfüllt
Vorhersage spezifischer Konfigurationen für jede Phase:
- Verwendung phasenspezifischer Unter-Aussagen zur Vermeidung von Mehrdeutigkeit
- Einbeziehung von Aufgabenanweisungen, Unter-Aussagen, Phasennamen, Attributlisten und Beispielen
- Mehrdimensionale Validierungsstrategie zur Gewährleistung der Attributkorrektheit
- Hybride Abruf-Generierungs-Architektur: Kombiniert schnelle Klassifizierer und LLM-Generierung, um Effizienz und Genauigkeit auszugleichen
- Hierarchischer Validierungsmechanismus: Constraint-Überprüfung und Konsistenzvalidierung auf mehreren Ebenen
- Modulares Design: Jede Komponente kann unabhängig optimiert und debuggt werden
- Kontextuelle Lokalisierung: Reduzierung der LLM-Verarbeitungskomplexität durch Unter-Aussage-Aufteilung
- Phasenvorhersage: 1010 natürlichsprachliche Prozessbeschreibungen
- Attributvorhersage: 308 Prozesse mit 1410 Attributen
- Kantenvorhersage: 54 komplexe nichtlineare Prozesse (6-14 Phasen)
- Klassifizierer-Training: 2697 (Aussage, Operator) Single-Label-Paare, abdeckend 138 semantische Labels
- Phasenvorhersage: Genauigkeit (gesamt, einzelne Operation, mehrere Operationen)
- Kantenvorhersage: Strukturähnlichkeit, exakte Übereinstimmungsrate
- Attributvorhersage: Präzision, Recall, F1-Score
- Single-prompt: Präsentation aller 142 Phasen in einem einzigen Prompt
- Agentic: ReAct-Stil-Agent-Methode, LLM zerlegt Aussagen autonom und ruft Klassifizierungswerkzeuge auf
- CAG: Die in diesem Papier vorgeschlagene Klassifizierer-Augmentierte Generierungsmethode
- Modelle: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
- Klassifizierer: RoBERTa-large und IBM slate-125m-english-rtrvr
- Token-Nutzung: CAG etwa 4000-4700 Tokens vs. Single-prompt etwa 14000 Tokens
| Methode | LLaMA-3.2-3B | Granite-3.1-8B | LLaMA-3.3-70B | LLaMA-4-17B |
|---|
| Single-prompt | 71,1% | 88,0% | 96,4% | 95,8% |
| Agentic | 33,4% | 45,6% | 69,3% | 40,0% |
| CAG | 90,1% | 94,0% | 97,2% | 97,7% |
- Strukturähnlichkeit: 73% (LLaMA-3.3-70B)
- Exakte Übereinstimmung: 37% (LLaMA-3.3-70B)
- LLaMA-3.2-3B: 0,79
- Granite-3.3-8B: 0,81
- LLaMA-3.3-70B: 0,86
- LLaMA-4-17B: 0,78
- Klassifizierer-Beitrag: Kandidatenphasen-Filterung führt zu signifikanter Genauigkeitssteigerung
- Schlüsselwort-Matching: Reduziert Fehlvorhersagen bei offensichtlichen Aussagen
- Few-Shot-Beispiele: Gezielt ausgewählte Beispiele verbessern die Unterscheidungsfähigkeit ähnlicher Phasen
Fehlgeschlagene Fälle: Für die Aussage "Split the full_name field...then capitalize the first letter..." geben die meisten Modelle nur die split_subrecord-Phase zurück und übersehen die modify-Phase, da der Klassifizierer "capitalize" fälschlicherweise der head-Phase zuordnet.
- Modellgröße-Effekt: Größere Modelle zeigen bessere Leistung bei allen Aufgaben
- Effizienzsteigerung: CAG reduziert die Token-Nutzung um 66%, während die Genauigkeit verbessert wird
- Kantenvorhersage-Herausforderung: Vorhersage komplexer nichtlinearer Strukturen bleibt die anspruchsvollste Aufgabe
- KI-gesteuerte Workflow-Generierung: Zap Builder, Power Automate und andere kommerzielle Tools
- Anwendungsintegrations-Workflows: GOFA erstellt Anwendungsintegrations-Workflows durch natürliche Sprache
- Abfrage-Ausführungs-Workflows: FlowMind, AutoFlow und andere Ad-hoc-Ausführungswerkzeuge
- SQL-Generierung: Analyza und andere Tools für natürliche Sprache zu SQL-Konvertierung
- Erstes System für natürlichsprachlich gesteuerte ETL-Erstellung mit detaillierter Bewertung von Phasenvorhersage, Kantenlayout und Attributgenerierung
- Generiert wiederverwendbare allgemeine Workflows statt Ad-hoc-Ausführung
- Vollständige End-to-End-Lösung einschließlich detaillierter Attributkonfiguration
- Die CAG-Methode übertrifft bestehende Methoden signifikant bei der ETL-Workflow-Generierungsaufgabe
- Die modulare Architektur unterstützt transparentes Reasoning und robuste Validierung
- Das System wurde erfolgreich in der Produktionsumgebung bereitgestellt und validiert Praktikabilität und Skalierbarkeit
- Klassifizierer-Limitierungen: Nur auf Single-Label-Trainingsdaten trainiert, kann relevante Kandidatenphasen übersehen
- Kantenvorhersage-Herausforderung: Exakte Kantenübereinstimmung nur 37%, erfordert Benutzerüberprüfung
- Validierungslogik: Geht davon aus, dass Tabellen- und Spaltennamen korrekt oder vernachlässigbar sind, fehlt Fuzzy-Matching
- Prompt-Portabilität: Optimiert für spezifische Modellfamilien, kann architekturübergreifende Verallgemeinerung beeinträchtigen
- Erkundung hybrider Architekturen mit Graphenneuralen Netzen zur Verbesserung der Kantenvorhersage
- Entwicklung von Multi-Label-Klassifizierern zur Verbesserung der Kandidatenphasen-Identifikation
- Verbesserung der Validierungslogik zur Unterstützung von Fuzzy-Matching und Fehlerkorrektur
- Erweiterung auf andere ETL-Plattformen und Domänen
- Methodische Innovativität: Die CAG-Methode kombiniert geschickt die Vorteile von Klassifizierung und Generierung und bewahrt hohe Genauigkeit bei verbesserter Effizienz
- Experimentelle Vollständigkeit: Umfasst den kompletten Workflow-Generierungsprozess mit detaillierter Bewertung von Phasen-, Kanten- und Attributvorhersage
- Praktischer Wert: System wurde in der Produktionsumgebung bereitgestellt und beweist praktischen Anwendungswert
- Klare Schreibweise: Papierstruktur ist klar, technische Details sind genau beschrieben
- Datensatzgröße: Bewertungsdatensätze sind relativ klein, besonders nichtlineare Prozesse mit nur 54 Samples
- Domänenspezifität: Hauptsächlich auf IBM DataStage-Plattform ausgerichtet, Verallgemeinerungsfähigkeit bleibt zu überprüfen
- Kantenvorhersage-Leistung: 37% exakte Übereinstimmungsrate deutet darauf hin, dass dieses Modul erhebliche Verbesserungen benötigt
- Fehleranalyse: Analyse fehlgeschlagener Fälle ist relativ begrenzt
- Akademischer Beitrag: Erste systematische Lösung des vollständigen Konvertierungsproblems von natürlicher Sprache zu ETL-Workflows
- Industrieller Wert: Bietet praktikable technische Wege zur Intelligenzsteigerung von ETL-Tools
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Prompt-Vorlagen
- Unternehmens-Datenintegration: Vereinfachung der Erstellung und Konfiguration von ETL-Workflows
- Data-Science-Tools: Bereitstellung benutzerfreundlicherer Datenverarbeitungsschnittstellen für nicht-spezialisierte Benutzer
- Low-Code/No-Code-Plattformen: Integration als intelligente Komponente in visuelle Entwicklungsumgebungen
Dieses Papier zitiert wichtige Arbeiten im relevanten Bereich, einschließlich:
- ETL-Technologie-Übersichten (Rahm und Do, 2000; Vassiliadis, 2009)
- Few-Shot-Learning mit großen Sprachmodellen (Brown et al., 2020)
- ReAct-Agent-Methode (Yao et al., 2023)
- Werkzeug-Lernforschung (Schick et al., 2023; Qin et al., 2024)
Gesamtbewertung: Dies ist ein hochqualitatives Anwendungsforschungspapier, das eine innovative CAG-Methode zur Lösung praktischer Probleme vorschlägt und ihre Wirksamkeit in der Produktionsumgebung validiert. Obwohl in einigen technischen Details Verbesserungsspielraum besteht, leistet es wichtige Beiträge zum Bereich der natürlichsprachlich gesteuerten Workflow-Generierung.