2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.

ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.

academic

संरचित वर्कफ़्लो भविष्यवाणी के लिए वर्गीकरण-संवर्धित पीढ़ी

मूल जानकारी

पेपर ID: 2510.12825
शीर्षक: संरचित वर्कफ़्लो भविष्यवाणी के लिए वर्गीकरण-संवर्धित पीढ़ी
लेखक: थॉमस गश्विंड, श्रमोना चक्रबोर्ती, नितिन गुप्ता, और समीप मेहता (IBM अनुसंधान)
वर्गीकरण: cs.CL cs.AI cs.DB cs.LG
प्रकाशन समय: 25 अक्टूबर 10 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.12825

सारांश

ETL (निष्कर्षण, रूपांतरण, लोड) उपकरण जैसे IBM DataStage उपयोगकर्ताओं को जटिल डेटा वर्कफ़्लो को दृश्य रूप से संयोजित करने की अनुमति देते हैं, लेकिन कॉन्फ़िगरेशन चरण और उनके गुण अभी भी समय लेने वाले हैं और गहन उपकरण ज्ञान की आवश्यकता है। यह पेपर प्राकृतिक भाषा विवरण को निष्पादन योग्य वर्कफ़्लो में परिवर्तित करने के लिए एक प्रणाली प्रस्तावित करता है, जो प्रक्रिया की संरचना और विस्तृत कॉन्फ़िगरेशन को स्वचालित रूप से भविष्यवाणी करता है। मूल वर्गीकरण-संवर्धित पीढ़ी (CAG) विधि है, जो कथन विघटन को वर्गीकरण और चरण-विशिष्ट कुछ-शॉट संकेतों के साथ जोड़ती है, जो सटीक चरण भविष्यवाणी उत्पन्न करती है। ये चरण किनारे की भविष्यवाणी के माध्यम से गैर-रैखिक वर्कफ़्लो में जुड़े हुए हैं, और चरण विशेषताओं को उप-कथन संदर्भ से अनुमानित किया जाता है। मजबूत आधारभूत विधियों की तुलना में, CAG उच्च सटीकता और दक्षता प्रदर्शित करता है, जबकि टोकन उपयोग में भारी कमी करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: ETL उपकरणों की कॉन्फ़िगरेशन जटिलता उपयोगकर्ता उपयोग में बाधा डालती है। यहां तक कि विशेषज्ञ उपयोगकर्ताओं को भी रूपांतरण चरणों को मैन्युअल रूप से कॉन्फ़िगर करना पड़ता है और प्रत्येक चरण के लिए दर्जनों निम्न-स्तरीय विशेषताओं को निर्दिष्ट करना पड़ता है, जिससे निर्माण प्रक्रिया कठिन और त्रुटि-प्रवण हो जाती है।
महत्व: ETL और ELT वर्कफ़्लो आधुनिक एंटरप्राइज डेटा एकीकरण और विश्लेषण पाइपलाइन की नींव हैं, लेकिन पारंपरिक ग्राफिकल इंटरफेस को अभी भी बड़ी मात्रा में मैन्युअल कॉन्फ़िगरेशन कार्य की आवश्यकता है।
मौजूदा विधि की सीमाएं:
- प्रारंभिक विधियों ने कस्टम स्क्रिप्ट या GUI-आधारित सरलीकरण के माध्यम से चुनौतियों को संबोधित किया
- कुछ ने शब्दार्थ और ऑन्टोलॉजी-संचालित ETL पीढ़ी की खोज की
- प्राकृतिक भाषा से निष्पादन योग्य वर्कफ़्लो तक एंड-टू-एंड प्रणाली की कमी है
अनुसंधान प्रेरणा: बड़े भाषा मॉडल की प्रगति प्राकृतिक भाषा से वर्कफ़्लो को स्वचालित रूप से संश्लेषित करने के लिए नए अवसर प्रदान करती है, जो कॉन्फ़िगरेशन ओवरहेड को कम कर सकती है और पहुंच में सुधार कर सकती है।

मुख्य योगदान

वर्गीकरण-संवर्धित पीढ़ी (CAG) विधि प्रस्तावित की: कथन विघटन, वर्गीकरण-आधारित चरण पुनर्प्राप्ति और कुछ-शॉट संकेतों को जोड़कर वर्कफ़्लो चरण अनुक्रम की भविष्यवाणी करता है
एंड-टू-एंड वर्कफ़्लो पीढ़ी प्रणाली का निर्माण किया: चरण भविष्यवाणी, किनारे की भविष्यवाणी और विशेषता भविष्यवाणी के तीन मुख्य मॉड्यूल शामिल हैं
महत्वपूर्ण प्रदर्शन सुधार प्राप्त किया: चरण भविष्यवाणी पर 97% से अधिक सटीकता प्राप्त करते हुए 60% से अधिक टोकन उपयोग में कमी
मॉड्यूलर और व्याख्यात्मक आर्किटेक्चर प्रदान किया: मजबूत सत्यापन और बाधा जांच का समर्थन करता है
उत्पादन वातावरण में तैनाती पूरी की: प्रणाली को IBM DataStage उत्पादन उपकरण में एकीकृत किया गया है

विधि विवरण

कार्य परिभाषा

इनपुट: प्राकृतिक भाषा में वर्णित ETL वर्कफ़्लो आवश्यकताएं आउटपुट: पूर्ण निष्पादन योग्य DataStage वर्कफ़्लो, जिसमें शामिल है:

वर्कफ़्लो चरण अनुक्रम
चरणों के बीच कनेक्शन संबंध (किनारे)
प्रत्येक चरण की विस्तृत विशेषता कॉन्फ़िगरेशन

मॉडल आर्किटेक्चर

1. चरण भविष्यवाणी (Stage Prediction)

CAG विधि में निम्नलिखित चरण शामिल हैं:

कथन विघटन: उपयोगकर्ता इनपुट को व्यक्तिगत चरणों का वर्णन करने वाले उप-कथनों में विघटित करता है
वर्गीकरण पुनर्प्राप्ति: प्रशिक्षित वर्गीकरण मॉडल का उपयोग करके उम्मीदवार चरणों की पहचान करता है
कीवर्ड मिलान: उपयोगकर्ता कथन में चरण नाम और उनके समानार्थी शब्दों को स्कैन करता है
लक्षित पीढ़ी: उम्मीदवार चरणों के आधार पर लक्षित विवरण और कुछ-शॉट उदाहरण उत्पन्न करता है, जिसे LLM द्वारा अंतिम बहु-लेबल भविष्यवाणी के लिए संसाधित किया जाता है

2. किनारे की भविष्यवाणी (Edge Prediction)

गैर-रैखिक वर्कफ़्लो संरचना को संभालता है:

दोहराए गए चरणों को अद्वितीय नाम निर्दिष्ट करता है
भविष्यवाणी किए गए चरणों के आधार पर कथन को उप-कथनों में विभाजित करता है
नोड सूची और मूल कथन के आधार पर प्रवाह संरचना की भविष्यवाणी करता है
किनारों की संख्या को बेसिकिटी बाधाओं के अनुरूप सत्यापित करता है

3. विशेषता भविष्यवाणी (Property Prediction)

प्रत्येक चरण के लिए विशिष्ट कॉन्फ़िगरेशन की भविष्यवाणी करता है:

अस्पष्टता से बचने के लिए चरण-विशिष्ट उप-कथन का उपयोग करता है
कार्य निर्देश, उप-कथन, चरण नाम, विशेषता सूची और उदाहरण शामिल करता है
बहु-आयामी सत्यापन रणनीति विशेषता सही होने को सुनिश्चित करती है

तकनीकी नवाचार बिंदु

हाइब्रिड पुनर्प्राप्ति-पीढ़ी आर्किटेक्चर: तेज़ वर्गीकरण और LLM पीढ़ी को जोड़ता है, दक्षता और सटीकता को संतुलित करता है
स्तरीय सत्यापन तंत्र: कई स्तरों पर बाधा जांच और सामंजस्य सत्यापन करता है
मॉड्यूलर डिज़ाइन: प्रत्येक घटक को स्वतंत्र रूप से अनुकूलित और डीबग किया जा सकता है
संदर्भ स्थानीयकरण: उप-कथन विभाजन के माध्यम से LLM द्वारा संसाधित जटिलता को कम करता है

प्रयोगात्मक सेटअप

डेटासेट

चरण भविष्यवाणी: 1010 प्राकृतिक भाषा प्रवाह विवरण
विशेषता भविष्यवाणी: 308 प्रवाह, 1410 विशेषताएं शामिल हैं
किनारे की भविष्यवाणी: 54 जटिल गैर-रैखिक प्रवाह (6-14 चरण)
वर्गीकरण प्रशिक्षण: 2697 (कथन, ऑपरेटर) एकल-लेबल जोड़े, 138 शब्दार्थ लेबल को कवर करते हैं

मूल्यांकन मेट्रिक्स

चरण भविष्यवाणी: सटीकता (समग्र, एकल ऑपरेशन, बहु-ऑपरेशन)
किनारे की भविष्यवाणी: संरचना समानता, सटीक मिलान दर
विशेषता भविष्यवाणी: सटीकता, रिकॉल, F1 स्कोर

तुलना विधियां

Single-prompt: सभी 142 चरणों को एक एकल संकेत में प्रस्तुत करता है
Agentic: ReAct शैली की बुद्धिमान विधि, LLM स्वायत्त रूप से कथन को विघटित करता है और वर्गीकरण उपकरण को कॉल करता है
CAG: इस पेपर द्वारा प्रस्तावित वर्गीकरण-संवर्धित पीढ़ी विधि

कार्यान्वयन विवरण

मॉडल: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
वर्गीकरण: RoBERTa-large और IBM slate-125m-english-rtrvr
टोकन उपयोग: CAG लगभग 4000-4700 टोकन बनाम Single-prompt लगभग 14000 टोकन

प्रयोगात्मक परिणाम

मुख्य परिणाम

चरण भविष्यवाणी सटीकता तुलना

विधि	LLaMA-3.2-3B	Granite-3.1-8B	LLaMA-3.3-70B	LLaMA-4-17B
Single-prompt	71.1%	88.0%	96.4%	95.8%
Agentic	33.4%	45.6%	69.3%	40.0%
CAG	90.1%	94.0%	97.2%	97.7%

किनारे की भविष्यवाणी परिणाम (54 गैर-रैखिक प्रवाह)

संरचना समानता: 73% (LLaMA-3.3-70B)
सटीक मिलान: 37% (LLaMA-3.3-70B)

विशेषता भविष्यवाणी परिणाम (F1 स्कोर)

LLaMA-3.2-3B: 0.79
Granite-3.3-8B: 0.81
LLaMA-3.3-70B: 0.86
LLaMA-4-17B: 0.78

विलोपन प्रयोग

वर्गीकरण योगदान: उम्मीदवार चरण फ़िल्टरिंग के माध्यम से सटीकता में महत्वपूर्ण सुधार
कीवर्ड मिलान: स्पष्ट कथन के गलत भविष्यवाणी को कम करता है
कुछ-शॉट उदाहरण: लक्षित उदाहरण समान चरणों के विभेदन में सुधार करते हैं

केस विश्लेषण

विफलता केस: कथन "Split the full_name field...then capitalize the first letter..." के लिए, अधिकांश मॉडल केवल split_subrecord चरण लौटाते हैं और modify चरण को छोड़ देते हैं, क्योंकि वर्गीकरण ने गलती से "capitalize" को head चरण में मैप किया।

प्रयोगात्मक निष्कर्ष

मॉडल आकार प्रभाव: बड़े मॉडल सभी कार्यों पर बेहतर प्रदर्शन करते हैं
दक्षता सुधार: CAG सटीकता बढ़ाते हुए 66% टोकन उपयोग में कमी करता है
किनारे की भविष्यवाणी चुनौती: जटिल गैर-रैखिक संरचना भविष्यवाणी अभी भी सबसे चुनौतीपूर्ण कार्य है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

CAG विधि ETL वर्कफ़्लो पीढ़ी कार्य पर मौजूदा विधियों से महत्वपूर्ण रूप से बेहतर है
मॉड्यूलर आर्किटेक्चर पारदर्शी तर्क और मजबूत सत्यापन का समर्थन करता है
प्रणाली को उत्पादन वातावरण में सफलतापूर्वक तैनात किया गया है, व्यावहारिकता और स्केलेबिलिटी को सत्यापित करता है

सीमाएं

वर्गीकरण सीमा: केवल एकल-लेबल प्रशिक्षण डेटा पर प्रशिक्षित, संबंधित उम्मीदवार चरणों को छोड़ सकता है
किनारे की भविष्यवाणी चुनौती: सटीक किनारे मिलान केवल 37%, उपयोगकर्ता संशोधन की आवश्यकता है
सत्यापन तर्क: मानता है कि तालिका नाम और स्तंभ नाम सही हैं या अनदेखे हैं, अस्पष्ट मिलान की कमी है
संकेत पोर्टेबिलिटी: विशिष्ट मॉडल परिवार के लिए ट्यून किया गया, आर्किटेक्चर भर में सामान्यीकरण को प्रभावित कर सकता है

भविष्य की दिशाएं

ग्राफ न्यूरल नेटवर्क को जोड़ने वाली हाइब्रिड आर्किटेक्चर की खोज करें किनारे की भविष्यवाणी में सुधार के लिए
उम्मीदवार चरण पहचान में सुधार के लिए बहु-लेबल वर्गीकरण विकसित करें
अस्पष्ट मिलान और त्रुटि सुधार का समर्थन करने के लिए सत्यापन तर्क को बढ़ाएं
अन्य ETL प्लेटफॉर्म और डोमेन तक विस्तार करें

गहन मूल्यांकन

शक्तियां

विधि नवाचार: CAG विधि वर्गीकरण और पीढ़ी के लाभों को चतुराई से जोड़ता है, उच्च सटीकता बनाए रखते हुए दक्षता में सुधार करता है
प्रयोगात्मक पूर्णता: पूर्ण वर्कफ़्लो पीढ़ी प्रक्रिया को कवर करता है, चरण, किनारे और विशेषता भविष्यवाणी का विस्तृत मूल्यांकन शामिल है
व्यावहारिक मूल्य: प्रणाली को उत्पादन वातावरण में तैनात किया गया है, वास्तविक अनुप्रयोग मूल्य को प्रमाणित करता है
लेखन स्पष्टता: पेपर संरचना स्पष्ट है, तकनीकी विवरण सटीक रूप से वर्णित हैं

कमियां

डेटासेट आकार: मूल्यांकन डेटासेट अपेक्षाकृत छोटा है, विशेषकर गैर-रैखिक प्रवाह केवल 54 नमूने हैं
डोमेन विशिष्टता: मुख्य रूप से IBM DataStage प्लेटफॉर्म के लिए, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
किनारे की भविष्यवाणी प्रदर्शन: 37% सटीक मिलान दर इंगित करता है कि यह मॉड्यूल अभी भी महत्वपूर्ण सुधार की आवश्यकता है
त्रुटि विश्लेषण: विफलता केस का विश्लेषण अपेक्षाकृत सीमित है

प्रभाव

शैक्षणिक योगदान: प्राकृतिक भाषा से ETL वर्कफ़्लो तक पूर्ण रूपांतरण समस्या को पहली बार व्यवस्थित रूप से हल करता है
औद्योगिक मूल्य: ETL उपकरणों की बुद्धिमत्ता के लिए व्यावहार्य तकनीकी पथ प्रदान करता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और संकेत टेम्पलेट प्रदान करता है

लागू परिदृश्य

एंटरप्राइज डेटा एकीकरण: ETL वर्कफ़्लो निर्माण और कॉन्फ़िगरेशन प्रक्रिया को सरल बनाता है
डेटा विज्ञान उपकरण: गैर-पेशेवर उपयोगकर्ताओं के लिए अधिक अनुकूल डेटा प्रसंस्करण इंटरफेस प्रदान करता है
कम-कोड/कोड-रहित प्लेटफॉर्म: दृश्य विकास वातावरण में बुद्धिमान घटक के रूप में एकीकृत करता है

संदर्भ

यह पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिसमें शामिल हैं:

ETL तकनीक सर्वेक्षण (Rahm और Do, 2000; Vassiliadis, 2009)
बड़े भाषा मॉडल कुछ-शॉट सीखना (Brown et al., 2020)
ReAct बुद्धिमान विधि (Yao et al., 2023)
उपकरण सीखने से संबंधित अनुसंधान (Schick et al., 2023; Qin et al., 2024)

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुप्रयोग अनुसंधान पेपर है जो व्यावहारिक समस्या को हल करने के लिए नवीन CAG विधि प्रस्तावित करता है और उत्पादन वातावरण में इसकी प्रभावशीलता को सत्यापित करता है। हालांकि कुछ तकनीकी विवरणों में सुधार की गुंजाइश है, लेकिन यह प्राकृतिक भाषा-संचालित वर्कफ़्लो पीढ़ी के क्षेत्र में महत्वपूर्ण योगदान देता है।