2025-11-13T08:31:10.865308

Classifier-Augmented Generation for Structured Workflow Prediction

Gschwind, Chakraborty, Gupta et al.
ETL (Extract, Transform, Load) tools such as IBM DataStage allow users to visually assemble complex data workflows, but configuring stages and their properties remains time consuming and requires deep tool knowledge. We propose a system that translates natural language descriptions into executable workflows, automatically predicting both the structure and detailed configuration of the flow. At its core lies a Classifier-Augmented Generation (CAG) approach that combines utterance decomposition with a classifier and stage-specific few-shot prompting to produce accurate stage predictions. These stages are then connected into non-linear workflows using edge prediction, and stage properties are inferred from sub-utterance context. We compare CAG against strong single-prompt and agentic baselines, showing improved accuracy and efficiency, while substantially reducing token usage. Our architecture is modular, interpretable, and capable of end-to-end workflow generation, including robust validation steps. To our knowledge, this is the first system with a detailed evaluation across stage prediction, edge layout, and property generation for natural-language-driven ETL authoring.
academic

توليد معزز بالمصنفات للتنبؤ بسير العمل المنظم

المعلومات الأساسية

  • معرّف الورقة: 2510.12825
  • العنوان: Classifier-Augmented Generation for Structured Workflow Prediction
  • المؤلفون: Thomas Gschwind, Shramona Chakraborty, Nitin Gupta, and Sameep Mehta (IBM Research)
  • التصنيف: cs.CL cs.AI cs.DB cs.LG
  • تاريخ النشر: 10 أكتوبر 2025 (طبعة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.12825

الملخص

تسمح أدوات ETL (استخراج، تحويل، تحميل) مثل IBM DataStage للمستخدمين بتجميع سير عمل بيانات معقدة بصرياً، لكن مرحلة التكوين وخصائصها تبقى مستهلكة للوقت وتتطلب معرفة عميقة بالأداة. تقترح هذه الورقة نظاماً يحول الأوصاف باللغة الطبيعية إلى سير عمل قابل للتنفيذ، مع التنبؤ التلقائي بالبنية والتكوين التفصيلي للعملية. يتمحور النظام حول طريقة التوليد المعزز بالمصنفات (CAG)، التي تجمع بين تحليل الخطاب والمصنفات والتلميحات القليلة الأمثلة الخاصة بكل مرحلة، مما ينتج عنه تنبؤات دقيقة بالمراحل. يتم ربط هذه المراحل في سير عمل غير خطي من خلال التنبؤ بالحواف، مع استنتاج خصائص المرحلة من سياق الخطاب الفرعي. مقارنة بطرق الأساس القوية، يُظهر CAG دقة وكفاءة أعلى، مع تقليل كبير في استخدام الرموز.

السياق البحثي والدافع

تعريف المشكلة

  1. المشكلة الأساسية: يعيق تعقيد تكوين أدوات ETL استخدام المستخدمين، حيث يتعين حتى على المستخدمين الخبراء تكوين مراحل التحويل يدوياً وتحديد عشرات السمات منخفضة المستوى لكل مرحلة، مما يجعل عملية الإنشاء مرهقة وعرضة للأخطاء.
  2. الأهمية: تشكل سير عمل ETL و ELT أساس خطوط أنابيب تكامل البيانات والتحليل الحديثة في المؤسسات، لكن الواجهات الرسومية التقليدية تتطلب بعد الكثير من العمل اليدوي.
  3. قيود الطرق الموجودة:
    • تعالج الطرق المبكرة التحديات من خلال البرامج النصية المخصصة أو التبسيطات القائمة على الواجهة الرسومية
    • استكشفت بعضها توليد ETL المدفوع بالدلالات والأنطولوجيا
    • يفتقد النظام الشامل من اللغة الطبيعية إلى سير العمل القابل للتنفيذ
  4. الدافع البحثي: يوفر التقدم في نماذج اللغة الكبيرة فرصاً جديدة لتوليف سير العمل تلقائياً مباشرة من اللغة الطبيعية، مما يقلل من تكاليف التكوين ويحسن إمكانية الوصول.

المساهمات الأساسية

  1. اقتراح طريقة التوليد المعزز بالمصنفات (CAG): تجمع بين تحليل الخطاب واسترجاع المراحل القائم على التصنيف والتلميحات القليلة الأمثلة للتنبؤ بتسلسل مراحل سير العمل
  2. بناء نظام توليد سير عمل شامل: يتضمن ثلاث وحدات أساسية: التنبؤ بالمراحل والتنبؤ بالحواف والتنبؤ بالخصائص
  3. تحقيق تحسن كبير في الأداء: بلوغ دقة تزيد عن 97% في التنبؤ بالمراحل، مع تقليل استخدام الرموز بأكثر من 60%
  4. توفير معمارية معيارية وقابلة للتفسير: تدعم التحقق القوي والتحقق من القيود
  5. إكمال النشر في بيئة الإنتاج: تم دمج النظام في أداة IBM DataStage الإنتاجية

شرح الطريقة

تعريف المهمة

الإدخال: وصف باللغة الطبيعية لمتطلبات سير عمل ETL الإخراج: سير عمل DataStage قابل للتنفيذ بالكامل، يتضمن:

  • تسلسل مراحل سير العمل
  • العلاقات الاتصالية بين المراحل (الحواف)
  • تكوين الخصائص التفصيلية لكل مرحلة

معمارية النموذج

1. التنبؤ بالمراحل (Stage Prediction)

تتضمن طريقة CAG الخطوات التالية:

  1. تحليل الخطاب: تقسيم إدخال المستخدم إلى خطابات فرعية تصف مراحل فردية
  2. استرجاع المصنف: استخدام نموذج تصنيف مدرب لتحديد المراحل المرشحة
  3. مطابقة الكلمات الرئيسية: مسح الخطاب الخاص بالمستخدم عن أسماء المراحل ومرادفاتها
  4. التوليد الموجه: توليد أوصاف موجهة وأمثلة قليلة الأمثلة بناءً على المراحل المرشحة، مع التنبؤ النهائي متعدد التسميات من قبل نموذج اللغة الكبير

2. التنبؤ بالحواف (Edge Prediction)

معالجة بنى سير العمل غير الخطية:

  • تعيين أسماء فريدة للمراحل المكررة
  • تقسيم الخطاب إلى خطابات فرعية بناءً على المراحل المتنبأ بها
  • التنبؤ ببنية التدفق بناءً على قائمة العقد والخطاب الأصلي
  • التحقق من أن عدد الحواف يتوافق مع قيود الأساسية

3. التنبؤ بالخصائص (Property Prediction)

التنبؤ بالتكوين المحدد لكل مرحلة:

  • استخدام خطابات فرعية خاصة بالمرحلة لتجنب الغموض
  • تضمين تعليمات المهمة والخطاب الفرعي واسم المرحلة وقائمة الخصائص والأمثلة
  • استراتيجية التحقق متعددة الأبعاد لضمان صحة الخصائص

نقاط الابتكار التقني

  1. معمارية استرجاع-توليد هجينة: تجمع بين المصنفات السريعة وتوليد نموذج اللغة الكبير، موازنة بين الكفاءة والدقة
  2. آلية التحقق الهرمية: إجراء فحوصات القيود والتحقق من الاتساق على مستويات متعددة
  3. التصميم المعياري: يمكن تحسين كل مكون والتحقق منه بشكل مستقل
  4. تحديد السياق المحلي: تقليل تعقيد معالجة نموذج اللغة الكبير من خلال تقسيم الخطاب الفرعي

إعداد التجربة

مجموعة البيانات

  • التنبؤ بالمراحل: 1010 أوصاف عملية باللغة الطبيعية
  • التنبؤ بالخصائص: 308 عمليات تتضمن 1410 خصائص
  • التنبؤ بالحواف: 54 عملية معقدة غير خطية (6-14 مرحلة)
  • تدريب المصنف: 2697 زوج (خطاب، عامل) أحادي التسمية، يغطي 138 تسمية دلالية

مقاييس التقييم

  • التنبؤ بالمراحل: الدقة (الإجمالية، العملية الواحدة، العمليات المتعددة)
  • التنبؤ بالحواف: تشابه البنية، معدل المطابقة الدقيقة
  • التنبؤ بالخصائص: الدقة، الاستدعاء، درجة F1

طرق المقارنة

  1. Single-prompt: عرض جميع 142 مرحلة في تلميح واحد
  2. Agentic: طريقة وكيل بأسلوب ReAct، حيث يقوم نموذج اللغة الكبير بتحليل الخطاب بشكل مستقل واستدعاء أدوات التصنيف
  3. CAG: طريقة التوليد المعزز بالمصنفات المقترحة في هذه الورقة

تفاصيل التنفيذ

  • النموذج: LLaMA-3.2-3B, Granite-3.1-8B, LLaMA-3.3-70B, LLaMA-4-17B
  • المصنف: RoBERTa-large و IBM slate-125m-english-rtrvr
  • استخدام الرموز: CAG حوالي 4000-4700 رموز مقابل Single-prompt حوالي 14000 رمز

نتائج التجربة

النتائج الرئيسية

مقارنة دقة التنبؤ بالمراحل

الطريقةLLaMA-3.2-3BGranite-3.1-8BLLaMA-3.3-70BLLaMA-4-17B
Single-prompt71.1%88.0%96.4%95.8%
Agentic33.4%45.6%69.3%40.0%
CAG90.1%94.0%97.2%97.7%

نتائج التنبؤ بالحواف (54 عملية غير خطية)

  • تشابه البنية: 73% (LLaMA-3.3-70B)
  • المطابقة الدقيقة: 37% (LLaMA-3.3-70B)

نتائج التنبؤ بالخصائص (درجة F1)

  • LLaMA-3.2-3B: 0.79
  • Granite-3.3-8B: 0.81
  • LLaMA-3.3-70B: 0.86
  • LLaMA-4-17B: 0.78

تجارب الاستئصال

  • مساهمة المصنف: تحسن كبير في الدقة من خلال تصفية المراحل المرشحة
  • مطابقة الكلمات الرئيسية: تقليل الأخطاء في التنبؤ بالخطابات الواضحة
  • أمثلة قليلة الأمثلة: تحسين القدرة على التمييز بين المراحل المتشابهة

تحليل الحالات

حالة فشل: بالنسبة للخطاب "Split the full_name field...then capitalize the first letter..."، أرجع معظم النماذج فقط مرحلة split_subrecord وأغفل مرحلة modify، لأن المصنف قام بتعيين "capitalize" بشكل خاطئ إلى مرحلة head.

النتائج التجريبية

  1. تأثير حجم النموذج: تُظهر النماذج الأكبر أداءً أفضل في جميع المهام
  2. تحسن الكفاءة: يقلل CAG استخدام الرموز بنسبة 66% مع تحسين الدقة
  3. تحدي التنبؤ بالحواف: لا تزال بنى التدفق غير الخطية المعقدة أكثر المهام تحدياً

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. توليد سير العمل المدفوع بالذكاء الاصطناعي: أدوات تجارية مثل Zap builder و Power Automate
  2. سير عمل تكامل التطبيقات: GOFA لإنشاء سير عمل تكامل التطبيقات من اللغة الطبيعية
  3. سير عمل تنفيذ الاستعلامات: FlowMind و AutoFlow وأدوات التنفيذ المؤقتة الأخرى
  4. توليد SQL: Analyza وأدوات تحويل اللغة الطبيعية إلى SQL الأخرى

مزايا هذه الورقة

  • أول نظام لإنشاء ETL مدفوع باللغة الطبيعية يوفر تقييماً تفصيلياً للتنبؤ بالمراحل وتخطيط الحواف وتوليد الخصائص
  • توليد سير عمل قابل لإعادة الاستخدام بدلاً من التنفيذ المؤقت
  • حل شامل من البداية إلى النهاية، يتضمن تكوين الخصائص التفصيلية

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تتفوق طريقة CAG بشكل كبير على الطرق الموجودة في مهام توليد سير عمل ETL
  2. تدعم المعمارية المعيارية الاستدلال الشفاف والتحقق القوي
  3. تم نشر النظام بنجاح في بيئة الإنتاج، مما يثبت الفائدة العملية والقابلية للتوسع

القيود

  1. قيود المصنف: تم التدريب فقط على بيانات التصنيف الأحادي، قد يفتقد المراحل المرشحة ذات الصلة
  2. تحدي التنبؤ بالحواف: تبلغ مطابقة الحواف الدقيقة فقط 37%، تتطلب مراجعة المستخدم
  3. منطق التحقق: يفترض أن أسماء الجداول والأعمدة صحيحة أو قابلة للتجاهل، يفتقد المطابقة الغامضة
  4. قابلية نقل التلميح: تم الضبط الدقيق لعائلات نماذج محددة، قد يؤثر على التعميم عبر الهياكل

الاتجاهات المستقبلية

  1. استكشاف الهياكل الهجينة التي تجمع شبكات الرسوم البيانية العصبية لتحسين التنبؤ بالحواف
  2. تطوير مصنفات متعددة التسميات لتحسين تحديد المراحل المرشحة
  3. تعزيز منطق التحقق لدعم المطابقة الغامضة وتصحيح الأخطاء
  4. التوسع إلى منصات ETL الأخرى والمجالات

التقييم المتعمق

المزايا

  1. الابتكار في الطريقة: تجمع طريقة CAG بذكاء بين مزايا التصنيف والتوليد، مع الحفاظ على دقة عالية وتحسين الكفاءة
  2. كفاية التجربة: تغطي العملية الكاملة لتوليد سير العمل، مع تقييم تفصيلي للتنبؤ بالمراحل والحواف والخصائص
  3. القيمة العملية: تم نشر النظام في بيئة الإنتاج، مما يثبت القيمة التطبيقية والقابلية للتوسع
  4. وضوح الكتابة: هيكل الورقة واضح، والتفاصيل التقنية دقيقة

أوجه القصور

  1. حجم مجموعة البيانات: مجموعات البيانات المستخدمة في التقييم صغيرة نسبياً، خاصة العمليات غير الخطية (54 عينة فقط)
  2. الخصوصية بالمجال: موجهة بشكل أساسي لمنصة IBM DataStage، قابلية التعميم غير مؤكدة
  3. أداء التنبؤ بالحواف: معدل المطابقة الدقيقة 37% يشير إلى أن هذه الوحدة تحتاج إلى تحسن كبير
  4. تحليل الأخطاء: التحليل النسبي للحالات الفاشلة محدود

التأثير

  1. المساهمة الأكاديمية: أول حل منهجي شامل لمشكلة التحويل من اللغة الطبيعية إلى سير عمل ETL
  2. القيمة الصناعية: توفير مسار تقني قابل للتطبيق لذكاء أدوات ETL
  3. قابلية التكرار: توفير تفاصيل تنفيذ شاملة وقوالب تلميحات

السيناريوهات المعمول بها

  1. تكامل البيانات في المؤسسات: تبسيط عملية إنشاء وتكوين سير عمل ETL
  2. أدوات علوم البيانات: توفير واجهة أكثر سهولة للمستخدمين غير المتخصصين
  3. منصات منخفضة الكود/بدون كود: التكامل كمكون ذكي في بيئات التطوير المرئية

المراجع

تستشهد هذه الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

  • مسوحات تقنيات ETL (Rahm and Do, 2000; Vassiliadis, 2009)
  • التعلم القليل الأمثلة بنماذج اللغة الكبيرة (Brown et al., 2020)
  • طريقة وكيل ReAct (Yao et al., 2023)
  • البحث ذو الصلة بتعلم الأدوات (Schick et al., 2023; Qin et al., 2024)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال البحث التطبيقي، تقترح طريقة CAG المبتكرة لحل مشكلة عملية فعلية، وتتحقق من فعاليتها في بيئة الإنتاج. على الرغم من وجود مجال للتحسن في بعض التفاصيل التقنية، فإنها تقدم مساهمة مهمة لمجال توليد سير العمل المدفوع باللغة الطبيعية.