2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

هل تتحدث نماذج اللغة الكبيرة لغة سير العمل العلمية؟

المعلومات الأساسية

معرّف الورقة: 2412.10606
العنوان: Do Large Language Models Speak Scientific Workflows?
المؤلفون: Orcun Yildiz (مختبر أرغون الوطني)، Tom Peterka (مختبر أرغون الوطني)
التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)
المؤتمر: SC-W'25 (ورش عمل المؤتمر الدولي للحوسبة عالية الأداء والتخزين والتحليل)
رابط الورقة: https://arxiv.org/abs/2412.10606

الملخص

مع ظهور نماذج اللغة الكبيرة (LLMs)، يتزايد الاهتمام بتطبيق هذه النماذج على المهام العلمية. تستكشف هذه الدراسة من خلال التجارب تطبيق نماذج اللغة الكبيرة في تكوين وتعليق وترجمة سير العمل العلمية. استخدمت الدراسة ثلاث تجارب مختلفة خاصة بسير العمل، وقيّمت أداء عدة نماذج لغوية مفتوحة المصدر ومغلقة المصدر على أنظمة سير العمل الحديثة. وجدت الدراسة أن نماذج اللغة الكبيرة تواجه صعوبات متكررة بسبب نقص بيانات التدريب الخاصة بسير العمل العلمية، وأن أدائها يختلف عبر التجارب المختلفة وأنظمة سير العمل.

خلفية البحث والدافع

تعريف المشكلة

تلعب سير العمل العلمية دوراً مهماً في بيئات الحوسبة عالية الأداء (HPC)، حيث تتكون من سلسلة من المهام المتعاونة التي تعمل بشكل متزامن في الجدولة والاتصالات. ومع ذلك، يجد العديد من العلماء أن أنظمة سير العمل صعبة الاستخدام، ويختارون غالباً تشغيل المهام يدوياً أو تطوير حلول سير عمل خاصة بهم.

أهمية البحث

تحديات قابلية الاستخدام: يعيق التعقيد في أنظمة سير العمل العلمية الاعتماد الواسع
منحنى التعلم: حتى عند اعتماد أنظمة سير عمل عامة، يفتقر العلماء غالباً إلى فهم هذه الأنظمة
إمكانات نماذج اللغة الكبيرة: قد تساعد نماذج اللغة الكبيرة في حل هذه التحديات، لكن يتطلب الأمر فهم قدراتها في سير العمل بـ HPC

قيود الطرق الموجودة

يركز البحث الحالي بشكل أساسي على مهام محددة متعلقة بـ HPC، مثل توليد الأكواد والتعليقات والإجابة على الاستعلامات
يفتقد البحث إلى دراسة شاملة حول التطبيق الواسع لنماذج اللغة الكبيرة في أنظمة سير العمل الكاملة
يوجد نقص في التقييم المنهجي لأداء نماذج اللغة الكبيرة على مهام سير العمل العلمية المحددة

المساهمات الأساسية

أول تقييم منهجي: تقييم تجريبي شامل لقدرات نماذج اللغة الكبيرة المتعددة على مهام سير العمل العلمية
تصميم تجريبي متعدد الأبعاد: تصميم ثلاثة أنواع مختلفة من التجارب الخاصة بسير العمل (التكوين والتعليق والترجمة)
تقييم متعدد الأنظمة: إجراء التقييم على خمسة أنظمة سير عمل حديثة
معايير الأداء: إنشاء معايير أداء لنماذج اللغة الكبيرة على مهام سير العمل العلمية
استراتيجيات التحسين: استكشاف تقنيات مثل few-shot prompting لتحسين أداء نماذج اللغة الكبيرة

شرح الطريقة

تعريف المهام

تعرّف الدراسة ثلاث مهام أساسية:

تكوين سير العمل: توليد ملفات تكوين سير العمل بناءً على مدخلات اللغة الطبيعية
تعليق كود المهام: تعليق تلقائي لكود المهام من قبل المستخدم ليتوافق مع نظام سير العمل
ترجمة كود المهام: ترجمة كود المهام المعلق بين أنظمة سير عمل مختلفة

إطار التقييم

اختيار نماذج اللغة الكبيرة

o3: نموذج مغلق المصدر من OpenAI بقدرات استدلالية قوية
Claude-Sonnet-4: نموذج استدلالي هجين طورته Anthropic
Gemini-2.5-Pro: النموذج المتقدم من Google بقدرات استدلالية وترميز قوية
LLaMA-3.3-70B-Instruct: نموذج مفتوح المصدر من Meta بـ 70 مليار معامل

أنظمة سير العمل

ADIOS2: مكتبة إدخال/إخراج مرنة وبرنامج وسيط لأكواد العلوم
Henson: نظام متعدد المهام تعاوني للمعالجة الموضعية
Parsl: مكتبة البرمجة المتوازية بـ Python، تدعم التنفيذ القائم على المهام
PyCOMPSs: نموذج برمجة قائم على المهام
Wilkins: نظام سير عمل موضعي يدعم مواصفات مهام ديناميكية غير متجانسة

مقاييس التقييم

BLEU: مقياس تقييم الترجمة الآلية القائم على دقة n-gram
ChrF: مقياس تقييم قائم على الأحرف، يحسب دقة واستدعاء n-gram للأحرف

تصميم التجارب

تجربة تكوين سير العمل

يقدم المستخدم وصفاً باللغة الطبيعية، وتولد نماذج اللغة الكبيرة ملف التكوين المقابل. على سبيل المثال:

موجه المستخدم: أريد سير عمل بـ 3 عقد، يتضمن مهمة منتج واثنتي مهام مستهلك،
المنتج ينتج مجموعات شبكة وبيانات جزيئات، consumer1 يقرأ الشبكة، 
consumer2 يقرأ بيانات الجزيئات. يحتاج المنتج إلى 3 عمليات، 
كل مستهلك يعمل على عملية واحدة. يرجى توفير ملف تكوين سير العمل لنظام Wilkins.

تجربة تعليق كود المهام

توفير كود منتج بسيط بلغة C، وطلب من نماذج اللغة الكبيرة إضافة تعليقات لاستدعاءات API نظام سير العمل ذات الصلة.

تجربة ترجمة كود المهام

توفير كود مهمة معلق من نظام سير عمل واحد، وطلب من نماذج اللغة الكبيرة ترجمته إلى كود نظام سير عمل آخر.

إعداد التجارب

بيئة التجارب

الأجهزة: Apple M1 Max، 10 أنوية CPU، 24 نواة GPU، 32 جيجابايت ذاكرة موحدة
الإطار: استخدام إطار Inspect AI للتجارب
عدد التكرارات: تكرار كل تجربة 5 مرات لتقليل تباين استجابات نماذج اللغة الكبيرة
إعدادات المعاملات: temperature=0.2, top_p=0.95

تقييم استراتيجيات الموجهات

تم تصميم خمس متغيرات موجهة مختلفة:

الموجه الأصلي
أنماط مختلفة
إعادة الصياغة
إعادة الترتيب
موجه مفصل (يتضمن تفاصيل تقنية)

نتائج التجارب

النتائج الرئيسية

تجربة تكوين سير العمل

نموذج اللغة الكبيرة	ADIOS2	Henson	Wilkins	الإجمالي
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

تجربة تعليق كود المهام

نموذج اللغة الكبيرة	ADIOS2	Henson	PyCOMPSs	Parsl	الإجمالي
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

تجربة ترجمة كود المهام

اتجاه الترجمة	أفضل نموذج لغة كبيرة	درجة BLEU
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

الاكتشافات الرئيسية

الاختلافات في الأنظمة: تؤدي نماذج اللغة الكبيرة أداءً أفضل على الأنظمة الموثقة بشكل جيد مثل ADIOS2 و PyCOMPSs
اختلافات المهام: يتفوق الأداء الإجمالي لمهام تعليق الأكواد على توليد التكوين
اختلافات النماذج: لا يوجد نموذج واحد يؤدي أداءً متسقاً الأفضل في جميع المهام
مشكلة الهلوسة: تولد نماذج اللغة الكبيرة بشكل متكرر استدعاءات API أو حقول تكوين غير موجودة

تأثير Few-shot Prompting

نموذج اللغة الكبيرة	Zero-shot	Few-shot	حجم التحسن
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

الأعمال ذات الصلة

أبحاث سير العمل العلمية

سير العمل الموزعة: تعمل عبر عدة أنظمة مستقلة، وتتبادل البيانات عبر الملفات
سير العمل الموضعية: تعمل داخل نظام HPC واحد، وتنفذ المهام بشكل متزامن وتتبادل البيانات عبر الذاكرة

تطبيقات نماذج اللغة الكبيرة في HPC

استكشف Duque وآخرون استخدام نماذج اللغة الكبيرة لبناء وتنفيذ سير العمل
درس Sanger وآخرون تطبيق GPT-3.5 في فهم وتعديل وتوسيع سير العمل العلمية
يستخدم هذا البحث نماذج أحدث ويوفر نطاقاً أوسع من أنظمة سير العمل والمهام العلمية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نقص المعرفة: تواجه نماذج اللغة الكبيرة صعوبات متكررة بسبب نقص بيانات التدريب في مجال سير العمل العلمية
تباين الأداء: يختلف أداء نماذج اللغة الكبيرة بشكل كبير عبر التجارب المختلفة وأنظمة سير العمل
أهمية السياق: يحسّن few-shot prompting أداء نماذج اللغة الكبيرة بشكل ملحوظ
الاعتماد على النظام: تحصل الأنظمة الموثقة بشكل جيد (مثل ADIOS2 و PyCOMPSs) على دعم أفضل من نماذج اللغة الكبيرة

القيود

قيود بيانات التدريب: توثيق سير العمل العلمية نادر نسبياً في بيانات تدريب نماذج اللغة الكبيرة
هلوسة API: تولد نماذج اللغة الكبيرة بشكل متكرر استدعاءات API غير موجودة
فهم التكوين: يصعب على نماذج اللغة الكبيرة التمييز بين تكوين سير العمل وكود المهام
خصوصية النظام: يعتمد الأداء بشكل كبير على توفر التوثيق لنظام سير عمل محدد

الاتجاهات المستقبلية

الإنشاء المعزز بالاسترجاع (RAG): دمج قواعد المعرفة الخارجية لتحسين أداء نماذج اللغة الكبيرة
الضبط الدقيق: ضبط النماذج المتخصص لسير العمل العلمية
تصحيح الأخطاء التكراري: إدخال آليات الكشف والتصحيح التلقائي للأخطاء
التكامل متعدد الأنماط: دمج المعلومات من الأكواد والتوثيق والتصورات

التقييم المتعمق

المميزات

التقييم المنهجي: أول تقييم شامل لنماذج اللغة الكبيرة في مجال سير العمل العلمية
التحليل متعدد الأبعاد: يغطي ثلاث مهام رئيسية (التكوين والتعليق والترجمة)
القيمة العملية: يوفر معايير مرجعية قيمة لمطوري سير العمل والمستخدمين
الدقة المنهجية: تصميم تجريبي سليم، مقاييس تقييم مناسبة، نتائج قابلة للتكرار

أوجه القصور

نطاق التقييم: يغطي فقط ثلاث مهام سير عمل، قد لا يكون شاملاً بما يكفي
حجم مجموعة البيانات: حجم التجارب نسبياً صغير، قد يؤثر على عمومية الاستنتاجات
التحليل المتعمق: التحليل لأسباب فشل نماذج اللغة الكبيرة ليس عميقاً بما يكفي
النشر العملي: يفتقد التحقق في بيئات الحوسبة العلمية الحقيقية

التأثير

المساهمة الأكاديمية: توفير معايير مرجعية مهمة لتطبيق نماذج اللغة الكبيرة في الحوسبة العلمية
القيمة العملية: مساعدة الباحثين على فهم حدود قدرات نماذج اللغة الكبيرة في مهام سير العمل
البحث المستقبلي: توجيه الاتجاهات لتحسين تطبيق نماذج اللغة الكبيرة في سير العمل العلمية

السيناريوهات القابلة للتطبيق

تطوير أنظمة سير العمل: توفير مرجع لتكامل ميزات مساعدة نماذج اللغة الكبيرة
التعليم في الحوسبة العلمية: مساعدة في فهم قيود نماذج اللغة الكبيرة في المجالات المتخصصة
تطوير أدوات HPC: توفير أساس لتطوير أدوات حوسبة علمية ذكية

المراجع

يستشهد هذا البحث بـ 33 مرجعاً ذا صلة، يغطي أعمالاً مهمة في مجالات متعددة بما فيها سير العمل العلمية ونماذج اللغة الكبيرة و HPC، مما يوفر أساساً نظرياً متيناً للبحث.

الملخص: هذه ورقة بحثية رائدة تقيّم بشكل منهجي لأول مرة قدرات نماذج اللغة الكبيرة في مجال سير العمل العلمية. يكتشف البحث قيوداً كبيرة لنماذج اللغة الكبيرة، بينما يُظهر أيضاً إمكانية تحسين الأداء من خلال تقنيات مناسبة (مثل few-shot prompting)، مما يضع أساساً متيناً للبحث المستقبلي في هذا المجال المهم.