2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

বড় ভাষা মডেলগুলি কি বৈজ্ঞানিক কর্মপ্রবাহ বলে?

মৌলিক তথ্য

  • পেপার আইডি: 2412.10606
  • শিরোনাম: Do Large Language Models Speak Scientific Workflows?
  • লেখক: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • শ্রেণীবিভাগ: cs.HC (মানব-কম্পিউটার ইন্টারঅ্যাকশন)
  • প্রকাশনা সম্মেলন: SC-W'25 (The International Conference on High Performance Computing, Network, Storage, and Analysis এর কর্মশালা)
  • পেপার লিংক: https://arxiv.org/abs/2412.10606

সারসংক্ষেপ

বড় ভাষা মডেল (LLMs) এর উদ্ভবের সাথে, বৈজ্ঞানিক কাজে LLMs প্রয়োগের আগ্রহ ক্রমবর্ধমান। এই গবেষণা পরীক্ষামূলকভাবে বৈজ্ঞানিক কর্মপ্রবাহ কনফিগার, মন্তব্য এবং অনুবাদ করার ক্ষেত্রে LLMs এর প্রযোজ্যতা অন্বেষণ করে। গবেষণা তিনটি ভিন্ন কর্মপ্রবাহ-নির্দিষ্ট পরীক্ষা ব্যবহার করে, অত্যাধুনিক কর্মপ্রবাহ সিস্টেমে একাধিক ওপেন সোর্স এবং ক্লোজড সোর্স ভাষা মডেলের কর্মক্ষমতা মূল্যায়ন করেছে। গবেষণা দেখায় যে LLMs বৈজ্ঞানিক কর্মপ্রবাহের প্রশিক্ষণ ডেটার অভাবের কারণে প্রায়শই কঠিনতার সম্মুখীন হয়, এবং তাদের কর্মক্ষমতা বিভিন্ন পরীক্ষা এবং কর্মপ্রবাহ সিস্টেমে পরিবর্তিত হয়।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৈজ্ঞানিক কর্মপ্রবাহ উচ্চ-কর্মক্ষমতা কম্পিউটিং (HPC) পরিবেশে গুরুত্বপূর্ণ ভূমিকা পালন করে, যা পারস্পরিক সহযোগী কাজের একটি সিরিজ নিয়ে গঠিত যা সময়সূচী এবং যোগাযোগে সমন্বিতভাবে কাজ করে। তবে, অনেক বিজ্ঞানী কর্মপ্রবাহ সিস্টেম ব্যবহার করা কঠিন মনে করেন, প্রায়শই কাজ ম্যানুয়ালি চালাতে বা তাদের নিজস্ব কর্মপ্রবাহ সমাধান বিকাশ করতে পছন্দ করেন।

গবেষণার গুরুত্ব

  1. ব্যবহারযোগ্যতার চ্যালেঞ্জ: বৈজ্ঞানিক কর্মপ্রবাহ সিস্টেমের জটিলতা ব্যাপক গ্রহণযোগ্যতা বাধাগ্রস্ত করে
  2. শেখার বক্ররেখা: এমনকি সাধারণ কর্মপ্রবাহ সিস্টেম গ্রহণ করার পরেও, বিজ্ঞানীরা প্রায়শই এই সিস্টেমগুলির বোঝাপড়ার অভাব রাখেন
  3. LLM সম্ভাবনা: বড় ভাষা মডেলগুলি এই চ্যালেঞ্জগুলি সমাধানে সহায়তা করতে পারে, তবে HPC কর্মপ্রবাহে তাদের ক্ষমতা বোঝার প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • বিদ্যমান গবেষণা প্রধানত নির্দিষ্ট HPC-সম্পর্কিত কাজে ফোকাস করে, যেমন কোড জেনারেশন, মন্তব্য এবং প্রশ্নের উত্তর
  • সম্পূর্ণ কর্মপ্রবাহ সিস্টেমে LLMs এর ব্যাপক প্রযোজ্যতার উপর ব্যাপক গবেষণার অভাব
  • বৈজ্ঞানিক কর্মপ্রবাহ-নির্দিষ্ট কাজে LLMs এর কর্মক্ষমতার উপর সিস্টেমেটিক মূল্যায়নের অভাব

মূল অবদান

  1. প্রথম সিস্টেমেটিক মূল্যায়ন: বৈজ্ঞানিক কর্মপ্রবাহ কাজে একাধিক LLMs এর ক্ষমতার ব্যাপক পরীক্ষামূলক মূল্যায়ন
  2. বহুমাত্রিক পরীক্ষা ডিজাইন: তিনটি ভিন্ন ধরনের কর্মপ্রবাহ-নির্দিষ্ট পরীক্ষা ডিজাইন করা (কনফিগারেশন, মন্তব্য, অনুবাদ)
  3. মাল্টি-সিস্টেম মূল্যায়ন: পাঁচটি অত্যাধুনিক কর্মপ্রবাহ সিস্টেমে মূল্যায়ন
  4. কর্মক্ষমতা বেঞ্চমার্ক: বৈজ্ঞানিক কর্মপ্রবাহ কাজে LLMs এর কর্মক্ষমতা বেঞ্চমার্ক প্রতিষ্ঠা
  5. উন্নতি কৌশল: LLM কর্মক্ষমতা উন্নত করতে few-shot prompting এর মতো কৌশল অন্বেষণ

পদ্ধতি বিস্তারিত

কাজ সংজ্ঞা

গবেষণা তিনটি মূল কাজ সংজ্ঞায়িত করে:

  1. কর্মপ্রবাহ কনফিগারেশন: প্রাকৃতিক ভাষা ইনপুটের উপর ভিত্তি করে কর্মপ্রবাহ কনফিগারেশন স্ক্রিপ্ট তৈরি করা
  2. কাজ কোড মন্তব্য: কর্মপ্রবাহ সিস্টেমের সাথে মানানসই করার জন্য ব্যবহারকারীর কাজ কোড স্বয়ংক্রিয়ভাবে মন্তব্য করা
  3. কাজ কোড অনুবাদ: বিভিন্ন কর্মপ্রবাহ সিস্টেমের মধ্যে মন্তব্যপূর্ণ কাজ কোড অনুবাদ করা

মূল্যায়ন কাঠামো

LLMs নির্বাচন

  • o3: OpenAI এর ক্লোজড সোর্স মডেল, শক্তিশালী যুক্তি ক্ষমতা সহ
  • Claude-Sonnet-4: Anthropic দ্বারা উন্নত হাইব্রিড যুক্তি মডেল
  • Gemini-2.5-Pro: Google এর উন্নত মডেল, শক্তিশালী যুক্তি এবং কোডিং ক্ষমতা সহ
  • LLaMA-3.3-70B-Instruct: Meta এর ৭০ বিলিয়ন প্যারামিটার ওপেন সোর্স মডেল

কর্মপ্রবাহ সিস্টেম

  • ADIOS2: বৈজ্ঞানিক কোডের জন্য নমনীয় I/O লাইব্রেরি এবং মিডলওয়্যার
  • Henson: ইন-সিটু প্রসেসিংয়ের জন্য সহযোগী মাল্টি-টাস্ক সিস্টেম
  • Parsl: Python সমান্তরাল প্রোগ্রামিং লাইব্রেরি, কাজ-ভিত্তিক সম্পাদন সমর্থন করে
  • PyCOMPSs: কাজ-ভিত্তিক প্রোগ্রামিং মডেল
  • Wilkins: ইন-সিটু কর্মপ্রবাহ সিস্টেম, গতিশীল বিষমজাত কাজ বিশেষ সমর্থন করে

মূল্যায়ন মেট্রিক্স

  • BLEU: n-gram নির্ভুলতার উপর ভিত্তি করে মেশিন অনুবাদ মূল্যায়ন মেট্রিক
  • ChrF: অক্ষর-ভিত্তিক মূল্যায়ন মেট্রিক, অক্ষর n-gram এর নির্ভুলতা এবং পুনরুদ্ধার গণনা করে

পরীক্ষা ডিজাইন

কর্মপ্রবাহ কনফিগারেশন পরীক্ষা

ব্যবহারকারী প্রাকৃতিক ভাষা বর্ণনা প্রদান করে, LLMs সংশ্লিষ্ট কর্মপ্রবাহ কনফিগারেশন ফাইল তৈরি করে। উদাহরণস্বরূপ:

ব্যবহারকারী প্রম্পট: আমি একটি ৩-নোড কর্মপ্রবাহ চাই, যাতে একটি প্রযোজক এবং দুটি ভোক্তা কাজ রয়েছে,
প্রযোজক গ্রিড এবং কণা ডেটাসেট তৈরি করে, consumer1 গ্রিড পড়ে, consumer2 কণা ডেটাসেট পড়ে।
প্রযোজকের ৩টি প্রক্রিয়া প্রয়োজন, প্রতিটি ভোক্তা একটি একক প্রক্রিয়ায় চলে।
অনুগ্রহ করে Wilkins কর্মপ্রবাহ সিস্টেমের জন্য কর্মপ্রবাহ কনফিগারেশন ফাইল প্রদান করুন।

কাজ কোড মন্তব্য পরীক্ষা

সাধারণ C ভাষা প্রযোজক কোড প্রদান করা, LLMs সম্পর্কিত কর্মপ্রবাহ সিস্টেম API কল এর মন্তব্য যোগ করতে অনুরোধ করা।

কাজ কোড অনুবাদ পরীক্ষা

একটি কর্মপ্রবাহ সিস্টেমের মন্তব্যপূর্ণ কাজ কোড প্রদান করা, LLMs অন্য কর্মপ্রবাহ সিস্টেমের কোডে অনুবাদ করতে অনুরোধ করা।

পরীক্ষা সেটআপ

পরীক্ষা পরিবেশ

  • হার্ডওয়্যার: Apple M1 Max, ১০-কোর CPU, ২৪-কোর GPU, ৩২GB ইউনিফাইড মেমরি
  • ফ্রেমওয়ার্ক: পরীক্ষার জন্য Inspect AI ফ্রেমওয়ার্ক ব্যবহার করা
  • পুনরাবৃত্তি সংখ্যা: LLM প্রতিক্রিয়ার পরিবর্তনশীলতা কমাতে প্রতিটি পরীক্ষা ৫ বার পুনরাবৃত্তি করা
  • প্যারামিটার সেটিংস: temperature=0.2, top_p=0.95

প্রম্পট কৌশল মূল্যায়ন

পাঁচটি ভিন্ন প্রম্পট ভেরিয়েন্ট ডিজাইন করা:

  1. মূল প্রম্পট
  2. ভিন্ন শৈলী
  3. পুনর্বাক্যবিন্যাস
  4. পুনর্বিন্যাস
  5. বিস্তারিত প্রম্পট (প্রযুক্তিগত বিবরণ সহ)

পরীক্ষা ফলাফল

প্রধান ফলাফল

কর্মপ্রবাহ কনফিগারেশন পরীক্ষা

LLMADIOS2HensonWilkinsসামগ্রিক
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

কাজ কোড মন্তব্য পরীক্ষা

LLMADIOS2HensonPyCOMPSsParslসামগ্রিক
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

কাজ কোড অনুবাদ পরীক্ষা

অনুবাদ দিকসেরা LLMBLEU স্কোর
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

মূল আবিষ্কার

  1. সিস্টেম পার্থক্য: LLMs ADIOS2 এবং PyCOMPSs এর মতো ভালভাবে নথিভুক্ত সিস্টেমে আরও ভাল কর্মক্ষমতা দেখায়
  2. কাজ পার্থক্য: কোড মন্তব্য কাজের সামগ্রিক কর্মক্ষমতা কনফিগারেশন জেনারেশনের চেয়ে উন্নত
  3. মডেল পার্থক্য: কোনও একক মডেল সমস্ত কাজে ধারাবাহিকভাবে সেরা কর্মক্ষমতা দেখায় না
  4. হ্যালুসিনেশন সমস্যা: LLMs প্রায়শই অ-বিদ্যমান API কল বা কনফিগারেশন ফিল্ড তৈরি করে

Few-shot Prompting প্রভাব

LLMZero-shotFew-shotউন্নতির মাত্রা
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

সম্পর্কিত কাজ

বৈজ্ঞানিক কর্মপ্রবাহ গবেষণা

  • বিতরণকৃত কর্মপ্রবাহ: একাধিক স্বাধীন সিস্টেমে চলে, ফাইল বিনিময়ের মাধ্যমে ডেটা স্থানান্তর করে
  • ইন-সিটু কর্মপ্রবাহ: একটি একক HPC সিস্টেমের মধ্যে চলে, কাজ সমবর্তীভাবে সম্পাদিত হয় এবং মেমরির মাধ্যমে ডেটা স্থানান্তর করে

HPC তে LLMs এর প্রয়োগ

  • Duque এবং অন্যরা LLMs ব্যবহার করে কর্মপ্রবাহ তৈরি এবং সম্পাদন অন্বেষণ করেছেন
  • Sanger এবং অন্যরা বৈজ্ঞানিক কর্মপ্রবাহ বোঝা, সংশোধন এবং প্রসারিত করার ক্ষেত্রে GPT-3.5 এর প্রযোজ্যতা অধ্যয়ন করেছেন
  • এই গবেষণা আরও নতুন মডেল ব্যবহার করে এবং আরও বিস্তৃত কর্মপ্রবাহ সিস্টেম এবং বৈজ্ঞানিক কাজ প্রদান করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. জ্ঞানের অভাব: LLMs বৈজ্ঞানিক কর্মপ্রবাহ ডোমেইনের প্রশিক্ষণ ডেটার অভাবের কারণে প্রায়শই কঠিনতার সম্মুখীন হয়
  2. কর্মক্ষমতা পরিবর্তনশীলতা: LLMs এর কর্মক্ষমতা বিভিন্ন পরীক্ষা এবং কর্মপ্রবাহ সিস্টেমে উল্লেখযোগ্য পার্থক্য দেখায়
  3. প্রসঙ্গের গুরুত্ব: Few-shot prompting LLMs এর কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করেছে
  4. সিস্টেম নির্ভরতা: ভালভাবে নথিভুক্ত সিস্টেম (যেমন ADIOS2, PyCOMPSs) আরও ভাল LLM সমর্থন পায়

সীমাবদ্ধতা

  1. প্রশিক্ষণ ডেটা সীমাবদ্ধতা: বৈজ্ঞানিক কর্মপ্রবাহ ডকুমেন্টেশন LLM প্রশিক্ষণ ডেটায় অপেক্ষাকৃত বিরল
  2. API হ্যালুসিনেশন: LLMs প্রায়শই অ-বিদ্যমান API কল তৈরি করে
  3. কনফিগারেশন বোঝা: LLMs কর্মপ্রবাহ কনফিগারেশন এবং কাজ কোডের মধ্যে পার্থক্য করতে কঠিন সময় পায়
  4. সিস্টেম বিশেষত্ব: কর্মক্ষমতা নির্দিষ্ট কর্মপ্রবাহ সিস্টেমের ডকুমেন্টেশন উপলব্ধতার উপর অত্যন্ত নির্ভরশীল

ভবিষ্যত দিকনির্দেশনা

  1. পুনরুদ্ধার-বর্ধিত জেনারেশন (RAG): বাহ্যিক জ্ঞান ভাণ্ডারের সাথে LLM কর্মক্ষমতা উন্নত করা
  2. সূক্ষ্ম-সুর: বৈজ্ঞানিক কর্মপ্রবাহের জন্য বিশেষায়িত মডেল সূক্ষ্ম-সুর করা
  3. পুনরাবৃত্তিমূলক ত্রুটি সংশোধন: স্বয়ংক্রিয় ত্রুটি সনাক্তকরণ এবং সংশোধন প্রক্রিয়া প্রবর্তন করা
  4. মাল্টিমোডাল একীকরণ: কোড, ডকুমেন্টেশন এবং ভিজ্যুয়ালাইজেশন তথ্য একত্রিত করা

গভীর মূল্যায়ন

শক্তি

  1. সিস্টেমেটিক মূল্যায়ন: বৈজ্ঞানিক কর্মপ্রবাহ ডোমেইনে LLMs এর প্রথম ব্যাপক মূল্যায়ন
  2. বহুমাত্রিক বিশ্লেষণ: কনফিগারেশন, মন্তব্য, অনুবাদ তিনটি মূল কাজ অন্তর্ভুক্ত করে
  3. ব্যবহারিক মূল্য: কর্মপ্রবাহ উন্নয়নকারী এবং ব্যবহারকারীদের জন্য মূল্যবান রেফারেন্স বেঞ্চমার্ক প্রদান করে
  4. পদ্ধতিগত কঠোরতা: পরীক্ষা ডিজাইন যুক্তিসঙ্গত, মূল্যায়ন মেট্রিক্স উপযুক্ত, ফলাফল পুনরুৎপাদনযোগ্য

অপূর্ণতা

  1. মূল্যায়ন পরিসীমা: শুধুমাত্র তিনটি কর্মপ্রবাহ কাজ অন্তর্ভুক্ত করে, সম্ভবত সম্পূর্ণ নয়
  2. ডেটাসেট আকার: পরীক্ষার আকার অপেক্ষাকৃত ছোট, সিদ্ধান্তের সর্বজনীনতা প্রভাবিত করতে পারে
  3. গভীর বিশ্লেষণ: LLM ব্যর্থতার কারণের বিশ্লেষণ এখনও যথেষ্ট গভীর নয়
  4. বাস্তব স্থাপনা: প্রকৃত বৈজ্ঞানিক কম্পিউটিং পরিবেশে যাচাইকরণের অভাব

প্রভাব

  1. একাডেমিক অবদান: বৈজ্ঞানিক কম্পিউটিং ডোমেইনে LLMs এর প্রয়োগের জন্য গুরুত্বপূর্ণ বেঞ্চমার্ক প্রদান করে
  2. ব্যবহারিক মূল্য: গবেষকদের কর্মপ্রবাহ কাজে LLMs এর ক্ষমতা সীমানা বুঝতে সাহায্য করে
  3. ভবিষ্যত গবেষণা: এই গুরুত্বপূর্ণ ডোমেইনে LLMs এর প্রয়োগ উন্নত করার জন্য দিকনির্দেশনা প্রদান করে

প্রযোজ্য পরিস্থিতি

  1. কর্মপ্রবাহ সিস্টেম উন্নয়ন: LLM সহায়ক বৈশিষ্ট্য একীভূত করার জন্য রেফারেন্স প্রদান করে
  2. বৈজ্ঞানিক কম্পিউটিং শিক্ষা: পেশাদার ডোমেইনে LLMs এর সীমাবদ্ধতা বুঝতে সাহায্য করে
  3. HPC সরঞ্জাম উন্নয়ন: বুদ্ধিমান বৈজ্ঞানিক কম্পিউটিং সরঞ্জাম উন্নয়নের জন্য ভিত্তি প্রদান করে

রেফারেন্স

এই গবেষণা ৩৩টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা বৈজ্ঞানিক কর্মপ্রবাহ, বড় ভাষা মডেল, HPC এবং অন্যান্য একাধিক ডোমেইনের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।


সারসংক্ষেপ: এটি একটি যুগান্তকারী গবেষণা পত্র যা বৈজ্ঞানিক কর্মপ্রবাহ ডোমেইনে বড় ভাষা মডেলের ক্ষমতা সিস্টেমেটিকভাবে মূল্যায়ন করে। গবেষণা LLMs এর উল্লেখযোগ্য সীমাবদ্ধতা আবিষ্কার করেছে, একই সাথে উপযুক্ত কৌশলের মাধ্যমে (যেমন few-shot prompting) কর্মক্ষমতা উন্নত করার সম্ভাবনা প্রদর্শন করেছে, এই গুরুত্বপূর্ণ ডোমেইনে ভবিষ্যত গবেষণার জন্য ভিত্তি স্থাপন করেছে।