With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
論文ID : 2412.10606タイトル : Do Large Language Models Speak Scientific Workflows?著者 : Orcun Yildiz(アルゴンヌ国立研究所)、Tom Peterka(アルゴンヌ国立研究所)分類 : cs.HC(ヒューマンコンピュータインタラクション)発表会議 : SC-W'25(国際高性能計算・ネットワーク・ストレージ・解析会議ワークショップ)論文リンク : https://arxiv.org/abs/2412.10606 大規模言語モデル(LLM)の出現に伴い、LLMを科学的タスクに応用することへの関心が急速に高まっている。本研究は、科学ワークフローの設定、注釈付与、翻訳におけるLLMの適用可能性を実験的に探索する。本研究では3つの異なるワークフロー固有の実験を用いて、複数のオープンソースおよびクローズドソースの言語モデルを最先端のワークフローシステム上で評価した。その結果、LLMは科学ワークフローの訓練データの不足により頻繁に困難に直面し、異なる実験およびワークフローシステム間でパフォーマンスが変動することが判明した。
科学ワークフローは高性能計算(HPC)環境において重要な役割を果たしており、相互に協調するタスクの一連で構成され、スケジューリングと通信の面で協調動作する。しかし、多くの科学者はワークフローシステムを使いにくいと感じ、タスクを手動で実行するか、独自のワークフロー解決策を開発することを選択している。
ユーザビリティの課題 : 科学ワークフローシステムの複雑性が広範な採用を阻害している学習曲線 : 汎用ワークフローシステムを採用しても、科学者はしばしばこれらのシステムの理解に欠けるLLMの可能性 : 大規模言語モデルはこれらの課題解決に役立つ可能性があるが、HPCワークフローにおけるその能力を理解する必要がある既存研究は主にコード生成、注釈付与、クエリ応答などの特定のHPC関連タスクに焦点を当てている 完全なワークフローシステムにおけるLLMの広範な適用可能性に関する包括的な研究が不足している 科学ワークフロー固有のタスクにおけるLLMのパフォーマンスについて、体系的な評価が欠けている 初の体系的評価 : 科学ワークフロータスクにおける複数のLLMの能力に関する包括的な実験評価多次元実験設計 : ワークフロー固有の3つの異なるタイプの実験(設定、注釈付与、翻訳)の設計マルチシステム評価 : 5つの最先端ワークフローシステムでの評価パフォーマンスベンチマーク : 科学ワークフロータスクにおけるLLMのパフォーマンスベンチマークの確立改善戦略 : フューショットプロンプティングなどの技術によるLLMパフォーマンス向上の探索本研究は3つの核心的なタスクを定義した:
ワークフロー設定 : 自然言語入力に基づいてワークフロー設定スクリプトを生成タスクコード注釈付与 : ユーザータスクコードに自動的に注釈を付与してワークフローシステムに適応させるタスクコード翻訳 : 異なるワークフローシステム間で注釈付きタスクコードを翻訳o3 : OpenAIのクローズドソースモデル、強力な推論能力を備えるClaude-Sonnet-4 : Anthropicが開発したハイブリッド推論モデルGemini-2.5-Pro : Googleの高度なモデル、強力な推論とコーディング能力を備えるLLaMA-3.3-70B-Instruct : Metaの700億パラメータのオープンソースモデルADIOS2 : 科学コード用の柔軟なI/OライブラリとミドルウェアHenson : インサイト処理用の協調マルチタスクシステムParsl : Pythonの並列プログラミングライブラリ、タスクベースの実行をサポートPyCOMPSs : タスクベースのプログラミングモデルWilkins : インサイトワークフローシステム、動的異種タスク仕様をサポートBLEU : n-gramの精度に基づく機械翻訳評価指標ChrF : 文字ベースの評価指標、文字n-gramの精度と再現率を計算ユーザーが自然言語説明を提供し、LLMが対応するワークフロー設定ファイルを生成する。例:
ユーザープロンプト:3ノードのワークフローが必要です。
1つのプロデューサーと2つのコンシューマータスクを含みます。
プロデューサーはメッシュとパーティクルデータセットを生成し、
consumer1はメッシュを読み取り、consumer2はパーティクルデータセットを読み取ります。
プロデューサーは3つのプロセスで実行され、各コンシューマーは単一プロセスで実行されます。
Wilkinsワークフローシステムのワークフロー設定ファイルを提供してください。
シンプルなCプログラムのプロデューサーコードを提供し、LLMに関連するワークフローシステムAPI呼び出しの注釈を追加するよう要求。
1つのワークフローシステムの注釈付きタスクコードを提供し、LLMに別のワークフローシステムのコードに翻訳するよう要求。
ハードウェア : Apple M1 Max、10コアCPU、24コアGPU、32GB統一メモリフレームワーク : Inspect AIフレームワークを使用して実験を実施繰り返し回数 : LLM応答の変動性を減らすため、各実験を5回繰り返すパラメータ設定 : temperature=0.2、top_p=0.955つの異なるプロンプト変種を設計:
元のプロンプト 異なるスタイル 言い換え 並べ替え 詳細プロンプト(技術的詳細を含む) LLM ADIOS2 Henson Wilkins 全体 o3 59.1±2.3 20.2±2.3 30.0±1.5 36.5±4.5 Gemini-2.5-Pro 73.0±1.8 26.9±1.9 31.6±3.4 43.8±5.7 Claude-Sonnet-4 72.1±0.0 25.0±0.0 36.8±0.8 44.6±5.3 LLaMA-3.3-70B 35.9±0.7 27.7±1.0 39.0±0.0 34.2±1.3
LLM ADIOS2 Henson PyCOMPSs Parsl 全体 Gemini-2.5-Pro 51.9±0.7 42.7±9.4 89.3±3.1 35.6±6.3 54.9±5.5 o3 60.3±2.1 38.1±5.0 72.4±1.8 39.3±6.0 52.8±4.1
翻訳方向 最良のLLM BLEUスコア Henson→ADIOS2 o3 56.2±2.1 ADIOS2→Henson Gemini-2.5-Pro 35.4±1.6 Parsl→PyCOMPSs Gemini-2.5-Pro 78.4±7.5 PyCOMPSs→Parsl Gemini-2.5-Pro 39.7±3.3
システム間の差異 : LLMはADIOS2やPyCOMPSsなどのドキュメントが充実したシステムでより良いパフォーマンスを示すタスク間の差異 : コード注釈付与タスクの全体的なパフォーマンスは設定生成より優れているモデル間の差異 : すべてのタスクで一貫して最高のパフォーマンスを示す単一のモデルは存在しない幻覚の問題 : LLMは存在しないAPI呼び出しや設定フィールドを頻繁に生成するLLM ゼロショット フューショット 改善幅 o3 36.5±4.5 89.3±2.7 +144% Gemini-2.5-Pro 43.8±5.7 86.7±2.3 +98% Claude-Sonnet-4 44.6±5.3 91.5±3.0 +105% LLaMA-3.3-70B 34.2±1.3 84.1±2.1 +146%
分散ワークフロー : 複数の独立したシステムで実行され、ファイル交換によってデータを交換インサイトワークフロー : 単一のHPCシステム内で実行され、タスクが並行実行され、メモリを通じてデータを交換Duequeらはワークフロー構築と実行にLLMを使用することを探索 Sangerらはワークフロー理解、修正、拡張におけるGPT-3.5の適用可能性を研究 本研究はより新しいモデルを使用し、より広範なワークフローシステムと科学的タスクを提供 知識の不足 : LLMは科学ワークフロー領域の訓練データの不足により頻繁に困難に直面するパフォーマンスの変動 : LLMのパフォーマンスは異なる実験およびワークフローシステム間で大きく変動する文脈の重要性 : フューショットプロンプティングはLLMのパフォーマンスを大幅に向上させるシステム依存性 : ドキュメントが充実したシステム(ADIOS2、PyCOMPSsなど)はより良いLLMサポートを受ける訓練データの制限 : 科学ワークフロードキュメントはLLM訓練データに相対的に稀であるAPI幻覚 : LLMは存在しないAPI呼び出しを頻繁に生成する設定理解 : LLMはワークフロー設定とタスクコードを区別するのに困難を感じるシステム特異性 : パフォーマンスは特定のワークフローシステムのドキュメント利用可能性に大きく依存する検索拡張生成(RAG) : 外部知識ベースを組み合わせてLLMパフォーマンスを向上させるファインチューニング : 科学ワークフロー用の専門的なモデルファインチューニング反復的エラー修正 : 自動エラー検出と修正メカニズムの導入マルチモーダル統合 : コード、ドキュメント、可視化情報の組み合わせ体系的評価 : 科学ワークフロー領域におけるLLMの初の包括的評価多次元分析 : 設定、注釈付与、翻訳の3つの主要なタスクをカバー実用的価値 : ワークフロー開発者とユーザーに価値あるリファレンスベンチマークを提供方法論の厳密性 : 実験設計が適切で、評価指標が妥当で、結果が再現可能評価範囲 : 3つのワークフロータスクのみをカバーしており、十分に包括的でない可能性があるデータセット規模 : 実験規模が相対的に小さく、結論の普遍性に影響を与える可能性がある深度分析 : LLM失敗原因の分析がまだ十分に深くない実際の展開 : 実際の科学計算環境での検証が不足している学術的貢献 : 科学計算領域におけるLLMの応用に重要なベンチマークを提供実用的価値 : 研究者がワークフロータスクにおけるLLMの能力の境界を理解するのに役立つ将来の研究 : 科学ワークフロー中のLLM応用の改善に方向性を示すワークフローシステム開発 : LLM支援機能の統合に参考を提供科学計算教育 : 専門分野におけるLLMの制限を理解するのに役立つHPCツール開発 : インテリジェント科学計算ツール開発の基礎を提供本研究は33の関連文献を引用しており、科学ワークフロー、大規模言語モデル、HPCなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供している。
要約 : これは科学ワークフロー領域における大規模言語モデルの能力を初めて体系的に評価した、開拓的意義のある研究論文である。本研究はLLMの顕著な制限を明らかにする一方で、フューショットプロンプティングなどの適切な技術を通じてパフォーマンスを改善する可能性も示し、この重要な領域における将来の研究の基礎を確立している。