2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

大規模言語モデルは科学ワークフローを理解するか？

基本情報

論文ID: 2412.10606
タイトル: Do Large Language Models Speak Scientific Workflows?
著者: Orcun Yildiz（アルゴンヌ国立研究所）、Tom Peterka（アルゴンヌ国立研究所）
分類: cs.HC（ヒューマンコンピュータインタラクション）
発表会議: SC-W'25（国際高性能計算・ネットワーク・ストレージ・解析会議ワークショップ）
論文リンク: https://arxiv.org/abs/2412.10606

要旨

大規模言語モデル（LLM）の出現に伴い、LLMを科学的タスクに応用することへの関心が急速に高まっている。本研究は、科学ワークフローの設定、注釈付与、翻訳におけるLLMの適用可能性を実験的に探索する。本研究では3つの異なるワークフロー固有の実験を用いて、複数のオープンソースおよびクローズドソースの言語モデルを最先端のワークフローシステム上で評価した。その結果、LLMは科学ワークフローの訓練データの不足により頻繁に困難に直面し、異なる実験およびワークフローシステム間でパフォーマンスが変動することが判明した。

研究背景と動機

問題定義

科学ワークフローは高性能計算（HPC）環境において重要な役割を果たしており、相互に協調するタスクの一連で構成され、スケジューリングと通信の面で協調動作する。しかし、多くの科学者はワークフローシステムを使いにくいと感じ、タスクを手動で実行するか、独自のワークフロー解決策を開発することを選択している。

研究の重要性

ユーザビリティの課題: 科学ワークフローシステムの複雑性が広範な採用を阻害している
学習曲線: 汎用ワークフローシステムを採用しても、科学者はしばしばこれらのシステムの理解に欠ける
LLMの可能性: 大規模言語モデルはこれらの課題解決に役立つ可能性があるが、HPCワークフローにおけるその能力を理解する必要がある

既存アプローチの限界

既存研究は主にコード生成、注釈付与、クエリ応答などの特定のHPC関連タスクに焦点を当てている
完全なワークフローシステムにおけるLLMの広範な適用可能性に関する包括的な研究が不足している
科学ワークフロー固有のタスクにおけるLLMのパフォーマンスについて、体系的な評価が欠けている

核心的貢献

初の体系的評価: 科学ワークフロータスクにおける複数のLLMの能力に関する包括的な実験評価
多次元実験設計: ワークフロー固有の3つの異なるタイプの実験（設定、注釈付与、翻訳）の設計
マルチシステム評価: 5つの最先端ワークフローシステムでの評価
パフォーマンスベンチマーク: 科学ワークフロータスクにおけるLLMのパフォーマンスベンチマークの確立
改善戦略: フューショットプロンプティングなどの技術によるLLMパフォーマンス向上の探索

方法論の詳細

タスク定義

本研究は3つの核心的なタスクを定義した：

ワークフロー設定: 自然言語入力に基づいてワークフロー設定スクリプトを生成
タスクコード注釈付与: ユーザータスクコードに自動的に注釈を付与してワークフローシステムに適応させる
タスクコード翻訳: 異なるワークフローシステム間で注釈付きタスクコードを翻訳

評価フレームワーク

LLMの選択

o3: OpenAIのクローズドソースモデル、強力な推論能力を備える
Claude-Sonnet-4: Anthropicが開発したハイブリッド推論モデル
Gemini-2.5-Pro: Googleの高度なモデル、強力な推論とコーディング能力を備える
LLaMA-3.3-70B-Instruct: Metaの700億パラメータのオープンソースモデル

ワークフローシステム

ADIOS2: 科学コード用の柔軟なI/Oライブラリとミドルウェア
Henson: インサイト処理用の協調マルチタスクシステム
Parsl: Pythonの並列プログラミングライブラリ、タスクベースの実行をサポート
PyCOMPSs: タスクベースのプログラミングモデル
Wilkins: インサイトワークフローシステム、動的異種タスク仕様をサポート

評価指標

BLEU: n-gramの精度に基づく機械翻訳評価指標
ChrF: 文字ベースの評価指標、文字n-gramの精度と再現率を計算

実験設計

ワークフロー設定実験

ユーザーが自然言語説明を提供し、LLMが対応するワークフロー設定ファイルを生成する。例：

ユーザープロンプト：3ノードのワークフローが必要です。
1つのプロデューサーと2つのコンシューマータスクを含みます。
プロデューサーはメッシュとパーティクルデータセットを生成し、
consumer1はメッシュを読み取り、consumer2はパーティクルデータセットを読み取ります。
プロデューサーは3つのプロセスで実行され、各コンシューマーは単一プロセスで実行されます。
Wilkinsワークフローシステムのワークフロー設定ファイルを提供してください。

タスクコード注釈付与実験

シンプルなCプログラムのプロデューサーコードを提供し、LLMに関連するワークフローシステムAPI呼び出しの注釈を追加するよう要求。

タスクコード翻訳実験

1つのワークフローシステムの注釈付きタスクコードを提供し、LLMに別のワークフローシステムのコードに翻訳するよう要求。

実験設定

実験環境

ハードウェア: Apple M1 Max、10コアCPU、24コアGPU、32GB統一メモリ
フレームワーク: Inspect AIフレームワークを使用して実験を実施
繰り返し回数: LLM応答の変動性を減らすため、各実験を5回繰り返す
パラメータ設定: temperature=0.2、top_p=0.95

プロンプト戦略評価

5つの異なるプロンプト変種を設計：

元のプロンプト
異なるスタイル
言い換え
並べ替え
詳細プロンプト（技術的詳細を含む）

実験結果

主要な結果

ワークフロー設定実験

LLM	ADIOS2	Henson	Wilkins	全体
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

タスクコード注釈付与実験

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	全体
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

タスクコード翻訳実験

翻訳方向	最良のLLM	BLEUスコア
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

主要な知見

システム間の差異: LLMはADIOS2やPyCOMPSsなどのドキュメントが充実したシステムでより良いパフォーマンスを示す
タスク間の差異: コード注釈付与タスクの全体的なパフォーマンスは設定生成より優れている
モデル間の差異: すべてのタスクで一貫して最高のパフォーマンスを示す単一のモデルは存在しない
幻覚の問題: LLMは存在しないAPI呼び出しや設定フィールドを頻繁に生成する

フューショットプロンプティングの効果

LLM	ゼロショット	フューショット	改善幅
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

結論と議論

主要な結論

知識の不足: LLMは科学ワークフロー領域の訓練データの不足により頻繁に困難に直面する
パフォーマンスの変動: LLMのパフォーマンスは異なる実験およびワークフローシステム間で大きく変動する
文脈の重要性: フューショットプロンプティングはLLMのパフォーマンスを大幅に向上させる
システム依存性: ドキュメントが充実したシステム（ADIOS2、PyCOMPSsなど）はより良いLLMサポートを受ける

制限事項

訓練データの制限: 科学ワークフロードキュメントはLLM訓練データに相対的に稀である
API幻覚: LLMは存在しないAPI呼び出しを頻繁に生成する
設定理解: LLMはワークフロー設定とタスクコードを区別するのに困難を感じる
システム特異性: パフォーマンスは特定のワークフローシステムのドキュメント利用可能性に大きく依存する

今後の方向性

検索拡張生成（RAG）: 外部知識ベースを組み合わせてLLMパフォーマンスを向上させる
ファインチューニング: 科学ワークフロー用の専門的なモデルファインチューニング
反復的エラー修正: 自動エラー検出と修正メカニズムの導入
マルチモーダル統合: コード、ドキュメント、可視化情報の組み合わせ

深度評価

利点

体系的評価: 科学ワークフロー領域におけるLLMの初の包括的評価
多次元分析: 設定、注釈付与、翻訳の3つの主要なタスクをカバー
実用的価値: ワークフロー開発者とユーザーに価値あるリファレンスベンチマークを提供
方法論の厳密性: 実験設計が適切で、評価指標が妥当で、結果が再現可能

不足点

評価範囲: 3つのワークフロータスクのみをカバーしており、十分に包括的でない可能性がある
データセット規模: 実験規模が相対的に小さく、結論の普遍性に影響を与える可能性がある
深度分析: LLM失敗原因の分析がまだ十分に深くない
実際の展開: 実際の科学計算環境での検証が不足している

影響力

学術的貢献: 科学計算領域におけるLLMの応用に重要なベンチマークを提供
実用的価値: 研究者がワークフロータスクにおけるLLMの能力の境界を理解するのに役立つ
将来の研究: 科学ワークフロー中のLLM応用の改善に方向性を示す

適用シナリオ

ワークフローシステム開発: LLM支援機能の統合に参考を提供
科学計算教育: 専門分野におけるLLMの制限を理解するのに役立つ
HPCツール開発: インテリジェント科学計算ツール開発の基礎を提供

参考文献

本研究は33の関連文献を引用しており、科学ワークフロー、大規模言語モデル、HPCなど複数の分野の重要な研究をカバーし、研究に堅実な理論的基礎を提供している。

要約: これは科学ワークフロー領域における大規模言語モデルの能力を初めて体系的に評価した、開拓的意義のある研究論文である。本研究はLLMの顕著な制限を明らかにする一方で、フューショットプロンプティングなどの適切な技術を通じてパフォーマンスを改善する可能性も示し、この重要な領域における将来の研究の基礎を確立している。