2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

Do Large Language Models Speak Scientific Workflows?

基本信息

论文ID: 2412.10606
标题: Do Large Language Models Speak Scientific Workflows?
作者: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
分类: cs.HC (Human-Computer Interaction)
发表会议: SC-W'25 (Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis)
论文链接: https://arxiv.org/abs/2412.10606

摘要

随着大语言模型(LLMs)的出现，将LLMs应用于科学任务的兴趣日益增长。本研究通过实验探索LLMs在配置、注释和翻译科学工作流方面的适用性。研究使用三种不同的工作流特定实验，评估了多个开源和闭源语言模型在最先进工作流系统上的表现。研究发现，LLMs由于缺乏科学工作流的训练数据而经常遇到困难，且其性能在不同实验和工作流系统间存在差异。

研究背景与动机

问题定义

科学工作流在高性能计算(HPC)环境中扮演着重要角色，它们由一系列相互协作的任务组成，在调度和通信方面协同工作。然而，许多科学家发现工作流系统难以使用，经常选择手动运行任务或开发自己的工作流解决方案。

研究重要性

可用性挑战: 科学工作流系统的复杂性阻碍了广泛采用
学习曲线: 即使采用通用工作流系统，科学家往往缺乏对这些系统的理解
LLM潜力: 大语言模型可能有助于解决这些挑战，但需要理解其在HPC工作流中的能力

现有方法局限性

现有研究主要关注特定HPC相关任务，如代码生成、注释和查询回答
缺乏对LLMs在完整工作流系统中广泛适用性的综合研究
对LLMs在科学工作流特定任务上的性能缺乏系统性评估

核心贡献

首个系统性评估: 对多个LLMs在科学工作流任务上的能力进行了全面的实验评估
多维度实验设计: 设计了三种不同类型的工作流特定实验(配置、注释、翻译)
多系统评估: 在五个最先进的工作流系统上进行了评估
性能基准: 建立了LLMs在科学工作流任务上的性能基准
改进策略: 探索了few-shot prompting等技术来提升LLM性能

方法详解

任务定义

研究定义了三个核心任务：

工作流配置: 基于自然语言输入生成工作流配置脚本
任务代码注释: 自动注释用户任务代码以适配工作流系统
任务代码翻译: 在不同工作流系统间翻译带注释的任务代码

评估框架

LLMs选择

o3: OpenAI的闭源模型，具有强推理能力
Claude-Sonnet-4: Anthropic开发的混合推理模型
Gemini-2.5-Pro: Google的高级模型，具有强推理和编码能力
LLaMA-3.3-70B-Instruct: Meta的700亿参数开源模型

工作流系统

ADIOS2: 科学代码的灵活I/O库和中间件
Henson: 用于原位处理的协作多任务系统
Parsl: Python并行编程库，支持基于任务的执行
PyCOMPSs: 基于任务的编程模型
Wilkins: 原位工作流系统，支持动态异构任务规范

评价指标

BLEU: 基于n-gram精度的机器翻译评估指标
ChrF: 基于字符的评估指标，计算字符n-gram的精度和召回率

实验设计

工作流配置实验

用户提供自然语言描述，LLMs生成相应的工作流配置文件。例如：

用户提示：我想要一个3节点工作流，包含一个生产者和两个消费者任务，
生产者生成网格和粒子数据集，consumer1读取网格，consumer2读取粒子数据集。
生产者需要3个进程，每个消费者运行在单个进程上。
请为Wilkins工作流系统提供工作流配置文件。

任务代码注释实验

提供简单的C语言生产者代码，要求LLMs添加相关工作流系统API调用的注释。

任务代码翻译实验

提供一个工作流系统的带注释任务代码，要求LLMs翻译为另一个工作流系统的代码。

实验设置

实验环境

硬件: Apple M1 Max，10核CPU，24核GPU，32GB统一内存
框架: 使用Inspect AI框架进行实验
重复次数: 每个实验重复5次以减少LLM响应的变异性
参数设置: temperature=0.2, top_p=0.95

提示策略评估

设计了五种不同的提示变体：

原始提示
不同风格
释义
重新排序
详细提示（包含技术细节）

实验结果

主要结果

工作流配置实验

LLM	ADIOS2	Henson	Wilkins	总体
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3