2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

Do Large Language Models Speak Scientific Workflows?

基本信息

  • 论文ID: 2412.10606
  • 标题: Do Large Language Models Speak Scientific Workflows?
  • 作者: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • 分类: cs.HC (Human-Computer Interaction)
  • 发表会议: SC-W'25 (Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis)
  • 论文链接: https://arxiv.org/abs/2412.10606

摘要

随着大语言模型(LLMs)的出现,将LLMs应用于科学任务的兴趣日益增长。本研究通过实验探索LLMs在配置、注释和翻译科学工作流方面的适用性。研究使用三种不同的工作流特定实验,评估了多个开源和闭源语言模型在最先进工作流系统上的表现。研究发现,LLMs由于缺乏科学工作流的训练数据而经常遇到困难,且其性能在不同实验和工作流系统间存在差异。

研究背景与动机

问题定义

科学工作流在高性能计算(HPC)环境中扮演着重要角色,它们由一系列相互协作的任务组成,在调度和通信方面协同工作。然而,许多科学家发现工作流系统难以使用,经常选择手动运行任务或开发自己的工作流解决方案。

研究重要性

  1. 可用性挑战: 科学工作流系统的复杂性阻碍了广泛采用
  2. 学习曲线: 即使采用通用工作流系统,科学家往往缺乏对这些系统的理解
  3. LLM潜力: 大语言模型可能有助于解决这些挑战,但需要理解其在HPC工作流中的能力

现有方法局限性

  • 现有研究主要关注特定HPC相关任务,如代码生成、注释和查询回答
  • 缺乏对LLMs在完整工作流系统中广泛适用性的综合研究
  • 对LLMs在科学工作流特定任务上的性能缺乏系统性评估

核心贡献

  1. 首个系统性评估: 对多个LLMs在科学工作流任务上的能力进行了全面的实验评估
  2. 多维度实验设计: 设计了三种不同类型的工作流特定实验(配置、注释、翻译)
  3. 多系统评估: 在五个最先进的工作流系统上进行了评估
  4. 性能基准: 建立了LLMs在科学工作流任务上的性能基准
  5. 改进策略: 探索了few-shot prompting等技术来提升LLM性能

方法详解

任务定义

研究定义了三个核心任务:

  1. 工作流配置: 基于自然语言输入生成工作流配置脚本
  2. 任务代码注释: 自动注释用户任务代码以适配工作流系统
  3. 任务代码翻译: 在不同工作流系统间翻译带注释的任务代码

评估框架

LLMs选择

  • o3: OpenAI的闭源模型,具有强推理能力
  • Claude-Sonnet-4: Anthropic开发的混合推理模型
  • Gemini-2.5-Pro: Google的高级模型,具有强推理和编码能力
  • LLaMA-3.3-70B-Instruct: Meta的700亿参数开源模型

工作流系统

  • ADIOS2: 科学代码的灵活I/O库和中间件
  • Henson: 用于原位处理的协作多任务系统
  • Parsl: Python并行编程库,支持基于任务的执行
  • PyCOMPSs: 基于任务的编程模型
  • Wilkins: 原位工作流系统,支持动态异构任务规范

评价指标

  • BLEU: 基于n-gram精度的机器翻译评估指标
  • ChrF: 基于字符的评估指标,计算字符n-gram的精度和召回率

实验设计

工作流配置实验

用户提供自然语言描述,LLMs生成相应的工作流配置文件。例如:

用户提示:我想要一个3节点工作流,包含一个生产者和两个消费者任务,
生产者生成网格和粒子数据集,consumer1读取网格,consumer2读取粒子数据集。
生产者需要3个进程,每个消费者运行在单个进程上。
请为Wilkins工作流系统提供工作流配置文件。

任务代码注释实验

提供简单的C语言生产者代码,要求LLMs添加相关工作流系统API调用的注释。

任务代码翻译实验

提供一个工作流系统的带注释任务代码,要求LLMs翻译为另一个工作流系统的代码。

实验设置

实验环境

  • 硬件: Apple M1 Max,10核CPU,24核GPU,32GB统一内存
  • 框架: 使用Inspect AI框架进行实验
  • 重复次数: 每个实验重复5次以减少LLM响应的变异性
  • 参数设置: temperature=0.2, top_p=0.95

提示策略评估

设计了五种不同的提示变体:

  1. 原始提示
  2. 不同风格
  3. 释义
  4. 重新排序
  5. 详细提示(包含技术细节)

实验结果

主要结果

工作流配置实验

LLMADIOS2HensonWilkins总体
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

任务代码注释实验

LLMADIOS2HensonPyCOMPSsParsl总体
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

任务代码翻译实验

翻译方向最佳LLMBLEU得分
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

关键发现

  1. 系统差异: LLMs在ADIOS2和PyCOMPSs等文档丰富的系统上表现更好
  2. 任务差异: 代码注释任务的整体性能优于配置生成
  3. 模型差异: 没有单一模型在所有任务上始终表现最佳
  4. 幻觉问题: LLMs经常生成不存在的API调用或配置字段

Few-shot Prompting效果

LLMZero-shotFew-shot改进幅度
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

相关工作

科学工作流研究

  • 分布式工作流: 跨多个独立系统运行,通过文件交换数据
  • 原位工作流: 在单个HPC系统内运行,任务并发执行并通过内存交换数据

LLMs在HPC中的应用

  • Duque等人探索使用LLMs构建和执行工作流
  • Sanger等人研究GPT-3.5在理解、修改和扩展科学工作流方面的适用性
  • 本研究使用更新的模型并提供更广泛的工作流系统和科学任务

结论与讨论

主要结论

  1. 知识缺乏: LLMs由于缺乏科学工作流领域的训练数据而经常遇到困难
  2. 性能变异: LLMs的性能在不同实验和工作流系统间存在显著差异
  3. 上下文重要性: Few-shot prompting显著提升了LLMs的性能
  4. 系统依赖: 文档丰富的系统(如ADIOS2、PyCOMPSs)获得更好的LLM支持

局限性

  1. 训练数据限制: 科学工作流文档在LLM训练数据中相对稀少
  2. API幻觉: LLMs经常生成不存在的API调用
  3. 配置理解: LLMs难以区分工作流配置和任务代码
  4. 系统特异性: 性能高度依赖于特定工作流系统的文档可用性

未来方向

  1. 检索增强生成(RAG): 结合外部知识库提升LLM性能
  2. 微调: 针对科学工作流进行专门的模型微调
  3. 迭代错误纠正: 引入自动错误检测和纠正机制
  4. 多模态集成: 结合代码、文档和可视化信息

深度评价

优点

  1. 系统性评估: 首次对LLMs在科学工作流领域进行全面评估
  2. 多维度分析: 涵盖配置、注释、翻译三个关键任务
  3. 实用价值: 为工作流开发者和用户提供了有价值的参考基准
  4. 方法学严谨: 实验设计合理,评估指标恰当,结果可重现

不足

  1. 评估范围: 仅涵盖三种工作流任务,可能不够全面
  2. 数据集规模: 实验规模相对较小,可能影响结论的普适性
  3. 深度分析: 对LLM失败原因的分析还不够深入
  4. 实际部署: 缺乏在真实科学计算环境中的验证

影响力

  1. 学术贡献: 为LLMs在科学计算领域的应用提供了重要基准
  2. 实用价值: 帮助研究者理解LLMs在工作流任务中的能力边界
  3. 未来研究: 为改进LLMs在科学工作流中的应用指明了方向

适用场景

  1. 工作流系统开发: 为集成LLM辅助功能提供参考
  2. 科学计算教育: 帮助理解LLM在专业领域的局限性
  3. HPC工具开发: 为开发智能化科学计算工具提供基础

参考文献

本研究引用了33篇相关文献,涵盖了科学工作流、大语言模型、HPC等多个领域的重要工作,为研究提供了坚实的理论基础。


总结: 这是一篇具有开创性意义的研究论文,首次系统性地评估了大语言模型在科学工作流领域的能力。研究发现了LLMs的显著局限性,同时也展示了通过适当技术(如few-shot prompting)改进性能的可能性,为未来在这一重要领域的研究奠定了基础。