Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
대규모 언어 모델(LLMs)의 등장으로 LLMs을 과학 작업에 적용하려는 관심이 증가하고 있습니다. 본 연구는 과학 워크플로우 구성, 주석 달기 및 변환에 있어 LLMs의 적용 가능성을 실험적으로 탐색합니다. 본 연구는 세 가지 서로 다른 워크플로우 특화 실험을 사용하여 최첨단 워크플로우 시스템에서 여러 오픈소스 및 폐쇄소스 언어 모델의 성능을 평가했습니다. 연구 결과, LLMs은 과학 워크플로우의 훈련 데이터 부족으로 인해 어려움을 겪으며, 서로 다른 실험과 워크플로우 시스템 간에 성능 편차가 존재함을 발견했습니다.
과학 워크플로우는 고성능 컴퓨팅(HPC) 환경에서 중요한 역할을 하며, 일련의 상호 협력하는 작업으로 구성되어 스케줄링 및 통신 측면에서 협력합니다. 그러나 많은 과학자들은 워크플로우 시스템을 사용하기 어렵다고 생각하여 작업을 수동으로 실행하거나 자체 워크플로우 솔루션을 개발하는 것을 선호합니다.
사용자가 자연어 설명을 제공하면 LLMs이 해당 워크플로우 구성 파일을 생성합니다. 예시:
사용자 프롬프트: 3개 노드 워크플로우를 원하며, 1개의 생산자와 2개의 소비자 작업을 포함합니다.
생산자는 그리드 및 입자 데이터셋을 생성하고, consumer1은 그리드를 읽고,
consumer2는 입자 데이터셋을 읽습니다. 생산자는 3개 프로세스가 필요하고,
각 소비자는 단일 프로세스에서 실행됩니다. Wilkins 워크플로우 시스템을 위한
워크플로우 구성 파일을 제공하세요.
본 연구는 과학 워크플로우, 대규모 언어 모델, HPC 등 여러 분야의 중요한 작업을 포함하는 33개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.
요약: 이는 대규모 언어 모델의 과학 워크플로우 분야 능력을 처음으로 체계적으로 평가한 획기적인 연구 논문입니다. 연구는 LLMs의 상당한 한계를 발견했으며, 동시에 적절한 기술(예: few-shot 프롬프팅)을 통한 성능 개선의 가능성을 보여주어 이 중요한 분야에서의 향후 연구를 위한 기초를 마련했습니다.