2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

대규모 언어 모델이 과학 워크플로우를 이해하는가?

기본 정보

논문 ID: 2412.10606
제목: Do Large Language Models Speak Scientific Workflows?
저자: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
분류: cs.HC (인간-컴퓨터 상호작용)
발표 학회: SC-W'25 (고성능 컴퓨팅, 네트워킹, 저장소 및 분석 국제 학회 워크숍)
논문 링크: https://arxiv.org/abs/2412.10606

초록

대규모 언어 모델(LLMs)의 등장으로 LLMs을 과학 작업에 적용하려는 관심이 증가하고 있습니다. 본 연구는 과학 워크플로우 구성, 주석 달기 및 변환에 있어 LLMs의 적용 가능성을 실험적으로 탐색합니다. 본 연구는 세 가지 서로 다른 워크플로우 특화 실험을 사용하여 최첨단 워크플로우 시스템에서 여러 오픈소스 및 폐쇄소스 언어 모델의 성능을 평가했습니다. 연구 결과, LLMs은 과학 워크플로우의 훈련 데이터 부족으로 인해 어려움을 겪으며, 서로 다른 실험과 워크플로우 시스템 간에 성능 편차가 존재함을 발견했습니다.

연구 배경 및 동기

문제 정의

과학 워크플로우는 고성능 컴퓨팅(HPC) 환경에서 중요한 역할을 하며, 일련의 상호 협력하는 작업으로 구성되어 스케줄링 및 통신 측면에서 협력합니다. 그러나 많은 과학자들은 워크플로우 시스템을 사용하기 어렵다고 생각하여 작업을 수동으로 실행하거나 자체 워크플로우 솔루션을 개발하는 것을 선호합니다.

연구의 중요성

사용성 문제: 과학 워크플로우 시스템의 복잡성이 광범위한 채택을 방해함
학습 곡선: 범용 워크플로우 시스템을 채택하더라도 과학자들은 이러한 시스템에 대한 이해가 부족함
LLM의 잠재력: 대규모 언어 모델이 이러한 문제 해결에 도움이 될 수 있지만, HPC 워크플로우에서의 능력 이해가 필요함

기존 방법의 한계

기존 연구는 주로 코드 생성, 주석 달기 및 질의 응답과 같은 특정 HPC 관련 작업에 초점을 맞춤
완전한 워크플로우 시스템에서 LLMs의 광범위한 적용 가능성에 대한 종합적 연구 부족
과학 워크플로우 특화 작업에서 LLMs의 성능에 대한 체계적 평가 부족

핵심 기여

첫 번째 체계적 평가: 과학 워크플로우 작업에서 여러 LLMs의 능력에 대한 포괄적인 실험 평가
다차원 실험 설계: 세 가지 서로 다른 유형의 워크플로우 특화 실험(구성, 주석, 변환) 설계
다중 시스템 평가: 다섯 가지 최첨단 워크플로우 시스템에서의 평가
성능 벤치마크: 과학 워크플로우 작업에서 LLMs의 성능 벤치마크 수립
개선 전략: Few-shot 프롬프팅 등의 기술을 통한 LLM 성능 향상 탐색

방법론 상세 설명

작업 정의

연구는 세 가지 핵심 작업을 정의했습니다:

워크플로우 구성: 자연어 입력을 기반으로 워크플로우 구성 스크립트 생성
작업 코드 주석: 사용자 작업 코드에 자동으로 주석을 달아 워크플로우 시스템에 맞게 조정
작업 코드 변환: 서로 다른 워크플로우 시스템 간에 주석이 달린 작업 코드 변환

평가 프레임워크

LLMs 선택

o3: OpenAI의 폐쇄소스 모델로 강력한 추론 능력 보유
Claude-Sonnet-4: Anthropic이 개발한 하이브리드 추론 모델
Gemini-2.5-Pro: Google의 고급 모델로 강력한 추론 및 코딩 능력 보유
LLaMA-3.3-70B-Instruct: Meta의 700억 매개변수 오픈소스 모델

워크플로우 시스템

ADIOS2: 과학 코드를 위한 유연한 I/O 라이브러리 및 미들웨어
Henson: 원위치 처리를 위한 협력 다중 작업 시스템
Parsl: 작업 기반 실행을 지원하는 Python 병렬 프로그래밍 라이브러리
PyCOMPSs: 작업 기반 프로그래밍 모델
Wilkins: 동적 이질 작업 사양을 지원하는 원위치 워크플로우 시스템

평가 지표

BLEU: n-gram 정확도를 기반으로 한 기계 번역 평가 지표
ChrF: 문자 기반 평가 지표로 문자 n-gram의 정확도 및 재현율 계산

실험 설계

워크플로우 구성 실험

사용자가 자연어 설명을 제공하면 LLMs이 해당 워크플로우 구성 파일을 생성합니다. 예시:

사용자 프롬프트: 3개 노드 워크플로우를 원하며, 1개의 생산자와 2개의 소비자 작업을 포함합니다.
생산자는 그리드 및 입자 데이터셋을 생성하고, consumer1은 그리드를 읽고, 
consumer2는 입자 데이터셋을 읽습니다. 생산자는 3개 프로세스가 필요하고, 
각 소비자는 단일 프로세스에서 실행됩니다. Wilkins 워크플로우 시스템을 위한 
워크플로우 구성 파일을 제공하세요.

작업 코드 주석 실험

간단한 C 언어 생산자 코드를 제공하고 LLMs이 관련 워크플로우 시스템 API 호출에 대한 주석을 추가하도록 요청합니다.

작업 코드 변환 실험

한 워크플로우 시스템의 주석이 달린 작업 코드를 제공하고 LLMs이 다른 워크플로우 시스템의 코드로 변환하도록 요청합니다.

실험 설정

실험 환경

하드웨어: Apple M1 Max, 10코어 CPU, 24코어 GPU, 32GB 통합 메모리
프레임워크: Inspect AI 프레임워크를 사용한 실험 수행
반복 횟수: LLM 응답의 변동성을 줄이기 위해 각 실험을 5회 반복
매개변수 설정: temperature=0.2, top_p=0.95

프롬프팅 전략 평가

다섯 가지 서로 다른 프롬프트 변형을 설계했습니다:

원본 프롬프트
다양한 스타일
의역
재정렬
상세 프롬프트(기술 세부사항 포함)

실험 결과

주요 결과

워크플로우 구성 실험

LLM	ADIOS2	Henson	Wilkins	전체
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

작업 코드 주석 실험

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	전체
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

작업 코드 변환 실험

변환 방향	최고 성능 LLM	BLEU 점수
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

주요 발견

시스템 차이: LLMs은 ADIOS2 및 PyCOMPSs와 같은 문서가 풍부한 시스템에서 더 나은 성능을 보임
작업 차이: 코드 주석 작업의 전체 성능이 구성 생성보다 우수함
모델 차이: 모든 작업에서 일관되게 최고 성능을 보이는 단일 모델이 없음
환각 문제: LLMs은 존재하지 않는 API 호출이나 구성 필드를 자주 생성함

Few-shot 프롬프팅의 효과

LLM	Zero-shot	Few-shot	개선 폭
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

결론 및 논의

주요 결론

지식 부족: LLMs은 과학 워크플로우 분야의 훈련 데이터 부족으로 인해 어려움을 겪음
성능 변동성: LLMs의 성능은 서로 다른 실험과 워크플로우 시스템 간에 상당한 편차를 보임
문맥의 중요성: Few-shot 프롬프팅은 LLMs의 성능을 크게 향상시킴
시스템 의존성: 문서가 풍부한 시스템(예: ADIOS2, PyCOMPSs)이 더 나은 LLM 지원을 받음

한계

훈련 데이터 제한: 과학 워크플로우 문서가 LLM 훈련 데이터에서 상대적으로 희소함
API 환각: LLMs은 존재하지 않는 API 호출을 자주 생성함
구성 이해: LLMs은 워크플로우 구성과 작업 코드를 구분하기 어려움
시스템 특이성: 성능은 특정 워크플로우 시스템의 문서 가용성에 크게 의존함

향후 방향

검색 증강 생성(RAG): 외부 지식 기반과 결합하여 LLM 성능 향상
미세 조정: 과학 워크플로우를 위한 전문화된 모델 미세 조정
반복적 오류 수정: 자동 오류 감지 및 수정 메커니즘 도입
다중 모달 통합: 코드, 문서 및 시각화 정보 결합

심층 평가

장점

체계적 평가: 과학 워크플로우 분야에서 LLMs에 대한 첫 번째 포괄적 평가
다차원 분석: 구성, 주석, 변환의 세 가지 핵심 작업 포함
실용적 가치: 워크플로우 개발자 및 사용자에게 가치 있는 참고 벤치마크 제공
방법론적 엄밀성: 합리적인 실험 설계, 적절한 평가 지표, 재현 가능한 결과

부족한 점

평가 범위: 세 가지 워크플로우 작업만 포함하여 충분히 포괄적이지 않을 수 있음
데이터셋 규모: 상대적으로 작은 실험 규모로 결론의 일반성에 영향을 미칠 수 있음
심층 분석: LLM 실패 원인에 대한 분석이 충분히 깊지 않음
실제 배포: 실제 과학 계산 환경에서의 검증 부족

영향력

학술적 기여: 과학 계산 분야에서 LLMs 응용을 위한 중요한 벤치마크 제공
실용적 가치: 연구자들이 워크플로우 작업에서 LLMs의 능력 한계를 이해하도록 지원
향후 연구: 과학 워크플로우에서 LLMs 응용 개선을 위한 방향 제시

적용 시나리오

워크플로우 시스템 개발: LLM 보조 기능 통합을 위한 참고 자료
과학 계산 교육: 전문 분야에서 LLM의 한계 이해 지원
HPC 도구 개발: 지능형 과학 계산 도구 개발을 위한 기초 제공

참고문헌

본 연구는 과학 워크플로우, 대규모 언어 모델, HPC 등 여러 분야의 중요한 작업을 포함하는 33개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.

요약: 이는 대규모 언어 모델의 과학 워크플로우 분야 능력을 처음으로 체계적으로 평가한 획기적인 연구 논문입니다. 연구는 LLMs의 상당한 한계를 발견했으며, 동시에 적절한 기술(예: few-shot 프롬프팅)을 통한 성능 개선의 가능성을 보여주어 이 중요한 분야에서의 향후 연구를 위한 기초를 마련했습니다.