Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic
Говорят ли большие языковые модели на языке научных рабочих процессов?
С появлением больших языковых моделей (LLMs) растет интерес к применению LLMs в научных задачах. В данном исследовании посредством экспериментов изучается применимость LLMs при конфигурировании, аннотировании и трансляции научных рабочих процессов. Исследование использует три различных специфичных для рабочих процессов эксперимента для оценки производительности нескольких открытых и закрытых языковых моделей на современных системах рабочих процессов. Исследование показало, что LLMs часто испытывают трудности из-за недостатка обучающих данных по научным рабочим процессам, и их производительность варьируется между различными экспериментами и системами рабочих процессов.
Научные рабочие процессы играют важную роль в среде высокопроизводительных вычислений (HPC), состоя из серии взаимодействующих задач, которые синхронизируются в планировании и коммуникации. Однако многие ученые считают системы рабочих процессов сложными в использовании и часто предпочитают запускать задачи вручную или разрабатывать собственные решения для рабочих процессов.
Первая систематическая оценка: Проведена комплексная экспериментальная оценка возможностей нескольких LLMs на задачах научных рабочих процессов
Многомерный дизайн экспериментов: Разработаны три различных типа экспериментов, специфичных для рабочих процессов (конфигурирование, аннотирование, трансляция)
Оценка на нескольких системах: Проведена оценка на пяти современных системах рабочих процессов
Эталоны производительности: Установлены эталоны производительности LLMs на задачах научных рабочих процессов
Стратегии улучшения: Исследованы методы, такие как few-shot prompting, для повышения производительности LLM
Пользователь предоставляет описание на естественном языке, LLMs генерируют соответствующий файл конфигурации рабочего процесса. Например:
Подсказка пользователя: Я хочу рабочий процесс из 3 узлов с одной задачей производителя
и двумя задачами потребителя. Производитель генерирует наборы данных сетки и частиц,
consumer1 читает сетку, consumer2 читает набор данных частиц. Производитель требует
3 процессов, каждый потребитель работает на одном процессе. Пожалуйста, предоставьте
файл конфигурации рабочего процесса для системы рабочих процессов Wilkins.
Предоставляется простой код производителя на языке C, требуется, чтобы LLMs добавили комментарии с вызовами API соответствующей системы рабочих процессов.
Данное исследование цитирует 33 связанные работы, охватывающие важные работы в области научных рабочих процессов, больших языковых моделей, HPC и других областей, обеспечивая прочную теоретическую основу для исследования.
Резюме: Это новаторская исследовательская работа, которая впервые систематически оценивает возможности больших языковых моделей в области научных рабочих процессов. Исследование выявило значительные ограничения LLMs, одновременно продемонстрировав возможность улучшения производительности с помощью надлежащих методов (таких как few-shot prompting), закладывая основу для будущих исследований в этой важной области.