2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

Говорят ли большие языковые модели на языке научных рабочих процессов?

Основная информация

ID статьи: 2412.10606
Название: Do Large Language Models Speak Scientific Workflows?
Авторы: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
Классификация: cs.HC (Взаимодействие человека и компьютера)
Конференция: SC-W'25 (Семинары Международной конференции по высокопроизводительным вычислениям, сетям, хранению и анализу)
Ссылка на статью: https://arxiv.org/abs/2412.10606

Аннотация

С появлением больших языковых моделей (LLMs) растет интерес к применению LLMs в научных задачах. В данном исследовании посредством экспериментов изучается применимость LLMs при конфигурировании, аннотировании и трансляции научных рабочих процессов. Исследование использует три различных специфичных для рабочих процессов эксперимента для оценки производительности нескольких открытых и закрытых языковых моделей на современных системах рабочих процессов. Исследование показало, что LLMs часто испытывают трудности из-за недостатка обучающих данных по научным рабочим процессам, и их производительность варьируется между различными экспериментами и системами рабочих процессов.

Предпосылки и мотивация исследования

Определение проблемы

Научные рабочие процессы играют важную роль в среде высокопроизводительных вычислений (HPC), состоя из серии взаимодействующих задач, которые синхронизируются в планировании и коммуникации. Однако многие ученые считают системы рабочих процессов сложными в использовании и часто предпочитают запускать задачи вручную или разрабатывать собственные решения для рабочих процессов.

Значимость исследования

Проблемы удобства использования: Сложность систем научных рабочих процессов препятствует широкому внедрению
Кривая обучения: Даже при внедрении универсальных систем рабочих процессов ученые часто не понимают эти системы
Потенциал LLM: Большие языковые модели могут помочь решить эти проблемы, но необходимо понимать их возможности в рабочих процессах HPC

Ограничения существующих подходов

Существующие исследования сосредоточены в основном на конкретных задачах, связанных с HPC, таких как генерация кода, аннотирование и ответы на запросы
Отсутствуют комплексные исследования широкой применимости LLMs в полных системах рабочих процессов
Недостаточна систематическая оценка производительности LLMs на задачах, специфичных для научных рабочих процессов

Основные вклады

Первая систематическая оценка: Проведена комплексная экспериментальная оценка возможностей нескольких LLMs на задачах научных рабочих процессов
Многомерный дизайн экспериментов: Разработаны три различных типа экспериментов, специфичных для рабочих процессов (конфигурирование, аннотирование, трансляция)
Оценка на нескольких системах: Проведена оценка на пяти современных системах рабочих процессов
Эталоны производительности: Установлены эталоны производительности LLMs на задачах научных рабочих процессов
Стратегии улучшения: Исследованы методы, такие как few-shot prompting, для повышения производительности LLM

Подробное описание методологии

Определение задач

Исследование определило три основные задачи:

Конфигурирование рабочих процессов: Генерация скриптов конфигурации рабочих процессов на основе входных данных на естественном языке
Аннотирование кода задач: Автоматическое аннотирование пользовательского кода задач для адаптации к системам рабочих процессов
Трансляция кода задач: Трансляция аннотированного кода задач между различными системами рабочих процессов

Рамки оценки

Выбор LLMs

o3: Закрытая модель OpenAI с сильными возможностями рассуждения
Claude-Sonnet-4: Гибридная модель рассуждения, разработанная Anthropic
Gemini-2.5-Pro: Продвинутая модель Google с сильными возможностями рассуждения и кодирования
LLaMA-3.3-70B-Instruct: Открытая модель Meta с 70 миллиардами параметров

Системы рабочих процессов

ADIOS2: Гибкая библиотека ввода-вывода и промежуточное программное обеспечение для научного кода
Henson: Система многозадачного сотрудничества для обработки на месте
Parsl: Библиотека параллельного программирования на Python с поддержкой выполнения на основе задач
PyCOMPSs: Модель программирования на основе задач
Wilkins: Система рабочих процессов на месте с поддержкой динамической спецификации гетерогенных задач

Метрики оценки

BLEU: Метрика оценки машинного перевода на основе точности n-грамм
ChrF: Метрика оценки на основе символов, вычисляющая точность и полноту символьных n-грамм

Дизайн экспериментов

Эксперимент по конфигурированию рабочих процессов

Пользователь предоставляет описание на естественном языке, LLMs генерируют соответствующий файл конфигурации рабочего процесса. Например:

Подсказка пользователя: Я хочу рабочий процесс из 3 узлов с одной задачей производителя 
и двумя задачами потребителя. Производитель генерирует наборы данных сетки и частиц, 
consumer1 читает сетку, consumer2 читает набор данных частиц. Производитель требует 
3 процессов, каждый потребитель работает на одном процессе. Пожалуйста, предоставьте 
файл конфигурации рабочего процесса для системы рабочих процессов Wilkins.

Эксперимент по аннотированию кода задач

Предоставляется простой код производителя на языке C, требуется, чтобы LLMs добавили комментарии с вызовами API соответствующей системы рабочих процессов.

Эксперимент по трансляции кода задач

Предоставляется аннотированный код задачи одной системы рабочих процессов, требуется, чтобы LLMs перевели его в код другой системы рабочих процессов.

Экспериментальная установка

Экспериментальная среда

Оборудование: Apple M1 Max, 10-ядерный CPU, 24-ядерный GPU, 32 ГБ унифицированной памяти
Фреймворк: Использована фреймворк Inspect AI для проведения экспериментов
Количество повторений: Каждый эксперимент повторен 5 раз для снижения вариативности ответов LLM
Параметры: temperature=0.2, top_p=0.95

Оценка стратегий подсказок

Разработаны пять различных вариантов подсказок:

Исходная подсказка
Различные стили
Перефразирование
Переупорядочение
Детальная подсказка (включающая технические детали)

Результаты экспериментов

Основные результаты

Эксперимент по конфигурированию рабочих процессов

LLM	ADIOS2	Henson	Wilkins	Итого
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

Эксперимент по аннотированию кода задач

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	Итого
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

Эксперимент по трансляции кода задач

Направление трансляции	Лучший LLM	Оценка BLEU
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

Ключевые выводы

Различия между системами: LLMs показывают лучшие результаты на системах с богатой документацией, таких как ADIOS2 и PyCOMPSs
Различия между задачами: Общая производительность задачи аннотирования кода превосходит генерацию конфигурации
Различия между моделями: Ни одна модель не показывает стабильно лучшие результаты на всех задачах
Проблема галлюцинаций: LLMs часто генерируют несуществующие вызовы API или поля конфигурации

Эффект Few-shot Prompting

LLM	Zero-shot	Few-shot	Улучшение
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

Связанные работы

Исследования научных рабочих процессов

Распределенные рабочие процессы: Выполняются на нескольких независимых системах, обмениваются данными через файлы
Рабочие процессы на месте: Выполняются в одной системе HPC, задачи выполняются параллельно и обмениваются данными через память

Применение LLMs в HPC

Duque и др. исследовали использование LLMs для построения и выполнения рабочих процессов
Sanger и др. изучали применимость GPT-3.5 для понимания, модификации и расширения научных рабочих процессов
Данное исследование использует более новые модели и обеспечивает более широкий охват систем рабочих процессов и научных задач

Заключение и обсуждение

Основные выводы

Недостаток знаний: LLMs часто испытывают трудности из-за недостатка обучающих данных в области научных рабочих процессов
Вариативность производительности: Производительность LLMs значительно варьируется между различными экспериментами и системами рабочих процессов
Важность контекста: Few-shot prompting значительно повышает производительность LLMs
Зависимость от системы: Системы с богатой документацией (такие как ADIOS2, PyCOMPSs) получают лучшую поддержку LLM

Ограничения

Ограничения обучающих данных: Документация по научным рабочим процессам относительно редка в обучающих данных LLM
Галлюцинации API: LLMs часто генерируют несуществующие вызовы API
Понимание конфигурации: LLMs испытывают трудности при различении конфигурации рабочих процессов и кода задач
Специфичность системы: Производительность сильно зависит от доступности документации конкретной системы рабочих процессов

Направления будущих исследований

Поиск с увеличением контекста (RAG): Объединение внешних баз знаний для повышения производительности LLM
Тонкая настройка: Специализированная настройка моделей для научных рабочих процессов
Итеративное исправление ошибок: Введение механизмов автоматического обнаружения и исправления ошибок
Мультимодальная интеграция: Объединение кода, документации и визуальной информации

Глубокая оценка

Преимущества

Систематическая оценка: Первая комплексная оценка LLMs в области научных рабочих процессов
Многомерный анализ: Охватывает три ключевые задачи: конфигурирование, аннотирование, трансляция
Практическая ценность: Предоставляет ценные эталоны для разработчиков и пользователей рабочих процессов
Методологическая строгость: Разумный дизайн экспериментов, надлежащие метрики оценки, воспроизводимые результаты

Недостатки

Область оценки: Охватывает только три типа задач рабочих процессов, что может быть недостаточно полным
Размер набора данных: Относительно небольшой масштаб экспериментов может влиять на универсальность выводов
Глубокий анализ: Анализ причин отказов LLM недостаточно глубок
Практическое развертывание: Отсутствует проверка в реальных научных вычислительных средах

Влияние

Академический вклад: Предоставляет важные эталоны для применения LLMs в научных вычислениях
Практическая ценность: Помогает исследователям понять границы возможностей LLMs в задачах рабочих процессов
Будущие исследования: Указывает направления для улучшения применения LLMs в научных рабочих процессах

Применимые сценарии

Разработка систем рабочих процессов: Предоставляет справочную информацию для интеграции функций, поддерживаемых LLM
Образование в области научных вычислений: Помогает понять ограничения LLM в специализированных областях
Разработка инструментов HPC: Обеспечивает основу для разработки интеллектуальных инструментов научных вычислений

Библиография

Данное исследование цитирует 33 связанные работы, охватывающие важные работы в области научных рабочих процессов, больших языковых моделей, HPC и других областей, обеспечивая прочную теоретическую основу для исследования.

Резюме: Это новаторская исследовательская работа, которая впервые систематически оценивает возможности больших языковых моделей в области научных рабочих процессов. Исследование выявило значительные ограничения LLMs, одновременно продемонстрировав возможность улучшения производительности с помощью надлежащих методов (таких как few-shot prompting), закладывая основу для будущих исследований в этой важной области.