Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic
I Grandi Modelli Linguistici Parlano i Flussi di Lavoro Scientifici?
Con l'emergere dei grandi modelli linguistici (LLM), l'interesse nell'applicare gli LLM a compiti scientifici è in crescita. Questo studio esplora sperimentalmente l'applicabilità degli LLM nella configurazione, annotazione e traduzione di flussi di lavoro scientifici. La ricerca valuta più modelli linguistici open-source e closed-source su sistemi di flussi di lavoro all'avanguardia utilizzando tre diversi esperimenti specifici per flussi di lavoro. Lo studio rivela che gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento sui flussi di lavoro scientifici, e le loro prestazioni variano tra i diversi esperimenti e sistemi di flussi di lavoro.
I flussi di lavoro scientifici svolgono un ruolo cruciale negli ambienti di calcolo ad alte prestazioni (HPC), costituiti da una serie di compiti che collaborano tra loro, coordinandosi negli aspetti di pianificazione e comunicazione. Tuttavia, molti scienziati trovano i sistemi di flussi di lavoro difficili da usare, spesso scegliendo di eseguire manualmente i compiti o sviluppare le proprie soluzioni di flussi di lavoro.
Sfide di Usabilità: La complessità dei sistemi di flussi di lavoro scientifici ostacola l'adozione diffusa
Curva di Apprendimento: Anche con l'adozione di sistemi di flussi di lavoro generici, gli scienziati spesso mancano di comprensione di questi sistemi
Potenziale degli LLM: I grandi modelli linguistici potrebbero aiutare ad affrontare queste sfide, ma è necessario comprendere le loro capacità nei flussi di lavoro HPC
La ricerca esistente si concentra principalmente su compiti specifici correlati a HPC, come la generazione di codice, l'annotazione e la risposta a query
Manca una ricerca completa sulla applicabilità generale degli LLM nei sistemi di flussi di lavoro completi
Manca una valutazione sistematica delle prestazioni degli LLM su compiti specifici dei flussi di lavoro scientifici
L'utente fornisce una descrizione in linguaggio naturale, gli LLM generano il file di configurazione del flusso di lavoro corrispondente. Ad esempio:
Prompt dell'utente: Voglio un flusso di lavoro a 3 nodi con un compito produttore
e due compiti consumatore, dove il produttore genera dataset di griglia e particelle,
consumer1 legge la griglia, consumer2 legge il dataset di particelle.
Il produttore richiede 3 processi, ogni consumatore viene eseguito su un singolo processo.
Fornisci il file di configurazione del flusso di lavoro per il sistema Wilkins.
Fornisce codice di compito annotato di un sistema di flussi di lavoro, richiedendo agli LLM di tradurlo nel codice di un altro sistema di flussi di lavoro.
Mancanza di Conoscenza: Gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento nel dominio dei flussi di lavoro scientifici
Variabilità di Prestazione: Le prestazioni degli LLM mostrano variazioni significative tra diversi esperimenti e sistemi di flussi di lavoro
Importanza del Contesto: Il few-shot prompting migliora significativamente le prestazioni degli LLM
Dipendenza dal Sistema: I sistemi ben documentati (come ADIOS2, PyCOMPSs) ricevono un migliore supporto dagli LLM
Questo studio cita 33 articoli correlati, coprendo importanti lavori in più domini inclusi flussi di lavoro scientifici, grandi modelli linguistici e HPC, fornendo una base teorica solida per la ricerca.
Sintesi: Questo è un articolo di ricerca di significato pioneristico che valuta sistematicamente per la prima volta le capacità dei grandi modelli linguistici nel dominio dei flussi di lavoro scientifici. Lo studio rivela limitazioni significative degli LLM, mentre dimostra anche la possibilità di migliorare le prestazioni attraverso tecniche appropriate (come il few-shot prompting), gettando le basi per la ricerca futura in questo importante dominio.