2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

I Grandi Modelli Linguistici Parlano i Flussi di Lavoro Scientifici?

Informazioni Fondamentali

ID Articolo: 2412.10606
Titolo: Do Large Language Models Speak Scientific Workflows?
Autori: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
Classificazione: cs.HC (Interazione Uomo-Computer)
Conferenza di Pubblicazione: SC-W'25 (Workshop della Conferenza Internazionale su High Performance Computing, Network, Storage, and Analysis)
Link Articolo: https://arxiv.org/abs/2412.10606

Riassunto

Con l'emergere dei grandi modelli linguistici (LLM), l'interesse nell'applicare gli LLM a compiti scientifici è in crescita. Questo studio esplora sperimentalmente l'applicabilità degli LLM nella configurazione, annotazione e traduzione di flussi di lavoro scientifici. La ricerca valuta più modelli linguistici open-source e closed-source su sistemi di flussi di lavoro all'avanguardia utilizzando tre diversi esperimenti specifici per flussi di lavoro. Lo studio rivela che gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento sui flussi di lavoro scientifici, e le loro prestazioni variano tra i diversi esperimenti e sistemi di flussi di lavoro.

Contesto di Ricerca e Motivazione

Definizione del Problema

I flussi di lavoro scientifici svolgono un ruolo cruciale negli ambienti di calcolo ad alte prestazioni (HPC), costituiti da una serie di compiti che collaborano tra loro, coordinandosi negli aspetti di pianificazione e comunicazione. Tuttavia, molti scienziati trovano i sistemi di flussi di lavoro difficili da usare, spesso scegliendo di eseguire manualmente i compiti o sviluppare le proprie soluzioni di flussi di lavoro.

Importanza della Ricerca

Sfide di Usabilità: La complessità dei sistemi di flussi di lavoro scientifici ostacola l'adozione diffusa
Curva di Apprendimento: Anche con l'adozione di sistemi di flussi di lavoro generici, gli scienziati spesso mancano di comprensione di questi sistemi
Potenziale degli LLM: I grandi modelli linguistici potrebbero aiutare ad affrontare queste sfide, ma è necessario comprendere le loro capacità nei flussi di lavoro HPC

Limitazioni degli Approcci Esistenti

La ricerca esistente si concentra principalmente su compiti specifici correlati a HPC, come la generazione di codice, l'annotazione e la risposta a query
Manca una ricerca completa sulla applicabilità generale degli LLM nei sistemi di flussi di lavoro completi
Manca una valutazione sistematica delle prestazioni degli LLM su compiti specifici dei flussi di lavoro scientifici

Contributi Principali

Prima Valutazione Sistematica: Una valutazione sperimentale completa delle capacità di più LLM su compiti di flussi di lavoro scientifici
Progettazione Sperimentale Multidimensionale: Tre diversi tipi di esperimenti specifici per flussi di lavoro (configurazione, annotazione, traduzione)
Valutazione Multi-Sistema: Valutazione su cinque sistemi di flussi di lavoro all'avanguardia
Benchmark di Prestazione: Stabilimento di benchmark di prestazione degli LLM su compiti di flussi di lavoro scientifici
Strategie di Miglioramento: Esplorazione di tecniche come il few-shot prompting per migliorare le prestazioni degli LLM

Dettagli Metodologici

Definizione dei Compiti

Lo studio definisce tre compiti fondamentali:

Configurazione del Flusso di Lavoro: Generazione di script di configurazione del flusso di lavoro basati su input in linguaggio naturale
Annotazione del Codice dei Compiti: Annotazione automatica del codice dei compiti dell'utente per adattarsi ai sistemi di flussi di lavoro
Traduzione del Codice dei Compiti: Traduzione del codice dei compiti annotati tra diversi sistemi di flussi di lavoro

Framework di Valutazione

Selezione degli LLM

o3: Modello closed-source di OpenAI con forti capacità di ragionamento
Claude-Sonnet-4: Modello di ragionamento ibrido sviluppato da Anthropic
Gemini-2.5-Pro: Modello avanzato di Google con forti capacità di ragionamento e codifica
LLaMA-3.3-70B-Instruct: Modello open-source di Meta con 70 miliardi di parametri

Sistemi di Flussi di Lavoro

ADIOS2: Libreria I/O flessibile e middleware per codice scientifico
Henson: Sistema multi-compito collaborativo per l'elaborazione in situ
Parsl: Libreria di programmazione parallela Python che supporta l'esecuzione basata su compiti
PyCOMPSs: Modello di programmazione basato su compiti
Wilkins: Sistema di flussi di lavoro in situ che supporta specifiche di compiti eterogenei dinamici

Metriche di Valutazione

BLEU: Metrica di valutazione della traduzione automatica basata sulla precisione n-gram
ChrF: Metrica di valutazione basata su caratteri che calcola precisione e recall di n-gram di caratteri

Progettazione Sperimentale

Esperimento di Configurazione del Flusso di Lavoro

L'utente fornisce una descrizione in linguaggio naturale, gli LLM generano il file di configurazione del flusso di lavoro corrispondente. Ad esempio:

Prompt dell'utente: Voglio un flusso di lavoro a 3 nodi con un compito produttore 
e due compiti consumatore, dove il produttore genera dataset di griglia e particelle, 
consumer1 legge la griglia, consumer2 legge il dataset di particelle. 
Il produttore richiede 3 processi, ogni consumatore viene eseguito su un singolo processo.
Fornisci il file di configurazione del flusso di lavoro per il sistema Wilkins.

Esperimento di Annotazione del Codice dei Compiti

Fornisce semplice codice produttore in C, richiedendo agli LLM di aggiungere annotazioni con chiamate API del sistema di flussi di lavoro rilevanti.

Esperimento di Traduzione del Codice dei Compiti

Fornisce codice di compito annotato di un sistema di flussi di lavoro, richiedendo agli LLM di tradurlo nel codice di un altro sistema di flussi di lavoro.

Configurazione Sperimentale

Ambiente Sperimentale

Hardware: Apple M1 Max, CPU 10-core, GPU 24-core, memoria unificata 32GB
Framework: Framework Inspect AI per gli esperimenti
Numero di Ripetizioni: Ogni esperimento ripetuto 5 volte per ridurre la variabilità delle risposte degli LLM
Impostazioni dei Parametri: temperature=0.2, top_p=0.95

Valutazione delle Strategie di Prompting

Sono state progettate cinque diverse varianti di prompt:

Prompt originale
Stili diversi
Parafrasi
Riordinamento
Prompt dettagliato (con dettagli tecnici)

Risultati Sperimentali

Risultati Principali

Esperimento di Configurazione del Flusso di Lavoro

LLM	ADIOS2	Henson	Wilkins	Totale
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

Esperimento di Annotazione del Codice dei Compiti

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	Totale
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

Esperimento di Traduzione del Codice dei Compiti

Direzione di Traduzione	LLM Migliore	Punteggio BLEU
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

Scoperte Chiave

Differenze di Sistema: Gli LLM mostrano prestazioni migliori su sistemi ben documentati come ADIOS2 e PyCOMPSs
Differenze di Compito: Le prestazioni complessive del compito di annotazione del codice superano la generazione di configurazione
Differenze di Modello: Nessun singolo modello si comporta in modo coerentemente migliore su tutti i compiti
Problema di Allucinazione: Gli LLM generano frequentemente chiamate API o campi di configurazione inesistenti

Effetto del Few-shot Prompting

LLM	Zero-shot	Few-shot	Entità di Miglioramento
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

Lavori Correlati

Ricerca sui Flussi di Lavoro Scientifici

Flussi di Lavoro Distribuiti: Esecuzione su più sistemi indipendenti, scambio di dati tramite file
Flussi di Lavoro In Situ: Esecuzione all'interno di un singolo sistema HPC, esecuzione concorrente dei compiti e scambio di dati tramite memoria

Applicazioni degli LLM in HPC

Duque et al. esplorano l'uso degli LLM per costruire ed eseguire flussi di lavoro
Sanger et al. studiano l'applicabilità di GPT-3.5 nella comprensione, modifica e estensione dei flussi di lavoro scientifici
Questo studio utilizza modelli più recenti e fornisce una gamma più ampia di sistemi di flussi di lavoro e compiti scientifici

Conclusioni e Discussione

Conclusioni Principali

Mancanza di Conoscenza: Gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento nel dominio dei flussi di lavoro scientifici
Variabilità di Prestazione: Le prestazioni degli LLM mostrano variazioni significative tra diversi esperimenti e sistemi di flussi di lavoro
Importanza del Contesto: Il few-shot prompting migliora significativamente le prestazioni degli LLM
Dipendenza dal Sistema: I sistemi ben documentati (come ADIOS2, PyCOMPSs) ricevono un migliore supporto dagli LLM

Limitazioni

Limitazioni dei Dati di Addestramento: La documentazione dei flussi di lavoro scientifici è relativamente scarsa nei dati di addestramento degli LLM
Allucinazione di API: Gli LLM generano frequentemente chiamate API inesistenti
Comprensione della Configurazione: Gli LLM hanno difficoltà a distinguere tra configurazione del flusso di lavoro e codice dei compiti
Specificità del Sistema: Le prestazioni dipendono fortemente dalla disponibilità di documentazione del sistema di flussi di lavoro specifico

Direzioni Future

Generazione Aumentata da Recupero (RAG): Combinazione di basi di conoscenza esterne per migliorare le prestazioni degli LLM
Fine-tuning: Specializzazione dei modelli per i flussi di lavoro scientifici
Correzione Iterativa degli Errori: Introduzione di meccanismi automatici di rilevamento e correzione degli errori
Integrazione Multimodale: Combinazione di codice, documentazione e informazioni visuali

Valutazione Approfondita

Punti di Forza

Valutazione Sistematica: Prima valutazione completa degli LLM nel dominio dei flussi di lavoro scientifici
Analisi Multidimensionale: Copertura di tre compiti chiave: configurazione, annotazione, traduzione
Valore Pratico: Fornisce benchmark di riferimento preziosi per sviluppatori e utenti di flussi di lavoro
Rigore Metodologico: Progettazione sperimentale razionale, metriche di valutazione appropriate, risultati riproducibili

Insufficienze

Ambito di Valutazione: Copertura di soli tre compiti di flussi di lavoro, potenzialmente non sufficientemente completa
Scala del Dataset: Scala sperimentale relativamente piccola, potrebbe influenzare la generalizzabilità delle conclusioni
Analisi Approfondita: L'analisi delle cause dei fallimenti degli LLM non è ancora sufficientemente profonda
Distribuzione Pratica: Manca la validazione in ambienti di calcolo scientifico reali

Impatto

Contributo Accademico: Fornisce benchmark importanti per l'applicazione degli LLM nel calcolo scientifico
Valore Pratico: Aiuta i ricercatori a comprendere i confini delle capacità degli LLM nei compiti di flussi di lavoro
Ricerca Futura: Indica direzioni per migliorare l'applicazione degli LLM nei flussi di lavoro scientifici

Scenari Applicabili

Sviluppo di Sistemi di Flussi di Lavoro: Fornisce riferimenti per l'integrazione di funzionalità assistite da LLM
Educazione nel Calcolo Scientifico: Aiuta a comprendere le limitazioni degli LLM nei domini specializzati
Sviluppo di Strumenti HPC: Fornisce fondamenti per lo sviluppo di strumenti di calcolo scientifico intelligenti

Bibliografia

Questo studio cita 33 articoli correlati, coprendo importanti lavori in più domini inclusi flussi di lavoro scientifici, grandi modelli linguistici e HPC, fornendo una base teorica solida per la ricerca.

Sintesi: Questo è un articolo di ricerca di significato pioneristico che valuta sistematicamente per la prima volta le capacità dei grandi modelli linguistici nel dominio dei flussi di lavoro scientifici. Lo studio rivela limitazioni significative degli LLM, mentre dimostra anche la possibilità di migliorare le prestazioni attraverso tecniche appropriate (come il few-shot prompting), gettando le basi per la ricerca futura in questo importante dominio.