2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

I Grandi Modelli Linguistici Parlano i Flussi di Lavoro Scientifici?

Informazioni Fondamentali

  • ID Articolo: 2412.10606
  • Titolo: Do Large Language Models Speak Scientific Workflows?
  • Autori: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • Classificazione: cs.HC (Interazione Uomo-Computer)
  • Conferenza di Pubblicazione: SC-W'25 (Workshop della Conferenza Internazionale su High Performance Computing, Network, Storage, and Analysis)
  • Link Articolo: https://arxiv.org/abs/2412.10606

Riassunto

Con l'emergere dei grandi modelli linguistici (LLM), l'interesse nell'applicare gli LLM a compiti scientifici è in crescita. Questo studio esplora sperimentalmente l'applicabilità degli LLM nella configurazione, annotazione e traduzione di flussi di lavoro scientifici. La ricerca valuta più modelli linguistici open-source e closed-source su sistemi di flussi di lavoro all'avanguardia utilizzando tre diversi esperimenti specifici per flussi di lavoro. Lo studio rivela che gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento sui flussi di lavoro scientifici, e le loro prestazioni variano tra i diversi esperimenti e sistemi di flussi di lavoro.

Contesto di Ricerca e Motivazione

Definizione del Problema

I flussi di lavoro scientifici svolgono un ruolo cruciale negli ambienti di calcolo ad alte prestazioni (HPC), costituiti da una serie di compiti che collaborano tra loro, coordinandosi negli aspetti di pianificazione e comunicazione. Tuttavia, molti scienziati trovano i sistemi di flussi di lavoro difficili da usare, spesso scegliendo di eseguire manualmente i compiti o sviluppare le proprie soluzioni di flussi di lavoro.

Importanza della Ricerca

  1. Sfide di Usabilità: La complessità dei sistemi di flussi di lavoro scientifici ostacola l'adozione diffusa
  2. Curva di Apprendimento: Anche con l'adozione di sistemi di flussi di lavoro generici, gli scienziati spesso mancano di comprensione di questi sistemi
  3. Potenziale degli LLM: I grandi modelli linguistici potrebbero aiutare ad affrontare queste sfide, ma è necessario comprendere le loro capacità nei flussi di lavoro HPC

Limitazioni degli Approcci Esistenti

  • La ricerca esistente si concentra principalmente su compiti specifici correlati a HPC, come la generazione di codice, l'annotazione e la risposta a query
  • Manca una ricerca completa sulla applicabilità generale degli LLM nei sistemi di flussi di lavoro completi
  • Manca una valutazione sistematica delle prestazioni degli LLM su compiti specifici dei flussi di lavoro scientifici

Contributi Principali

  1. Prima Valutazione Sistematica: Una valutazione sperimentale completa delle capacità di più LLM su compiti di flussi di lavoro scientifici
  2. Progettazione Sperimentale Multidimensionale: Tre diversi tipi di esperimenti specifici per flussi di lavoro (configurazione, annotazione, traduzione)
  3. Valutazione Multi-Sistema: Valutazione su cinque sistemi di flussi di lavoro all'avanguardia
  4. Benchmark di Prestazione: Stabilimento di benchmark di prestazione degli LLM su compiti di flussi di lavoro scientifici
  5. Strategie di Miglioramento: Esplorazione di tecniche come il few-shot prompting per migliorare le prestazioni degli LLM

Dettagli Metodologici

Definizione dei Compiti

Lo studio definisce tre compiti fondamentali:

  1. Configurazione del Flusso di Lavoro: Generazione di script di configurazione del flusso di lavoro basati su input in linguaggio naturale
  2. Annotazione del Codice dei Compiti: Annotazione automatica del codice dei compiti dell'utente per adattarsi ai sistemi di flussi di lavoro
  3. Traduzione del Codice dei Compiti: Traduzione del codice dei compiti annotati tra diversi sistemi di flussi di lavoro

Framework di Valutazione

Selezione degli LLM

  • o3: Modello closed-source di OpenAI con forti capacità di ragionamento
  • Claude-Sonnet-4: Modello di ragionamento ibrido sviluppato da Anthropic
  • Gemini-2.5-Pro: Modello avanzato di Google con forti capacità di ragionamento e codifica
  • LLaMA-3.3-70B-Instruct: Modello open-source di Meta con 70 miliardi di parametri

Sistemi di Flussi di Lavoro

  • ADIOS2: Libreria I/O flessibile e middleware per codice scientifico
  • Henson: Sistema multi-compito collaborativo per l'elaborazione in situ
  • Parsl: Libreria di programmazione parallela Python che supporta l'esecuzione basata su compiti
  • PyCOMPSs: Modello di programmazione basato su compiti
  • Wilkins: Sistema di flussi di lavoro in situ che supporta specifiche di compiti eterogenei dinamici

Metriche di Valutazione

  • BLEU: Metrica di valutazione della traduzione automatica basata sulla precisione n-gram
  • ChrF: Metrica di valutazione basata su caratteri che calcola precisione e recall di n-gram di caratteri

Progettazione Sperimentale

Esperimento di Configurazione del Flusso di Lavoro

L'utente fornisce una descrizione in linguaggio naturale, gli LLM generano il file di configurazione del flusso di lavoro corrispondente. Ad esempio:

Prompt dell'utente: Voglio un flusso di lavoro a 3 nodi con un compito produttore 
e due compiti consumatore, dove il produttore genera dataset di griglia e particelle, 
consumer1 legge la griglia, consumer2 legge il dataset di particelle. 
Il produttore richiede 3 processi, ogni consumatore viene eseguito su un singolo processo.
Fornisci il file di configurazione del flusso di lavoro per il sistema Wilkins.

Esperimento di Annotazione del Codice dei Compiti

Fornisce semplice codice produttore in C, richiedendo agli LLM di aggiungere annotazioni con chiamate API del sistema di flussi di lavoro rilevanti.

Esperimento di Traduzione del Codice dei Compiti

Fornisce codice di compito annotato di un sistema di flussi di lavoro, richiedendo agli LLM di tradurlo nel codice di un altro sistema di flussi di lavoro.

Configurazione Sperimentale

Ambiente Sperimentale

  • Hardware: Apple M1 Max, CPU 10-core, GPU 24-core, memoria unificata 32GB
  • Framework: Framework Inspect AI per gli esperimenti
  • Numero di Ripetizioni: Ogni esperimento ripetuto 5 volte per ridurre la variabilità delle risposte degli LLM
  • Impostazioni dei Parametri: temperature=0.2, top_p=0.95

Valutazione delle Strategie di Prompting

Sono state progettate cinque diverse varianti di prompt:

  1. Prompt originale
  2. Stili diversi
  3. Parafrasi
  4. Riordinamento
  5. Prompt dettagliato (con dettagli tecnici)

Risultati Sperimentali

Risultati Principali

Esperimento di Configurazione del Flusso di Lavoro

LLMADIOS2HensonWilkinsTotale
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

Esperimento di Annotazione del Codice dei Compiti

LLMADIOS2HensonPyCOMPSsParslTotale
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

Esperimento di Traduzione del Codice dei Compiti

Direzione di TraduzioneLLM MigliorePunteggio BLEU
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

Scoperte Chiave

  1. Differenze di Sistema: Gli LLM mostrano prestazioni migliori su sistemi ben documentati come ADIOS2 e PyCOMPSs
  2. Differenze di Compito: Le prestazioni complessive del compito di annotazione del codice superano la generazione di configurazione
  3. Differenze di Modello: Nessun singolo modello si comporta in modo coerentemente migliore su tutti i compiti
  4. Problema di Allucinazione: Gli LLM generano frequentemente chiamate API o campi di configurazione inesistenti

Effetto del Few-shot Prompting

LLMZero-shotFew-shotEntità di Miglioramento
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

Lavori Correlati

Ricerca sui Flussi di Lavoro Scientifici

  • Flussi di Lavoro Distribuiti: Esecuzione su più sistemi indipendenti, scambio di dati tramite file
  • Flussi di Lavoro In Situ: Esecuzione all'interno di un singolo sistema HPC, esecuzione concorrente dei compiti e scambio di dati tramite memoria

Applicazioni degli LLM in HPC

  • Duque et al. esplorano l'uso degli LLM per costruire ed eseguire flussi di lavoro
  • Sanger et al. studiano l'applicabilità di GPT-3.5 nella comprensione, modifica e estensione dei flussi di lavoro scientifici
  • Questo studio utilizza modelli più recenti e fornisce una gamma più ampia di sistemi di flussi di lavoro e compiti scientifici

Conclusioni e Discussione

Conclusioni Principali

  1. Mancanza di Conoscenza: Gli LLM incontrano frequentemente difficoltà a causa della mancanza di dati di addestramento nel dominio dei flussi di lavoro scientifici
  2. Variabilità di Prestazione: Le prestazioni degli LLM mostrano variazioni significative tra diversi esperimenti e sistemi di flussi di lavoro
  3. Importanza del Contesto: Il few-shot prompting migliora significativamente le prestazioni degli LLM
  4. Dipendenza dal Sistema: I sistemi ben documentati (come ADIOS2, PyCOMPSs) ricevono un migliore supporto dagli LLM

Limitazioni

  1. Limitazioni dei Dati di Addestramento: La documentazione dei flussi di lavoro scientifici è relativamente scarsa nei dati di addestramento degli LLM
  2. Allucinazione di API: Gli LLM generano frequentemente chiamate API inesistenti
  3. Comprensione della Configurazione: Gli LLM hanno difficoltà a distinguere tra configurazione del flusso di lavoro e codice dei compiti
  4. Specificità del Sistema: Le prestazioni dipendono fortemente dalla disponibilità di documentazione del sistema di flussi di lavoro specifico

Direzioni Future

  1. Generazione Aumentata da Recupero (RAG): Combinazione di basi di conoscenza esterne per migliorare le prestazioni degli LLM
  2. Fine-tuning: Specializzazione dei modelli per i flussi di lavoro scientifici
  3. Correzione Iterativa degli Errori: Introduzione di meccanismi automatici di rilevamento e correzione degli errori
  4. Integrazione Multimodale: Combinazione di codice, documentazione e informazioni visuali

Valutazione Approfondita

Punti di Forza

  1. Valutazione Sistematica: Prima valutazione completa degli LLM nel dominio dei flussi di lavoro scientifici
  2. Analisi Multidimensionale: Copertura di tre compiti chiave: configurazione, annotazione, traduzione
  3. Valore Pratico: Fornisce benchmark di riferimento preziosi per sviluppatori e utenti di flussi di lavoro
  4. Rigore Metodologico: Progettazione sperimentale razionale, metriche di valutazione appropriate, risultati riproducibili

Insufficienze

  1. Ambito di Valutazione: Copertura di soli tre compiti di flussi di lavoro, potenzialmente non sufficientemente completa
  2. Scala del Dataset: Scala sperimentale relativamente piccola, potrebbe influenzare la generalizzabilità delle conclusioni
  3. Analisi Approfondita: L'analisi delle cause dei fallimenti degli LLM non è ancora sufficientemente profonda
  4. Distribuzione Pratica: Manca la validazione in ambienti di calcolo scientifico reali

Impatto

  1. Contributo Accademico: Fornisce benchmark importanti per l'applicazione degli LLM nel calcolo scientifico
  2. Valore Pratico: Aiuta i ricercatori a comprendere i confini delle capacità degli LLM nei compiti di flussi di lavoro
  3. Ricerca Futura: Indica direzioni per migliorare l'applicazione degli LLM nei flussi di lavoro scientifici

Scenari Applicabili

  1. Sviluppo di Sistemi di Flussi di Lavoro: Fornisce riferimenti per l'integrazione di funzionalità assistite da LLM
  2. Educazione nel Calcolo Scientifico: Aiuta a comprendere le limitazioni degli LLM nei domini specializzati
  3. Sviluppo di Strumenti HPC: Fornisce fondamenti per lo sviluppo di strumenti di calcolo scientifico intelligenti

Bibliografia

Questo studio cita 33 articoli correlati, coprendo importanti lavori in più domini inclusi flussi di lavoro scientifici, grandi modelli linguistici e HPC, fornendo una base teorica solida per la ricerca.


Sintesi: Questo è un articolo di ricerca di significato pioneristico che valuta sistematicamente per la prima volta le capacità dei grandi modelli linguistici nel dominio dei flussi di lavoro scientifici. Lo studio rivela limitazioni significative degli LLM, mentre dimostra anche la possibilità di migliorare le prestazioni attraverso tecniche appropriate (come il few-shot prompting), gettando le basi per la ricerca futura in questo importante dominio.