2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

Sprechen große Sprachmodelle wissenschaftliche Workflows?

Grundinformationen

Paper-ID: 2412.10606
Titel: Do Large Language Models Speak Scientific Workflows?
Autoren: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
Klassifizierung: cs.HC (Human-Computer Interaction)
Veröffentlichungskonferenz: SC-W'25 (Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis)
Paper-Link: https://arxiv.org/abs/2412.10606

Zusammenfassung

Mit dem Aufkommen großer Sprachmodelle (LLMs) wächst das Interesse an der Anwendung von LLMs auf wissenschaftliche Aufgaben. Diese Forschung untersucht experimentell die Eignung von LLMs für die Konfiguration, Annotation und Übersetzung wissenschaftlicher Workflows. Die Studie bewertet mehrere Open-Source- und proprietäre Sprachmodelle auf modernen Workflow-Systemen anhand von drei verschiedenen workflow-spezifischen Experimenten. Die Ergebnisse zeigen, dass LLMs aufgrund mangelnder Trainingsdaten für wissenschaftliche Workflows häufig auf Schwierigkeiten stoßen und ihre Leistung zwischen verschiedenen Experimenten und Workflow-Systemen variiert.

Forschungshintergrund und Motivation

Problemdefinition

Wissenschaftliche Workflows spielen eine wichtige Rolle in High-Performance-Computing-(HPC-)Umgebungen. Sie bestehen aus einer Reihe von zusammenarbeitenden Aufgaben, die bei Planung und Kommunikation koordiniert werden. Viele Wissenschaftler finden Workflow-Systeme jedoch schwierig zu bedienen und wählen häufig die manuelle Ausführung von Aufgaben oder entwickeln ihre eigenen Workflow-Lösungen.

Forschungsrelevanz

Usability-Herausforderungen: Die Komplexität wissenschaftlicher Workflow-Systeme behindert die breite Akzeptanz
Lernkurve: Auch bei Verwendung allgemeiner Workflow-Systeme fehlt Wissenschaftlern oft das Verständnis für diese Systeme
LLM-Potenzial: Große Sprachmodelle könnten diese Herausforderungen adressieren, erfordern aber ein Verständnis ihrer Fähigkeiten in HPC-Workflows

Limitierungen bestehender Ansätze

Bestehende Forschung konzentriert sich hauptsächlich auf spezifische HPC-bezogene Aufgaben wie Code-Generierung, Annotation und Abfragebeantwortung
Mangel an umfassender Forschung zur breiten Anwendbarkeit von LLMs in vollständigen Workflow-Systemen
Fehlende systematische Bewertung der LLM-Leistung bei wissenschaftlichen Workflow-spezifischen Aufgaben

Kernbeiträge

Erste systematische Bewertung: Umfassende experimentelle Bewertung der Fähigkeiten mehrerer LLMs bei wissenschaftlichen Workflow-Aufgaben
Mehrdimensionales Experimentdesign: Entwicklung von drei verschiedenen Arten von Workflow-spezifischen Experimenten (Konfiguration, Annotation, Übersetzung)
Mehrere Systembewertungen: Bewertung auf fünf modernen Workflow-Systemen
Leistungs-Benchmarks: Etablierung von Leistungs-Benchmarks für LLMs bei wissenschaftlichen Workflow-Aufgaben
Verbesserungsstrategien: Erkundung von Techniken wie Few-Shot-Prompting zur Verbesserung der LLM-Leistung

Methodische Details

Aufgabendefinition

Die Studie definiert drei Kernaufgaben:

Workflow-Konfiguration: Generierung von Workflow-Konfigurationsskripten basierend auf natürlichsprachigen Eingaben
Annotation von Task-Code: Automatische Annotation von Benutzer-Task-Code zur Anpassung an Workflow-Systeme
Übersetzung von Task-Code: Übersetzung von annotiertem Task-Code zwischen verschiedenen Workflow-Systemen

Bewertungsrahmen

LLM-Auswahl

o3: Proprietäres Modell von OpenAI mit starken Reasoning-Fähigkeiten
Claude-Sonnet-4: Hybrid-Reasoning-Modell von Anthropic
Gemini-2.5-Pro: Fortgeschrittenes Modell von Google mit starken Reasoning- und Coding-Fähigkeiten
LLaMA-3.3-70B-Instruct: Open-Source-Modell von Meta mit 70 Milliarden Parametern

Workflow-Systeme

ADIOS2: Flexible I/O-Bibliothek und Middleware für wissenschaftlichen Code
Henson: Kooperatives Multi-Task-System für In-Situ-Verarbeitung
Parsl: Python-Bibliothek für parallele Programmierung mit aufgabenbasierter Ausführung
PyCOMPSs: Aufgabenbasiertes Programmiermodell
Wilkins: In-Situ-Workflow-System mit Unterstützung für dynamische heterogene Task-Spezifikationen

Bewertungsmetriken

BLEU: Maschinenübersetzungs-Bewertungsmetrik basierend auf n-Gramm-Präzision
ChrF: Zeichenbasierte Bewertungsmetrik, die Präzision und Recall von Zeichen-n-Grammen berechnet

Experimentdesign

Workflow-Konfigurationsexperiment

Benutzer stellen eine natürlichsprachige Beschreibung bereit, LLMs generieren die entsprechende Workflow-Konfigurationsdatei. Beispiel:

Benutzer-Prompt: Ich möchte einen 3-Knoten-Workflow mit einem Producer und zwei Consumer-Tasks.
Der Producer generiert Gitter- und Partikeldatensätze, Consumer1 liest das Gitter, 
Consumer2 liest die Partikeldatensätze. Der Producer benötigt 3 Prozesse, 
jeder Consumer läuft auf einem einzelnen Prozess. Bitte stellen Sie die 
Workflow-Konfigurationsdatei für das Wilkins-Workflow-System bereit.

Task-Code-Annotationsexperiment

Bereitstellung von einfachem C-Code für einen Producer, LLMs sollen relevante API-Aufrufe des Workflow-Systems annotieren.

Task-Code-Übersetzungsexperiment

Bereitstellung von annotiertem Task-Code eines Workflow-Systems, LLMs sollen diesen in Code eines anderen Workflow-Systems übersetzen.

Experimentelle Einrichtung

Experimentelle Umgebung

Hardware: Apple M1 Max, 10-Kern-CPU, 24-Kern-GPU, 32GB einheitlicher Speicher
Framework: Inspect AI Framework für Experimente
Wiederholungen: Jedes Experiment wurde 5-mal wiederholt, um LLM-Antwort-Variabilität zu reduzieren
Parametereinstellungen: temperature=0.2, top_p=0.95

Prompt-Strategiebewertung

Fünf verschiedene Prompt-Varianten wurden entwickelt:

Ursprünglicher Prompt
Unterschiedliche Stile
Umformulierung
Neuanordnung
Detaillierter Prompt (mit technischen Details)

Experimentelle Ergebnisse

Hauptergebnisse

Workflow-Konfigurationsexperiment

LLM	ADIOS2	Henson	Wilkins	Gesamt
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

Task-Code-Annotationsexperiment

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	Gesamt
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

Task-Code-Übersetzungsexperiment

Übersetzungsrichtung	Bestes LLM	BLEU-Score
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

Wichtigste Erkenntnisse

Systemunterschiede: LLMs zeigen bessere Leistung bei dokumentationsreichen Systemen wie ADIOS2 und PyCOMPSs
Aufgabenunterschiede: Die Gesamtleistung bei Code-Annotation übertrifft die Konfigurationsgenerierung
Modellunterschiede: Kein einzelnes Modell zeigt durchgehend beste Leistung bei allen Aufgaben
Halluzinationsprobleme: LLMs generieren häufig nicht existierende API-Aufrufe oder Konfigurationsfelder

Few-Shot-Prompting-Effekte

LLM	Zero-Shot	Few-Shot	Verbesserung
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Wissenslücken: LLMs stoßen aufgrund mangelnder Trainingsdaten im Bereich wissenschaftlicher Workflows häufig auf Schwierigkeiten
Leistungsvariabilität: Die LLM-Leistung variiert erheblich zwischen verschiedenen Experimenten und Workflow-Systemen
Kontextbedeutung: Few-Shot-Prompting verbessert die LLM-Leistung erheblich
Systemabhängigkeit: Dokumentationsreiche Systeme (wie ADIOS2, PyCOMPSs) erhalten bessere LLM-Unterstützung

Limitierungen

Trainingsdaten-Einschränkungen: Wissenschaftliche Workflow-Dokumentation ist in LLM-Trainingsdaten relativ selten
API-Halluzinationen: LLMs generieren häufig nicht existierende API-Aufrufe
Konfigurationsverständnis: LLMs haben Schwierigkeiten, zwischen Workflow-Konfiguration und Task-Code zu unterscheiden
Systemspezifität: Die Leistung hängt stark von der Verfügbarkeit von Dokumentation für spezifische Workflow-Systeme ab

Zukünftige Richtungen

Retrieval-Augmented Generation (RAG): Kombination mit externen Wissensdatenbanken zur Verbesserung der LLM-Leistung
Fine-Tuning: Spezialisierte Modell-Anpassung für wissenschaftliche Workflows
Iterative Fehlerkorrektur: Einführung von automatischer Fehlererkennung und Korrekturmechanismen
Multimodale Integration: Kombination von Code, Dokumentation und Visualisierungsinformationen

Tiefgreifende Bewertung

Stärken

Systematische Bewertung: Erste umfassende Bewertung von LLMs im Bereich wissenschaftlicher Workflows
Mehrdimensionale Analyse: Abdeckung von drei Schlüsselaufgaben (Konfiguration, Annotation, Übersetzung)
Praktischer Wert: Bietet wertvollen Referenz-Benchmark für Workflow-Entwickler und Benutzer
Methodische Strenge: Angemessenes Experimentdesign, passende Bewertungsmetriken, reproduzierbare Ergebnisse

Schwächen

Bewertungsumfang: Abdeckung von nur drei Workflow-Aufgaben könnte unvollständig sein
Datensatzgröße: Relativ kleine Experimentskala könnte die Allgemeingültigkeit der Schlussfolgerungen beeinflussen
Tiefenanalyse: Analyse der Ursachen für LLM-Fehler könnte tiefgreifender sein
Praktische Bereitstellung: Fehlende Validierung in echten wissenschaftlichen Rechnerumgebungen

Auswirkungen

Akademischer Beitrag: Bietet wichtige Benchmarks für die Anwendung von LLMs in der wissenschaftlichen Informatik
Praktischer Wert: Hilft Forschern, die Leistungsgrenzen von LLMs bei Workflow-Aufgaben zu verstehen
Zukünftige Forschung: Weist Richtungen zur Verbesserung der LLM-Anwendung in wissenschaftlichen Workflows

Anwendungsszenarien

Workflow-Systementwicklung: Referenz für die Integration von LLM-Assistenzfunktionen
Wissenschaftliche Informatik-Bildung: Hilft, die Limitierungen von LLMs in Fachbereichen zu verstehen
HPC-Tool-Entwicklung: Grundlage für die Entwicklung intelligenter wissenschaftlicher Rechner-Tools

Literaturverzeichnis

Diese Forschung zitiert 33 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken – wissenschaftliche Workflows, große Sprachmodelle, HPC und mehr – und bietet eine solide theoretische Grundlage für die Forschung.

Zusammenfassung: Dies ist ein bahnbrechendes Forschungspapier, das zum ersten Mal systematisch die Fähigkeiten großer Sprachmodelle im Bereich wissenschaftlicher Workflows bewertet. Die Forschung zeigt erhebliche Limitierungen von LLMs auf, demonstriert aber auch das Potenzial zur Leistungsverbesserung durch geeignete Techniken (wie Few-Shot-Prompting) und schafft damit eine Grundlage für zukünftige Forschung in diesem wichtigen Bereich.