2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

Sprechen große Sprachmodelle wissenschaftliche Workflows?

Grundinformationen

  • Paper-ID: 2412.10606
  • Titel: Do Large Language Models Speak Scientific Workflows?
  • Autoren: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • Klassifizierung: cs.HC (Human-Computer Interaction)
  • Veröffentlichungskonferenz: SC-W'25 (Workshops of The International Conference on High Performance Computing, Network, Storage, and Analysis)
  • Paper-Link: https://arxiv.org/abs/2412.10606

Zusammenfassung

Mit dem Aufkommen großer Sprachmodelle (LLMs) wächst das Interesse an der Anwendung von LLMs auf wissenschaftliche Aufgaben. Diese Forschung untersucht experimentell die Eignung von LLMs für die Konfiguration, Annotation und Übersetzung wissenschaftlicher Workflows. Die Studie bewertet mehrere Open-Source- und proprietäre Sprachmodelle auf modernen Workflow-Systemen anhand von drei verschiedenen workflow-spezifischen Experimenten. Die Ergebnisse zeigen, dass LLMs aufgrund mangelnder Trainingsdaten für wissenschaftliche Workflows häufig auf Schwierigkeiten stoßen und ihre Leistung zwischen verschiedenen Experimenten und Workflow-Systemen variiert.

Forschungshintergrund und Motivation

Problemdefinition

Wissenschaftliche Workflows spielen eine wichtige Rolle in High-Performance-Computing-(HPC-)Umgebungen. Sie bestehen aus einer Reihe von zusammenarbeitenden Aufgaben, die bei Planung und Kommunikation koordiniert werden. Viele Wissenschaftler finden Workflow-Systeme jedoch schwierig zu bedienen und wählen häufig die manuelle Ausführung von Aufgaben oder entwickeln ihre eigenen Workflow-Lösungen.

Forschungsrelevanz

  1. Usability-Herausforderungen: Die Komplexität wissenschaftlicher Workflow-Systeme behindert die breite Akzeptanz
  2. Lernkurve: Auch bei Verwendung allgemeiner Workflow-Systeme fehlt Wissenschaftlern oft das Verständnis für diese Systeme
  3. LLM-Potenzial: Große Sprachmodelle könnten diese Herausforderungen adressieren, erfordern aber ein Verständnis ihrer Fähigkeiten in HPC-Workflows

Limitierungen bestehender Ansätze

  • Bestehende Forschung konzentriert sich hauptsächlich auf spezifische HPC-bezogene Aufgaben wie Code-Generierung, Annotation und Abfragebeantwortung
  • Mangel an umfassender Forschung zur breiten Anwendbarkeit von LLMs in vollständigen Workflow-Systemen
  • Fehlende systematische Bewertung der LLM-Leistung bei wissenschaftlichen Workflow-spezifischen Aufgaben

Kernbeiträge

  1. Erste systematische Bewertung: Umfassende experimentelle Bewertung der Fähigkeiten mehrerer LLMs bei wissenschaftlichen Workflow-Aufgaben
  2. Mehrdimensionales Experimentdesign: Entwicklung von drei verschiedenen Arten von Workflow-spezifischen Experimenten (Konfiguration, Annotation, Übersetzung)
  3. Mehrere Systembewertungen: Bewertung auf fünf modernen Workflow-Systemen
  4. Leistungs-Benchmarks: Etablierung von Leistungs-Benchmarks für LLMs bei wissenschaftlichen Workflow-Aufgaben
  5. Verbesserungsstrategien: Erkundung von Techniken wie Few-Shot-Prompting zur Verbesserung der LLM-Leistung

Methodische Details

Aufgabendefinition

Die Studie definiert drei Kernaufgaben:

  1. Workflow-Konfiguration: Generierung von Workflow-Konfigurationsskripten basierend auf natürlichsprachigen Eingaben
  2. Annotation von Task-Code: Automatische Annotation von Benutzer-Task-Code zur Anpassung an Workflow-Systeme
  3. Übersetzung von Task-Code: Übersetzung von annotiertem Task-Code zwischen verschiedenen Workflow-Systemen

Bewertungsrahmen

LLM-Auswahl

  • o3: Proprietäres Modell von OpenAI mit starken Reasoning-Fähigkeiten
  • Claude-Sonnet-4: Hybrid-Reasoning-Modell von Anthropic
  • Gemini-2.5-Pro: Fortgeschrittenes Modell von Google mit starken Reasoning- und Coding-Fähigkeiten
  • LLaMA-3.3-70B-Instruct: Open-Source-Modell von Meta mit 70 Milliarden Parametern

Workflow-Systeme

  • ADIOS2: Flexible I/O-Bibliothek und Middleware für wissenschaftlichen Code
  • Henson: Kooperatives Multi-Task-System für In-Situ-Verarbeitung
  • Parsl: Python-Bibliothek für parallele Programmierung mit aufgabenbasierter Ausführung
  • PyCOMPSs: Aufgabenbasiertes Programmiermodell
  • Wilkins: In-Situ-Workflow-System mit Unterstützung für dynamische heterogene Task-Spezifikationen

Bewertungsmetriken

  • BLEU: Maschinenübersetzungs-Bewertungsmetrik basierend auf n-Gramm-Präzision
  • ChrF: Zeichenbasierte Bewertungsmetrik, die Präzision und Recall von Zeichen-n-Grammen berechnet

Experimentdesign

Workflow-Konfigurationsexperiment

Benutzer stellen eine natürlichsprachige Beschreibung bereit, LLMs generieren die entsprechende Workflow-Konfigurationsdatei. Beispiel:

Benutzer-Prompt: Ich möchte einen 3-Knoten-Workflow mit einem Producer und zwei Consumer-Tasks.
Der Producer generiert Gitter- und Partikeldatensätze, Consumer1 liest das Gitter, 
Consumer2 liest die Partikeldatensätze. Der Producer benötigt 3 Prozesse, 
jeder Consumer läuft auf einem einzelnen Prozess. Bitte stellen Sie die 
Workflow-Konfigurationsdatei für das Wilkins-Workflow-System bereit.

Task-Code-Annotationsexperiment

Bereitstellung von einfachem C-Code für einen Producer, LLMs sollen relevante API-Aufrufe des Workflow-Systems annotieren.

Task-Code-Übersetzungsexperiment

Bereitstellung von annotiertem Task-Code eines Workflow-Systems, LLMs sollen diesen in Code eines anderen Workflow-Systems übersetzen.

Experimentelle Einrichtung

Experimentelle Umgebung

  • Hardware: Apple M1 Max, 10-Kern-CPU, 24-Kern-GPU, 32GB einheitlicher Speicher
  • Framework: Inspect AI Framework für Experimente
  • Wiederholungen: Jedes Experiment wurde 5-mal wiederholt, um LLM-Antwort-Variabilität zu reduzieren
  • Parametereinstellungen: temperature=0.2, top_p=0.95

Prompt-Strategiebewertung

Fünf verschiedene Prompt-Varianten wurden entwickelt:

  1. Ursprünglicher Prompt
  2. Unterschiedliche Stile
  3. Umformulierung
  4. Neuanordnung
  5. Detaillierter Prompt (mit technischen Details)

Experimentelle Ergebnisse

Hauptergebnisse

Workflow-Konfigurationsexperiment

LLMADIOS2HensonWilkinsGesamt
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

Task-Code-Annotationsexperiment

LLMADIOS2HensonPyCOMPSsParslGesamt
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

Task-Code-Übersetzungsexperiment

ÜbersetzungsrichtungBestes LLMBLEU-Score
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

Wichtigste Erkenntnisse

  1. Systemunterschiede: LLMs zeigen bessere Leistung bei dokumentationsreichen Systemen wie ADIOS2 und PyCOMPSs
  2. Aufgabenunterschiede: Die Gesamtleistung bei Code-Annotation übertrifft die Konfigurationsgenerierung
  3. Modellunterschiede: Kein einzelnes Modell zeigt durchgehend beste Leistung bei allen Aufgaben
  4. Halluzinationsprobleme: LLMs generieren häufig nicht existierende API-Aufrufe oder Konfigurationsfelder

Few-Shot-Prompting-Effekte

LLMZero-ShotFew-ShotVerbesserung
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

Verwandte Arbeiten

Wissenschaftliche Workflow-Forschung

  • Verteilte Workflows: Laufen über mehrere unabhängige Systeme, tauschen Daten über Dateien aus
  • In-Situ-Workflows: Laufen innerhalb eines einzelnen HPC-Systems, Tasks werden gleichzeitig ausgeführt und tauschen Daten über Speicher aus

LLMs in HPC-Anwendungen

  • Duque et al. erkundeten die Verwendung von LLMs zum Erstellen und Ausführen von Workflows
  • Sanger et al. untersuchten die Eignung von GPT-3.5 zum Verstehen, Ändern und Erweitern wissenschaftlicher Workflows
  • Diese Forschung nutzt neuere Modelle und bietet eine breitere Abdeckung von Workflow-Systemen und wissenschaftlichen Aufgaben

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wissenslücken: LLMs stoßen aufgrund mangelnder Trainingsdaten im Bereich wissenschaftlicher Workflows häufig auf Schwierigkeiten
  2. Leistungsvariabilität: Die LLM-Leistung variiert erheblich zwischen verschiedenen Experimenten und Workflow-Systemen
  3. Kontextbedeutung: Few-Shot-Prompting verbessert die LLM-Leistung erheblich
  4. Systemabhängigkeit: Dokumentationsreiche Systeme (wie ADIOS2, PyCOMPSs) erhalten bessere LLM-Unterstützung

Limitierungen

  1. Trainingsdaten-Einschränkungen: Wissenschaftliche Workflow-Dokumentation ist in LLM-Trainingsdaten relativ selten
  2. API-Halluzinationen: LLMs generieren häufig nicht existierende API-Aufrufe
  3. Konfigurationsverständnis: LLMs haben Schwierigkeiten, zwischen Workflow-Konfiguration und Task-Code zu unterscheiden
  4. Systemspezifität: Die Leistung hängt stark von der Verfügbarkeit von Dokumentation für spezifische Workflow-Systeme ab

Zukünftige Richtungen

  1. Retrieval-Augmented Generation (RAG): Kombination mit externen Wissensdatenbanken zur Verbesserung der LLM-Leistung
  2. Fine-Tuning: Spezialisierte Modell-Anpassung für wissenschaftliche Workflows
  3. Iterative Fehlerkorrektur: Einführung von automatischer Fehlererkennung und Korrekturmechanismen
  4. Multimodale Integration: Kombination von Code, Dokumentation und Visualisierungsinformationen

Tiefgreifende Bewertung

Stärken

  1. Systematische Bewertung: Erste umfassende Bewertung von LLMs im Bereich wissenschaftlicher Workflows
  2. Mehrdimensionale Analyse: Abdeckung von drei Schlüsselaufgaben (Konfiguration, Annotation, Übersetzung)
  3. Praktischer Wert: Bietet wertvollen Referenz-Benchmark für Workflow-Entwickler und Benutzer
  4. Methodische Strenge: Angemessenes Experimentdesign, passende Bewertungsmetriken, reproduzierbare Ergebnisse

Schwächen

  1. Bewertungsumfang: Abdeckung von nur drei Workflow-Aufgaben könnte unvollständig sein
  2. Datensatzgröße: Relativ kleine Experimentskala könnte die Allgemeingültigkeit der Schlussfolgerungen beeinflussen
  3. Tiefenanalyse: Analyse der Ursachen für LLM-Fehler könnte tiefgreifender sein
  4. Praktische Bereitstellung: Fehlende Validierung in echten wissenschaftlichen Rechnerumgebungen

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Benchmarks für die Anwendung von LLMs in der wissenschaftlichen Informatik
  2. Praktischer Wert: Hilft Forschern, die Leistungsgrenzen von LLMs bei Workflow-Aufgaben zu verstehen
  3. Zukünftige Forschung: Weist Richtungen zur Verbesserung der LLM-Anwendung in wissenschaftlichen Workflows

Anwendungsszenarien

  1. Workflow-Systementwicklung: Referenz für die Integration von LLM-Assistenzfunktionen
  2. Wissenschaftliche Informatik-Bildung: Hilft, die Limitierungen von LLMs in Fachbereichen zu verstehen
  3. HPC-Tool-Entwicklung: Grundlage für die Entwicklung intelligenter wissenschaftlicher Rechner-Tools

Literaturverzeichnis

Diese Forschung zitiert 33 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken – wissenschaftliche Workflows, große Sprachmodelle, HPC und mehr – und bietet eine solide theoretische Grundlage für die Forschung.


Zusammenfassung: Dies ist ein bahnbrechendes Forschungspapier, das zum ersten Mal systematisch die Fähigkeiten großer Sprachmodelle im Bereich wissenschaftlicher Workflows bewertet. Die Forschung zeigt erhebliche Limitierungen von LLMs auf, demonstriert aber auch das Potenzial zur Leistungsverbesserung durch geeignete Techniken (wie Few-Shot-Prompting) und schafft damit eine Grundlage für zukünftige Forschung in diesem wichtigen Bereich.