Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic
Sprechen große Sprachmodelle wissenschaftliche Workflows?
Mit dem Aufkommen großer Sprachmodelle (LLMs) wächst das Interesse an der Anwendung von LLMs auf wissenschaftliche Aufgaben. Diese Forschung untersucht experimentell die Eignung von LLMs für die Konfiguration, Annotation und Übersetzung wissenschaftlicher Workflows. Die Studie bewertet mehrere Open-Source- und proprietäre Sprachmodelle auf modernen Workflow-Systemen anhand von drei verschiedenen workflow-spezifischen Experimenten. Die Ergebnisse zeigen, dass LLMs aufgrund mangelnder Trainingsdaten für wissenschaftliche Workflows häufig auf Schwierigkeiten stoßen und ihre Leistung zwischen verschiedenen Experimenten und Workflow-Systemen variiert.
Wissenschaftliche Workflows spielen eine wichtige Rolle in High-Performance-Computing-(HPC-)Umgebungen. Sie bestehen aus einer Reihe von zusammenarbeitenden Aufgaben, die bei Planung und Kommunikation koordiniert werden. Viele Wissenschaftler finden Workflow-Systeme jedoch schwierig zu bedienen und wählen häufig die manuelle Ausführung von Aufgaben oder entwickeln ihre eigenen Workflow-Lösungen.
Erste systematische Bewertung: Umfassende experimentelle Bewertung der Fähigkeiten mehrerer LLMs bei wissenschaftlichen Workflow-Aufgaben
Mehrdimensionales Experimentdesign: Entwicklung von drei verschiedenen Arten von Workflow-spezifischen Experimenten (Konfiguration, Annotation, Übersetzung)
Mehrere Systembewertungen: Bewertung auf fünf modernen Workflow-Systemen
Leistungs-Benchmarks: Etablierung von Leistungs-Benchmarks für LLMs bei wissenschaftlichen Workflow-Aufgaben
Verbesserungsstrategien: Erkundung von Techniken wie Few-Shot-Prompting zur Verbesserung der LLM-Leistung
Benutzer stellen eine natürlichsprachige Beschreibung bereit, LLMs generieren die entsprechende Workflow-Konfigurationsdatei. Beispiel:
Benutzer-Prompt: Ich möchte einen 3-Knoten-Workflow mit einem Producer und zwei Consumer-Tasks.
Der Producer generiert Gitter- und Partikeldatensätze, Consumer1 liest das Gitter,
Consumer2 liest die Partikeldatensätze. Der Producer benötigt 3 Prozesse,
jeder Consumer läuft auf einem einzelnen Prozess. Bitte stellen Sie die
Workflow-Konfigurationsdatei für das Wilkins-Workflow-System bereit.
Diese Forschung zitiert 33 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen abdecken – wissenschaftliche Workflows, große Sprachmodelle, HPC und mehr – und bietet eine solide theoretische Grundlage für die Forschung.
Zusammenfassung: Dies ist ein bahnbrechendes Forschungspapier, das zum ersten Mal systematisch die Fähigkeiten großer Sprachmodelle im Bereich wissenschaftlicher Workflows bewertet. Die Forschung zeigt erhebliche Limitierungen von LLMs auf, demonstriert aber auch das Potenzial zur Leistungsverbesserung durch geeignete Techniken (wie Few-Shot-Prompting) und schafft damit eine Grundlage für zukünftige Forschung in diesem wichtigen Bereich.