Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic
Les grands modèles de langage parlent-ils les flux de travail scientifiques ?
Avec l'émergence des grands modèles de langage (LLMs), l'intérêt pour l'application des LLMs aux tâches scientifiques s'accroît considérablement. Cette recherche explore expérimentalement l'applicabilité des LLMs dans la configuration, l'annotation et la traduction des flux de travail scientifiques. L'étude évalue plusieurs modèles de langage open-source et propriétaires sur les systèmes de flux de travail les plus avancés, en utilisant trois expériences différentes spécifiques aux flux de travail. Les résultats montrent que les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement sur les flux de travail scientifiques, et que leurs performances varient selon les expériences et les systèmes de flux de travail.
Les flux de travail scientifiques jouent un rôle important dans les environnements de calcul haute performance (HPC), composés d'une série de tâches collaboratives qui travaillent en coordination pour l'ordonnancement et la communication. Cependant, de nombreux scientifiques trouvent les systèmes de flux de travail difficiles à utiliser et préfèrent souvent exécuter les tâches manuellement ou développer leurs propres solutions de flux de travail.
Défis d'utilisabilité: La complexité des systèmes de flux de travail scientifiques entrave l'adoption généralisée
Courbe d'apprentissage: Même avec l'adoption de systèmes de flux de travail génériques, les scientifiques manquent souvent de compréhension de ces systèmes
Potentiel des LLMs: Les grands modèles de langage pourraient contribuer à résoudre ces défis, mais nécessitent une compréhension de leurs capacités dans les flux de travail HPC
Les recherches existantes se concentrent principalement sur des tâches spécifiques liées à HPC, telles que la génération de code, l'annotation et la réponse aux requêtes
Absence d'études complètes sur l'applicabilité générale des LLMs dans les systèmes de flux de travail complets
Manque d'évaluation systématique des performances des LLMs sur les tâches spécifiques aux flux de travail scientifiques
Première évaluation systématique: Évaluation expérimentale complète des capacités de plusieurs LLMs sur les tâches de flux de travail scientifiques
Conception expérimentale multidimensionnelle: Conception de trois types différents d'expériences spécifiques aux flux de travail (configuration, annotation, traduction)
Évaluation multi-systèmes: Évaluation sur cinq systèmes de flux de travail les plus avancés
Références de performance: Établissement de références de performance des LLMs sur les tâches de flux de travail scientifiques
Stratégies d'amélioration: Exploration de techniques telles que le few-shot prompting pour améliorer les performances des LLMs
L'utilisateur fournit une description en langage naturel, et les LLMs génèrent le fichier de configuration de flux de travail correspondant. Par exemple :
Invite utilisateur: Je veux un flux de travail à 3 nœuds contenant une tâche producteur
et deux tâches consommateur. Le producteur génère des ensembles de données de grille et
de particules, consumer1 lit la grille, consumer2 lit l'ensemble de données de particules.
Le producteur nécessite 3 processus, chaque consommateur s'exécute sur un seul processus.
Veuillez fournir le fichier de configuration de flux de travail pour le système de flux
de travail Wilkins.
Fourniture d'un simple code producteur en C, demandant aux LLMs d'ajouter des annotations pour les appels API du système de flux de travail pertinents.
Manque de connaissances: Les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement dans le domaine des flux de travail scientifiques
Variabilité des performances: Les performances des LLMs varient considérablement selon les expériences et les systèmes de flux de travail
Importance du contexte: Le few-shot prompting améliore significativement les performances des LLMs
Dépendance systémique: Les systèmes bien documentés (comme ADIOS2, PyCOMPSs) bénéficient d'un meilleur support des LLMs
Limitations des données d'entraînement: La documentation sur les flux de travail scientifiques est relativement rare dans les données d'entraînement des LLMs
Hallucination d'API: Les LLMs génèrent fréquemment des appels API inexistants
Compréhension de la configuration: Les LLMs ont du mal à distinguer la configuration de flux de travail du code de tâche
Spécificité du système: Les performances dépendent fortement de la disponibilité de la documentation pour les systèmes de flux de travail spécifiques
Cette recherche cite 33 articles connexes, couvrant des travaux importants dans plusieurs domaines incluant les flux de travail scientifiques, les grands modèles de langage et HPC, fournissant une base théorique solide pour la recherche.
Résumé: Cet article de recherche est d'une importance pionnière, évaluant systématiquement pour la première fois les capacités des grands modèles de langage dans le domaine des flux de travail scientifiques. La recherche révèle des limitations significatives des LLMs, tout en démontrant la possibilité d'améliorer les performances grâce à des techniques appropriées (comme le few-shot prompting), jetant les bases pour les recherches futures dans ce domaine important.