2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

Les grands modèles de langage parlent-ils les flux de travail scientifiques ?

Informations de base

ID de l'article: 2412.10606
Titre: Do Large Language Models Speak Scientific Workflows?
Auteurs: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
Classification: cs.HC (Interaction Homme-Ordinateur)
Conférence de publication: SC-W'25 (Ateliers de la Conférence Internationale sur le Calcul Haute Performance, le Stockage et l'Analyse)
Lien de l'article: https://arxiv.org/abs/2412.10606

Résumé

Avec l'émergence des grands modèles de langage (LLMs), l'intérêt pour l'application des LLMs aux tâches scientifiques s'accroît considérablement. Cette recherche explore expérimentalement l'applicabilité des LLMs dans la configuration, l'annotation et la traduction des flux de travail scientifiques. L'étude évalue plusieurs modèles de langage open-source et propriétaires sur les systèmes de flux de travail les plus avancés, en utilisant trois expériences différentes spécifiques aux flux de travail. Les résultats montrent que les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement sur les flux de travail scientifiques, et que leurs performances varient selon les expériences et les systèmes de flux de travail.

Contexte et motivation de la recherche

Définition du problème

Les flux de travail scientifiques jouent un rôle important dans les environnements de calcul haute performance (HPC), composés d'une série de tâches collaboratives qui travaillent en coordination pour l'ordonnancement et la communication. Cependant, de nombreux scientifiques trouvent les systèmes de flux de travail difficiles à utiliser et préfèrent souvent exécuter les tâches manuellement ou développer leurs propres solutions de flux de travail.

Importance de la recherche

Défis d'utilisabilité: La complexité des systèmes de flux de travail scientifiques entrave l'adoption généralisée
Courbe d'apprentissage: Même avec l'adoption de systèmes de flux de travail génériques, les scientifiques manquent souvent de compréhension de ces systèmes
Potentiel des LLMs: Les grands modèles de langage pourraient contribuer à résoudre ces défis, mais nécessitent une compréhension de leurs capacités dans les flux de travail HPC

Limitations des approches existantes

Les recherches existantes se concentrent principalement sur des tâches spécifiques liées à HPC, telles que la génération de code, l'annotation et la réponse aux requêtes
Absence d'études complètes sur l'applicabilité générale des LLMs dans les systèmes de flux de travail complets
Manque d'évaluation systématique des performances des LLMs sur les tâches spécifiques aux flux de travail scientifiques

Contributions principales

Première évaluation systématique: Évaluation expérimentale complète des capacités de plusieurs LLMs sur les tâches de flux de travail scientifiques
Conception expérimentale multidimensionnelle: Conception de trois types différents d'expériences spécifiques aux flux de travail (configuration, annotation, traduction)
Évaluation multi-systèmes: Évaluation sur cinq systèmes de flux de travail les plus avancés
Références de performance: Établissement de références de performance des LLMs sur les tâches de flux de travail scientifiques
Stratégies d'amélioration: Exploration de techniques telles que le few-shot prompting pour améliorer les performances des LLMs

Détails méthodologiques

Définition des tâches

L'étude définit trois tâches principales :

Configuration de flux de travail: Génération de scripts de configuration de flux de travail basés sur des entrées en langage naturel
Annotation de code de tâche: Annotation automatique du code de tâche utilisateur pour l'adapter aux systèmes de flux de travail
Traduction de code de tâche: Traduction du code de tâche annoté entre différents systèmes de flux de travail

Cadre d'évaluation

Sélection des LLMs

o3: Modèle propriétaire d'OpenAI avec des capacités de raisonnement fortes
Claude-Sonnet-4: Modèle de raisonnement hybride développé par Anthropic
Gemini-2.5-Pro: Modèle avancé de Google avec des capacités fortes de raisonnement et de codage
LLaMA-3.3-70B-Instruct: Modèle open-source de Meta avec 70 milliards de paramètres

Systèmes de flux de travail

ADIOS2: Bibliothèque d'E/S flexible et intergiciel pour le code scientifique
Henson: Système multi-tâches collaboratif pour le traitement in situ
Parsl: Bibliothèque de programmation parallèle Python supportant l'exécution basée sur les tâches
PyCOMPSs: Modèle de programmation basé sur les tâches
Wilkins: Système de flux de travail in situ supportant les spécifications de tâches hétérogènes dynamiques

Métriques d'évaluation

BLEU: Métrique d'évaluation de traduction automatique basée sur la précision des n-grammes
ChrF: Métrique d'évaluation basée sur les caractères, calculant la précision et le rappel des n-grammes de caractères

Conception expérimentale

Expérience de configuration de flux de travail

L'utilisateur fournit une description en langage naturel, et les LLMs génèrent le fichier de configuration de flux de travail correspondant. Par exemple :

Invite utilisateur: Je veux un flux de travail à 3 nœuds contenant une tâche producteur 
et deux tâches consommateur. Le producteur génère des ensembles de données de grille et 
de particules, consumer1 lit la grille, consumer2 lit l'ensemble de données de particules. 
Le producteur nécessite 3 processus, chaque consommateur s'exécute sur un seul processus. 
Veuillez fournir le fichier de configuration de flux de travail pour le système de flux 
de travail Wilkins.

Expérience d'annotation de code de tâche

Fourniture d'un simple code producteur en C, demandant aux LLMs d'ajouter des annotations pour les appels API du système de flux de travail pertinents.

Expérience de traduction de code de tâche

Fourniture d'un code de tâche annoté d'un système de flux de travail, demandant aux LLMs de le traduire en code d'un autre système de flux de travail.

Configuration expérimentale

Environnement expérimental

Matériel: Apple M1 Max, CPU 10 cœurs, GPU 24 cœurs, mémoire unifiée 32 Go
Cadre: Utilisation du cadre Inspect AI pour les expériences
Nombre de répétitions: Chaque expérience répétée 5 fois pour réduire la variabilité des réponses des LLMs
Paramètres: temperature=0.2, top_p=0.95

Évaluation des stratégies de prompting

Conception de cinq variantes de prompts différentes :

Prompt original
Styles différents
Paraphrase
Réorganisation
Prompt détaillé (incluant les détails techniques)

Résultats expérimentaux

Résultats principaux

Expérience de configuration de flux de travail

LLM	ADIOS2	Henson	Wilkins	Global
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

Expérience d'annotation de code de tâche

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	Global
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

Expérience de traduction de code de tâche

Direction de traduction	Meilleur LLM	Score BLEU
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

Conclusions clés

Différences systémiques: Les LLMs obtiennent de meilleures performances sur les systèmes bien documentés comme ADIOS2 et PyCOMPSs
Différences de tâches: Les performances globales des tâches d'annotation de code sont supérieures à la génération de configuration
Différences de modèles: Aucun modèle unique n'obtient les meilleures performances sur toutes les tâches
Problème d'hallucination: Les LLMs génèrent fréquemment des appels API ou des champs de configuration inexistants

Effet du Few-shot Prompting

LLM	Zero-shot	Few-shot	Amélioration
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

Travaux connexes

Recherche sur les flux de travail scientifiques

Flux de travail distribués: Exécution sur plusieurs systèmes indépendants, échange de données via fichiers
Flux de travail in situ: Exécution dans un seul système HPC, tâches s'exécutant concurremment et échangeant des données via la mémoire

Applications des LLMs en HPC

Duque et al. explorent l'utilisation des LLMs pour construire et exécuter des flux de travail
Sanger et al. étudient l'applicabilité de GPT-3.5 pour comprendre, modifier et étendre les flux de travail scientifiques
Cette recherche utilise des modèles plus récents et fournit une couverture plus large des systèmes de flux de travail et des tâches scientifiques

Conclusions et discussion

Conclusions principales

Manque de connaissances: Les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement dans le domaine des flux de travail scientifiques
Variabilité des performances: Les performances des LLMs varient considérablement selon les expériences et les systèmes de flux de travail
Importance du contexte: Le few-shot prompting améliore significativement les performances des LLMs
Dépendance systémique: Les systèmes bien documentés (comme ADIOS2, PyCOMPSs) bénéficient d'un meilleur support des LLMs

Limitations

Limitations des données d'entraînement: La documentation sur les flux de travail scientifiques est relativement rare dans les données d'entraînement des LLMs
Hallucination d'API: Les LLMs génèrent fréquemment des appels API inexistants
Compréhension de la configuration: Les LLMs ont du mal à distinguer la configuration de flux de travail du code de tâche
Spécificité du système: Les performances dépendent fortement de la disponibilité de la documentation pour les systèmes de flux de travail spécifiques

Directions futures

Génération augmentée par récupération (RAG): Combinaison de bases de connaissances externes pour améliorer les performances des LLMs
Ajustement fin: Ajustement spécialisé des modèles pour les flux de travail scientifiques
Correction d'erreurs itérative: Introduction de mécanismes de détection et de correction d'erreurs automatiques
Intégration multimodale: Combinaison de code, documentation et informations visuelles

Évaluation approfondie

Points forts

Évaluation systématique: Première évaluation complète des LLMs dans le domaine des flux de travail scientifiques
Analyse multidimensionnelle: Couverture de trois tâches clés (configuration, annotation, traduction)
Valeur pratique: Fournit des références de valeur pour les développeurs et utilisateurs de flux de travail
Rigueur méthodologique: Conception expérimentale appropriée, métriques d'évaluation adéquates, résultats reproductibles

Insuffisances

Portée d'évaluation: Couverture de seulement trois types de tâches de flux de travail, potentiellement insuffisante
Taille de l'ensemble de données: Échelle expérimentale relativement petite, pouvant affecter la généralité des conclusions
Analyse approfondie: L'analyse des causes d'échec des LLMs n'est pas suffisamment approfondie
Déploiement pratique: Absence de validation dans des environnements de calcul scientifique réels

Impact

Contribution académique: Fournit des références importantes pour l'application des LLMs dans le domaine du calcul scientifique
Valeur pratique: Aide les chercheurs à comprendre les limites des LLMs dans les tâches de flux de travail
Recherche future: Indique les directions pour améliorer l'application des LLMs dans les flux de travail scientifiques

Scénarios d'application

Développement de systèmes de flux de travail: Fournit des références pour l'intégration de fonctionnalités assistées par LLM
Éducation en calcul scientifique: Aide à comprendre les limitations des LLMs dans les domaines spécialisés
Développement d'outils HPC: Fournit une base pour développer des outils de calcul scientifique intelligents

Références

Cette recherche cite 33 articles connexes, couvrant des travaux importants dans plusieurs domaines incluant les flux de travail scientifiques, les grands modèles de langage et HPC, fournissant une base théorique solide pour la recherche.

Résumé: Cet article de recherche est d'une importance pionnière, évaluant systématiquement pour la première fois les capacités des grands modèles de langage dans le domaine des flux de travail scientifiques. La recherche révèle des limitations significatives des LLMs, tout en démontrant la possibilité d'améliorer les performances grâce à des techniques appropriées (comme le few-shot prompting), jetant les bases pour les recherches futures dans ce domaine important.