2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

Les grands modèles de langage parlent-ils les flux de travail scientifiques ?

Informations de base

  • ID de l'article: 2412.10606
  • Titre: Do Large Language Models Speak Scientific Workflows?
  • Auteurs: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • Classification: cs.HC (Interaction Homme-Ordinateur)
  • Conférence de publication: SC-W'25 (Ateliers de la Conférence Internationale sur le Calcul Haute Performance, le Stockage et l'Analyse)
  • Lien de l'article: https://arxiv.org/abs/2412.10606

Résumé

Avec l'émergence des grands modèles de langage (LLMs), l'intérêt pour l'application des LLMs aux tâches scientifiques s'accroît considérablement. Cette recherche explore expérimentalement l'applicabilité des LLMs dans la configuration, l'annotation et la traduction des flux de travail scientifiques. L'étude évalue plusieurs modèles de langage open-source et propriétaires sur les systèmes de flux de travail les plus avancés, en utilisant trois expériences différentes spécifiques aux flux de travail. Les résultats montrent que les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement sur les flux de travail scientifiques, et que leurs performances varient selon les expériences et les systèmes de flux de travail.

Contexte et motivation de la recherche

Définition du problème

Les flux de travail scientifiques jouent un rôle important dans les environnements de calcul haute performance (HPC), composés d'une série de tâches collaboratives qui travaillent en coordination pour l'ordonnancement et la communication. Cependant, de nombreux scientifiques trouvent les systèmes de flux de travail difficiles à utiliser et préfèrent souvent exécuter les tâches manuellement ou développer leurs propres solutions de flux de travail.

Importance de la recherche

  1. Défis d'utilisabilité: La complexité des systèmes de flux de travail scientifiques entrave l'adoption généralisée
  2. Courbe d'apprentissage: Même avec l'adoption de systèmes de flux de travail génériques, les scientifiques manquent souvent de compréhension de ces systèmes
  3. Potentiel des LLMs: Les grands modèles de langage pourraient contribuer à résoudre ces défis, mais nécessitent une compréhension de leurs capacités dans les flux de travail HPC

Limitations des approches existantes

  • Les recherches existantes se concentrent principalement sur des tâches spécifiques liées à HPC, telles que la génération de code, l'annotation et la réponse aux requêtes
  • Absence d'études complètes sur l'applicabilité générale des LLMs dans les systèmes de flux de travail complets
  • Manque d'évaluation systématique des performances des LLMs sur les tâches spécifiques aux flux de travail scientifiques

Contributions principales

  1. Première évaluation systématique: Évaluation expérimentale complète des capacités de plusieurs LLMs sur les tâches de flux de travail scientifiques
  2. Conception expérimentale multidimensionnelle: Conception de trois types différents d'expériences spécifiques aux flux de travail (configuration, annotation, traduction)
  3. Évaluation multi-systèmes: Évaluation sur cinq systèmes de flux de travail les plus avancés
  4. Références de performance: Établissement de références de performance des LLMs sur les tâches de flux de travail scientifiques
  5. Stratégies d'amélioration: Exploration de techniques telles que le few-shot prompting pour améliorer les performances des LLMs

Détails méthodologiques

Définition des tâches

L'étude définit trois tâches principales :

  1. Configuration de flux de travail: Génération de scripts de configuration de flux de travail basés sur des entrées en langage naturel
  2. Annotation de code de tâche: Annotation automatique du code de tâche utilisateur pour l'adapter aux systèmes de flux de travail
  3. Traduction de code de tâche: Traduction du code de tâche annoté entre différents systèmes de flux de travail

Cadre d'évaluation

Sélection des LLMs

  • o3: Modèle propriétaire d'OpenAI avec des capacités de raisonnement fortes
  • Claude-Sonnet-4: Modèle de raisonnement hybride développé par Anthropic
  • Gemini-2.5-Pro: Modèle avancé de Google avec des capacités fortes de raisonnement et de codage
  • LLaMA-3.3-70B-Instruct: Modèle open-source de Meta avec 70 milliards de paramètres

Systèmes de flux de travail

  • ADIOS2: Bibliothèque d'E/S flexible et intergiciel pour le code scientifique
  • Henson: Système multi-tâches collaboratif pour le traitement in situ
  • Parsl: Bibliothèque de programmation parallèle Python supportant l'exécution basée sur les tâches
  • PyCOMPSs: Modèle de programmation basé sur les tâches
  • Wilkins: Système de flux de travail in situ supportant les spécifications de tâches hétérogènes dynamiques

Métriques d'évaluation

  • BLEU: Métrique d'évaluation de traduction automatique basée sur la précision des n-grammes
  • ChrF: Métrique d'évaluation basée sur les caractères, calculant la précision et le rappel des n-grammes de caractères

Conception expérimentale

Expérience de configuration de flux de travail

L'utilisateur fournit une description en langage naturel, et les LLMs génèrent le fichier de configuration de flux de travail correspondant. Par exemple :

Invite utilisateur: Je veux un flux de travail à 3 nœuds contenant une tâche producteur 
et deux tâches consommateur. Le producteur génère des ensembles de données de grille et 
de particules, consumer1 lit la grille, consumer2 lit l'ensemble de données de particules. 
Le producteur nécessite 3 processus, chaque consommateur s'exécute sur un seul processus. 
Veuillez fournir le fichier de configuration de flux de travail pour le système de flux 
de travail Wilkins.

Expérience d'annotation de code de tâche

Fourniture d'un simple code producteur en C, demandant aux LLMs d'ajouter des annotations pour les appels API du système de flux de travail pertinents.

Expérience de traduction de code de tâche

Fourniture d'un code de tâche annoté d'un système de flux de travail, demandant aux LLMs de le traduire en code d'un autre système de flux de travail.

Configuration expérimentale

Environnement expérimental

  • Matériel: Apple M1 Max, CPU 10 cœurs, GPU 24 cœurs, mémoire unifiée 32 Go
  • Cadre: Utilisation du cadre Inspect AI pour les expériences
  • Nombre de répétitions: Chaque expérience répétée 5 fois pour réduire la variabilité des réponses des LLMs
  • Paramètres: temperature=0.2, top_p=0.95

Évaluation des stratégies de prompting

Conception de cinq variantes de prompts différentes :

  1. Prompt original
  2. Styles différents
  3. Paraphrase
  4. Réorganisation
  5. Prompt détaillé (incluant les détails techniques)

Résultats expérimentaux

Résultats principaux

Expérience de configuration de flux de travail

LLMADIOS2HensonWilkinsGlobal
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

Expérience d'annotation de code de tâche

LLMADIOS2HensonPyCOMPSsParslGlobal
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

Expérience de traduction de code de tâche

Direction de traductionMeilleur LLMScore BLEU
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

Conclusions clés

  1. Différences systémiques: Les LLMs obtiennent de meilleures performances sur les systèmes bien documentés comme ADIOS2 et PyCOMPSs
  2. Différences de tâches: Les performances globales des tâches d'annotation de code sont supérieures à la génération de configuration
  3. Différences de modèles: Aucun modèle unique n'obtient les meilleures performances sur toutes les tâches
  4. Problème d'hallucination: Les LLMs génèrent fréquemment des appels API ou des champs de configuration inexistants

Effet du Few-shot Prompting

LLMZero-shotFew-shotAmélioration
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

Travaux connexes

Recherche sur les flux de travail scientifiques

  • Flux de travail distribués: Exécution sur plusieurs systèmes indépendants, échange de données via fichiers
  • Flux de travail in situ: Exécution dans un seul système HPC, tâches s'exécutant concurremment et échangeant des données via la mémoire

Applications des LLMs en HPC

  • Duque et al. explorent l'utilisation des LLMs pour construire et exécuter des flux de travail
  • Sanger et al. étudient l'applicabilité de GPT-3.5 pour comprendre, modifier et étendre les flux de travail scientifiques
  • Cette recherche utilise des modèles plus récents et fournit une couverture plus large des systèmes de flux de travail et des tâches scientifiques

Conclusions et discussion

Conclusions principales

  1. Manque de connaissances: Les LLMs rencontrent fréquemment des difficultés en raison du manque de données d'entraînement dans le domaine des flux de travail scientifiques
  2. Variabilité des performances: Les performances des LLMs varient considérablement selon les expériences et les systèmes de flux de travail
  3. Importance du contexte: Le few-shot prompting améliore significativement les performances des LLMs
  4. Dépendance systémique: Les systèmes bien documentés (comme ADIOS2, PyCOMPSs) bénéficient d'un meilleur support des LLMs

Limitations

  1. Limitations des données d'entraînement: La documentation sur les flux de travail scientifiques est relativement rare dans les données d'entraînement des LLMs
  2. Hallucination d'API: Les LLMs génèrent fréquemment des appels API inexistants
  3. Compréhension de la configuration: Les LLMs ont du mal à distinguer la configuration de flux de travail du code de tâche
  4. Spécificité du système: Les performances dépendent fortement de la disponibilité de la documentation pour les systèmes de flux de travail spécifiques

Directions futures

  1. Génération augmentée par récupération (RAG): Combinaison de bases de connaissances externes pour améliorer les performances des LLMs
  2. Ajustement fin: Ajustement spécialisé des modèles pour les flux de travail scientifiques
  3. Correction d'erreurs itérative: Introduction de mécanismes de détection et de correction d'erreurs automatiques
  4. Intégration multimodale: Combinaison de code, documentation et informations visuelles

Évaluation approfondie

Points forts

  1. Évaluation systématique: Première évaluation complète des LLMs dans le domaine des flux de travail scientifiques
  2. Analyse multidimensionnelle: Couverture de trois tâches clés (configuration, annotation, traduction)
  3. Valeur pratique: Fournit des références de valeur pour les développeurs et utilisateurs de flux de travail
  4. Rigueur méthodologique: Conception expérimentale appropriée, métriques d'évaluation adéquates, résultats reproductibles

Insuffisances

  1. Portée d'évaluation: Couverture de seulement trois types de tâches de flux de travail, potentiellement insuffisante
  2. Taille de l'ensemble de données: Échelle expérimentale relativement petite, pouvant affecter la généralité des conclusions
  3. Analyse approfondie: L'analyse des causes d'échec des LLMs n'est pas suffisamment approfondie
  4. Déploiement pratique: Absence de validation dans des environnements de calcul scientifique réels

Impact

  1. Contribution académique: Fournit des références importantes pour l'application des LLMs dans le domaine du calcul scientifique
  2. Valeur pratique: Aide les chercheurs à comprendre les limites des LLMs dans les tâches de flux de travail
  3. Recherche future: Indique les directions pour améliorer l'application des LLMs dans les flux de travail scientifiques

Scénarios d'application

  1. Développement de systèmes de flux de travail: Fournit des références pour l'intégration de fonctionnalités assistées par LLM
  2. Éducation en calcul scientifique: Aide à comprendre les limitations des LLMs dans les domaines spécialisés
  3. Développement d'outils HPC: Fournit une base pour développer des outils de calcul scientifique intelligents

Références

Cette recherche cite 33 articles connexes, couvrant des travaux importants dans plusieurs domaines incluant les flux de travail scientifiques, les grands modèles de langage et HPC, fournissant une base théorique solide pour la recherche.


Résumé: Cet article de recherche est d'une importance pionnière, évaluant systématiquement pour la première fois les capacités des grands modèles de langage dans le domaine des flux de travail scientifiques. La recherche révèle des limitations significatives des LLMs, tout en démontrant la possibilité d'améliorer les performances grâce à des techniques appropriées (comme le few-shot prompting), jetant les bases pour les recherches futures dans ce domaine important.