Do Large Language Models Speak Scientific Workflows?
Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic
¿Hablan los Modelos de Lenguaje Grande sobre Flujos de Trabajo Científicos?
Conferencia de Publicación: SC-W'25 (Talleres de la Conferencia Internacional sobre Computación de Alto Rendimiento, Almacenamiento y Análisis de Redes)
Con la emergencia de los modelos de lenguaje grande (LLMs), el interés en aplicar LLMs a tareas científicas ha crecido considerablemente. Esta investigación explora experimentalmente la aplicabilidad de los LLMs en la configuración, anotación y traducción de flujos de trabajo científicos. El estudio evalúa múltiples modelos de lenguaje de código abierto y cerrado en sistemas de flujos de trabajo de última generación utilizando tres experimentos diferentes específicos para flujos de trabajo. Los hallazgos revelan que los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento sobre flujos de trabajo científicos, y su desempeño varía entre diferentes experimentos y sistemas de flujos de trabajo.
Los flujos de trabajo científicos desempeñan un papel importante en entornos de computación de alto rendimiento (HPC), consistiendo en una serie de tareas que colaboran mutuamente, trabajando de manera coordinada en programación y comunicación. Sin embargo, muchos científicos encuentran que los sistemas de flujos de trabajo son difíciles de usar, optando frecuentemente por ejecutar tareas manualmente o desarrollar sus propias soluciones de flujos de trabajo.
Desafíos de Usabilidad: La complejidad de los sistemas de flujos de trabajo científicos obstaculiza la adopción generalizada
Curva de Aprendizaje: Incluso con la adopción de sistemas de flujos de trabajo genéricos, los científicos a menudo carecen de comprensión de estos sistemas
Potencial de LLM: Los modelos de lenguaje grande podrían ayudar a resolver estos desafíos, pero se requiere comprender sus capacidades en flujos de trabajo HPC
La investigación existente se enfoca principalmente en tareas específicas relacionadas con HPC, como generación de código, anotación y respuesta a consultas
Falta de investigación integral sobre la aplicabilidad generalizada de los LLMs en sistemas de flujos de trabajo completos
Ausencia de evaluación sistemática del desempeño de los LLMs en tareas específicas de flujos de trabajo científicos
Primera Evaluación Sistemática: Evaluación experimental integral de las capacidades de múltiples LLMs en tareas de flujos de trabajo científicos
Diseño Experimental Multidimensional: Diseño de tres tipos diferentes de experimentos específicos para flujos de trabajo (configuración, anotación, traducción)
Evaluación Multisistema: Evaluación en cinco sistemas de flujos de trabajo de última generación
Puntos de Referencia de Desempeño: Establecimiento de puntos de referencia de desempeño para LLMs en tareas de flujos de trabajo científicos
Estrategias de Mejora: Exploración de técnicas como few-shot prompting para mejorar el desempeño de LLM
Los usuarios proporcionan una descripción en lenguaje natural, y los LLMs generan el archivo de configuración de flujos de trabajo correspondiente. Por ejemplo:
Indicación del Usuario: Quiero un flujo de trabajo de 3 nodos que incluya una tarea productora
y dos tareas consumidoras. El productor genera conjuntos de datos de malla y partículas.
consumer1 lee la malla, consumer2 lee el conjunto de datos de partículas.
El productor necesita 3 procesos, cada consumidor se ejecuta en un solo proceso.
Por favor, proporcione el archivo de configuración del flujo de trabajo para el sistema Wilkins.
Se proporciona código productor simple en C, solicitando a los LLMs que agreguen anotaciones de llamadas API del sistema de flujos de trabajo relevantes.
Se proporciona código de tarea anotado de un sistema de flujos de trabajo, solicitando a los LLMs que traduzcan a código de otro sistema de flujos de trabajo.
Flujos de Trabajo Distribuidos: Se ejecutan en múltiples sistemas independientes, intercambiando datos mediante archivos
Flujos de Trabajo In Situ: Se ejecutan dentro de un único sistema HPC, con tareas ejecutándose concurrentemente e intercambiando datos a través de memoria
Falta de Conocimiento: Los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento en el dominio de flujos de trabajo científicos
Variabilidad de Desempeño: El desempeño de los LLMs varía significativamente entre diferentes experimentos y sistemas de flujos de trabajo
Importancia del Contexto: El few-shot prompting mejora significativamente el desempeño de los LLMs
Dependencia del Sistema: Los sistemas con documentación abundante (como ADIOS2 y PyCOMPSs) reciben mejor soporte de LLM
Restricciones de Datos de Entrenamiento: La documentación de flujos de trabajo científicos es relativamente escasa en los datos de entrenamiento de LLM
Alucinación de API: Los LLMs frecuentemente generan llamadas API inexistentes
Comprensión de Configuración: Los LLMs tienen dificultad para distinguir entre configuración de flujos de trabajo y código de tareas
Especificidad del Sistema: El desempeño depende altamente de la disponibilidad de documentación del sistema de flujos de trabajo específico
Esta investigación cita 33 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo flujos de trabajo científicos, modelos de lenguaje grande y HPC, proporcionando una base teórica sólida para la investigación.
Resumen: Este es un artículo de investigación de importancia pionera que evalúa sistemáticamente por primera vez las capacidades de los modelos de lenguaje grande en el dominio de flujos de trabajo científicos. La investigación identifica limitaciones significativas de los LLMs, mientras demuestra la posibilidad de mejorar el desempeño mediante técnicas apropiadas (como few-shot prompting), sentando las bases para investigación futura en este importante campo.