2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka

With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.

academic

¿Hablan los Modelos de Lenguaje Grande sobre Flujos de Trabajo Científicos?

Información Básica

ID del Artículo: 2412.10606
Título: Do Large Language Models Speak Scientific Workflows?
Autores: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
Clasificación: cs.HC (Interacción Humano-Computadora)
Conferencia de Publicación: SC-W'25 (Talleres de la Conferencia Internacional sobre Computación de Alto Rendimiento, Almacenamiento y Análisis de Redes)
Enlace del Artículo: https://arxiv.org/abs/2412.10606

Resumen

Con la emergencia de los modelos de lenguaje grande (LLMs), el interés en aplicar LLMs a tareas científicas ha crecido considerablemente. Esta investigación explora experimentalmente la aplicabilidad de los LLMs en la configuración, anotación y traducción de flujos de trabajo científicos. El estudio evalúa múltiples modelos de lenguaje de código abierto y cerrado en sistemas de flujos de trabajo de última generación utilizando tres experimentos diferentes específicos para flujos de trabajo. Los hallazgos revelan que los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento sobre flujos de trabajo científicos, y su desempeño varía entre diferentes experimentos y sistemas de flujos de trabajo.

Antecedentes de Investigación y Motivación

Definición del Problema

Los flujos de trabajo científicos desempeñan un papel importante en entornos de computación de alto rendimiento (HPC), consistiendo en una serie de tareas que colaboran mutuamente, trabajando de manera coordinada en programación y comunicación. Sin embargo, muchos científicos encuentran que los sistemas de flujos de trabajo son difíciles de usar, optando frecuentemente por ejecutar tareas manualmente o desarrollar sus propias soluciones de flujos de trabajo.

Importancia de la Investigación

Desafíos de Usabilidad: La complejidad de los sistemas de flujos de trabajo científicos obstaculiza la adopción generalizada
Curva de Aprendizaje: Incluso con la adopción de sistemas de flujos de trabajo genéricos, los científicos a menudo carecen de comprensión de estos sistemas
Potencial de LLM: Los modelos de lenguaje grande podrían ayudar a resolver estos desafíos, pero se requiere comprender sus capacidades en flujos de trabajo HPC

Limitaciones de Enfoques Existentes

La investigación existente se enfoca principalmente en tareas específicas relacionadas con HPC, como generación de código, anotación y respuesta a consultas
Falta de investigación integral sobre la aplicabilidad generalizada de los LLMs en sistemas de flujos de trabajo completos
Ausencia de evaluación sistemática del desempeño de los LLMs en tareas específicas de flujos de trabajo científicos

Contribuciones Principales

Primera Evaluación Sistemática: Evaluación experimental integral de las capacidades de múltiples LLMs en tareas de flujos de trabajo científicos
Diseño Experimental Multidimensional: Diseño de tres tipos diferentes de experimentos específicos para flujos de trabajo (configuración, anotación, traducción)
Evaluación Multisistema: Evaluación en cinco sistemas de flujos de trabajo de última generación
Puntos de Referencia de Desempeño: Establecimiento de puntos de referencia de desempeño para LLMs en tareas de flujos de trabajo científicos
Estrategias de Mejora: Exploración de técnicas como few-shot prompting para mejorar el desempeño de LLM

Detalles Metodológicos

Definición de Tareas

La investigación define tres tareas principales:

Configuración de Flujos de Trabajo: Generación de scripts de configuración de flujos de trabajo basados en entrada en lenguaje natural
Anotación de Código de Tareas: Anotación automática del código de tareas del usuario para adaptarse a sistemas de flujos de trabajo
Traducción de Código de Tareas: Traducción de código de tareas anotado entre diferentes sistemas de flujos de trabajo

Marco de Evaluación

Selección de LLMs

o3: Modelo de código cerrado de OpenAI con capacidades de razonamiento sólidas
Claude-Sonnet-4: Modelo de razonamiento híbrido desarrollado por Anthropic
Gemini-2.5-Pro: Modelo avanzado de Google con capacidades sólidas de razonamiento y codificación
LLaMA-3.3-70B-Instruct: Modelo de código abierto de Meta con 70 mil millones de parámetros

Sistemas de Flujos de Trabajo

ADIOS2: Biblioteca de E/S flexible y middleware para código científico
Henson: Sistema colaborativo multitarea para procesamiento in situ
Parsl: Biblioteca de programación paralela en Python que admite ejecución basada en tareas
PyCOMPSs: Modelo de programación basado en tareas
Wilkins: Sistema de flujos de trabajo in situ que admite especificación de tareas heterogéneas dinámicas

Métricas de Evaluación

BLEU: Métrica de evaluación de traducción automática basada en precisión de n-gramas
ChrF: Métrica de evaluación basada en caracteres que calcula precisión y recuperación de n-gramas de caracteres

Diseño Experimental

Experimento de Configuración de Flujos de Trabajo

Los usuarios proporcionan una descripción en lenguaje natural, y los LLMs generan el archivo de configuración de flujos de trabajo correspondiente. Por ejemplo:

Indicación del Usuario: Quiero un flujo de trabajo de 3 nodos que incluya una tarea productora 
y dos tareas consumidoras. El productor genera conjuntos de datos de malla y partículas. 
consumer1 lee la malla, consumer2 lee el conjunto de datos de partículas. 
El productor necesita 3 procesos, cada consumidor se ejecuta en un solo proceso. 
Por favor, proporcione el archivo de configuración del flujo de trabajo para el sistema Wilkins.

Experimento de Anotación de Código de Tareas

Se proporciona código productor simple en C, solicitando a los LLMs que agreguen anotaciones de llamadas API del sistema de flujos de trabajo relevantes.

Experimento de Traducción de Código de Tareas

Se proporciona código de tarea anotado de un sistema de flujos de trabajo, solicitando a los LLMs que traduzcan a código de otro sistema de flujos de trabajo.

Configuración Experimental

Entorno Experimental

Hardware: Apple M1 Max, CPU de 10 núcleos, GPU de 24 núcleos, memoria unificada de 32GB
Marco: Uso del marco Inspect AI para experimentos
Repeticiones: Cada experimento se repite 5 veces para reducir la variabilidad de respuestas de LLM
Configuración de Parámetros: temperature=0.2, top_p=0.95

Evaluación de Estrategias de Indicación

Se diseñaron cinco variantes de indicación diferentes:

Indicación original
Estilos diferentes
Paráfrasis
Reordenamiento
Indicación detallada (incluyendo detalles técnicos)

Resultados Experimentales

Resultados Principales

Experimento de Configuración de Flujos de Trabajo

LLM	ADIOS2	Henson	Wilkins	General
o3	59.1±2.3	20.2±2.3	30.0±1.5	36.5±4.5
Gemini-2.5-Pro	73.0±1.8	26.9±1.9	31.6±3.4	43.8±5.7
Claude-Sonnet-4	72.1±0.0	25.0±0.0	36.8±0.8	44.6±5.3
LLaMA-3.3-70B	35.9±0.7	27.7±1.0	39.0±0.0	34.2±1.3

Experimento de Anotación de Código de Tareas

LLM	ADIOS2	Henson	PyCOMPSs	Parsl	General
Gemini-2.5-Pro	51.9±0.7	42.7±9.4	89.3±3.1	35.6±6.3	54.9±5.5
o3	60.3±2.1	38.1±5.0	72.4±1.8	39.3±6.0	52.8±4.1

Experimento de Traducción de Código de Tareas

Dirección de Traducción	LLM Óptimo	Puntuación BLEU
Henson→ADIOS2	o3	56.2±2.1
ADIOS2→Henson	Gemini-2.5-Pro	35.4±1.6
Parsl→PyCOMPSs	Gemini-2.5-Pro	78.4±7.5
PyCOMPSs→Parsl	Gemini-2.5-Pro	39.7±3.3

Hallazgos Clave

Diferencias de Sistema: Los LLMs funcionan mejor en sistemas con documentación abundante como ADIOS2 y PyCOMPSs
Diferencias de Tareas: El desempeño general de tareas de anotación de código supera la generación de configuración
Diferencias de Modelos: Ningún modelo individual funciona consistentemente mejor en todas las tareas
Problema de Alucinación: Los LLMs frecuentemente generan llamadas API o campos de configuración inexistentes

Efecto de Few-shot Prompting

LLM	Zero-shot	Few-shot	Magnitud de Mejora
o3	36.5±4.5	89.3±2.7	+144%
Gemini-2.5-Pro	43.8±5.7	86.7±2.3	+98%
Claude-Sonnet-4	44.6±5.3	91.5±3.0	+105%
LLaMA-3.3-70B	34.2±1.3	84.1±2.1	+146%

Trabajo Relacionado

Investigación en Flujos de Trabajo Científicos

Flujos de Trabajo Distribuidos: Se ejecutan en múltiples sistemas independientes, intercambiando datos mediante archivos
Flujos de Trabajo In Situ: Se ejecutan dentro de un único sistema HPC, con tareas ejecutándose concurrentemente e intercambiando datos a través de memoria

Aplicaciones de LLMs en HPC

Duque et al. exploran el uso de LLMs para construir y ejecutar flujos de trabajo
Sanger et al. investigan la aplicabilidad de GPT-3.5 en la comprensión, modificación y extensión de flujos de trabajo científicos
Esta investigación utiliza modelos más recientes y proporciona una cobertura más amplia de sistemas de flujos de trabajo y tareas científicas

Conclusiones y Discusión

Conclusiones Principales

Falta de Conocimiento: Los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento en el dominio de flujos de trabajo científicos
Variabilidad de Desempeño: El desempeño de los LLMs varía significativamente entre diferentes experimentos y sistemas de flujos de trabajo
Importancia del Contexto: El few-shot prompting mejora significativamente el desempeño de los LLMs
Dependencia del Sistema: Los sistemas con documentación abundante (como ADIOS2 y PyCOMPSs) reciben mejor soporte de LLM

Limitaciones

Restricciones de Datos de Entrenamiento: La documentación de flujos de trabajo científicos es relativamente escasa en los datos de entrenamiento de LLM
Alucinación de API: Los LLMs frecuentemente generan llamadas API inexistentes
Comprensión de Configuración: Los LLMs tienen dificultad para distinguir entre configuración de flujos de trabajo y código de tareas
Especificidad del Sistema: El desempeño depende altamente de la disponibilidad de documentación del sistema de flujos de trabajo específico

Direcciones Futuras

Generación Aumentada por Recuperación (RAG): Combinar bases de conocimiento externas para mejorar el desempeño de LLM
Ajuste Fino: Ajuste especializado de modelos para flujos de trabajo científicos
Corrección de Errores Iterativa: Introducir mecanismos automáticos de detección y corrección de errores
Integración Multimodal: Combinar información de código, documentación y visualización

Evaluación Profunda

Fortalezas

Evaluación Sistemática: Primera evaluación integral de LLMs en el dominio de flujos de trabajo científicos
Análisis Multidimensional: Cubre tres tareas clave: configuración, anotación y traducción
Valor Práctico: Proporciona puntos de referencia valiosos para desarrolladores y usuarios de flujos de trabajo
Rigor Metodológico: Diseño experimental sólido, métricas de evaluación apropiadas y resultados reproducibles

Deficiencias

Alcance de Evaluación: Cubre solo tres tipos de tareas de flujos de trabajo, posiblemente insuficiente
Tamaño del Conjunto de Datos: La escala experimental es relativamente pequeña, lo que podría afectar la generalización de conclusiones
Análisis Profundo: El análisis de las razones del fracaso de LLM aún no es suficientemente profundo
Implementación Práctica: Falta validación en entornos reales de computación científica

Impacto

Contribución Académica: Proporciona puntos de referencia importantes para la aplicación de LLMs en computación científica
Valor Práctico: Ayuda a los investigadores a comprender los límites de capacidad de los LLMs en tareas de flujos de trabajo
Investigación Futura: Señala direcciones para mejorar la aplicación de LLMs en flujos de trabajo científicos

Escenarios Aplicables

Desarrollo de Sistemas de Flujos de Trabajo: Proporciona referencias para integrar funcionalidades asistidas por LLM
Educación en Computación Científica: Ayuda a comprender las limitaciones de LLM en dominios especializados
Desarrollo de Herramientas HPC: Proporciona base para desarrollar herramientas de computación científica inteligentes

Referencias

Esta investigación cita 33 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo flujos de trabajo científicos, modelos de lenguaje grande y HPC, proporcionando una base teórica sólida para la investigación.

Resumen: Este es un artículo de investigación de importancia pionera que evalúa sistemáticamente por primera vez las capacidades de los modelos de lenguaje grande en el dominio de flujos de trabajo científicos. La investigación identifica limitaciones significativas de los LLMs, mientras demuestra la posibilidad de mejorar el desempeño mediante técnicas apropiadas (como few-shot prompting), sentando las bases para investigación futura en este importante campo.