2025-11-20T10:52:18.218124

Do Large Language Models Speak Scientific Workflows?

Yildiz, Peterka
With the advent of large language models (LLMs), there is a growing interest in applying LLMs to scientific tasks. In this work, we conduct an experimental study to explore applicability of LLMs for configuring, annotating, translating, explaining, and generating scientific workflows. We use 5 different workflow specific experiments and evaluate several open- and closed-source language models using state-of-the-art workflow systems. Our studies reveal that LLMs often struggle with workflow related tasks due to their lack of knowledge of scientific workflows. We further observe that the performance of LLMs varies across experiments and workflow systems. Our findings can help workflow developers and users in understanding LLMs capabilities in scientific workflows, and motivate further research applying LLMs to workflows.
academic

¿Hablan los Modelos de Lenguaje Grande sobre Flujos de Trabajo Científicos?

Información Básica

  • ID del Artículo: 2412.10606
  • Título: Do Large Language Models Speak Scientific Workflows?
  • Autores: Orcun Yildiz (Argonne National Laboratory), Tom Peterka (Argonne National Laboratory)
  • Clasificación: cs.HC (Interacción Humano-Computadora)
  • Conferencia de Publicación: SC-W'25 (Talleres de la Conferencia Internacional sobre Computación de Alto Rendimiento, Almacenamiento y Análisis de Redes)
  • Enlace del Artículo: https://arxiv.org/abs/2412.10606

Resumen

Con la emergencia de los modelos de lenguaje grande (LLMs), el interés en aplicar LLMs a tareas científicas ha crecido considerablemente. Esta investigación explora experimentalmente la aplicabilidad de los LLMs en la configuración, anotación y traducción de flujos de trabajo científicos. El estudio evalúa múltiples modelos de lenguaje de código abierto y cerrado en sistemas de flujos de trabajo de última generación utilizando tres experimentos diferentes específicos para flujos de trabajo. Los hallazgos revelan que los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento sobre flujos de trabajo científicos, y su desempeño varía entre diferentes experimentos y sistemas de flujos de trabajo.

Antecedentes de Investigación y Motivación

Definición del Problema

Los flujos de trabajo científicos desempeñan un papel importante en entornos de computación de alto rendimiento (HPC), consistiendo en una serie de tareas que colaboran mutuamente, trabajando de manera coordinada en programación y comunicación. Sin embargo, muchos científicos encuentran que los sistemas de flujos de trabajo son difíciles de usar, optando frecuentemente por ejecutar tareas manualmente o desarrollar sus propias soluciones de flujos de trabajo.

Importancia de la Investigación

  1. Desafíos de Usabilidad: La complejidad de los sistemas de flujos de trabajo científicos obstaculiza la adopción generalizada
  2. Curva de Aprendizaje: Incluso con la adopción de sistemas de flujos de trabajo genéricos, los científicos a menudo carecen de comprensión de estos sistemas
  3. Potencial de LLM: Los modelos de lenguaje grande podrían ayudar a resolver estos desafíos, pero se requiere comprender sus capacidades en flujos de trabajo HPC

Limitaciones de Enfoques Existentes

  • La investigación existente se enfoca principalmente en tareas específicas relacionadas con HPC, como generación de código, anotación y respuesta a consultas
  • Falta de investigación integral sobre la aplicabilidad generalizada de los LLMs en sistemas de flujos de trabajo completos
  • Ausencia de evaluación sistemática del desempeño de los LLMs en tareas específicas de flujos de trabajo científicos

Contribuciones Principales

  1. Primera Evaluación Sistemática: Evaluación experimental integral de las capacidades de múltiples LLMs en tareas de flujos de trabajo científicos
  2. Diseño Experimental Multidimensional: Diseño de tres tipos diferentes de experimentos específicos para flujos de trabajo (configuración, anotación, traducción)
  3. Evaluación Multisistema: Evaluación en cinco sistemas de flujos de trabajo de última generación
  4. Puntos de Referencia de Desempeño: Establecimiento de puntos de referencia de desempeño para LLMs en tareas de flujos de trabajo científicos
  5. Estrategias de Mejora: Exploración de técnicas como few-shot prompting para mejorar el desempeño de LLM

Detalles Metodológicos

Definición de Tareas

La investigación define tres tareas principales:

  1. Configuración de Flujos de Trabajo: Generación de scripts de configuración de flujos de trabajo basados en entrada en lenguaje natural
  2. Anotación de Código de Tareas: Anotación automática del código de tareas del usuario para adaptarse a sistemas de flujos de trabajo
  3. Traducción de Código de Tareas: Traducción de código de tareas anotado entre diferentes sistemas de flujos de trabajo

Marco de Evaluación

Selección de LLMs

  • o3: Modelo de código cerrado de OpenAI con capacidades de razonamiento sólidas
  • Claude-Sonnet-4: Modelo de razonamiento híbrido desarrollado por Anthropic
  • Gemini-2.5-Pro: Modelo avanzado de Google con capacidades sólidas de razonamiento y codificación
  • LLaMA-3.3-70B-Instruct: Modelo de código abierto de Meta con 70 mil millones de parámetros

Sistemas de Flujos de Trabajo

  • ADIOS2: Biblioteca de E/S flexible y middleware para código científico
  • Henson: Sistema colaborativo multitarea para procesamiento in situ
  • Parsl: Biblioteca de programación paralela en Python que admite ejecución basada en tareas
  • PyCOMPSs: Modelo de programación basado en tareas
  • Wilkins: Sistema de flujos de trabajo in situ que admite especificación de tareas heterogéneas dinámicas

Métricas de Evaluación

  • BLEU: Métrica de evaluación de traducción automática basada en precisión de n-gramas
  • ChrF: Métrica de evaluación basada en caracteres que calcula precisión y recuperación de n-gramas de caracteres

Diseño Experimental

Experimento de Configuración de Flujos de Trabajo

Los usuarios proporcionan una descripción en lenguaje natural, y los LLMs generan el archivo de configuración de flujos de trabajo correspondiente. Por ejemplo:

Indicación del Usuario: Quiero un flujo de trabajo de 3 nodos que incluya una tarea productora 
y dos tareas consumidoras. El productor genera conjuntos de datos de malla y partículas. 
consumer1 lee la malla, consumer2 lee el conjunto de datos de partículas. 
El productor necesita 3 procesos, cada consumidor se ejecuta en un solo proceso. 
Por favor, proporcione el archivo de configuración del flujo de trabajo para el sistema Wilkins.

Experimento de Anotación de Código de Tareas

Se proporciona código productor simple en C, solicitando a los LLMs que agreguen anotaciones de llamadas API del sistema de flujos de trabajo relevantes.

Experimento de Traducción de Código de Tareas

Se proporciona código de tarea anotado de un sistema de flujos de trabajo, solicitando a los LLMs que traduzcan a código de otro sistema de flujos de trabajo.

Configuración Experimental

Entorno Experimental

  • Hardware: Apple M1 Max, CPU de 10 núcleos, GPU de 24 núcleos, memoria unificada de 32GB
  • Marco: Uso del marco Inspect AI para experimentos
  • Repeticiones: Cada experimento se repite 5 veces para reducir la variabilidad de respuestas de LLM
  • Configuración de Parámetros: temperature=0.2, top_p=0.95

Evaluación de Estrategias de Indicación

Se diseñaron cinco variantes de indicación diferentes:

  1. Indicación original
  2. Estilos diferentes
  3. Paráfrasis
  4. Reordenamiento
  5. Indicación detallada (incluyendo detalles técnicos)

Resultados Experimentales

Resultados Principales

Experimento de Configuración de Flujos de Trabajo

LLMADIOS2HensonWilkinsGeneral
o359.1±2.320.2±2.330.0±1.536.5±4.5
Gemini-2.5-Pro73.0±1.826.9±1.931.6±3.443.8±5.7
Claude-Sonnet-472.1±0.025.0±0.036.8±0.844.6±5.3
LLaMA-3.3-70B35.9±0.727.7±1.039.0±0.034.2±1.3

Experimento de Anotación de Código de Tareas

LLMADIOS2HensonPyCOMPSsParslGeneral
Gemini-2.5-Pro51.9±0.742.7±9.489.3±3.135.6±6.354.9±5.5
o360.3±2.138.1±5.072.4±1.839.3±6.052.8±4.1

Experimento de Traducción de Código de Tareas

Dirección de TraducciónLLM ÓptimoPuntuación BLEU
Henson→ADIOS2o356.2±2.1
ADIOS2→HensonGemini-2.5-Pro35.4±1.6
Parsl→PyCOMPSsGemini-2.5-Pro78.4±7.5
PyCOMPSs→ParslGemini-2.5-Pro39.7±3.3

Hallazgos Clave

  1. Diferencias de Sistema: Los LLMs funcionan mejor en sistemas con documentación abundante como ADIOS2 y PyCOMPSs
  2. Diferencias de Tareas: El desempeño general de tareas de anotación de código supera la generación de configuración
  3. Diferencias de Modelos: Ningún modelo individual funciona consistentemente mejor en todas las tareas
  4. Problema de Alucinación: Los LLMs frecuentemente generan llamadas API o campos de configuración inexistentes

Efecto de Few-shot Prompting

LLMZero-shotFew-shotMagnitud de Mejora
o336.5±4.589.3±2.7+144%
Gemini-2.5-Pro43.8±5.786.7±2.3+98%
Claude-Sonnet-444.6±5.391.5±3.0+105%
LLaMA-3.3-70B34.2±1.384.1±2.1+146%

Trabajo Relacionado

Investigación en Flujos de Trabajo Científicos

  • Flujos de Trabajo Distribuidos: Se ejecutan en múltiples sistemas independientes, intercambiando datos mediante archivos
  • Flujos de Trabajo In Situ: Se ejecutan dentro de un único sistema HPC, con tareas ejecutándose concurrentemente e intercambiando datos a través de memoria

Aplicaciones de LLMs en HPC

  • Duque et al. exploran el uso de LLMs para construir y ejecutar flujos de trabajo
  • Sanger et al. investigan la aplicabilidad de GPT-3.5 en la comprensión, modificación y extensión de flujos de trabajo científicos
  • Esta investigación utiliza modelos más recientes y proporciona una cobertura más amplia de sistemas de flujos de trabajo y tareas científicas

Conclusiones y Discusión

Conclusiones Principales

  1. Falta de Conocimiento: Los LLMs frecuentemente encuentran dificultades debido a la falta de datos de entrenamiento en el dominio de flujos de trabajo científicos
  2. Variabilidad de Desempeño: El desempeño de los LLMs varía significativamente entre diferentes experimentos y sistemas de flujos de trabajo
  3. Importancia del Contexto: El few-shot prompting mejora significativamente el desempeño de los LLMs
  4. Dependencia del Sistema: Los sistemas con documentación abundante (como ADIOS2 y PyCOMPSs) reciben mejor soporte de LLM

Limitaciones

  1. Restricciones de Datos de Entrenamiento: La documentación de flujos de trabajo científicos es relativamente escasa en los datos de entrenamiento de LLM
  2. Alucinación de API: Los LLMs frecuentemente generan llamadas API inexistentes
  3. Comprensión de Configuración: Los LLMs tienen dificultad para distinguir entre configuración de flujos de trabajo y código de tareas
  4. Especificidad del Sistema: El desempeño depende altamente de la disponibilidad de documentación del sistema de flujos de trabajo específico

Direcciones Futuras

  1. Generación Aumentada por Recuperación (RAG): Combinar bases de conocimiento externas para mejorar el desempeño de LLM
  2. Ajuste Fino: Ajuste especializado de modelos para flujos de trabajo científicos
  3. Corrección de Errores Iterativa: Introducir mecanismos automáticos de detección y corrección de errores
  4. Integración Multimodal: Combinar información de código, documentación y visualización

Evaluación Profunda

Fortalezas

  1. Evaluación Sistemática: Primera evaluación integral de LLMs en el dominio de flujos de trabajo científicos
  2. Análisis Multidimensional: Cubre tres tareas clave: configuración, anotación y traducción
  3. Valor Práctico: Proporciona puntos de referencia valiosos para desarrolladores y usuarios de flujos de trabajo
  4. Rigor Metodológico: Diseño experimental sólido, métricas de evaluación apropiadas y resultados reproducibles

Deficiencias

  1. Alcance de Evaluación: Cubre solo tres tipos de tareas de flujos de trabajo, posiblemente insuficiente
  2. Tamaño del Conjunto de Datos: La escala experimental es relativamente pequeña, lo que podría afectar la generalización de conclusiones
  3. Análisis Profundo: El análisis de las razones del fracaso de LLM aún no es suficientemente profundo
  4. Implementación Práctica: Falta validación en entornos reales de computación científica

Impacto

  1. Contribución Académica: Proporciona puntos de referencia importantes para la aplicación de LLMs en computación científica
  2. Valor Práctico: Ayuda a los investigadores a comprender los límites de capacidad de los LLMs en tareas de flujos de trabajo
  3. Investigación Futura: Señala direcciones para mejorar la aplicación de LLMs en flujos de trabajo científicos

Escenarios Aplicables

  1. Desarrollo de Sistemas de Flujos de Trabajo: Proporciona referencias para integrar funcionalidades asistidas por LLM
  2. Educación en Computación Científica: Ayuda a comprender las limitaciones de LLM en dominios especializados
  3. Desarrollo de Herramientas HPC: Proporciona base para desarrollar herramientas de computación científica inteligentes

Referencias

Esta investigación cita 33 referencias relacionadas, abarcando trabajos importantes en múltiples campos incluyendo flujos de trabajo científicos, modelos de lenguaje grande y HPC, proporcionando una base teórica sólida para la investigación.


Resumen: Este es un artículo de investigación de importancia pionera que evalúa sistemáticamente por primera vez las capacidades de los modelos de lenguaje grande en el dominio de flujos de trabajo científicos. La investigación identifica limitaciones significativas de los LLMs, mientras demuestra la posibilidad de mejorar el desempeño mediante técnicas apropiadas (como few-shot prompting), sentando las bases para investigación futura en este importante campo.