Can Large Language Models Improve SE Active Learning via Warm-Starts?
Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic
¿Pueden los Modelos de Lenguaje Grande Mejorar el Aprendizaje Activo en IS mediante Inicios Cálidos?
Cuando los datos de ingeniería de software (IS) son escasos, los "aprendices activos" utilizan modelos aprendidos a partir de pocas muestras de datos para identificar el siguiente ejemplo más informativo para anotar. De esta manera, es posible generar modelos efectivos utilizando muy pocos datos. Para tareas de ingeniería de software multiobjetivo, el aprendizaje activo puede beneficiarse de un conjunto de conjeturas iniciales efectivas (también denominadas "inicios cálidos"). Este artículo explora el uso de modelos de lenguaje grande (LLMs) para crear inicios cálidos y compara los resultados con modelos de procesos gaussianos y estimadores de árbol de Parzen. En 49 tareas de IS, los inicios cálidos generados por LLM mejoraron significativamente el desempeño en tareas de baja y media dimensionalidad. Sin embargo, la efectividad del LLM disminuye en problemas de alta dimensionalidad, donde los métodos bayesianos como los procesos gaussianos funcionan mejor.
Escasez de Datos: Existen tres clases de problemas de recopilación de datos en el dominio de IS:
Recopilación de datos ingenua o errónea: Como errores de anotación de "falsos positivos" superiores al 90% en predicción de defectos
Especificidad de la recopilación de datos: Las variables independientes x son fáciles de obtener, pero el costo de anotación de la variable dependiente y es elevado
Velocidad lenta de anotación por expertos: Los expertos en la materia (SME) solo pueden anotar 10-20 muestras de alta calidad por hora
Limitaciones de Métodos Existentes:
Los algoritmos de optimización tradicionales requieren grandes cantidades de datos anotados
Este artículo propone utilizar el conocimiento de fondo de los LLMs para generar mejores conjeturas iniciales (inicios cálidos) con el fin de mejorar el desempeño del aprendizaje activo en tareas de optimización multiobjetivo de IS.
E0 (anotación aleatoria inicial) → ordenamiento (mejor a peor) →
aprendizaje con pocos ejemplos del LLM → generación de E1 (muestras sintéticas) →
mapeo de vecino más cercano a E2 → inicio cálido del aprendizaje activo
Capacidad de Análisis Geométrico Multidimensional: Los LLMs pueden realizar análisis multidimensionales similares a PCA, identificar dimensiones más importantes y realizar extrapolación
Utilización de Conocimiento de Fondo: Despierta el conocimiento del dominio relevante del LLM a través de nombres de atributos
Estrategia de Mapeo del Vecino Más Cercano: Mapea muestras sintéticas generadas por el LLM al espacio de datos reales
Conclusión: El aprendizaje activo supera al método aleatorio
Evidencia: La mayoría de las ganancias de optimización se logran dentro de 30 anotaciones; el método puramente aleatorio no obtiene el rango más alto en ninguna categoría de dimensionalidad
Efecto de Dimensionalidad: Los LLMs funcionan excepcionalmente bien en problemas de baja y media dimensionalidad, pero la efectividad disminuye en problemas de alta dimensionalidad
Sensibilidad de Función de Adquisición: Los LLMs funcionan mejor cuando se emparejan con exploit, pero peor cuando se emparejan con explore
Eficiencia Computacional: El método TPE se ejecuta significativamente más rápido que los métodos GPM o LLM
Tomando el conjunto de datos SS-A como ejemplo, LLM/exploit obtiene el rango más alto (rango 0) bajo diferentes presupuestos, con una distancia de Chebyshev mediana de 0.07-0.08, significativamente mejor que la línea base de 0.18.
El artículo cita 87 referencias relacionadas, abarcando múltiples campos como aprendizaje activo, optimización multiobjetivo, ingeniería de software y modelos de lenguaje grande, proporcionando una base teórica sólida para la investigación.
Resumen: Este es un artículo de investigación innovador en el campo de la optimización de ingeniería de software que explora sistemáticamente por primera vez la aplicación de LLMs en inicios cálidos de aprendizaje activo. Aunque tiene algunas limitaciones, su validación experimental a gran escala y valor práctico lo convierten en una contribución importante en este campo.