2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

¿Pueden los Modelos de Lenguaje Grande Mejorar el Aprendizaje Activo en IS mediante Inicios Cálidos?

Información Básica

ID del Artículo: 2501.00125
Título: Can Large Language Models Improve SE Active Learning via Warm-Starts?
Autores: Lohith Senthilkumar, Tim Menzies (NC State University)
Clasificación: cs.SE (Ingeniería de Software)
Fecha de Publicación: 30 de diciembre de 2024 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.00125

Resumen

Cuando los datos de ingeniería de software (IS) son escasos, los "aprendices activos" utilizan modelos aprendidos a partir de pocas muestras de datos para identificar el siguiente ejemplo más informativo para anotar. De esta manera, es posible generar modelos efectivos utilizando muy pocos datos. Para tareas de ingeniería de software multiobjetivo, el aprendizaje activo puede beneficiarse de un conjunto de conjeturas iniciales efectivas (también denominadas "inicios cálidos"). Este artículo explora el uso de modelos de lenguaje grande (LLMs) para crear inicios cálidos y compara los resultados con modelos de procesos gaussianos y estimadores de árbol de Parzen. En 49 tareas de IS, los inicios cálidos generados por LLM mejoraron significativamente el desempeño en tareas de baja y media dimensionalidad. Sin embargo, la efectividad del LLM disminuye en problemas de alta dimensionalidad, donde los métodos bayesianos como los procesos gaussianos funcionan mejor.

Antecedentes de Investigación y Motivación

Definición del Problema

La ingeniería de software contiene muchos problemas de optimización multiobjetivo que requieren equilibrar restricciones competitivas, tales como:

¿Cómo entregar más código a menor costo?
¿Cómo responder consultas de bases de datos más rápidamente pero usando menos energía?

Desafíos Centrales

Escasez de Datos: Existen tres clases de problemas de recopilación de datos en el dominio de IS:
- Recopilación de datos ingenua o errónea: Como errores de anotación de "falsos positivos" superiores al 90% en predicción de defectos
- Especificidad de la recopilación de datos: Las variables independientes x son fáciles de obtener, pero el costo de anotación de la variable dependiente y es elevado
- Velocidad lenta de anotación por expertos: Los expertos en la materia (SME) solo pueden anotar 10-20 muestras de alta calidad por hora
Limitaciones de Métodos Existentes:
- Los algoritmos de optimización tradicionales requieren grandes cantidades de datos anotados
- El muestreo aleatorio es ineficiente
- Falta de estrategias de inicialización efectivas

Motivación de la Investigación

Este artículo propone utilizar el conocimiento de fondo de los LLMs para generar mejores conjeturas iniciales (inicios cálidos) con el fin de mejorar el desempeño del aprendizaje activo en tareas de optimización multiobjetivo de IS.

Contribuciones Principales

Propone un nuevo método que utiliza LLMs para inicios cálidos en aprendizaje activo para tareas de optimización de IS
Realiza una comparación empírica del método LLM con métodos alternativos en 49 conjuntos de datos
Revela las ventajas y limitaciones de los LLMs en la resolución de problemas multiobjetivo de IS
Proporciona datos reproducibles y paquetes de scripts para comparar estrategias de aprendizaje activo

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos tabulares, donde:

Columnas x: Variables de entrada independientes (observables/controlables)
Columnas y: Variables dependientes (requieren un proceso de anotación costoso)
Objetivo: Encontrar valores óptimos de y bajo un presupuesto de anotación limitado (≤30 muestras)

Arquitectura del Método Principal

1. Flujo de Inicio Cálido con LLM

E0 (anotación aleatoria inicial) → ordenamiento (mejor a peor) → 
aprendizaje con pocos ejemplos del LLM → generación de E1 (muestras sintéticas) → 
mapeo de vecino más cercano a E2 → inicio cálido del aprendizaje activo

2. Marco de Aprendizaje Activo

Modelo de Procesos Gaussianos (GPM):

Calcula la media μ y desviación estándar σ ajustando numerosas funciones posibles
Utiliza funciones de adquisición para decidir el siguiente punto de muestreo
Soporta tres funciones de adquisición: UCB, PI, EI

Estimador de Árbol de Parzen (TPE):

Divide los datos observados en dos distribuciones: "mejor" y "resto"
Modela p(x|y) en lugar de p(y|x)
Soporta dos estrategias de adquisición: explore y exploit

3. Ingeniería de Indicaciones del LLM

Utilizando Gemini 1.5 Pro, la plantilla de indicación incluye:

Mensaje del sistema: Define el rol del LLM y metadatos del conjunto de datos
Ejemplos con pocos disparos: Muestras aleatorias anotadas como "mejor"/"resto"
Descripción de la tarea: Solicita generar 2 muestras mejores y 2 peores

Puntos de Innovación Técnica

Capacidad de Análisis Geométrico Multidimensional: Los LLMs pueden realizar análisis multidimensionales similares a PCA, identificar dimensiones más importantes y realizar extrapolación
Utilización de Conocimiento de Fondo: Despierta el conocimiento del dominio relevante del LLM a través de nombres de atributos
Estrategia de Mapeo del Vecino Más Cercano: Mapea muestras sintéticas generadas por el LLM al espacio de datos reales

Configuración Experimental

Conjuntos de Datos

Se utilizan 49 tareas de optimización de IS del repositorio MOOT (Multi Objective Optimization Testing):

Escala: 93 a 86,000 líneas
Dimensionalidad: 3 a 38 variables independientes, 1 a 5 variables dependientes
Clasificación:
- Baja dimensionalidad (<6 características): 12 conjuntos de datos
- Media dimensionalidad (6-11 características): 14 conjuntos de datos
- Alta dimensionalidad (>11 características): 19 conjuntos de datos

Métricas de Evaluación

Se utiliza la distancia de Chebyshev para evaluar el desempeño de optimización multiobjetivo:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

donde l_i es el valor ideal, y una distancia de Chebyshev más pequeña indica mejor desempeño.

Métodos de Comparación

Métodos GPM: UCB_GPM, PI_GPM, EI_GPM
Métodos TPE: explore, exploit
Línea Base: Muestreo aleatorio
Estrategias de Inicio Cálido: LLM vs inicialización aleatoria

Detalles de Implementación

Número de muestras de inicio cálido: B0 = 4
Presupuesto de evaluación total: B1 ∈ {10,15,20,25,30}
Número de repeticiones: 20 (validez estadística)
Métodos estadísticos: Ordenamiento Scott-Knott + magnitud del efecto Cliff's Delta

Resultados Experimentales

Resultados Principales

RQ1: ¿Es el aprendizaje activo útil para tareas de IS?

Conclusión: El aprendizaje activo supera al método aleatorio
Evidencia: La mayoría de las ganancias de optimización se logran dentro de 30 anotaciones; el método puramente aleatorio no obtiene el rango más alto en ninguna categoría de dimensionalidad

RQ2: ¿Es el inicio cálido útil para el aprendizaje activo?

Datos de baja dimensionalidad: LLM/Exploit obtiene 100% del rango más alto vs 27% de aleatorio/Exploit
Datos de media dimensionalidad: LLM/Exploit obtiene 50% del rango más alto vs 21% de aleatorio/Exploit

RQ3: ¿Son los LLMs el mejor método para generar inicios cálidos?

Frecuencia de Rango por Análisis de Dimensionalidad:

Método	Baja Dim (rango 0)	Media Dim (rango 0)	Alta Dim (rango 0)
LLM Exploit	100%	50%	33%
random UCB_GPM	45%	36%	50%
random EI_GPM	45%	36%	44%
random PI_GPM	9%	36%	39%

Hallazgos Clave

Efecto de Dimensionalidad: Los LLMs funcionan excepcionalmente bien en problemas de baja y media dimensionalidad, pero la efectividad disminuye en problemas de alta dimensionalidad
Sensibilidad de Función de Adquisición: Los LLMs funcionan mejor cuando se emparejan con exploit, pero peor cuando se emparejan con explore
Eficiencia Computacional: El método TPE se ejecuta significativamente más rápido que los métodos GPM o LLM

Análisis de Casos

Tomando el conjunto de datos SS-A como ejemplo, LLM/exploit obtiene el rango más alto (rango 0) bajo diferentes presupuestos, con una distancia de Chebyshev mediana de 0.07-0.08, significativamente mejor que la línea base de 0.18.

Trabajo Relacionado

Hallazgos de Revisión de Literatura

A través del análisis de 1000 artículos relacionados en Google Scholar, se encontraron limitaciones en la investigación existente:

La mayoría de los estudios utilizan <6 conjuntos de prueba
Se enfoca principalmente en tareas de un solo objetivo
Rara vez se utiliza conocimiento de fondo para inicios cálidos
El presupuesto de anotación generalmente es >1000 muestras

Posicionamiento de Este Artículo

Este artículo llena el vacío de investigación en optimización de IS multiobjetivo, datos tabulares y presupuesto de anotación pequeño.

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Inicio Cálido con LLM: Mejora significativamente el desempeño del aprendizaje activo en tareas de IS de baja y media dimensionalidad
Limitación de Dimensionalidad: Los LLMs enfrentan desafíos en problemas de alta dimensionalidad, donde los métodos bayesianos mantienen ventaja
Valor Práctico: Reduce la necesidad de grandes cantidades de datos anotados

Limitaciones

Degradación de Desempeño en Alta Dimensionalidad: Posiblemente debido a la falta de soluciones para problemas complejos en los datos de entrenamiento
Dependencia del Modelo: Solo se utiliza Gemini 1.5 Pro, sin comparación con otros LLMs
Especificidad del Dominio: Se enfoca principalmente en tareas de optimización de IS, la capacidad de generalización requiere verificación

Direcciones Futuras

Extensión de Dimensionalidad: Explorar técnicas de reducción de dimensionalidad para mitigar problemas de alta dimensionalidad
Métodos Híbridos: Combinar las ventajas de métodos LLM y bayesianos
Eficiencia de Costos: Investigar el equilibrio entre costo computacional y desempeño

Evaluación Profunda

Fortalezas

Escala Experimental Grande: La evaluación de 49 conjuntos de datos es rara en este campo
Método Novedoso: Primera exploración sistemática de la aplicación de LLMs en aprendizaje activo de IS
Rigor Estadístico: Utiliza métodos estadísticos rigurosos como Scott-Knott
Reproducibilidad Fuerte: Proporciona código y datos completos

Deficiencias

Análisis Teórico Insuficiente: Falta explicación teórica de por qué los LLMs son efectivos en problemas de baja dimensionalidad
Selección Única de LLM: Solo prueba un LLM, carece de comparación entre modelos
Ingeniería de Indicaciones Simple: Puede haber estrategias de indicación más óptimas

Impacto

Valor Académico: Proporciona nuevas perspectivas para el campo de intersección de optimización de IS y aprendizaje activo
Valor Práctico: Tiene potencial de aplicación directa en escenarios de IS con datos escasos
Contribución Metodológica: Demuestra nuevos usos de LLMs en tareas tradicionales de aprendizaje automático

Escenarios Aplicables

Optimización de configuración de software
Ajuste de parámetros de servicios en la nube
Modelado de procesos de software
Decisiones de compensación en ingeniería de requisitos

Referencias

El artículo cita 87 referencias relacionadas, abarcando múltiples campos como aprendizaje activo, optimización multiobjetivo, ingeniería de software y modelos de lenguaje grande, proporcionando una base teórica sólida para la investigación.

Resumen: Este es un artículo de investigación innovador en el campo de la optimización de ingeniería de software que explora sistemáticamente por primera vez la aplicación de LLMs en inicios cálidos de aprendizaje activo. Aunque tiene algunas limitaciones, su validación experimental a gran escala y valor práctico lo convierten en una contribución importante en este campo.