2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic

¿Pueden los Modelos de Lenguaje Grande Mejorar el Aprendizaje Activo en IS mediante Inicios Cálidos?

Información Básica

  • ID del Artículo: 2501.00125
  • Título: Can Large Language Models Improve SE Active Learning via Warm-Starts?
  • Autores: Lohith Senthilkumar, Tim Menzies (NC State University)
  • Clasificación: cs.SE (Ingeniería de Software)
  • Fecha de Publicación: 30 de diciembre de 2024 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.00125

Resumen

Cuando los datos de ingeniería de software (IS) son escasos, los "aprendices activos" utilizan modelos aprendidos a partir de pocas muestras de datos para identificar el siguiente ejemplo más informativo para anotar. De esta manera, es posible generar modelos efectivos utilizando muy pocos datos. Para tareas de ingeniería de software multiobjetivo, el aprendizaje activo puede beneficiarse de un conjunto de conjeturas iniciales efectivas (también denominadas "inicios cálidos"). Este artículo explora el uso de modelos de lenguaje grande (LLMs) para crear inicios cálidos y compara los resultados con modelos de procesos gaussianos y estimadores de árbol de Parzen. En 49 tareas de IS, los inicios cálidos generados por LLM mejoraron significativamente el desempeño en tareas de baja y media dimensionalidad. Sin embargo, la efectividad del LLM disminuye en problemas de alta dimensionalidad, donde los métodos bayesianos como los procesos gaussianos funcionan mejor.

Antecedentes de Investigación y Motivación

Definición del Problema

La ingeniería de software contiene muchos problemas de optimización multiobjetivo que requieren equilibrar restricciones competitivas, tales como:

  • ¿Cómo entregar más código a menor costo?
  • ¿Cómo responder consultas de bases de datos más rápidamente pero usando menos energía?

Desafíos Centrales

  1. Escasez de Datos: Existen tres clases de problemas de recopilación de datos en el dominio de IS:
    • Recopilación de datos ingenua o errónea: Como errores de anotación de "falsos positivos" superiores al 90% en predicción de defectos
    • Especificidad de la recopilación de datos: Las variables independientes x son fáciles de obtener, pero el costo de anotación de la variable dependiente y es elevado
    • Velocidad lenta de anotación por expertos: Los expertos en la materia (SME) solo pueden anotar 10-20 muestras de alta calidad por hora
  2. Limitaciones de Métodos Existentes:
    • Los algoritmos de optimización tradicionales requieren grandes cantidades de datos anotados
    • El muestreo aleatorio es ineficiente
    • Falta de estrategias de inicialización efectivas

Motivación de la Investigación

Este artículo propone utilizar el conocimiento de fondo de los LLMs para generar mejores conjeturas iniciales (inicios cálidos) con el fin de mejorar el desempeño del aprendizaje activo en tareas de optimización multiobjetivo de IS.

Contribuciones Principales

  1. Propone un nuevo método que utiliza LLMs para inicios cálidos en aprendizaje activo para tareas de optimización de IS
  2. Realiza una comparación empírica del método LLM con métodos alternativos en 49 conjuntos de datos
  3. Revela las ventajas y limitaciones de los LLMs en la resolución de problemas multiobjetivo de IS
  4. Proporciona datos reproducibles y paquetes de scripts para comparar estrategias de aprendizaje activo

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos tabulares, donde:

  • Columnas x: Variables de entrada independientes (observables/controlables)
  • Columnas y: Variables dependientes (requieren un proceso de anotación costoso)
  • Objetivo: Encontrar valores óptimos de y bajo un presupuesto de anotación limitado (≤30 muestras)

Arquitectura del Método Principal

1. Flujo de Inicio Cálido con LLM

E0 (anotación aleatoria inicial) → ordenamiento (mejor a peor) → 
aprendizaje con pocos ejemplos del LLM → generación de E1 (muestras sintéticas) → 
mapeo de vecino más cercano a E2 → inicio cálido del aprendizaje activo

2. Marco de Aprendizaje Activo

Modelo de Procesos Gaussianos (GPM):

  • Calcula la media μ y desviación estándar σ ajustando numerosas funciones posibles
  • Utiliza funciones de adquisición para decidir el siguiente punto de muestreo
  • Soporta tres funciones de adquisición: UCB, PI, EI

Estimador de Árbol de Parzen (TPE):

  • Divide los datos observados en dos distribuciones: "mejor" y "resto"
  • Modela p(x|y) en lugar de p(y|x)
  • Soporta dos estrategias de adquisición: explore y exploit

3. Ingeniería de Indicaciones del LLM

Utilizando Gemini 1.5 Pro, la plantilla de indicación incluye:

  • Mensaje del sistema: Define el rol del LLM y metadatos del conjunto de datos
  • Ejemplos con pocos disparos: Muestras aleatorias anotadas como "mejor"/"resto"
  • Descripción de la tarea: Solicita generar 2 muestras mejores y 2 peores

Puntos de Innovación Técnica

  1. Capacidad de Análisis Geométrico Multidimensional: Los LLMs pueden realizar análisis multidimensionales similares a PCA, identificar dimensiones más importantes y realizar extrapolación
  2. Utilización de Conocimiento de Fondo: Despierta el conocimiento del dominio relevante del LLM a través de nombres de atributos
  3. Estrategia de Mapeo del Vecino Más Cercano: Mapea muestras sintéticas generadas por el LLM al espacio de datos reales

Configuración Experimental

Conjuntos de Datos

Se utilizan 49 tareas de optimización de IS del repositorio MOOT (Multi Objective Optimization Testing):

  • Escala: 93 a 86,000 líneas
  • Dimensionalidad: 3 a 38 variables independientes, 1 a 5 variables dependientes
  • Clasificación:
    • Baja dimensionalidad (<6 características): 12 conjuntos de datos
    • Media dimensionalidad (6-11 características): 14 conjuntos de datos
    • Alta dimensionalidad (>11 características): 19 conjuntos de datos

Métricas de Evaluación

Se utiliza la distancia de Chebyshev para evaluar el desempeño de optimización multiobjetivo:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

donde l_i es el valor ideal, y una distancia de Chebyshev más pequeña indica mejor desempeño.

Métodos de Comparación

  • Métodos GPM: UCB_GPM, PI_GPM, EI_GPM
  • Métodos TPE: explore, exploit
  • Línea Base: Muestreo aleatorio
  • Estrategias de Inicio Cálido: LLM vs inicialización aleatoria

Detalles de Implementación

  • Número de muestras de inicio cálido: B0 = 4
  • Presupuesto de evaluación total: B1 ∈ {10,15,20,25,30}
  • Número de repeticiones: 20 (validez estadística)
  • Métodos estadísticos: Ordenamiento Scott-Knott + magnitud del efecto Cliff's Delta

Resultados Experimentales

Resultados Principales

RQ1: ¿Es el aprendizaje activo útil para tareas de IS?

  • Conclusión: El aprendizaje activo supera al método aleatorio
  • Evidencia: La mayoría de las ganancias de optimización se logran dentro de 30 anotaciones; el método puramente aleatorio no obtiene el rango más alto en ninguna categoría de dimensionalidad

RQ2: ¿Es el inicio cálido útil para el aprendizaje activo?

  • Datos de baja dimensionalidad: LLM/Exploit obtiene 100% del rango más alto vs 27% de aleatorio/Exploit
  • Datos de media dimensionalidad: LLM/Exploit obtiene 50% del rango más alto vs 21% de aleatorio/Exploit

RQ3: ¿Son los LLMs el mejor método para generar inicios cálidos?

Frecuencia de Rango por Análisis de Dimensionalidad:

MétodoBaja Dim (rango 0)Media Dim (rango 0)Alta Dim (rango 0)
LLM Exploit100%50%33%
random UCB_GPM45%36%50%
random EI_GPM45%36%44%
random PI_GPM9%36%39%

Hallazgos Clave

  1. Efecto de Dimensionalidad: Los LLMs funcionan excepcionalmente bien en problemas de baja y media dimensionalidad, pero la efectividad disminuye en problemas de alta dimensionalidad
  2. Sensibilidad de Función de Adquisición: Los LLMs funcionan mejor cuando se emparejan con exploit, pero peor cuando se emparejan con explore
  3. Eficiencia Computacional: El método TPE se ejecuta significativamente más rápido que los métodos GPM o LLM

Análisis de Casos

Tomando el conjunto de datos SS-A como ejemplo, LLM/exploit obtiene el rango más alto (rango 0) bajo diferentes presupuestos, con una distancia de Chebyshev mediana de 0.07-0.08, significativamente mejor que la línea base de 0.18.

Trabajo Relacionado

Hallazgos de Revisión de Literatura

A través del análisis de 1000 artículos relacionados en Google Scholar, se encontraron limitaciones en la investigación existente:

  • La mayoría de los estudios utilizan <6 conjuntos de prueba
  • Se enfoca principalmente en tareas de un solo objetivo
  • Rara vez se utiliza conocimiento de fondo para inicios cálidos
  • El presupuesto de anotación generalmente es >1000 muestras

Posicionamiento de Este Artículo

Este artículo llena el vacío de investigación en optimización de IS multiobjetivo, datos tabulares y presupuesto de anotación pequeño.

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad del Inicio Cálido con LLM: Mejora significativamente el desempeño del aprendizaje activo en tareas de IS de baja y media dimensionalidad
  2. Limitación de Dimensionalidad: Los LLMs enfrentan desafíos en problemas de alta dimensionalidad, donde los métodos bayesianos mantienen ventaja
  3. Valor Práctico: Reduce la necesidad de grandes cantidades de datos anotados

Limitaciones

  1. Degradación de Desempeño en Alta Dimensionalidad: Posiblemente debido a la falta de soluciones para problemas complejos en los datos de entrenamiento
  2. Dependencia del Modelo: Solo se utiliza Gemini 1.5 Pro, sin comparación con otros LLMs
  3. Especificidad del Dominio: Se enfoca principalmente en tareas de optimización de IS, la capacidad de generalización requiere verificación

Direcciones Futuras

  1. Extensión de Dimensionalidad: Explorar técnicas de reducción de dimensionalidad para mitigar problemas de alta dimensionalidad
  2. Métodos Híbridos: Combinar las ventajas de métodos LLM y bayesianos
  3. Eficiencia de Costos: Investigar el equilibrio entre costo computacional y desempeño

Evaluación Profunda

Fortalezas

  1. Escala Experimental Grande: La evaluación de 49 conjuntos de datos es rara en este campo
  2. Método Novedoso: Primera exploración sistemática de la aplicación de LLMs en aprendizaje activo de IS
  3. Rigor Estadístico: Utiliza métodos estadísticos rigurosos como Scott-Knott
  4. Reproducibilidad Fuerte: Proporciona código y datos completos

Deficiencias

  1. Análisis Teórico Insuficiente: Falta explicación teórica de por qué los LLMs son efectivos en problemas de baja dimensionalidad
  2. Selección Única de LLM: Solo prueba un LLM, carece de comparación entre modelos
  3. Ingeniería de Indicaciones Simple: Puede haber estrategias de indicación más óptimas

Impacto

  1. Valor Académico: Proporciona nuevas perspectivas para el campo de intersección de optimización de IS y aprendizaje activo
  2. Valor Práctico: Tiene potencial de aplicación directa en escenarios de IS con datos escasos
  3. Contribución Metodológica: Demuestra nuevos usos de LLMs en tareas tradicionales de aprendizaje automático

Escenarios Aplicables

  • Optimización de configuración de software
  • Ajuste de parámetros de servicios en la nube
  • Modelado de procesos de software
  • Decisiones de compensación en ingeniería de requisitos

Referencias

El artículo cita 87 referencias relacionadas, abarcando múltiples campos como aprendizaje activo, optimización multiobjetivo, ingeniería de software y modelos de lenguaje grande, proporcionando una base teórica sólida para la investigación.


Resumen: Este es un artículo de investigación innovador en el campo de la optimización de ingeniería de software que explora sistemáticamente por primera vez la aplicación de LLMs en inicios cálidos de aprendizaje activo. Aunque tiene algunas limitaciones, su validación experimental a gran escala y valor práctico lo convierten en una contribución importante en este campo.