2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

Les grands modèles de langage peuvent-ils améliorer l'apprentissage actif en génie logiciel via des démarrages à chaud ?

Informations de base

ID de l'article : 2501.00125
Titre : Can Large Language Models Improve SE Active Learning via Warm-Starts?
Auteurs : Lohith Senthilkumar, Tim Menzies (NC State University)
Classification : cs.SE (Génie logiciel)
Date de publication : 30 décembre 2024 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.00125

Résumé

Lorsque les données en génie logiciel (GL) sont rares, les « apprenants actifs » utilisent des modèles appris à partir d'un petit nombre d'échantillons de données pour identifier le prochain exemple le plus informatif à annoter. De cette manière, il est possible de générer des modèles efficaces en utilisant très peu de données. Pour les tâches multi-objectifs en génie logiciel, l'apprentissage actif peut bénéficier d'un ensemble initial d'estimations efficaces (également appelé « démarrage à chaud »). Cet article explore l'utilisation de grands modèles de langage (LLMs) pour créer des démarrages à chaud et compare les résultats avec les modèles de processus gaussiens et les estimateurs Parzen. Sur 49 tâches de GL, les démarrages à chaud générés par LLM améliorent significativement les performances pour les tâches de faible et moyenne dimensionnalité. Cependant, l'efficacité des LLMs diminue pour les problèmes de haute dimensionnalité, où les méthodes bayésiennes comme les processus gaussiens obtiennent les meilleurs résultats.

Contexte et motivation de la recherche

Définition du problème

Le génie logiciel comprend de nombreux problèmes d'optimisation multi-objectifs nécessitant des compromis entre des contraintes concurrentes, tels que :

Comment livrer plus de code à moindre coût ?
Comment répondre plus rapidement aux requêtes de base de données tout en consommant moins d'énergie ?

Défis fondamentaux

Rareté des données : Le domaine du GL présente trois catégories de problèmes de collecte de données :
- Collecte naïve ou erronée : Par exemple, plus de 90 % d'erreurs d'annotation « faux positifs » dans la prédiction de défauts
- Spécificité de la collecte de données : Les variables indépendantes x sont faciles à obtenir, mais l'annotation de la variable dépendante y est coûteuse
- Lenteur de l'annotation par experts : Les experts en la matière ne peuvent annoter que 10-20 échantillons de haute qualité par heure
Limitations des méthodes existantes :
- Les algorithmes d'optimisation traditionnels nécessitent de grandes quantités de données annotées
- L'échantillonnage aléatoire est inefficace
- Absence de stratégies d'initialisation efficaces

Motivation de la recherche

Cet article propose d'utiliser les connaissances de base des LLMs pour générer de meilleures estimations initiales (démarrages à chaud), afin d'améliorer les performances de l'apprentissage actif dans les tâches d'optimisation multi-objectifs en GL.

Contributions principales

Proposition d'une nouvelle méthode utilisant les LLMs pour initialiser l'apprentissage actif dans les tâches d'optimisation GL
Comparaison empirique de la méthode LLM avec des méthodes alternatives sur 49 ensembles de données
Révélation des avantages et des limitations des LLMs dans la résolution de problèmes multi-objectifs en GL
Fourniture d'un ensemble de données reproductible et de scripts pour l'évaluation comparative des stratégies d'apprentissage actif

Détails de la méthode

Définition de la tâche

Étant donné des données tabulaires, où :

Colonnes x : Variables d'entrée indépendantes (observables/contrôlables)
Colonnes y : Variables dépendantes (nécessitant un processus d'annotation coûteux)
Objectif : Trouver les valeurs y optimales avec un budget d'annotation limité (≤30 échantillons)

Architecture de la méthode principale

1. Processus de démarrage à chaud LLM

E0 (annotation aléatoire initiale) → Tri (meilleur au pire) → Apprentissage peu nombreux LLM → 
Génération E1 (échantillons synthétiques) → Mappage du plus proche voisin vers E2 → 
Démarrage à chaud de l'apprentissage actif

2. Cadre d'apprentissage actif

Modèle de processus gaussien (GPM) :

Calcul de la moyenne μ et de l'écart-type σ en ajustant de nombreuses fonctions possibles
Utilisation d'une fonction d'acquisition pour décider du prochain point d'échantillonnage
Support de trois fonctions d'acquisition : UCB, PI, EI

Estimateur Parzen d'arbres (TPE) :

Division des données observées en deux distributions : « meilleure » et « reste »
Modélisation de p(x|y) plutôt que p(y|x)
Support de deux stratégies d'acquisition : explore et exploit

3. Ingénierie des invites LLM

Utilisation de Gemini 1.5 Pro, avec un modèle d'invite contenant :

Message système : Définition du rôle du LLM et des métadonnées de l'ensemble de données
Exemples peu nombreux : Échantillons aléatoires annotés comme « meilleur »/« reste »
Description de la tâche : Demande de générer 2 échantillons meilleurs et 2 échantillons pires

Points d'innovation technique

Capacité d'analyse géométrique multidimensionnelle : Les LLMs peuvent effectuer une analyse multidimensionnelle similaire à l'ACP, identifier les dimensions les plus importantes et extrapoler
Utilisation des connaissances de base : Activation des connaissances de domaine pertinentes du LLM par les noms d'attributs
Stratégie de mappage du plus proche voisin : Mappage des échantillons synthétiques générés par le LLM vers l'espace des données réelles

Configuration expérimentale

Ensembles de données

Utilisation de 49 tâches d'optimisation GL du référentiel MOOT (Multi Objective Optimization Testing) :

Taille : 93 à 86 000 lignes
Dimensionnalité : 3 à 38 variables indépendantes, 1 à 5 variables dépendantes
Classification :
- Faible dimensionnalité (<6 caractéristiques) : 12 ensembles de données
- Dimensionnalité moyenne (6-11 caractéristiques) : 14 ensembles de données
- Haute dimensionnalité (>11 caractéristiques) : 19 ensembles de données

Métriques d'évaluation

Utilisation de la distance de Chebyshev pour évaluer les performances d'optimisation multi-objectifs :

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

où l_i est la valeur idéale, et une distance de Chebyshev plus petite indique de meilleures performances.

Méthodes de comparaison

Méthodes GPM : UCB_GPM, PI_GPM, EI_GPM
Méthodes TPE : explore, exploit
Ligne de base : Échantillonnage aléatoire
Stratégies de démarrage à chaud : LLM vs initialisation aléatoire

Détails d'implémentation

Nombre d'échantillons de démarrage à chaud : B0 = 4
Budget d'évaluation total : B1 ∈ {10,15,20,25,30}
Nombre de répétitions : 20 (validité statistique)
Méthode statistique : Classement Scott-Knott + Delta de Cliff pour l'ampleur de l'effet

Résultats expérimentaux

Résultats principaux

RQ1 : L'apprentissage actif est-il utile pour les tâches GL ?

Conclusion : L'apprentissage actif surpasse la méthode aléatoire
Preuve : La plupart des gains d'optimisation sont réalisés en 30 annotations, la méthode purement aléatoire n'obtient le meilleur classement dans aucune catégorie de dimensionnalité

RQ2 : Le démarrage à chaud est-il utile pour l'apprentissage actif ?

Données de faible dimensionnalité : LLM/Exploit obtient 100 % du meilleur classement vs 27 % pour aléatoire/Exploit
Données de dimensionnalité moyenne : LLM/Exploit obtient 50 % du meilleur classement vs 21 % pour aléatoire/Exploit

RQ3 : Les LLMs sont-ils la meilleure méthode pour générer des démarrages à chaud ?

Fréquence de classement par dimensionnalité :

Méthode	Faible dim (rang 0)	Dim moyenne (rang 0)	Haute dim (rang 0)
LLM Exploit	100%	50%	33%
aléatoire UCB_GPM	45%	36%	50%
aléatoire EI_GPM	45%	36%	44%
aléatoire PI_GPM	9%	36%	39%

Découvertes clés

Effet de dimensionnalité : Les LLMs excellent dans les problèmes de faible et moyenne dimensionnalité, mais leur efficacité diminue pour les problèmes de haute dimensionnalité
Sensibilité à la fonction d'acquisition : Les LLMs associés à exploit donnent les meilleurs résultats, tandis que l'association avec explore donne des résultats moins bons
Efficacité computationnelle : La méthode TPE s'exécute beaucoup plus rapidement que les méthodes GPM ou LLM

Étude de cas

Prenant l'ensemble de données SS-A comme exemple, LLM/exploit obtient le meilleur classement (rang 0) pour tous les budgets, avec une distance de Chebyshev médiane de 0,07-0,08, significativement supérieure à la ligne de base de 0,18.

Travaux connexes

Résultats de la revue de littérature

Par l'analyse de 1 000 articles connexes sur Google Scholar, les limitations des recherches existantes ont été identifiées :

La plupart des études utilisent <6 ensembles de test
L'accent principal est mis sur les tâches mono-objectif
Peu d'utilisation des connaissances de base pour les démarrages à chaud
Le budget d'annotation est généralement >1 000 échantillons

Positionnement de cet article

Cet article comble le vide dans la recherche sur l'optimisation GL multi-objectif, avec données tabulaires et petit budget d'annotation.

Conclusions et discussion

Conclusions principales

Efficacité du démarrage à chaud LLM : Amélioration significative des performances de l'apprentissage actif pour les tâches GL de faible et moyenne dimensionnalité
Limitations de dimensionnalité : Les LLMs font face à des défis pour les problèmes de haute dimensionnalité, où les méthodes bayésiennes conservent un avantage
Valeur pratique : Réduction du besoin de grandes quantités de données annotées

Limitations

Dégradation des performances en haute dimensionnalité : Peut être due à l'absence de solutions pour les problèmes complexes dans les données d'entraînement
Dépendance au modèle : Utilisation unique de Gemini 1.5 Pro, sans comparaison avec d'autres LLMs
Spécificité du domaine : Principalement orienté vers les tâches d'optimisation GL, la capacité de généralisation reste à vérifier

Directions futures

Extension dimensionnelle : Exploration de techniques de réduction dimensionnelle pour atténuer les problèmes de haute dimensionnalité
Méthodes hybrides : Combinaison des avantages des LLMs et des méthodes bayésiennes
Efficacité des coûts : Étude du compromis entre coût computationnel et performance

Évaluation approfondie

Points forts

Ampleur expérimentale : L'évaluation sur 49 ensembles de données est rare dans ce domaine
Novateur méthodologique : Première exploration systématique de l'application des LLMs à l'apprentissage actif en GL
Rigueur statistique : Utilisation de méthodes statistiques strictes comme Scott-Knott
Reproductibilité forte : Fourniture de code et de données complets

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique sur l'efficacité des LLMs pour les problèmes de faible dimensionnalité
Sélection LLM unique : Test d'un seul LLM, absence de comparaison inter-modèles
Ingénierie des invites simple : Possibilité de stratégies d'invites plus optimales

Impact

Valeur académique : Nouvelles perspectives pour le domaine d'intersection entre l'optimisation GL et l'apprentissage actif
Valeur pratique : Potentiel d'application directe dans les scénarios GL avec données rares
Contribution méthodologique : Démonstration de nouvelles applications des LLMs aux tâches d'apprentissage automatique traditionnel

Scénarios d'application

Optimisation de la configuration logicielle
Ajustement des paramètres de services cloud
Modélisation des processus logiciels
Prise de décision sur les compromis en ingénierie des exigences

Références

L'article cite 87 références connexes, couvrant l'apprentissage actif, l'optimisation multi-objectifs, le génie logiciel et les grands modèles de langage, fournissant une base théorique solide à la recherche.

Résumé : Cet article est une recherche innovante dans le domaine de l'optimisation en génie logiciel, explorant pour la première fois de manière systématique l'application des LLMs aux démarrages à chaud de l'apprentissage actif. Bien qu'il présente certaines limitations, sa validation expérimentale à grande échelle et sa valeur pratique en font une contribution importante à ce domaine.