Can Large Language Models Improve SE Active Learning via Warm-Starts?
Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic
Les grands modèles de langage peuvent-ils améliorer l'apprentissage actif en génie logiciel via des démarrages à chaud ?
Lorsque les données en génie logiciel (GL) sont rares, les « apprenants actifs » utilisent des modèles appris à partir d'un petit nombre d'échantillons de données pour identifier le prochain exemple le plus informatif à annoter. De cette manière, il est possible de générer des modèles efficaces en utilisant très peu de données. Pour les tâches multi-objectifs en génie logiciel, l'apprentissage actif peut bénéficier d'un ensemble initial d'estimations efficaces (également appelé « démarrage à chaud »). Cet article explore l'utilisation de grands modèles de langage (LLMs) pour créer des démarrages à chaud et compare les résultats avec les modèles de processus gaussiens et les estimateurs Parzen. Sur 49 tâches de GL, les démarrages à chaud générés par LLM améliorent significativement les performances pour les tâches de faible et moyenne dimensionnalité. Cependant, l'efficacité des LLMs diminue pour les problèmes de haute dimensionnalité, où les méthodes bayésiennes comme les processus gaussiens obtiennent les meilleurs résultats.
Le génie logiciel comprend de nombreux problèmes d'optimisation multi-objectifs nécessitant des compromis entre des contraintes concurrentes, tels que :
Comment livrer plus de code à moindre coût ?
Comment répondre plus rapidement aux requêtes de base de données tout en consommant moins d'énergie ?
Rareté des données : Le domaine du GL présente trois catégories de problèmes de collecte de données :
Collecte naïve ou erronée : Par exemple, plus de 90 % d'erreurs d'annotation « faux positifs » dans la prédiction de défauts
Spécificité de la collecte de données : Les variables indépendantes x sont faciles à obtenir, mais l'annotation de la variable dépendante y est coûteuse
Lenteur de l'annotation par experts : Les experts en la matière ne peuvent annoter que 10-20 échantillons de haute qualité par heure
Limitations des méthodes existantes :
Les algorithmes d'optimisation traditionnels nécessitent de grandes quantités de données annotées
Cet article propose d'utiliser les connaissances de base des LLMs pour générer de meilleures estimations initiales (démarrages à chaud), afin d'améliorer les performances de l'apprentissage actif dans les tâches d'optimisation multi-objectifs en GL.
E0 (annotation aléatoire initiale) → Tri (meilleur au pire) → Apprentissage peu nombreux LLM →
Génération E1 (échantillons synthétiques) → Mappage du plus proche voisin vers E2 →
Démarrage à chaud de l'apprentissage actif
Capacité d'analyse géométrique multidimensionnelle : Les LLMs peuvent effectuer une analyse multidimensionnelle similaire à l'ACP, identifier les dimensions les plus importantes et extrapoler
Utilisation des connaissances de base : Activation des connaissances de domaine pertinentes du LLM par les noms d'attributs
Stratégie de mappage du plus proche voisin : Mappage des échantillons synthétiques générés par le LLM vers l'espace des données réelles
Conclusion : L'apprentissage actif surpasse la méthode aléatoire
Preuve : La plupart des gains d'optimisation sont réalisés en 30 annotations, la méthode purement aléatoire n'obtient le meilleur classement dans aucune catégorie de dimensionnalité
Effet de dimensionnalité : Les LLMs excellent dans les problèmes de faible et moyenne dimensionnalité, mais leur efficacité diminue pour les problèmes de haute dimensionnalité
Sensibilité à la fonction d'acquisition : Les LLMs associés à exploit donnent les meilleurs résultats, tandis que l'association avec explore donne des résultats moins bons
Efficacité computationnelle : La méthode TPE s'exécute beaucoup plus rapidement que les méthodes GPM ou LLM
Prenant l'ensemble de données SS-A comme exemple, LLM/exploit obtient le meilleur classement (rang 0) pour tous les budgets, avec une distance de Chebyshev médiane de 0,07-0,08, significativement supérieure à la ligne de base de 0,18.
Efficacité du démarrage à chaud LLM : Amélioration significative des performances de l'apprentissage actif pour les tâches GL de faible et moyenne dimensionnalité
Limitations de dimensionnalité : Les LLMs font face à des défis pour les problèmes de haute dimensionnalité, où les méthodes bayésiennes conservent un avantage
Valeur pratique : Réduction du besoin de grandes quantités de données annotées
Dégradation des performances en haute dimensionnalité : Peut être due à l'absence de solutions pour les problèmes complexes dans les données d'entraînement
Dépendance au modèle : Utilisation unique de Gemini 1.5 Pro, sans comparaison avec d'autres LLMs
Spécificité du domaine : Principalement orienté vers les tâches d'optimisation GL, la capacité de généralisation reste à vérifier
L'article cite 87 références connexes, couvrant l'apprentissage actif, l'optimisation multi-objectifs, le génie logiciel et les grands modèles de langage, fournissant une base théorique solide à la recherche.
Résumé : Cet article est une recherche innovante dans le domaine de l'optimisation en génie logiciel, explorant pour la première fois de manière systématique l'application des LLMs aux démarrages à chaud de l'apprentissage actif. Bien qu'il présente certaines limitations, sa validation expérimentale à grande échelle et sa valeur pratique en font une contribution importante à ce domaine.