Can Large Language Models Improve SE Active Learning via Warm-Starts?
Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic
Können große Sprachmodelle das SE-Active-Learning durch Warm-Starts verbessern?
Wenn Daten im Software Engineering (SE) knapp sind, nutzen "Active Learner" Modelle, die aus wenigen Datenproben gelernt wurden, um die nächsten informativsten Beispiele zur Annotation zu finden. Auf diese Weise können effektive Modelle mit minimalen Daten generiert werden. Bei Multi-Objective-SE-Aufgaben kann Active Learning von effektiven initialen Vermutungsmengen (sogenannte "Warm-Starts") profitieren. Dieses Paper untersucht die Verwendung großer Sprachmodelle (LLMs) zur Erstellung von Warm-Starts und vergleicht die Ergebnisse mit Gaußschen Prozessmodellen und Parzen-Estimator-Bäumen. Bei 49 SE-Aufgaben verbessern LLM-generierte Warm-Starts die Leistung bei niedrig- und mitteldimensionalen Aufgaben erheblich. Allerdings nimmt die Effektivität von LLMs bei hochdimensionalen Problemen ab, wo Bayessche Methoden wie Gaußsche Prozessmodelle am besten abschneiden.
Dieses Paper schlägt vor, das Hintergrundwissen von LLMs zu nutzen, um bessere initiale Vermutungen (Warm-Starts) zu generieren und damit die Leistung von Active Learning bei SE-Multi-Objective-Optimierungsaufgaben zu verbessern.
Multi-dimensionale geometrische Analysefähigkeit: LLMs können ähnliche PCA-Analysen durchführen, die wichtigsten Dimensionen identifizieren und extrapolieren
Nutzung von Hintergrundwissen: Aktivierung relevanten Domänenwissens des LLM durch Attributnamen
Nearest-Neighbor-Mapping-Strategie: Abbildung von LLM-generierten synthetischen Proben in den realen Datenraum
Schlussfolgerung: Active Learning übertrifft zufällige Methoden
Evidenz: Die meisten Optimierungsgewinne werden innerhalb von 30 Annotationen erreicht; reine Zufallsmethoden erhalten in keiner Dimensionskategorie den höchsten Rang
Dimensionalitätseffekt: LLMs zeigen überlegene Leistung bei niedrig- und mitteldimensionalen Problemen, aber die Effektivität nimmt bei hochdimensionalen Problemen ab
Empfindlichkeit der Akquisitionsfunktion: LLM funktioniert am besten mit exploit gekoppelt, schlechter mit explore
Recheneffizienz: TPE-Methoden laufen wesentlich schneller als GPM- oder LLM-Methoden
Am Beispiel des SS-A-Datensatzes erreicht LLM/exploit bei verschiedenen Budgets den höchsten Rang (Rang 0), mit Chebyshev-Distanz-Medianwerten von 0,07-0,08, deutlich besser als die Baseline von 0,18.
Das Paper zitiert 87 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen abdecken – Active Learning, Multi-Objective-Optimierung, Software Engineering und große Sprachmodelle – und bietet damit eine solide theoretische Grundlage für die Forschung.
Zusammenfassung: Dies ist eine innovative Forschungsarbeit im Bereich der SE-Optimierung, die erstmals systematisch die Anwendung von LLMs bei Active-Learning-Warm-Starts untersucht. Obwohl es einige Einschränkungen gibt, machen die großflächigen experimentellen Validierungen und der praktische Wert diese Arbeit zu einem wichtigen Beitrag in diesem Forschungsbereich.