2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

Können große Sprachmodelle das SE-Active-Learning durch Warm-Starts verbessern?

Grundinformationen

Paper-ID: 2501.00125
Titel: Can Large Language Models Improve SE Active Learning via Warm-Starts?
Autoren: Lohith Senthilkumar, Tim Menzies (NC State University)
Klassifizierung: cs.SE (Software Engineering)
Veröffentlichungsdatum: 30. Dezember 2024 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2501.00125

Zusammenfassung

Wenn Daten im Software Engineering (SE) knapp sind, nutzen "Active Learner" Modelle, die aus wenigen Datenproben gelernt wurden, um die nächsten informativsten Beispiele zur Annotation zu finden. Auf diese Weise können effektive Modelle mit minimalen Daten generiert werden. Bei Multi-Objective-SE-Aufgaben kann Active Learning von effektiven initialen Vermutungsmengen (sogenannte "Warm-Starts") profitieren. Dieses Paper untersucht die Verwendung großer Sprachmodelle (LLMs) zur Erstellung von Warm-Starts und vergleicht die Ergebnisse mit Gaußschen Prozessmodellen und Parzen-Estimator-Bäumen. Bei 49 SE-Aufgaben verbessern LLM-generierte Warm-Starts die Leistung bei niedrig- und mitteldimensionalen Aufgaben erheblich. Allerdings nimmt die Effektivität von LLMs bei hochdimensionalen Problemen ab, wo Bayessche Methoden wie Gaußsche Prozessmodelle am besten abschneiden.

Forschungshintergrund und Motivation

Problemdefinition

Im Software Engineering gibt es viele Multi-Objective-Optimierungsprobleme, die Kompromisse zwischen konkurrierenden Einschränkungen erfordern, wie:

Wie kann mehr Code zu niedrigeren Kosten bereitgestellt werden?
Wie können Datenbankabfragen schneller beantwortet werden, aber mit weniger Energie?

Kernherausforderungen

Datenmangel: Es gibt drei Klassen von Datenerfassungsproblemen im SE-Bereich:
- Naive oder fehlerhafte Datenerfassung: Beispielsweise über 90% falsch-positive Annotationsfehler bei der Defektvorhersage
- Spezifität der Datenerfassung: Unabhängige Variablen x sind leicht zu beschaffen, aber die Annotationskosten für abhängige Variablen y sind erheblich
- Langsame Expertenkommentierung: SME-Experten können nur 10-20 hochwertige Proben pro Stunde annotieren
Einschränkungen bestehender Methoden:
- Traditionelle Optimierungsalgorithmen benötigen große Mengen annotierter Daten
- Zufällige Stichprobennahme ist ineffizient
- Mangel an effektiven Initialisierungsstrategien

Forschungsmotivation

Dieses Paper schlägt vor, das Hintergrundwissen von LLMs zu nutzen, um bessere initiale Vermutungen (Warm-Starts) zu generieren und damit die Leistung von Active Learning bei SE-Multi-Objective-Optimierungsaufgaben zu verbessern.

Kernbeiträge

Vorschlag einer neuen Methode zur Verwendung von LLMs für Warm-Starts beim Active Learning für SE-Optimierungsaufgaben
Empirischer Vergleich der LLM-Methode mit alternativen Methoden auf 49 Datensätzen
Offenlegung der Vorteile und Einschränkungen von LLMs bei der Lösung von Multi-Objective-SE-Problemen
Bereitstellung reproduzierbarer Daten und Skriptpakete für Benchmarking-Active-Learning-Strategien

Methodische Details

Aufgabendefinition

Gegeben sind Tabellendaten, wobei:

x-Spalten: Unabhängige Eingabevariablen (beobachtbar/steuerbar)
y-Spalten: Abhängige Variablen (erfordern teure Annotationsprozesse)
Ziel: Optimale y-Werte unter begrenztem Annotationsbudget (≤30 Proben) finden

Kernmethodische Architektur

1. LLM-Warm-Start-Prozess

E0 (initiale zufällige Annotation) → Sortierung (beste bis schlechteste) → 
LLM Few-Shot-Lernen → Generierung E1 (synthetische Proben) → 
Nearest-Neighbor-Mapping zu E2 → Warm-Start-Active-Learning

2. Active-Learning-Framework

Gaußsches Prozessmodell (GPM):

Berechnung von Mittelwert μ und Standardabweichung σ durch Anpassung vieler möglicher Funktionen
Verwendung von Akquisitionsfunktionen zur Bestimmung des nächsten Abtastpunkts
Unterstützung von drei Akquisitionsfunktionen: UCB, PI, EI

Parzen-Estimator-Baum (TPE):

Aufteilung beobachteter Daten in "beste" und "übrige" Verteilungen
Modellierung von p(x|y) statt p(y|x)
Unterstützung von zwei Akquisitionsstrategien: explore und exploit

3. LLM-Prompt-Engineering

Verwendung von Gemini 1.5 Pro mit Prompt-Vorlagen, die enthalten:

Systemnachricht: Definition der LLM-Rolle und Datensatz-Metadaten
Few-Shot-Beispiele: Zufällig ausgewählte Proben, die als "beste"/"übrige" annotiert sind
Aufgabenbeschreibung: Anforderung zur Generierung von 2 besseren und 2 schlechteren Proben

Technische Innovationen

Multi-dimensionale geometrische Analysefähigkeit: LLMs können ähnliche PCA-Analysen durchführen, die wichtigsten Dimensionen identifizieren und extrapolieren
Nutzung von Hintergrundwissen: Aktivierung relevanten Domänenwissens des LLM durch Attributnamen
Nearest-Neighbor-Mapping-Strategie: Abbildung von LLM-generierten synthetischen Proben in den realen Datenraum

Experimentelle Einrichtung

Datensätze

Verwendung von 49 SE-Optimierungsaufgaben aus dem MOOT-Repository (Multi Objective Optimization Testing):

Größe: 93 bis 86.000 Zeilen
Dimensionen: 3 bis 38 unabhängige Variablen, 1 bis 5 abhängige Variablen
Klassifizierung:
- Niedrig-dimensional (<6 Merkmale): 12 Datensätze
- Mittel-dimensional (6-11 Merkmale): 14 Datensätze
- Hoch-dimensional (>11 Merkmale): 19 Datensätze

Bewertungsmetriken

Verwendung der Chebyshev-Distanz zur Bewertung der Multi-Objective-Optimierungsleistung:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

wobei l_i der Idealwert ist; kleinere Chebyshev-Distanzen zeigen bessere Leistung an.

Vergleichsmethoden

GPM-Methoden: UCB_GPM, PI_GPM, EI_GPM
TPE-Methoden: explore, exploit
Baseline: Zufällige Stichprobennahme
Warm-Start-Strategien: LLM vs. zufällige Initialisierung

Implementierungsdetails

Warm-Start-Probengröße: B0 = 4
Gesamtes Evaluierungsbudget: B1 ∈ {10,15,20,25,30}
Wiederholungen: 20 (für statistische Validität)
Statistische Methoden: Scott-Knott-Ranking + Cliff's Delta Effektgröße

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Ist Active Learning für SE-Aufgaben nützlich?

Schlussfolgerung: Active Learning übertrifft zufällige Methoden
Evidenz: Die meisten Optimierungsgewinne werden innerhalb von 30 Annotationen erreicht; reine Zufallsmethoden erhalten in keiner Dimensionskategorie den höchsten Rang

RQ2: Ist Warm-Start für Active Learning nützlich?

Niedrig-dimensionale Daten: LLM/Exploit erreicht 100% des höchsten Rangs vs. random/Exploit mit 27%
Mittel-dimensionale Daten: LLM/Exploit erreicht 50% des höchsten Rangs vs. random/Exploit mit 21%

RQ3: Sind LLMs die beste Methode zur Generierung von Warm-Starts?

Ranking-Häufigkeit nach Dimensionalität:

Methode	Niedrig-dim (Rang 0)	Mittel-dim (Rang 0)	Hoch-dim (Rang 0)
LLM Exploit	100%	50%	33%
random UCB_GPM	45%	36%	50%
random EI_GPM	45%	36%	44%
random PI_GPM	9%	36%	39%

Wichtigste Erkenntnisse

Dimensionalitätseffekt: LLMs zeigen überlegene Leistung bei niedrig- und mitteldimensionalen Problemen, aber die Effektivität nimmt bei hochdimensionalen Problemen ab
Empfindlichkeit der Akquisitionsfunktion: LLM funktioniert am besten mit exploit gekoppelt, schlechter mit explore
Recheneffizienz: TPE-Methoden laufen wesentlich schneller als GPM- oder LLM-Methoden

Fallstudie

Am Beispiel des SS-A-Datensatzes erreicht LLM/exploit bei verschiedenen Budgets den höchsten Rang (Rang 0), mit Chebyshev-Distanz-Medianwerten von 0,07-0,08, deutlich besser als die Baseline von 0,18.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

LLM-Warm-Starts sind effektiv: Signifikante Verbesserung der Active-Learning-Leistung bei niedrig- und mitteldimensionalen SE-Aufgaben
Dimensionale Einschränkungen: LLMs stehen bei hochdimensionalen Problemen vor Herausforderungen; Bayessche Methoden bleiben überlegen
Praktischer Wert: Reduziert die Abhängigkeit von großen Mengen annotierter Daten

Einschränkungen

Leistungsabfall bei hoher Dimensionalität: Möglicherweise aufgrund fehlender Lösungen für komplexe Probleme in Trainingsdaten
Modellabhängigkeit: Nur Gemini 1.5 Pro verwendet; kein Vergleich mit anderen LLMs
Domänenspezifität: Hauptsächlich auf SE-Optimierungsaufgaben ausgerichtet; Verallgemeinerungsfähigkeit zu überprüfen

Zukünftige Richtungen

Dimensionale Erweiterung: Erkundung von Dimensionalitätsreduktionstechniken zur Bewältigung hochdimensionaler Probleme
Hybridmethoden: Kombination der Stärken von LLM- und Bayesschen Methoden
Kosteneffizienz: Untersuchung des Kompromisses zwischen Rechenkosten und Leistung

Tiefgehende Bewertung

Stärken

Große Experimentskala: Die Bewertung von 49 Datensätzen ist in diesem Forschungsbereich selten
Neuartige Methodik: Erste systematische Erkundung der LLM-Anwendung im SE-Active-Learning
Statistische Strenge: Verwendung strenger statistischer Methoden wie Scott-Knott
Starke Reproduzierbarkeit: Bereitstellung vollständiger Codes und Daten

Mängel

Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum LLMs bei niedrigdimensionalen Problemen effektiv sind
Einzelne LLM-Auswahl: Nur ein LLM getestet; Vergleich zwischen Modellen fehlt
Einfaches Prompt-Engineering: Möglicherweise existieren optimale Prompt-Strategien

Auswirkungen

Akademischer Wert: Bietet neue Perspektiven für die Schnittstellenforschung von SE-Optimierung und Active Learning
Praktischer Wert: Direkte Anwendungspotenziale in datenknappen SE-Szenarien
Methodologischer Beitrag: Zeigt neue Verwendungen von LLMs in traditionellen Machine-Learning-Aufgaben

Anwendungsszenarien

Softwarekonfigurationsoptimierung
Cloud-Service-Parameteroptimierung
Softwareprozessmodellierung
Kompromissentscheidungen in Requirements Engineering

Literaturverzeichnis

Das Paper zitiert 87 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen abdecken – Active Learning, Multi-Objective-Optimierung, Software Engineering und große Sprachmodelle – und bietet damit eine solide theoretische Grundlage für die Forschung.

Zusammenfassung: Dies ist eine innovative Forschungsarbeit im Bereich der SE-Optimierung, die erstmals systematisch die Anwendung von LLMs bei Active-Learning-Warm-Starts untersucht. Obwohl es einige Einschränkungen gibt, machen die großflächigen experimentellen Validierungen und der praktische Wert diese Arbeit zu einem wichtigen Beitrag in diesem Forschungsbereich.