2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic

Können große Sprachmodelle das SE-Active-Learning durch Warm-Starts verbessern?

Grundinformationen

  • Paper-ID: 2501.00125
  • Titel: Can Large Language Models Improve SE Active Learning via Warm-Starts?
  • Autoren: Lohith Senthilkumar, Tim Menzies (NC State University)
  • Klassifizierung: cs.SE (Software Engineering)
  • Veröffentlichungsdatum: 30. Dezember 2024 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.00125

Zusammenfassung

Wenn Daten im Software Engineering (SE) knapp sind, nutzen "Active Learner" Modelle, die aus wenigen Datenproben gelernt wurden, um die nächsten informativsten Beispiele zur Annotation zu finden. Auf diese Weise können effektive Modelle mit minimalen Daten generiert werden. Bei Multi-Objective-SE-Aufgaben kann Active Learning von effektiven initialen Vermutungsmengen (sogenannte "Warm-Starts") profitieren. Dieses Paper untersucht die Verwendung großer Sprachmodelle (LLMs) zur Erstellung von Warm-Starts und vergleicht die Ergebnisse mit Gaußschen Prozessmodellen und Parzen-Estimator-Bäumen. Bei 49 SE-Aufgaben verbessern LLM-generierte Warm-Starts die Leistung bei niedrig- und mitteldimensionalen Aufgaben erheblich. Allerdings nimmt die Effektivität von LLMs bei hochdimensionalen Problemen ab, wo Bayessche Methoden wie Gaußsche Prozessmodelle am besten abschneiden.

Forschungshintergrund und Motivation

Problemdefinition

Im Software Engineering gibt es viele Multi-Objective-Optimierungsprobleme, die Kompromisse zwischen konkurrierenden Einschränkungen erfordern, wie:

  • Wie kann mehr Code zu niedrigeren Kosten bereitgestellt werden?
  • Wie können Datenbankabfragen schneller beantwortet werden, aber mit weniger Energie?

Kernherausforderungen

  1. Datenmangel: Es gibt drei Klassen von Datenerfassungsproblemen im SE-Bereich:
    • Naive oder fehlerhafte Datenerfassung: Beispielsweise über 90% falsch-positive Annotationsfehler bei der Defektvorhersage
    • Spezifität der Datenerfassung: Unabhängige Variablen x sind leicht zu beschaffen, aber die Annotationskosten für abhängige Variablen y sind erheblich
    • Langsame Expertenkommentierung: SME-Experten können nur 10-20 hochwertige Proben pro Stunde annotieren
  2. Einschränkungen bestehender Methoden:
    • Traditionelle Optimierungsalgorithmen benötigen große Mengen annotierter Daten
    • Zufällige Stichprobennahme ist ineffizient
    • Mangel an effektiven Initialisierungsstrategien

Forschungsmotivation

Dieses Paper schlägt vor, das Hintergrundwissen von LLMs zu nutzen, um bessere initiale Vermutungen (Warm-Starts) zu generieren und damit die Leistung von Active Learning bei SE-Multi-Objective-Optimierungsaufgaben zu verbessern.

Kernbeiträge

  1. Vorschlag einer neuen Methode zur Verwendung von LLMs für Warm-Starts beim Active Learning für SE-Optimierungsaufgaben
  2. Empirischer Vergleich der LLM-Methode mit alternativen Methoden auf 49 Datensätzen
  3. Offenlegung der Vorteile und Einschränkungen von LLMs bei der Lösung von Multi-Objective-SE-Problemen
  4. Bereitstellung reproduzierbarer Daten und Skriptpakete für Benchmarking-Active-Learning-Strategien

Methodische Details

Aufgabendefinition

Gegeben sind Tabellendaten, wobei:

  • x-Spalten: Unabhängige Eingabevariablen (beobachtbar/steuerbar)
  • y-Spalten: Abhängige Variablen (erfordern teure Annotationsprozesse)
  • Ziel: Optimale y-Werte unter begrenztem Annotationsbudget (≤30 Proben) finden

Kernmethodische Architektur

1. LLM-Warm-Start-Prozess

E0 (initiale zufällige Annotation) → Sortierung (beste bis schlechteste) → 
LLM Few-Shot-Lernen → Generierung E1 (synthetische Proben) → 
Nearest-Neighbor-Mapping zu E2 → Warm-Start-Active-Learning

2. Active-Learning-Framework

Gaußsches Prozessmodell (GPM):

  • Berechnung von Mittelwert μ und Standardabweichung σ durch Anpassung vieler möglicher Funktionen
  • Verwendung von Akquisitionsfunktionen zur Bestimmung des nächsten Abtastpunkts
  • Unterstützung von drei Akquisitionsfunktionen: UCB, PI, EI

Parzen-Estimator-Baum (TPE):

  • Aufteilung beobachteter Daten in "beste" und "übrige" Verteilungen
  • Modellierung von p(x|y) statt p(y|x)
  • Unterstützung von zwei Akquisitionsstrategien: explore und exploit

3. LLM-Prompt-Engineering

Verwendung von Gemini 1.5 Pro mit Prompt-Vorlagen, die enthalten:

  • Systemnachricht: Definition der LLM-Rolle und Datensatz-Metadaten
  • Few-Shot-Beispiele: Zufällig ausgewählte Proben, die als "beste"/"übrige" annotiert sind
  • Aufgabenbeschreibung: Anforderung zur Generierung von 2 besseren und 2 schlechteren Proben

Technische Innovationen

  1. Multi-dimensionale geometrische Analysefähigkeit: LLMs können ähnliche PCA-Analysen durchführen, die wichtigsten Dimensionen identifizieren und extrapolieren
  2. Nutzung von Hintergrundwissen: Aktivierung relevanten Domänenwissens des LLM durch Attributnamen
  3. Nearest-Neighbor-Mapping-Strategie: Abbildung von LLM-generierten synthetischen Proben in den realen Datenraum

Experimentelle Einrichtung

Datensätze

Verwendung von 49 SE-Optimierungsaufgaben aus dem MOOT-Repository (Multi Objective Optimization Testing):

  • Größe: 93 bis 86.000 Zeilen
  • Dimensionen: 3 bis 38 unabhängige Variablen, 1 bis 5 abhängige Variablen
  • Klassifizierung:
    • Niedrig-dimensional (<6 Merkmale): 12 Datensätze
    • Mittel-dimensional (6-11 Merkmale): 14 Datensätze
    • Hoch-dimensional (>11 Merkmale): 19 Datensätze

Bewertungsmetriken

Verwendung der Chebyshev-Distanz zur Bewertung der Multi-Objective-Optimierungsleistung:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

wobei l_i der Idealwert ist; kleinere Chebyshev-Distanzen zeigen bessere Leistung an.

Vergleichsmethoden

  • GPM-Methoden: UCB_GPM, PI_GPM, EI_GPM
  • TPE-Methoden: explore, exploit
  • Baseline: Zufällige Stichprobennahme
  • Warm-Start-Strategien: LLM vs. zufällige Initialisierung

Implementierungsdetails

  • Warm-Start-Probengröße: B0 = 4
  • Gesamtes Evaluierungsbudget: B1 ∈ {10,15,20,25,30}
  • Wiederholungen: 20 (für statistische Validität)
  • Statistische Methoden: Scott-Knott-Ranking + Cliff's Delta Effektgröße

Experimentelle Ergebnisse

Hauptergebnisse

RQ1: Ist Active Learning für SE-Aufgaben nützlich?

  • Schlussfolgerung: Active Learning übertrifft zufällige Methoden
  • Evidenz: Die meisten Optimierungsgewinne werden innerhalb von 30 Annotationen erreicht; reine Zufallsmethoden erhalten in keiner Dimensionskategorie den höchsten Rang

RQ2: Ist Warm-Start für Active Learning nützlich?

  • Niedrig-dimensionale Daten: LLM/Exploit erreicht 100% des höchsten Rangs vs. random/Exploit mit 27%
  • Mittel-dimensionale Daten: LLM/Exploit erreicht 50% des höchsten Rangs vs. random/Exploit mit 21%

RQ3: Sind LLMs die beste Methode zur Generierung von Warm-Starts?

Ranking-Häufigkeit nach Dimensionalität:

MethodeNiedrig-dim (Rang 0)Mittel-dim (Rang 0)Hoch-dim (Rang 0)
LLM Exploit100%50%33%
random UCB_GPM45%36%50%
random EI_GPM45%36%44%
random PI_GPM9%36%39%

Wichtigste Erkenntnisse

  1. Dimensionalitätseffekt: LLMs zeigen überlegene Leistung bei niedrig- und mitteldimensionalen Problemen, aber die Effektivität nimmt bei hochdimensionalen Problemen ab
  2. Empfindlichkeit der Akquisitionsfunktion: LLM funktioniert am besten mit exploit gekoppelt, schlechter mit explore
  3. Recheneffizienz: TPE-Methoden laufen wesentlich schneller als GPM- oder LLM-Methoden

Fallstudie

Am Beispiel des SS-A-Datensatzes erreicht LLM/exploit bei verschiedenen Budgets den höchsten Rang (Rang 0), mit Chebyshev-Distanz-Medianwerten von 0,07-0,08, deutlich besser als die Baseline von 0,18.

Verwandte Arbeiten

Literaturübersichtsergebnisse

Durch Analyse von 1000 verwandten Arbeiten auf Google Scholar wurden Einschränkungen bestehender Forschung identifiziert:

  • Die meisten Arbeiten verwenden <6 Testmengen
  • Hauptfokus auf Single-Objective-Aufgaben
  • Selten Verwendung von Hintergrundwissen für Warm-Starts
  • Annotationsbudgets typischerweise >1000 Proben

Positionierung dieses Papers

Dieses Paper füllt eine Forschungslücke bei Multi-Objective-, Tabellendaten- und kleinem Annotationsbudget-SE-Optimierung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. LLM-Warm-Starts sind effektiv: Signifikante Verbesserung der Active-Learning-Leistung bei niedrig- und mitteldimensionalen SE-Aufgaben
  2. Dimensionale Einschränkungen: LLMs stehen bei hochdimensionalen Problemen vor Herausforderungen; Bayessche Methoden bleiben überlegen
  3. Praktischer Wert: Reduziert die Abhängigkeit von großen Mengen annotierter Daten

Einschränkungen

  1. Leistungsabfall bei hoher Dimensionalität: Möglicherweise aufgrund fehlender Lösungen für komplexe Probleme in Trainingsdaten
  2. Modellabhängigkeit: Nur Gemini 1.5 Pro verwendet; kein Vergleich mit anderen LLMs
  3. Domänenspezifität: Hauptsächlich auf SE-Optimierungsaufgaben ausgerichtet; Verallgemeinerungsfähigkeit zu überprüfen

Zukünftige Richtungen

  1. Dimensionale Erweiterung: Erkundung von Dimensionalitätsreduktionstechniken zur Bewältigung hochdimensionaler Probleme
  2. Hybridmethoden: Kombination der Stärken von LLM- und Bayesschen Methoden
  3. Kosteneffizienz: Untersuchung des Kompromisses zwischen Rechenkosten und Leistung

Tiefgehende Bewertung

Stärken

  1. Große Experimentskala: Die Bewertung von 49 Datensätzen ist in diesem Forschungsbereich selten
  2. Neuartige Methodik: Erste systematische Erkundung der LLM-Anwendung im SE-Active-Learning
  3. Statistische Strenge: Verwendung strenger statistischer Methoden wie Scott-Knott
  4. Starke Reproduzierbarkeit: Bereitstellung vollständiger Codes und Daten

Mängel

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Erklärung, warum LLMs bei niedrigdimensionalen Problemen effektiv sind
  2. Einzelne LLM-Auswahl: Nur ein LLM getestet; Vergleich zwischen Modellen fehlt
  3. Einfaches Prompt-Engineering: Möglicherweise existieren optimale Prompt-Strategien

Auswirkungen

  1. Akademischer Wert: Bietet neue Perspektiven für die Schnittstellenforschung von SE-Optimierung und Active Learning
  2. Praktischer Wert: Direkte Anwendungspotenziale in datenknappen SE-Szenarien
  3. Methodologischer Beitrag: Zeigt neue Verwendungen von LLMs in traditionellen Machine-Learning-Aufgaben

Anwendungsszenarien

  • Softwarekonfigurationsoptimierung
  • Cloud-Service-Parameteroptimierung
  • Softwareprozessmodellierung
  • Kompromissentscheidungen in Requirements Engineering

Literaturverzeichnis

Das Paper zitiert 87 verwandte Arbeiten, die wichtige Werke aus mehreren Bereichen abdecken – Active Learning, Multi-Objective-Optimierung, Software Engineering und große Sprachmodelle – und bietet damit eine solide theoretische Grundlage für die Forschung.


Zusammenfassung: Dies ist eine innovative Forschungsarbeit im Bereich der SE-Optimierung, die erstmals systematisch die Anwendung von LLMs bei Active-Learning-Warm-Starts untersucht. Obwohl es einige Einschränkungen gibt, machen die großflächigen experimentellen Validierungen und der praktische Wert diese Arbeit zu einem wichtigen Beitrag in diesem Forschungsbereich.