2025-11-23T20:13:16.600138

Can Large Language Models Improve SE Active Learning via Warm-Starts?

Senthilkumar, Menzies

When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.

academic

I Grandi Modelli Linguistici Possono Migliorare l'Apprendimento Attivo in SE tramite Warm-Starts?

Informazioni Fondamentali

ID Articolo: 2501.00125
Titolo: Can Large Language Models Improve SE Active Learning via Warm-Starts?
Autori: Lohith Senthilkumar, Tim Menzies (NC State University)
Classificazione: cs.SE (Software Engineering)
Data di Pubblicazione: 30 dicembre 2024 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2501.00125

Riassunto

Quando i dati dell'ingegneria del software (SE) sono scarsi, gli "apprenditori attivi" utilizzano modelli appresi da pochi campioni di dati per identificare il prossimo esempio più informativo da annotare. In questo modo, è possibile generare modelli efficaci utilizzando pochissimi dati. Per compiti multioggettivo di ingegneria del software, l'apprendimento attivo può beneficiare da un insieme efficace di ipotesi iniziali (noto anche come "warm-start"). Questo articolo esplora l'uso di grandi modelli linguistici (LLM) per creare warm-start e confronta i risultati con modelli di processi gaussiani e stimatori di alberi di Parzen. Su 49 compiti SE, i warm-start generati da LLM hanno migliorato significativamente le prestazioni per compiti a bassa e media dimensionalità. Tuttavia, l'efficacia degli LLM diminuisce nei problemi ad alta dimensionalità, dove i metodi bayesiani come i processi gaussiani mostrano le migliori prestazioni.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'ingegneria del software presenta numerosi problemi di ottimizzazione multioggettivo che richiedono compromessi tra vincoli concorrenti, come:

Come fornire più codice a costi inferiori?
Come rispondere alle query del database più velocemente utilizzando meno energia?

Sfide Fondamentali

Scarsità di Dati: Il dominio SE presenta tre classi di problemi nella raccolta dati:
- Raccolta di dati ingenua o errata: Come errori di annotazione "falsi positivi" superiori al 90% nella previsione di difetti
- Specificità della raccolta dati: Le variabili indipendenti x sono facilmente disponibili, ma l'annotazione della variabile dipendente y è costosa
- Velocità lenta di annotazione da esperti: Gli esperti SME possono annotare solo 10-20 campioni di alta qualità all'ora
Limitazioni dei Metodi Esistenti:
- Gli algoritmi di ottimizzazione tradizionali richiedono grandi quantità di dati annotati
- Il campionamento casuale è inefficiente
- Mancanza di strategie di inizializzazione efficaci

Motivazione della Ricerca

Questo articolo propone l'uso della conoscenza di base degli LLM per generare migliori ipotesi iniziali (warm-start), al fine di migliorare le prestazioni dell'apprendimento attivo nei compiti di ottimizzazione multioggettivo SE.

Contributi Principali

Propone un nuovo metodo che utilizza gli LLM per il warm-start dell'apprendimento attivo nei compiti di ottimizzazione SE
Conduce un confronto empirico del metodo LLM con metodi alternativi su 49 dataset
Rivela i vantaggi e i limiti degli LLM nella risoluzione di problemi multioggettivo SE
Fornisce dati riproducibili e pacchetti di script per il benchmarking di strategie di apprendimento attivo

Dettagli del Metodo

Definizione del Compito

Dato un dataset tabulare, dove:

Colonne x: Variabili di input indipendenti (osservabili/controllabili)
Colonne y: Variabili dipendenti (richiedono un processo di annotazione costoso)
Obiettivo: Trovare il valore y ottimale con un budget di annotazione limitato (≤30 campioni)

Architettura del Metodo Principale

1. Flusso di Warm-Start LLM

E0 (annotazione casuale iniziale) → ordinamento (migliore a peggiore) → 
apprendimento con pochi esempi LLM → generazione E1 (campioni sintetici) → 
mappatura del vicino più prossimo a E2 → warm-start apprendimento attivo

2. Framework di Apprendimento Attivo

Modello di Processo Gaussiano (GPM):

Calcola media μ e deviazione standard σ adattando numerose funzioni possibili
Utilizza funzioni di acquisizione per decidere il prossimo punto di campionamento
Supporta tre funzioni di acquisizione: UCB, PI, EI

Stimatore di Albero di Parzen (TPE):

Divide i dati osservati in due distribuzioni: "migliore" e "resto"
Modella p(x|y) piuttosto che p(y|x)
Supporta due strategie di acquisizione: explore ed exploit

3. Ingegneria dei Prompt LLM

Utilizza Gemini 1.5 Pro con template di prompt contenente:

Messaggio di sistema: Definisce il ruolo dell'LLM e i metadati del dataset
Esempi con pochi campioni: Campioni casuali annotati come "migliore"/"resto"
Descrizione del compito: Richiede la generazione di 2 campioni migliori e 2 peggiori

Punti di Innovazione Tecnica

Capacità di Analisi Geometrica Multidimensionale: Gli LLM possono eseguire analisi multidimensionali simili a PCA, identificando le dimensioni più importanti ed estrapolando
Utilizzo della Conoscenza di Base: Riattiva la conoscenza del dominio rilevante dell'LLM attraverso i nomi degli attributi
Strategia di Mappatura del Vicino Più Prossimo: Mappa i campioni sintetici generati da LLM nello spazio dei dati reali

Configurazione Sperimentale

Dataset

Utilizza 49 compiti di ottimizzazione SE dal repository MOOT (Multi Objective Optimization Testing):

Dimensione: Da 93 a 86.000 righe
Dimensionalità: Da 3 a 38 variabili indipendenti, da 1 a 5 variabili dipendenti
Classificazione:
- Bassa dimensionalità (<6 caratteristiche): 12 dataset
- Media dimensionalità (6-11 caratteristiche): 14 dataset
- Alta dimensionalità (>11 caratteristiche): 19 dataset

Metriche di Valutazione

Utilizza la distanza di Chebyshev per valutare le prestazioni di ottimizzazione multioggettivo:

d_Chebyshev(y,o) = max_{i=1,...,n} |y_i - l_i|

dove l_i è il valore ideale; distanze di Chebyshev più piccole indicano prestazioni migliori.

Metodi di Confronto

Metodo GPM: UCB_GPM, PI_GPM, EI_GPM
Metodo TPE: explore, exploit
Baseline: Campionamento casuale
Strategie di Warm-Start: LLM vs inizializzazione casuale

Dettagli di Implementazione

Numero di campioni di warm-start: B0 = 4
Budget di valutazione totale: B1 ∈ {10,15,20,25,30}
Numero di ripetizioni: 20 (validità statistica)
Metodo statistico: Ordinamento Scott-Knott + effetto Cliff's Delta

Risultati Sperimentali

Risultati Principali

RQ1: L'apprendimento attivo è utile per i compiti SE?

Conclusione: L'apprendimento attivo supera il metodo casuale
Evidenza: La maggior parte dei guadagni di ottimizzazione si realizzano entro 30 annotazioni; il metodo puramente casuale non ha ottenuto il ranking più alto in nessuna categoria di dimensionalità

RQ2: Il warm-start è utile per l'apprendimento attivo?

Dati a bassa dimensionalità: LLM/Exploit ottiene il 100% del ranking più alto vs 27% di casuale/Exploit
Dati a media dimensionalità: LLM/Exploit ottiene il 50% del ranking più alto vs 21% di casuale/Exploit

RQ3: Gli LLM sono il miglior metodo per generare warm-start?

Frequenza di Ranking per Analisi per Dimensionalità:

Metodo	Bassa Dim (rank 0)	Media Dim (rank 0)	Alta Dim (rank 0)
LLM Exploit	100%	50%	33%
random UCB_GPM	45%	36%	50%
random EI_GPM	45%	36%	44%
random PI_GPM	9%	36%	39%

Scoperte Chiave

Effetto della Dimensionalità: Gli LLM mostrano prestazioni eccellenti nei problemi a bassa e media dimensionalità, ma l'efficacia diminuisce nei problemi ad alta dimensionalità
Sensibilità della Funzione di Acquisizione: Gli LLM si abbinano meglio con exploit, ma meno bene con explore
Efficienza Computazionale: Il metodo TPE è molto più veloce dei metodi GPM o LLM

Analisi di Caso

Utilizzando il dataset SS-A come esempio, LLM/exploit ottiene il ranking più alto (rank 0) con diversi budget, con distanza mediana di Chebyshev di 0,07-0,08, significativamente superiore al baseline di 0,18.

Lavori Correlati

Scoperte della Revisione della Letteratura

Analizzando 1000 articoli correlati su Google Scholar, le limitazioni della ricerca esistente includono:

La maggior parte degli studi utilizza <6 set di test
Focalizzazione principale su compiti a singolo obiettivo
Raramente utilizza conoscenza di base per il warm-start
Budget di annotazione solitamente >1000 campioni

Posizionamento di Questo Articolo

Questo articolo colma il divario nella ricerca di ottimizzazione SE multioggettivo, dati tabulari e budget di annotazione ridotto.

Conclusioni e Discussione

Conclusioni Principali

Warm-Start LLM Efficace: Migliora significativamente le prestazioni dell'apprendimento attivo per compiti SE a bassa e media dimensionalità
Limitazioni di Dimensionalità: Gli LLM affrontano sfide nei problemi ad alta dimensionalità; i metodi bayesiani rimangono superiori
Valore Pratico: Riduce la necessità di grandi quantità di dati annotati

Limitazioni

Decadimento delle Prestazioni ad Alta Dimensionalità: Potrebbe essere dovuto alla mancanza di soluzioni per problemi complessi nei dati di addestramento
Dipendenza dal Modello: Utilizza solo Gemini 1.5 Pro; manca il confronto con altri LLM
Specificità del Dominio: Principalmente focalizzato su compiti di ottimizzazione SE; la capacità di generalizzazione rimane da verificare

Direzioni Future

Estensione della Dimensionalità: Esplorare tecniche di riduzione della dimensionalità per mitigare problemi ad alta dimensionalità
Metodi Ibridi: Combinare i vantaggi degli LLM e dei metodi bayesiani
Efficienza dei Costi: Ricercare il compromesso tra costo computazionale e prestazioni

Valutazione Approfondita

Punti di Forza

Scala Sperimentale Ampia: La valutazione su 49 dataset è rara nel settore
Metodo Innovativo: Prima esplorazione sistematica dell'applicazione degli LLM nell'apprendimento attivo SE
Rigore Statistico: Utilizza metodi statistici rigorosi come Scott-Knott
Forte Riproducibilità: Fornisce codice e dati completi

Carenze

Analisi Teorica Insufficiente: Manca una spiegazione teorica del perché gli LLM sono efficaci nei problemi a bassa dimensionalità
Scelta di LLM Singola: Testa solo un LLM; manca il confronto tra modelli
Ingegneria dei Prompt Semplice: Potrebbero esistere strategie di prompt più ottimali

Impatto

Valore Accademico: Fornisce nuove prospettive per l'intersezione tra ottimizzazione SE e apprendimento attivo
Valore Pratico: Ha potenziale di applicazione diretta in scenari SE con dati scarsi
Contributo Metodologico: Dimostra nuovi usi degli LLM nei compiti di apprendimento automatico tradizionali

Scenari Applicabili

Ottimizzazione della configurazione del software
Ottimizzazione dei parametri dei servizi cloud
Modellazione dei processi software
Decisioni di compromesso nell'ingegneria dei requisiti

Riferimenti Bibliografici

L'articolo cita 87 lavori correlati, coprendo molteplici aree inclusi apprendimento attivo, ottimizzazione multioggettivo, ingegneria del software e grandi modelli linguistici, fornendo una solida base teorica per la ricerca.

Sintesi: Questo è uno studio innovativo nel campo dell'ottimizzazione dell'ingegneria del software, che esplora sistematicamente per la prima volta l'applicazione degli LLM nel warm-start dell'apprendimento attivo. Sebbene presenti alcune limitazioni, la sua validazione sperimentale su larga scala e il valore pratico lo rendono un contributo importante al settore.