Can Large Language Models Improve SE Active Learning via Warm-Starts?
Senthilkumar, Menzies
When SE data is scarce, "active learners" use models learned from tiny samples of the data to find the next most informative example to label. In this way, effective models can be generated using very little data. For multi-objective software engineering (SE) tasks, active learning can benefit from an effective set of initial guesses (also known as "warm starts"). This paper explores the use of Large Language Models (LLMs) for creating warm-starts. Those results are compared against Gaussian Process Models and Tree of Parzen Estimators. For 49 SE tasks, LLM-generated warm starts significantly improved the performance of low- and medium-dimensional tasks. However, LLM effectiveness diminishes in high-dimensional problems, where Bayesian methods like Gaussian Process Models perform best.
academic
I Grandi Modelli Linguistici Possono Migliorare l'Apprendimento Attivo in SE tramite Warm-Starts?
Quando i dati dell'ingegneria del software (SE) sono scarsi, gli "apprenditori attivi" utilizzano modelli appresi da pochi campioni di dati per identificare il prossimo esempio più informativo da annotare. In questo modo, è possibile generare modelli efficaci utilizzando pochissimi dati. Per compiti multioggettivo di ingegneria del software, l'apprendimento attivo può beneficiare da un insieme efficace di ipotesi iniziali (noto anche come "warm-start"). Questo articolo esplora l'uso di grandi modelli linguistici (LLM) per creare warm-start e confronta i risultati con modelli di processi gaussiani e stimatori di alberi di Parzen. Su 49 compiti SE, i warm-start generati da LLM hanno migliorato significativamente le prestazioni per compiti a bassa e media dimensionalità. Tuttavia, l'efficacia degli LLM diminuisce nei problemi ad alta dimensionalità, dove i metodi bayesiani come i processi gaussiani mostrano le migliori prestazioni.
Questo articolo propone l'uso della conoscenza di base degli LLM per generare migliori ipotesi iniziali (warm-start), al fine di migliorare le prestazioni dell'apprendimento attivo nei compiti di ottimizzazione multioggettivo SE.
E0 (annotazione casuale iniziale) → ordinamento (migliore a peggiore) →
apprendimento con pochi esempi LLM → generazione E1 (campioni sintetici) →
mappatura del vicino più prossimo a E2 → warm-start apprendimento attivo
Capacità di Analisi Geometrica Multidimensionale: Gli LLM possono eseguire analisi multidimensionali simili a PCA, identificando le dimensioni più importanti ed estrapolando
Utilizzo della Conoscenza di Base: Riattiva la conoscenza del dominio rilevante dell'LLM attraverso i nomi degli attributi
Strategia di Mappatura del Vicino Più Prossimo: Mappa i campioni sintetici generati da LLM nello spazio dei dati reali
Conclusione: L'apprendimento attivo supera il metodo casuale
Evidenza: La maggior parte dei guadagni di ottimizzazione si realizzano entro 30 annotazioni; il metodo puramente casuale non ha ottenuto il ranking più alto in nessuna categoria di dimensionalità
Effetto della Dimensionalità: Gli LLM mostrano prestazioni eccellenti nei problemi a bassa e media dimensionalità, ma l'efficacia diminuisce nei problemi ad alta dimensionalità
Sensibilità della Funzione di Acquisizione: Gli LLM si abbinano meglio con exploit, ma meno bene con explore
Efficienza Computazionale: Il metodo TPE è molto più veloce dei metodi GPM o LLM
Utilizzando il dataset SS-A come esempio, LLM/exploit ottiene il ranking più alto (rank 0) con diversi budget, con distanza mediana di Chebyshev di 0,07-0,08, significativamente superiore al baseline di 0,18.
Decadimento delle Prestazioni ad Alta Dimensionalità: Potrebbe essere dovuto alla mancanza di soluzioni per problemi complessi nei dati di addestramento
Dipendenza dal Modello: Utilizza solo Gemini 1.5 Pro; manca il confronto con altri LLM
Specificità del Dominio: Principalmente focalizzato su compiti di ottimizzazione SE; la capacità di generalizzazione rimane da verificare
L'articolo cita 87 lavori correlati, coprendo molteplici aree inclusi apprendimento attivo, ottimizzazione multioggettivo, ingegneria del software e grandi modelli linguistici, fornendo una solida base teorica per la ricerca.
Sintesi: Questo è uno studio innovativo nel campo dell'ottimizzazione dell'ingegneria del software, che esplora sistematicamente per la prima volta l'applicazione degli LLM nel warm-start dell'apprendimento attivo. Sebbene presenti alcune limitazioni, la sua validazione sperimentale su larga scala e il valore pratico lo rendono un contributo importante al settore.