2025-11-21T20:16:16.286197

The Potential of LLMs in Automating Software Testing: From Generation to Reporting

Sherifi, Slhoub, Nembhard

Having a high quality software is essential in software engineering, which requires robust validation and verification processes during testing activities. Manual testing, while effective, can be time consuming and costly, leading to an increased demand for automated methods. Recent advancements in Large Language Models (LLMs) have significantly influenced software engineering, particularly in areas like requirements analysis, test automation, and debugging. This paper explores an agent-oriented approach to automated software testing, using LLMs to reduce human intervention and enhance testing efficiency. The proposed framework integrates LLMs to generate unit tests, visualize call graphs, and automate test execution and reporting. Evaluations across multiple applications in Python and Java demonstrate the system's high test coverage and efficient operation. This research underscores the potential of LLM-powered agents to streamline software testing workflows while addressing challenges in scalability and accuracy.

academic

Il Potenziale dei Modelli Linguistici di Grandi Dimensioni nell'Automazione dei Test Software: Dalla Generazione alla Relazione

Informazioni Fondamentali

ID Articolo: 2501.00217
Titolo: The Potential of LLMs in Automating Software Testing: From Generation to Reporting
Autori: Betim Sherifi, Khaled Slhoub, Fitzroy Nembhard (Florida Institute of Technology)
Classificazione: cs.SE (Ingegneria del Software), cs.AI (Intelligenza Artificiale)
Data di Pubblicazione: 31 dicembre 2024
Link Articolo: https://arxiv.org/abs/2501.00217

Riassunto

Lo sviluppo di software di alta qualità nell'ingegneria del software richiede processi robusti di verifica e validazione. Sebbene i test manuali siano efficaci, risultano dispendiosi in termini di tempo e costi, generando una crescente necessità di metodi automatizzati. I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno influenzato significativamente l'ingegneria del software, in particolare nei settori dell'analisi dei requisiti, dell'automazione dei test e del debugging. Questo articolo esplora un approccio all'automazione dei test software orientato agli agenti, sfruttando gli LLM per ridurre l'intervento umano e migliorare l'efficienza dei test. Il framework proposto integra gli LLM per generare test unitari, visualizzare grafici di invocazione e automatizzare l'esecuzione e la relazione dei test. La valutazione su molteplici applicazioni in Python e Java dimostra che il sistema raggiunge un'elevata copertura dei test e un'esecuzione efficiente.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I metodi tradizionali di test software presentano inefficienze, costi elevati e eccessivo intervento umano
Necessità Pratica: L'assicurazione della qualità del software richiede processi completi di verifica e validazione, ma i test manuali non riescono a soddisfare i requisiti di efficienza dello sviluppo software moderno

Analisi dell'Importanza

I test software sono considerati uno dei campi più importanti nell'educazione all'ingegneria del software
I metodi di test manuali, come i test di regressione, sono particolarmente dispendiosi in termini di tempo e costi
Garantire che i prodotti software funzionino come previsto e soddisfino gli standard di qualità è essenziale per l'ingegneria del software

Limitazioni degli Approcci Esistenti

Test Manuali: Sebbene efficaci, risultano dispendiosi in termini di tempo e costi
Test Automatizzati Tradizionali: Non possono sostituire completamente i metodi manuali; in scenari come i test GUI è ancora necessario l'intervento umano
Test Software Basati su Agenti Tradizionali (ABST): Mancano di capacità intelligenti di generazione dei casi di test

Motivazione della Ricerca

Sfruttare le potenti capacità degli LLM, combinate con sistemi multi-agente, per costruire un framework di test intelligente in grado di generare dinamicamente casi di test, ridurre significativamente l'input manuale e minimizzare il tempo di creazione ed esecuzione dei test.

Contributi Fondamentali

Propone un framework multi-agente per test software basato su LLM, realizzando l'automazione end-to-end dalla generazione dei test alla relazione
Progetta un'architettura a quattro livelli, includendo client web audio, agente di test software, LLM e ambiente di sviluppo
Implementa la generazione dinamica dei casi di test, sfruttando gli LLM per generare automaticamente test unitari personalizzati e giustificazioni dei test
Integra funzionalità di visualizzazione, generando automaticamente grafici di invocazione in formato DOT per mostrare le interazioni dell'applicazione
Verifica l'efficacia del sistema, realizzando un'elevata copertura dei test su progetti Python e Java (media 93,45%-97,71%)

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Richieste di test fornite dall'utente tramite voce o testo (contenenti nome del progetto, sottocartella, linguaggio di programmazione, ecc.) Output: Relazione PDF completa contenente risultati dei test, analisi della copertura, giustificazioni dei test e grafici di invocazione Vincoli: Supporto per progetti Python e Java, focalizzazione a livello di test unitari

Architettura del Modello

Architettura di Alto Livello

Il sistema contiene quattro componenti principali:

Client Web Audio: Cattura l'input dell'utente (comandi vocali o testo), avvia il flusso di lavoro dei test tramite richieste HTTP GET
Agente di Test Software: Componente centrale del sistema, coordina l'interazione tra i componenti, fungendo da livello di astrazione per la generazione degli script di test, l'esecuzione e la creazione di relazioni
Modelli Linguistici di Grandi Dimensioni (LLM): Eseguono compiti di estrazione di entità, generazione di test e generazione di grafici DOT
Ambiente di Sviluppo: Fornisce accesso al codice del progetto, esegue i casi di test generati e visualizza i risultati

Flusso di Lavoro dell'Architettura di Basso Livello

Inizializzazione: Il client invia un comando vocale all'API di generazione dei test
Estrazione di Entità: L'LLM estrae il nome del progetto, la sottocartella e il linguaggio di programmazione dal prompt dell'utente
Localizzazione dei File: Il modulo FileLocator individua la cartella del progetto specificata ed estrae il contenuto dei file
Generazione dei Test: L'LLM (utilizzando Gemini) genera test unitari e le relative giustificazioni
Generazione di Grafici: L'LLM genera stringhe in formato DOT per la visualizzazione dei grafici di invocazione
Esecuzione e Relazione: L'esecutore di test esegue i test, il generatore di relazioni PDF crea una relazione completa contenente risultati, copertura e grafici di invocazione

Punti di Innovazione Tecnica

Estrazione Intelligente di Entità: Utilizza gli LLM per estrarre automaticamente parametri di test critici da istruzioni in linguaggio naturale
Generazione Dinamica dei Test: Genera automaticamente script di test contenenti casi di base e casi limite basati sull'analisi del codice
Generazione di Giustificazioni: Fornisce giustificazioni dettagliate dei test e descrizioni degli scenari coperti per ogni caso di test
Visualizzazione Integrata: Genera automaticamente grafici di invocazione per aiutare a comprendere le relazioni di interazione della base di codice
Automazione End-to-End: Processo completamente automatizzato dall'input dell'utente alla relazione finale

Configurazione Sperimentale

Dataset

Utilizza quattro applicazioni di diversa complessità:

Progetti Python:

Experiment: Funzionalità di calcolatrice di base (47 righe di codice)
Cinema: Sistema di gestione del cinema (183 righe di codice)

Progetti Java:

StudentAverage: Calcolo dei voti degli studenti (114 righe di codice)
LibrarySystem: Sistema di gestione della biblioteca (269 righe di codice)

Metriche di Valutazione

Tasso di Successo dell'Esecuzione: Proporzione di esecuzioni che completano tutti i passaggi (generazione dei test, esecuzione, generazione della relazione PDF)
Copertura dei Test: Percentuale di codice coperta dai casi di test generati
Tempo di Esecuzione: Analisi del tempo impiegato in ciascuna fase operativa
Confronto tra Linguaggi: Differenze di prestazioni tra progetti Python e Java

Dettagli di Implementazione

Modello LLM: Principalmente Google Gemini, con esperimenti comparativi utilizzando ChatGPT
Numero di Test: 20 esecuzioni per progetti Python, 24 esecuzioni per progetti Java
Formato di Input: Test di molteplici formati di prompt in linguaggio naturale

Risultati Sperimentali

Risultati Principali

Prestazioni del Tasso di Successo

Progetti Python: Tutte le 20 esecuzioni riuscite (tasso di successo del 100%)
Progetti Java: 3 fallimenti su 24 esecuzioni (tasso di successo dell'87,5%)
Cause dei Fallimenti: Principalmente dovute a prompt ambigui ed errori di compilazione negli script di test generati

Analisi del Tempo di Esecuzione

Tempo medio totale di esecuzione: 83,5 secondi
Tempo di generazione dei test: 62,8 secondi (rappresenta la proporzione maggiore)
Localizzazione della cartella: 9,7 secondi
Generazione di grafici DOT: 5,4 secondi
Esecuzione dei test: 3,2 secondi

Risultati del Confronto tra Linguaggi

Metrica	Java	Python
Tempo medio totale di esecuzione	86,7 s	80 s
Tempo di generazione dei test	62,4 s	63,3 s
Tempo di esecuzione dei test	5,44 s	0,87 s
Copertura media dei test	97,71%	93,45%

Analisi Dettagliata del Progetto

Progetto	Linguaggio	Righe di Codice	Tempo Totale	Generazione Test	Esecuzione Test	Copertura
LibrarySystem	Java	269	119,06 s	92,54 s	5,39 s	94,67%
StudentManager	Java	114	62,55 s	39,79 s	5,48 s	100,00%
Cinema	Python	183	110,13 s	92,43 s	0,79 s	88,30%
Experiment	Python	47	49,78 s	34,17 s	0,96 s	98,60%

Esperimenti di Confronto tra LLM

ChatGPT vs Gemini (progetto LibrarySystem):

Tempo di generazione ChatGPT: ~180 secondi (circa il doppio di Gemini)
Copertura dei test ChatGPT: 98%
Nota: L'utilizzo dell'applicazione web ChatGPT anziché dell'API potrebbe influenzare il tempo di generazione

Analisi di Casi Studio

Esempio di Giustificazione dei Test

Progetto Cinema - funzione rent_movie:

Caso di base: "Testare il noleggio di un film disponibile a un membro esistente"
Casi limite: "Testare il noleggio di un film inesistente, il noleggio di un film a un membro inesistente, il noleggio di un film già noleggiato"

Progetto Library - funzione getTitle:

Caso di base: "Testare il recupero del titolo del libro dopo la creazione dell'oggetto"
Casi limite: Non applicabili

Lavori Correlati

Test Software Tradizionali Basati su Agenti (ABST)

Evoluzione Storica: Attira attenzione dal 1999, raggiunge un picco significativo nell'ultimo decennio
Enfasi Applicativa: Principalmente focalizzato su test a livello di sistema, con Java come linguaggio target principale
Lavori Rappresentativi:
- Framework di test automatizzati per sistemi web (collaborazione multi-agente)
- Test di macchine da caffè industriali (ordinamento prioritario con logica fuzzy)

Test Software Potenziati da LLM

Indagine Applicativa Industriale: Il 48% dei professionisti ha già integrato gli LLM nelle attività di test
Campi di Applicazione: Analisi dei requisiti, sviluppo dei piani di test, automazione dei test
Strumenti Comuni: ChatGPT, GitHub Copilot
Tendenze di Ricerca: L'analisi di 102 articoli correlati mostra che gli LLM hanno un valore significativo nella generazione di casi di test, nella creazione di asserzioni e in altri aspetti

Conclusioni e Discussione

Conclusioni Principali

Tasso di Successo Elevato: Gli agenti guidati da LLM mostrano prestazioni eccellenti nell'automazione dei test software, con un tasso di successo del 100% per i progetti Python
Copertura Elevata: La copertura media dei test supera il 93%, dimostrando l'efficacia dei casi di test generati
Miglioramento dell'Efficienza: Riduce significativamente l'intervento umano, realizzando l'automazione end-to-end dalla generazione dei test alla relazione
Adattabilità Linguistica: Il framework supporta con successo due linguaggi di programmazione mainstream, Python e Java

Limitazioni

Stabilità dei Progetti Java: Il tasso di fallimento nell'esecuzione di Java è relativamente elevato, richiedendo miglioramenti nell'elaborazione del linguaggio naturale e nella precisione sintattica
Limitazione dell'Ambito dei Test: Attualmente focalizzato solo su test unitari, mancano test di integrazione e test a livello di sistema
Funzionalità di Visualizzazione: Sebbene i grafici di invocazione siano utili, mancano funzionalità avanzate come mappe di calore della copertura
Dipendenza dall'Input: Sensibile alla qualità del prompt; prompt ambigui possono causare fallimenti

Direzioni Future

Estensione dei Tipi di Test: Introdurre supporto per test di integrazione e test a livello di sistema
Miglioramento del Supporto Linguistico: Estendere a più linguaggi di programmazione
Miglioramento della Visualizzazione: Aggiungere mappe di calore della copertura della tendenza ai difetti
Integrazione dei Requisiti: Utilizzare documenti di specifica dei requisiti come input del prompt per migliorare la precisione
Gestione degli Errori: Migliorare la gestione dei prompt ambigui e i meccanismi di recupero degli errori

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo approccio sistematico che combina LLM con architettura multi-agente per l'automazione end-to-end dei test software
Alto Valore Pratico: Risolve i problemi pratici nel campo dei test software, con forte valore di applicazione ingegneristica
Valutazione Completa: Valutazione completa tra linguaggi e progetti multipli, con risultati convincenti
Architettura Chiara: Design dell'architettura a livelli alto e basso ben strutturato, elevato grado di modularità, facile da estendere e mantenere

Insufficienze

Ambito dei Test Limitato: Supporta solo test unitari, non può soddisfare le esigenze complete dei test software
Analisi Insufficiente degli Errori: Analisi limitata delle cause dei fallimenti nei progetti Java
Mancanza di Confronti di Benchmark: Mancano confronti dettagliati con gli strumenti di test automatizzati esistenti
Verifica della Scalabilità: Non verificato su progetti grandi e complessi per la scalabilità del sistema

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca per l'applicazione degli LLM nel campo dell'ingegneria del software
Valore Pratico: Può essere direttamente applicato ai processi di sviluppo software, migliorando l'efficienza dei test
Promozione Tecnologica: Dimostra l'enorme potenziale degli LLM nel campo dell'automazione dei test
Riproducibilità: Descrizione dettagliata dell'architettura, facilitando la riproduzione e il miglioramento da parte di altri ricercatori

Scenari Applicabili

Progetti di Piccole e Medie Dimensioni: Particolarmente adatto per progetti con base di codice di poche centinaia di righe
Automazione dei Test Unitari: Può ridurre significativamente il lavoro manuale di scrittura dei test unitari
Verifica Rapida di Prototipi: Applicabile a scenari che richiedono la generazione rapida di casi di test
Educazione e Formazione: Utilizzabile per l'insegnamento e la formazione nei test software

Riferimenti Bibliografici

L'articolo cita 13 importanti riferimenti bibliografici, coprendo metodi ABST tradizionali, applicazioni degli LLM nei test software e teorie fondamentali dei test software, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo di ricerca di importante valore nel campo interdisciplinare dell'ingegneria del software e dell'intelligenza artificiale. Sebbene presenti alcune limitazioni, il suo approccio innovativo e i risultati pratici aprono nuove direzioni per l'applicazione degli LLM nell'automazione dei test software, con buon valore accademico e prospettive pratiche promettenti.