2025-11-21T20:16:16.286197

The Potential of LLMs in Automating Software Testing: From Generation to Reporting

Sherifi, Slhoub, Nembhard

Having a high quality software is essential in software engineering, which requires robust validation and verification processes during testing activities. Manual testing, while effective, can be time consuming and costly, leading to an increased demand for automated methods. Recent advancements in Large Language Models (LLMs) have significantly influenced software engineering, particularly in areas like requirements analysis, test automation, and debugging. This paper explores an agent-oriented approach to automated software testing, using LLMs to reduce human intervention and enhance testing efficiency. The proposed framework integrates LLMs to generate unit tests, visualize call graphs, and automate test execution and reporting. Evaluations across multiple applications in Python and Java demonstrate the system's high test coverage and efficient operation. This research underscores the potential of LLM-powered agents to streamline software testing workflows while addressing challenges in scalability and accuracy.

academic

Le Potentiel des LLMs dans l'Automatisation des Tests Logiciels : De la Génération au Rapport

Informations Fondamentales

ID de l'article: 2501.00217
Titre: The Potential of LLMs in Automating Software Testing: From Generation to Reporting
Auteurs: Betim Sherifi, Khaled Slhoub, Fitzroy Nembhard (Institut Technologique de Floride)
Classification: cs.SE (Génie Logiciel), cs.AI (Intelligence Artificielle)
Date de Publication: 31 décembre 2024
Lien de l'article: https://arxiv.org/abs/2501.00217

Résumé

Le développement de logiciels de haute qualité en génie logiciel nécessite des processus robustes de vérification et de validation. Bien que les tests manuels soient efficaces, ils sont chronophages et coûteux, d'où la demande croissante de méthodes automatisées. Les avancées récentes des modèles de langage volumineux (LLMs) ont un impact significatif sur le génie logiciel, notamment dans les domaines de l'analyse des exigences, de l'automatisation des tests et du débogage. Cet article explore une approche d'automatisation des tests logiciels orientée agents, exploitant les LLMs pour réduire l'intervention humaine et améliorer l'efficacité des tests. Le cadre proposé intègre les LLMs pour générer des tests unitaires, visualiser les graphiques d'appels et automatiser l'exécution et la génération de rapports des tests. L'évaluation sur plusieurs applications Python et Java démontre que le système atteint une couverture de test élevée et une exécution efficace.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: Les méthodes traditionnelles de test logiciel souffrent d'inefficacité, de coûts élevés et d'une intervention humaine excessive
Besoin réel: L'assurance qualité logicielle nécessite un processus complet de vérification et de validation, mais les tests manuels ne peuvent pas répondre aux exigences d'efficacité du développement logiciel moderne

Analyse de l'Importance

Les tests logiciels sont considérés comme l'un des domaines les plus importants de l'éducation en génie logiciel
Les méthodes de test manuel, telles que les tests de régression, sont particulièrement chronophages et coûteuses
Assurer que les produits logiciels s'exécutent comme prévu et respectent les normes de qualité est essentiel en génie logiciel

Limitations des Approches Existantes

Tests manuels: Bien qu'efficaces, ils sont chronophages et coûteux
Tests automatisés traditionnels: Incapables de remplacer complètement les méthodes manuelles ; l'intervention humaine reste nécessaire dans des scénarios tels que les tests d'interface graphique
Tests logiciels basés sur agents traditionnels (ABST): Manquent de capacités intelligentes de génération de cas de test

Motivation de la Recherche

Exploiter les capacités puissantes des LLMs, combinées avec des systèmes multi-agents, pour construire un cadre de test intelligent capable de générer dynamiquement des cas de test, de réduire considérablement l'entrée manuelle et de minimiser le temps de création et d'exécution des cas de test.

Contributions Principales

Proposition d'un cadre de test logiciel multi-agents basé sur LLM, réalisant l'automatisation de bout en bout de la génération de tests au rapport
Conception d'une architecture système à quatre niveaux, comprenant un client Web audio, des agents de test logiciel, des LLMs et un environnement de développement
Implémentation de la génération dynamique de cas de test, exploitant les LLMs pour générer automatiquement des tests unitaires personnalisés et des justifications de test
Intégration de fonctionnalités de visualisation, générant automatiquement des graphiques d'appels au format DOT pour afficher les interactions des applications
Validation de l'efficacité du système, réalisant une couverture de test élevée (moyenne 93,45%-97,71%) sur des projets Python et Java

Explication Détaillée de la Méthode

Définition des Tâches

Entrée: Demandes de test fournies par l'utilisateur via voix ou texte (incluant le nom du projet, les sous-dossiers, le langage de programmation, etc.) Sortie: Rapport PDF complet contenant les résultats des tests, l'analyse de couverture, les justifications de test et les graphiques d'appels Contraintes: Support des projets Python et Java, focus sur le niveau des tests unitaires

Architecture du Modèle

Architecture de Haut Niveau

Le système comprend quatre composants principaux :

Client Web Audio: Capture les entrées utilisateur (commandes vocales ou texte), initie le flux de travail de test via des requêtes HTTP GET
Agent de Test Logiciel: Composant central du système, coordonne les interactions entre les composants, servant de couche d'abstraction pour la génération de scripts de test, l'exécution et la création de rapports
Modèles de Langage Volumineux (LLMs): Exécutent les tâches d'extraction d'entités, de génération de tests et de génération de graphiques DOT
Environnement de Développement: Fournit l'accès au code du projet, exécute les cas de test générés et affiche les résultats

Flux de Travail de l'Architecture de Bas Niveau

Initialisation: Le client envoie une commande vocale à l'API de génération de tests
Extraction d'Entités: Le LLM extrait le nom du projet, les sous-dossiers et le langage de programmation de l'invite utilisateur
Localisation de Fichiers: Le module FileLocator localise le dossier de projet spécifié et extrait le contenu des fichiers
Génération de Tests: Le LLM (utilisant Gemini) génère des tests unitaires et les justifications correspondantes
Génération de Graphiques: Le LLM génère une chaîne de format DOT pour la visualisation des graphiques d'appels
Exécution et Rapport: L'exécuteur de tests exécute les tests, le générateur de rapport PDF crée un rapport complet contenant les résultats, la couverture et les graphiques d'appels

Points d'Innovation Technique

Extraction d'Entités Intelligente: Utilisation des LLMs pour extraire automatiquement les paramètres de test clés des instructions en langage naturel
Génération Dynamique de Tests: Génération automatique de scripts de test incluant les cas de base et les cas limites basée sur l'analyse du code
Génération de Justifications: Fourniture de justifications détaillées de test et d'explications des scénarios couverts pour chaque cas de test
Visualisation Intégrée: Génération automatique de graphiques d'appels pour aider à comprendre les relations d'interaction du code
Automatisation de Bout en Bout: Processus complètement automatisé de l'entrée utilisateur au rapport final

Configuration Expérimentale

Ensemble de Données

Utilisation de quatre applications de complexité différente :

Projets Python:

Experiment: Fonctionnalités de calculatrice de base (47 lignes de code)
Cinema: Système de gestion de cinéma (183 lignes de code)

Projets Java:

StudentAverage: Calcul des notes d'étudiants (114 lignes de code)
LibrarySystem: Système de gestion de bibliothèque (269 lignes de code)

Métriques d'Évaluation

Taux de Réussite d'Exécution: Proportion d'exécutions complétant toutes les étapes (génération de tests, exécution, génération de rapport PDF)
Couverture de Test: Pourcentage de code couvert par les cas de test générés
Temps d'Exécution: Analyse du temps écoulé pour chaque phase d'opération
Comparaison Linguistique: Différences de performance entre projets Python et Java

Détails d'Implémentation

Modèle LLM: Utilisation principale de Google Gemini, expériences comparatives utilisant ChatGPT
Nombre de Tests: 20 exécutions pour projets Python, 24 exécutions pour projets Java
Format d'Entrée: Test de multiples formats d'invite en langage naturel

Résultats Expérimentaux

Résultats Principaux

Performance du Taux de Réussite

Projets Python: Les 20 exécutions ont réussi (taux de réussite de 100%)
Projets Java: 3 échecs sur 24 exécutions (taux de réussite de 87,5%)
Causes d'Échec: Principalement dues à des invites ambiguës et à des erreurs de compilation dans les scripts de test générés

Analyse du Temps d'Exécution

Temps d'exécution total moyen: 83,5 secondes
Temps de génération de tests: 62,8 secondes (proportion maximale)
Localisation de dossiers: 9,7 secondes
Génération de graphiques DOT: 5,4 secondes
Exécution de tests: 3,2 secondes

Résultats de Comparaison Linguistique

Métrique	Java	Python
Temps d'exécution total moyen	86,7s	80s
Temps de génération de tests	62,4s	63,3s
Temps d'exécution de tests	5,44s	0,87s
Couverture de test moyenne	97,71%	93,45%

Analyse Détaillée par Projet

Projet	Langage	Lignes de Code	Temps Total	Génération de Tests	Exécution de Tests	Couverture
LibrarySystem	Java	269	119,06s	92,54s	5,39s	94,67%
StudentManager	Java	114	62,55s	39,79s	5,48s	100,00%
Cinema	Python	183	110,13s	92,43s	0,79s	88,30%
Experiment	Python	47	49,78s	34,17s	0,96s	98,60%

Expériences Comparatives LLM

ChatGPT vs Gemini (projet LibrarySystem):

Temps de génération ChatGPT: ~180 secondes (environ 2 fois celui de Gemini)
Couverture de test ChatGPT: 98%
Remarque: L'utilisation de l'application Web ChatGPT plutôt que l'API peut affecter le temps de génération

Analyse de Cas

Exemple de Justifications de Test

Projet Cinema - fonction rent_movie:

Cas de base: "Tester la location d'un film disponible à un membre existant"
Cas limites: "Tester la location d'un film inexistant, la location d'un film à un membre inexistant, la location d'un film déjà loué"

Projet Library - fonction getTitle:

Cas de base: "Tester la récupération du titre du livre après la création de l'objet"
Cas limites: Non applicable

Travaux Connexes

Tests Logiciels Basés sur Agents Traditionnels (ABST)

Évolution Historique: Attirant l'attention depuis 1999, atteignant un pic significatif au cours de la dernière décennie
Points d'Accent d'Application: Principalement axés sur les tests au niveau du système, Java comme langage cible principal
Travaux Représentatifs:
- Cadre de test automatisé pour systèmes Web (collaboration multi-agents)
- Test de machine à café industrielle (tri des priorités par logique floue)

Tests Logiciels Améliorés par LLM

Enquête d'Application Industrielle: 48% des praticiens ont déjà intégré les LLMs dans les activités de test
Domaines d'Application: Analyse des exigences, développement de plans de test, automatisation des tests
Outils Couramment Utilisés: ChatGPT, GitHub Copilot
Tendances de Recherche: L'analyse de 102 articles connexes montre que les LLMs ont une valeur significative dans la génération de cas de test, la création d'assertions, etc.

Conclusions et Discussion

Conclusions Principales

Taux de Réussite Élevé: Les agents pilotés par LLM démontrent d'excellentes performances dans l'automatisation des tests logiciels, avec un taux de réussite de 100% pour les projets Python
Couverture Élevée: La couverture de test moyenne dépasse 93%, prouvant l'efficacité des cas de test générés
Amélioration de l'Efficacité: Réduction significative de l'intervention humaine, réalisant l'automatisation de bout en bout de la génération de tests au rapport
Adaptabilité Linguistique: Le cadre supporte avec succès deux langages de programmation populaires, Python et Java

Limitations

Stabilité des Projets Java: Le taux d'échec relativement élevé dans l'exécution Java nécessite une amélioration du traitement du langage naturel et de la précision syntaxique
Limitation de la Portée des Tests: Focus actuel uniquement sur les tests unitaires, manquant de tests d'intégration et de tests au niveau du système
Fonctionnalités de Visualisation: Bien que les graphiques d'appels soient utiles, ils manquent de fonctionnalités avancées telles que les cartes thermiques de couverture
Dépendance à l'Entrée: Sensibilité à la qualité des invites, les invites ambiguës pouvant entraîner des échecs

Directions Futures

Extension des Types de Tests: Introduction du support des tests d'intégration et des tests au niveau du système
Amélioration du Support Linguistique: Extension à davantage de langages de programmation
Amélioration de la Visualisation: Ajout de cartes thermiques de couverture de tendance aux défauts
Intégration des Exigences: Utilisation des documents de spécification des exigences comme entrée d'invite pour améliorer la précision
Gestion des Erreurs: Amélioration de la gestion des invites ambiguës et des mécanismes de récupération d'erreurs

Évaluation Approfondie

Points Forts

Innovation Forte: Première intégration systématique des LLMs avec une architecture multi-agents pour l'automatisation des tests logiciels de bout en bout
Valeur Pratique Élevée: Résout les points douloureux réels du domaine des tests logiciels, avec une forte valeur d'application en ingénierie
Évaluation Complète: Évaluation complète inter-langages et multi-projets, résultats convaincants
Architecture Claire: Conception d'architecture de haut et bas niveau raisonnée, degré élevé de modularité, facilitant l'extension et la maintenance

Insuffisances

Portée des Tests Limitée: Support uniquement des tests unitaires, incapable de répondre aux besoins complets des tests logiciels
Analyse d'Erreurs Insuffisante: Analyse limitée des causes d'échec approfondies pour les projets Java
Absence de Comparaison de Référence: Manque de comparaison détaillée avec les outils de test automatisés existants
Vérification de Scalabilité: Absence de vérification de la scalabilité du système sur des projets complexes de grande taille

Impact

Contribution Académique: Fournit une nouvelle direction de recherche pour l'application des LLMs en génie logiciel
Valeur Pratique: Peut être directement appliqué aux processus de développement logiciel, améliorant l'efficacité des tests
Promotion Technologique: Démontre le potentiel énorme des LLMs dans le domaine de l'automatisation des tests
Reproductibilité: Description d'architecture détaillée, facilitant la reproduction et l'amélioration par d'autres chercheurs

Scénarios d'Application

Projets de Petite et Moyenne Taille: Particulièrement adapté aux projets avec une base de code de quelques centaines de lignes
Automatisation des Tests Unitaires: Peut réduire considérablement le travail manuel de rédaction des tests unitaires
Vérification Rapide de Prototypes: Applicable aux scénarios nécessitant une génération rapide de cas de test
Éducation et Formation: Peut être utilisé dans l'enseignement et la formation aux tests logiciels

Références Bibliographiques

L'article cite 13 références importantes, couvrant les méthodes ABST traditionnelles, l'application des LLMs aux tests logiciels, et les théories fondamentales des tests logiciels, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Cet article est une recherche d'importance significative dans le domaine interdisciplinaire du génie logiciel et de l'intelligence artificielle. Bien qu'il présente certaines limitations, sa méthode innovante et ses résultats pratiques ouvrent une nouvelle direction pour l'application des LLMs dans le domaine de l'automatisation des tests logiciels, possédant une bonne valeur académique et des perspectives pratiques prometteuses.