2025-11-21T20:16:16.286197

The Potential of LLMs in Automating Software Testing: From Generation to Reporting

Sherifi, Slhoub, Nembhard

Having a high quality software is essential in software engineering, which requires robust validation and verification processes during testing activities. Manual testing, while effective, can be time consuming and costly, leading to an increased demand for automated methods. Recent advancements in Large Language Models (LLMs) have significantly influenced software engineering, particularly in areas like requirements analysis, test automation, and debugging. This paper explores an agent-oriented approach to automated software testing, using LLMs to reduce human intervention and enhance testing efficiency. The proposed framework integrates LLMs to generate unit tests, visualize call graphs, and automate test execution and reporting. Evaluations across multiple applications in Python and Java demonstrate the system's high test coverage and efficient operation. This research underscores the potential of LLM-powered agents to streamline software testing workflows while addressing challenges in scalability and accuracy.

academic

The Potential of LLMs in Automating Software Testing: From Generation to Reporting

基本信息

论文ID: 2501.00217
标题: The Potential of LLMs in Automating Software Testing: From Generation to Reporting
作者: Betim Sherifi, Khaled Slhoub, Fitzroy Nembhard (佛罗里达理工学院)
分类: cs.SE (软件工程), cs.AI (人工智能)
发表时间: 2024年12月31日
论文链接: https://arxiv.org/abs/2501.00217

摘要

软件工程中高质量软件的开发需要强健的验证和确认过程。虽然手工测试有效，但耗时且成本高昂，因此对自动化方法的需求日益增长。大语言模型（LLMs）的最新进展显著影响了软件工程，特别是在需求分析、测试自动化和调试等领域。本文探索了一种面向智能体的自动化软件测试方法，利用LLMs减少人工干预并提高测试效率。所提出的框架集成了LLMs来生成单元测试、可视化调用图，并自动化测试执行和报告。在Python和Java多个应用程序上的评估表明，该系统具有高测试覆盖率和高效运行能力。

研究背景与动机

问题定义

核心问题: 传统软件测试方法存在效率低下、成本高昂、人工干预过多的问题
现实需求: 软件质量保证需要全面的验证和确认过程，但手工测试难以满足现代软件开发的效率要求

重要性分析

软件测试被认为是软件工程教育中最重要的领域之一
回归测试等手工测试方法特别耗时和昂贵
确保软件产品按预期执行并满足质量标准对软件工程至关重要

现有方法局限性

手工测试: 虽然有效但耗时且成本高
传统自动化测试: 无法完全替代手工方法，在GUI测试等场景下仍需人工参与
传统基于智能体的软件测试(ABST): 缺乏智能化的测试用例生成能力

研究动机

利用LLMs的强大能力，结合多智能体系统，构建一个能够动态生成测试用例、显著减少手工输入、最小化测试用例创建和执行时间的智能化测试框架。

核心贡献

提出了基于LLM的多智能体软件测试框架，实现了从测试生成到报告的端到端自动化
设计了四层架构系统，包括音频Web客户端、软件测试智能体、LLMs和开发环境
实现了动态测试用例生成，利用LLMs自动生成定制化单元测试和测试理由
集成了可视化功能，自动生成DOT图形式的调用图来展示应用程序交互
验证了系统有效性，在Python和Java项目上实现了高测试覆盖率（平均93.45%-97.71%）

方法详解

任务定义

输入: 用户通过语音或文本提供的测试请求（包含项目名称、子文件夹、编程语言等信息）输出: 包含测试结果、覆盖率分析、测试理由和调用图的综合PDF报告约束: 支持Python和Java项目，专注于单元测试层面

模型架构

高层架构

系统包含四个主要组件：

音频Web客户端: 捕获用户输入（语音命令或文本），通过HTTP GET请求启动测试工作流
软件测试智能体: 系统核心组件，协调各组件间的交互，作为测试脚本生成、执行和报告创建的抽象层
大语言模型(LLMs): 执行实体提取、测试生成和DOT图生成任务
开发环境: 提供项目代码访问、执行生成的测试用例并显示结果

低层架构工作流程

初始化: 客户端发送语音命令到测试生成器API
实体提取: LLM从用户提示中提取项目名称、子文件夹和编程语言
文件定位: FileLocator模块定位指定项目文件夹并提取文件内容
测试生成: LLM（使用Gemini）生成单元测试和相应理由
图形生成: LLM生成DOT图字符串用于可视化调用图
执行与报告: 测试执行器运行测试，PDF报告生成器创建包含结果、覆盖率和调用图的综合报告

技术创新点

智能实体提取: 利用LLM自动从自然语言指令中提取关键测试参数
动态测试生成: 基于代码分析自动生成包含基本用例和边缘用例的测试脚本
理由生成: 为每个测试用例提供详细的测试理由和覆盖场景说明
集成可视化: 自动生成调用图帮助理解代码库交互关系
端到端自动化: 从用户输入到最终报告的完全自动化流程

实验设置

数据集

使用四个不同复杂度的应用程序：

Python项目:

Experiment: 基础计算器功能（47行代码）
Cinema: 电影院管理系统（183行代码）

Java项目:

StudentAverage: 学生成绩计算（114行代码）
LibrarySystem: 图书馆管理系统（269行代码）

评价指标

执行成功率: 完成所有步骤（测试生成、执行、PDF报告生成）的运行比例
测试覆盖率: 生成测试用例覆盖的代码百分比
执行时间: 各操作阶段的耗时分析
语言对比: Python vs Java项目的性能差异

实现细节

LLM模型: 主要使用Google Gemini，对比实验使用ChatGPT
测试次数: Python项目20次执行，Java项目24次执行
输入格式: 多种自然语言提示格式测试

实验结果

主要结果

成功率表现

Python项目: 20次执行全部成功（100%成功率）
Java项目: 24次执行中3次失败（87.5%成功率）
失败原因: 主要由模糊提示和生成测试脚本编译错误导致

执行时间分析

总平均执行时间: 83.5秒
测试生成时间: 62.8秒（占最大比重）
文件夹定位: 9.7秒
DOT图生成: 5.4秒
测试执行: 3.2秒

语言对比结果

指标	Java	Python
平均总执行时间	86.7秒	80秒
测试生成时间	62.4秒	63.3秒
测试执行时间	5.44秒	0.87秒
平均测试覆盖率	97.71%	93.45%

详细项目分析

项目	语言	代码行数	总时间	测试生成	测试执行	覆盖率
LibrarySystem	Java	269	119.06s	92.54s	5.39s	94.67%
StudentManager	Java	114	62.55s	39.79s	5.48s	100.00%
Cinema	Python	183	110.13s	92.43s	0.79s	88.30%
Experiment	Python	47	49.78s	34.17s	0.96s	98.60%