2025-11-18T04:28:13.955272

Software Defect Prediction using Autoencoder Transformer Model

Barma, Hariharan, Arvapalli

An AI-ML-powered quality engineering approach uses AI-ML to enhance software quality assessments by predicting defects. Existing ML models struggle with noisy data types, imbalances, pattern recognition, feature extraction, and generalization. To address these challenges, we develop a new model, Adaptive Differential Evolution (ADE) based Quantum Variational Autoencoder-Transformer (QVAET) Model (ADE-QVAET). ADE combines with QVAET to obtain high-dimensional latent features and maintain sequential dependencies, resulting in enhanced defect prediction accuracy. ADE optimization enhances model convergence and predictive performance. ADE-QVAET integrates AI-ML techniques such as tuning hyperparameters for scalable and accurate software defect prediction, representing an AI-ML-driven technology for quality engineering. During training with a 90% training percentage, ADE-QVAET achieves high accuracy, precision, recall, and F1-score of 98.08%, 92.45%, 94.67%, and 98.12%, respectively, when compared to the Differential Evolution (DE) ML model.

academic

Software Defect Prediction using Autoencoder Transformer Model

基本信息

论文ID: 2510.10840
标题: Software Defect Prediction using Adaptive Differential Evolution-based Quantum Variational Autoencoder-Transformer (ADE-QVAET) Model
作者: Seshu Babu Barma, Mohanakrishnan Hariharan, Satish Arvapalli (Apple Inc.)
分类: cs.SE cs.AI
发表时间/会议: 2024年预印本
论文链接: https://arxiv.org/abs/2510.10840

摘要

本文提出了一种基于AI-ML的质量工程方法，通过预测缺陷来增强软件质量评估。针对现有ML模型在处理噪声数据、数据不平衡、模式识别、特征提取和泛化方面的困难，开发了基于自适应差分进化(ADE)的量子变分自编码器-Transformer(QVAET)模型(ADE-QVAET)。该模型结合ADE优化和QVAET架构，获取高维潜在特征并保持序列依赖性，从而提升缺陷预测准确性。在90%训练比例下，ADE-QVAET达到了98.08%的准确率、92.45%的精确率、94.67%的召回率和98.12%的F1分数。

研究背景与动机

问题定义

软件测试成本高昂: 企业环境中的软件测试面临复杂数据和业务需求的挑战，质量工程师需要花费30-40%的时间进行手工测试执行
缺陷预防不足: 传统测试方法依赖于开发结束后发现错误，忽略了可以更早预防的潜在故障
模型准确性不足: 现有AI-ML技术预测缺陷的准确性低于80%
知识孤立: 历史测试知识局限于个人专业知识，而非组织资产

研究重要性

在云计算、微服务、IoT和AI实现等复杂企业系统中，复杂的业务逻辑和技术依赖性创造了指数级复杂性，传统方法面临幻觉、上下文生成不足、检索过程中关键业务关系丢失等限制。

现有方法局限性

数据质量问题: 未清理的数据包含冗余信息，影响预测模型准确性
过拟合倾向: 深度学习模型在有限或噪声数据上容易过拟合
黑盒特性: 缺乏可解释性，质量工程师难以信任
计算资源需求: 训练和推理需要大量计算资源
集成困难: 与现有软件开发平台集成不足

核心贡献

提出ADE-QVAET模型: 首次将自适应差分进化、量子变分自编码器和Transformer架构统一到单一框架中
开发ANRA预处理框架: 自适应噪声减少和数据增强框架，改善数据质量和类别平衡
实现动态超参数优化: ADE算法根据候选解的演化性能动态调整缩放因子和交叉率
达成显著性能提升: 相比传统DE模型，准确率提升7.73%，精确率提升18.63%

方法详解

任务定义

输入: 软件缺陷预测数据集，包含静态代码属性、可维护性指数、圈复杂度、代码行数、代码流失特征等输出: 二分类结果（缺陷模块/非缺陷模块）目标: 最大化缺陷预测的准确性、精确率、召回率和F1分数

模型架构

1. 数据预处理 - ANRA框架

输入数据集: D = {x₁, x₂, ..., xₙ}
预处理后数据: D' = ANRA(D)

ANRA框架通过噪声减少、冗余信息清除和合成数据生成来平衡缺陷和非缺陷实例。

2. 量子变分自编码器(QVAE)

潜在特征提取: Z = QVAE(D')

QVAE从输入数据中提取高维潜在特征，识别复杂的多维模式。

3. Transformer架构

序列处理: T = Transformer(Z)

Transformer处理潜在特征，识别软件指标之间的序列依赖性和上下文关系。

4. 预测层

最终预测: P = PredictionLayer(T)

技术创新点

1. 量子增强特征提取

相比传统VAE，QVAE利用量子计算原理提取更丰富的高维潜在特征，能够捕获经典方法难以识别的复杂模式。

2. 自适应差分进化优化

变异操作: v_{i,g+1} = x_{r1,g} + F × (x_{r2,g} - x_{r3,g})
交叉操作: u_{j,i,g+1} = {v_{j,i,g+1} if rand(0,1) ≤ CR, x_{j,i,g} otherwise}
选择操作: x_{i,g+1} = u_{i,g+1} if f(u_{i,g+1}) ≤ f(x_{i,g})

ADE根据种群演化动态调整F(缩放因子)和CR(交叉率)，实现探索和利用的平衡。