2025-11-18T04:28:13.955272

Software Defect Prediction using Autoencoder Transformer Model

Barma, Hariharan, Arvapalli

An AI-ML-powered quality engineering approach uses AI-ML to enhance software quality assessments by predicting defects. Existing ML models struggle with noisy data types, imbalances, pattern recognition, feature extraction, and generalization. To address these challenges, we develop a new model, Adaptive Differential Evolution (ADE) based Quantum Variational Autoencoder-Transformer (QVAET) Model (ADE-QVAET). ADE combines with QVAET to obtain high-dimensional latent features and maintain sequential dependencies, resulting in enhanced defect prediction accuracy. ADE optimization enhances model convergence and predictive performance. ADE-QVAET integrates AI-ML techniques such as tuning hyperparameters for scalable and accurate software defect prediction, representing an AI-ML-driven technology for quality engineering. During training with a 90% training percentage, ADE-QVAET achieves high accuracy, precision, recall, and F1-score of 98.08%, 92.45%, 94.67%, and 98.12%, respectively, when compared to the Differential Evolution (DE) ML model.

academic

Predicción de Defectos de Software usando Modelo Autoencoder Transformer

Información Básica

ID del Artículo: 2510.10840
Título: Software Defect Prediction using Adaptive Differential Evolution-based Quantum Variational Autoencoder-Transformer (ADE-QVAET) Model
Autores: Seshu Babu Barma, Mohanakrishnan Hariharan, Satish Arvapalli (Apple Inc.)
Clasificación: cs.SE cs.AI
Fecha de Publicación/Conferencia: Preimpresión 2024
Enlace del Artículo: https://arxiv.org/abs/2510.10840

Resumen

Este artículo propone un enfoque de ingeniería de calidad basado en IA-ML que mejora la evaluación de calidad del software mediante la predicción de defectos. Para abordar las dificultades de los modelos ML existentes en el manejo de datos ruidosos, desequilibrio de datos, reconocimiento de patrones, extracción de características y generalización, se desarrolló un modelo de Autoencoder Variacional Cuántico-Transformer (QVAET) basado en Evolución Diferencial Adaptativa (ADE) (ADE-QVAET). El modelo combina optimización ADE y arquitectura QVAET para capturar características latentes de alta dimensión y mantener dependencias de secuencia, mejorando así la precisión de la predicción de defectos. Con una proporción de entrenamiento del 90%, ADE-QVAET alcanzó una precisión del 98.08%, exactitud del 92.45%, exhaustividad del 94.67% y puntuación F1 del 98.12%.

Antecedentes de Investigación y Motivación

Definición del Problema

Costo elevado de pruebas de software: Las pruebas de software en entornos empresariales enfrentan desafíos de datos complejos y requisitos comerciales, requiriendo que los ingenieros de calidad dediquen 30-40% de su tiempo a la ejecución manual de pruebas
Prevención insuficiente de defectos: Los métodos de prueba tradicionales dependen de descubrir errores después de la finalización del desarrollo, ignorando posibles fallas que podrían prevenirse más temprano
Precisión insuficiente del modelo: Las tecnologías AI-ML existentes logran una precisión inferior al 80% en la predicción de defectos
Conocimiento aislado: El conocimiento histórico de pruebas se limita a la experiencia individual en lugar de ser un activo organizacional

Importancia de la Investigación

En sistemas empresariales complejos como computación en la nube, microservicios, IoT e implementaciones de IA, la lógica comercial compleja y las dependencias técnicas crean una complejidad exponencial, enfrentando limitaciones de métodos tradicionales como alucinaciones, generación de contexto insuficiente y pérdida de relaciones comerciales críticas durante procesos de recuperación.

Limitaciones de Métodos Existentes

Problemas de calidad de datos: Los datos sin limpiar contienen información redundante que afecta la precisión del modelo predictivo
Tendencia al sobreajuste: Los modelos de aprendizaje profundo tienden a sobreajustarse con datos limitados o ruidosos
Naturaleza de caja negra: Falta de interpretabilidad, dificultando que los ingenieros de calidad confíen en el modelo
Requisitos de recursos computacionales: El entrenamiento e inferencia requieren recursos computacionales significativos
Dificultad de integración: Integración insuficiente con plataformas de desarrollo de software existentes

Contribuciones Principales

Propuesta del modelo ADE-QVAET: Primera unificación de evolución diferencial adaptativa, autoencoder variacional cuántico y arquitectura Transformer en un único marco
Desarrollo del marco de preprocesamiento ANRA: Marco de reducción de ruido adaptativo y aumento de datos que mejora la calidad de datos y el equilibrio de clases
Implementación de optimización de hiperparámetros dinámicos: El algoritmo ADE ajusta dinámicamente el factor de escala y la tasa de cruce según el rendimiento evolutivo de las soluciones candidatas
Logro de mejoras de rendimiento significativas: Aumento de precisión del 7.73% y exactitud del 18.63% en comparación con modelos DE tradicionales

Explicación Detallada del Método

Definición de Tareas

Entrada: Conjunto de datos de predicción de defectos de software, que contiene atributos de código estático, índices de mantenibilidad, complejidad ciclomática, líneas de código, características de pérdida de código, etc. Salida: Resultado de clasificación binaria (módulo con defecto/módulo sin defecto) Objetivo: Maximizar la precisión, exactitud, exhaustividad y puntuación F1 de la predicción de defectos

Arquitectura del Modelo

1. Preprocesamiento de Datos - Marco ANRA

Conjunto de datos de entrada: D = {x₁, x₂, ..., xₙ}
Datos preprocesados: D' = ANRA(D)

El marco ANRA equilibra instancias con defectos y sin defectos mediante reducción de ruido, eliminación de información redundante y generación de datos sintéticos.

2. Autoencoder Variacional Cuántico (QVAE)

Extracción de características latentes: Z = QVAE(D')

QVAE extrae características latentes de alta dimensión de los datos de entrada, identificando patrones multidimensionales complejos.

3. Arquitectura Transformer

Procesamiento de secuencias: T = Transformer(Z)

Transformer procesa características latentes, identificando dependencias de secuencia y relaciones contextuales entre métricas de software.

4. Capa de Predicción

Predicción final: P = PredictionLayer(T)

Puntos de Innovación Técnica

1. Extracción de Características Mejorada por Cuántica

En comparación con VAE tradicional, QVAE aprovecha principios de computación cuántica para extraer características latentes de alta dimensión más ricas, capturando patrones complejos que los métodos clásicos difícilmente pueden identificar.

2. Optimización de Evolución Diferencial Adaptativa

Operación de mutación: v_{i,g+1} = x_{r1,g} + F × (x_{r2,g} - x_{r3,g})
Operación de cruce: u_{j,i,g+1} = {v_{j,i,g+1} si rand(0,1) ≤ CR, x_{j,i,g} en caso contrario}
Operación de selección: x_{i,g+1} = u_{i,g+1} si f(u_{i,g+1}) ≤ f(x_{i,g})

ADE ajusta dinámicamente F (factor de escala) y CR (tasa de cruce) según la evolución de la población, logrando un equilibrio entre exploración y explotación.

3. Optimización de Extremo a Extremo

Función objetivo: θ* = argmin f(θ), donde θ incluye hiperparámetros clave como tasa de aprendizaje, coeficientes de regularización, número de capas, etc.

Configuración Experimental

Conjunto de Datos

Fuente de datos: Conjunto de datos de predicción de defectos de software de Kaggle Características: Líneas de código (LOC), complejidad ciclomática, profundidad del árbol de herencia (DIT), acoplamiento entre objetos (CBO) y otros elementos estructurales Etiquetas: Clasificación binaria (defecto=1, sin defecto=0) Desafío: Problema de desequilibrio de clases, con baja frecuencia de aparición de módulos defectuosos

Métricas de Evaluación

Precisión (Accuracy): Proporción de predicciones correctas
Exactitud (Precision): Proporción de defectos reales entre los predichos como defectuosos
Exhaustividad (Recall): Proporción de defectos reales correctamente identificados
Puntuación F1: Media armónica de exactitud y exhaustividad

Métodos de Comparación

SVM (Máquina de Vectores de Soporte)
DT (Árbol de Decisión)
RF (Bosque Aleatorio)
LR (Regresión Logística)
QVA (Autoencoder Variacional Cuántico)
DE (Evolución Diferencial)

Detalles de Implementación

Proporción de entrenamiento: 90%
Épocas de prueba: 100, 200, 300, 400, 500
Objetivo de optimización: Maximizar precisión, exactitud, exhaustividad y puntuación F1

Resultados Experimentales

Resultados Principales

Rendimiento en Diferentes Épocas

Con proporción de entrenamiento del 90%, ADE-QVAET alcanza el mejor rendimiento en 500 épocas:

Precisión: 98.67%
Exactitud: 98.67%
Exhaustividad: 93.34%
Puntuación F1: 98.56%

Comparación con Métodos Base

Mejoras de ADE-QVAET en comparación con modelo DE tradicional con proporción de entrenamiento del 90%:

Mejora de precisión: 7.73% (alcanzando 98.08%)
Mejora de exactitud: 18.63% (alcanzando 92.45%)
Mejora de exhaustividad: 4.34% (alcanzando 94.67%)
Mejora de puntuación F1: 15.63% (alcanzando 98.12%)

Experimentos de Ablación

El artículo valida la contribución de cada componente comparando modelos QVA y ADE-QVAET completo:

Componente QVAE: Proporciona capacidad de extracción de características de alta dimensión
Componente Transformer: Mejora el modelado de dependencias de secuencia
Optimización ADE: Mejora significativamente la convergencia y el rendimiento predictivo

Hallazgos Experimentales

Mejora de convergencia: La estrategia de ajuste dinámico de ADE acelera significativamente la convergencia del modelo
Robustez ante ruido: El preprocesamiento ANRA mejora efectivamente la robustez del modelo ante datos ruidosos
Capacidad de generalización: El modelo demuestra buen rendimiento de generalización entre diferentes proyectos de software

Trabajo Relacionado

Direcciones Principales de Investigación

Métodos de aprendizaje automático tradicional: Khalid et al. utilizan agrupamiento K-means para mejorar la predicción de defectos, pero con gran costo computacional
Optimización mediante algoritmos evolutivos: Tang et al. proponen algoritmo AVSSA para manejar datos desequilibrados, pero con alta complejidad de integración
Métodos de aprendizaje profundo: Khleel et al. combinan CNN y GRU, requiriendo gran cantidad de computación y generación de datos sintéticos
Técnicas de selección de características: Mehmood et al. desarrollan métodos ML basados en selección de características, pero con riesgo de pérdida de información

Ventajas de Este Trabajo

En comparación con trabajos existentes, ADE-QVAET resuelve mediante un marco unificado:

Problemas de complejidad computacional
Manejo de datos ruidosos y desequilibrados
Capacidad de generalización para proyectos de software en evolución

Conclusiones y Discusión

Conclusiones Principales

Avance tecnológico: ADE-QVAET integra exitosamente las ventajas de computación cuántica, aprendizaje profundo y algoritmos evolutivos
Rendimiento superior: Supera significativamente los métodos existentes en múltiples métricas
Valor práctico: Proporciona una solución escalable para ingeniería de calidad impulsada por IA

Limitaciones

Complejidad computacional: El autoencoder variacional cuántico y la arquitectura Transformer aún requieren recursos computacionales considerables
Dependencia de datos: El rendimiento del modelo depende altamente de datos preprocesados de alta calidad
Interpretabilidad: Como modelo de aprendizaje profundo, aún presenta características de caja negra
Validación de generalización: Se requiere validar la capacidad de generalización en más tipos diferentes de proyectos de software

Direcciones Futuras

Integración de aprendizaje reforzado: Combinar aprendizaje profundo y aprendizaje reforzado para prevenir problemas de software
Integración en tiempo real: Integración en tiempo real con sistemas de control de versiones y canalizaciones CI/CD
Mejora de interpretabilidad: Desarrollar herramientas de prueba impulsadas por IA más interpretables
Optimización para computación de borde: Compresión y optimización de modelos para entornos con recursos limitados

Evaluación Profunda

Fortalezas

Fuerte innovación metodológica: Primera unificación de computación cuántica, autoencoder variacional, Transformer y algoritmo evolutivo adaptativo
Diseño experimental completo: Experimentos comparativos exhaustivos con múltiples épocas y múltiples líneas base
Mejoras de rendimiento significativas: Mejoras evidentes en todos los indicadores clave
Valor de aplicación práctica: Investigación de la industria de Apple con potencial de despliegue real

Insuficiencias

Análisis teórico insuficiente: Falta de explicación teórica del efecto de mejora cuántica
Conjunto de datos único: Validación solo en un conjunto de datos de Kaggle, con capacidad de generalización por verificar
Análisis de costo computacional faltante: No proporciona comparación de tiempo de entrenamiento y consumo de recursos computacionales
Problemas de reproducibilidad: Descripción insuficiente de detalles de implementación de la parte de computación cuántica

Impacto

Contribución académica: Proporciona nuevas perspectivas para el campo interdisciplinario de ingeniería de software e IA
Valor industrial: Aplicable directamente a la gestión de calidad de software empresarial
Avance tecnológico: Impulsa la aplicación de aprendizaje automático cuántico en ingeniería de software

Escenarios Aplicables

Desarrollo de software empresarial a gran escala: Aplicable a la gestión de calidad de sistemas empresariales complejos
Integración CI/CD: Puede integrarse en canalizaciones de integración continua/despliegue continuo
Monitoreo de calidad en tiempo real: Soporta predicción de defectos en tiempo real durante el proceso de desarrollo de software
Gestión de múltiples proyectos: Aplicable a la gestión de calidad de múltiples proyectos de software paralelos

Referencias

Este artículo cita 21 referencias relacionadas, incluyendo principalmente:

Métodos de aprendizaje automático para predicción de defectos de software
Aplicación de algoritmos evolutivos en ingeniería de software
Tecnologías relacionadas con aprendizaje automático cuántico
Aplicación de aprendizaje profundo en análisis de código

Evaluación General: Este es un artículo con fuerte innovación técnica que integra exitosamente múltiples tecnologías de vanguardia en el problema de predicción de defectos de software. Aunque hay espacio para mejora en análisis teórico e integridad de validación, su valor práctico y mejoras de rendimiento son significativos, teniendo importancia importante para impulsar la aplicación de IA en ingeniería de calidad de software.