MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time.
In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations.
Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic
MalCL: Aprovechamiento de Repetición Generativa Basada en GAN para Combatir el Olvido Catastrófico en Clasificación de Malware
Este artículo propone el sistema MalCL para abordar el problema del aprendizaje continuo en la clasificación de malware. El sistema emplea un método de repetición generativa (Generative Replay) basado en redes generativas adversarias (GAN), generando muestras de malware de alta calidad mediante pérdida de coincidencia de características e implementando un mecanismo innovador de selección de muestras basado en representaciones ocultas del modelo. En escenarios de aprendizaje incremental de clases en conjuntos de datos de malware de Windows y Android, el sistema demuestra mejoras significativas en el rendimiento, alcanzando una precisión promedio del 55% en muestras de malware de Windows, mejorando un 28% en comparación con otros modelos basados en repetición generativa.
El desafío principal en la clasificación de malware es el fenómeno del olvido catastrófico (Catastrophic Forgetting). Cuando un modelo de aprendizaje automático se entrena continuamente con nuevos datos, su rendimiento en datos antiguos disminuye significativamente. Esto es particularmente grave en el dominio del malware porque:
Evolución rápida del malware: El Instituto AV-TEST registra 450,000 nuevas muestras de malware y programas potencialmente no deseados (PUA) diariamente
VirusTotal procesa más de 1 millón de envíos de software diariamente
Dilema de las empresas antivirus: Deben elegir entre eliminar muestras antiguas (arriesgándose a que resurja malware antiguo) o ignorar nuevas muestras (perdiendo amenazas emergentes)
El artículo define un escenario de amenaza específico: los atacantes explotan malware heredado para eludir sistemas de aprendizaje automático actualizados solo con datos nuevos. A medida que aumenta la brecha temporal entre el entrenamiento original y el ataque, aumenta la probabilidad de evasión exitosa.
Métodos tradicionales de aprendizaje automático: No pueden manejar efectivamente el olvido catastrófico
Métodos de aprendizaje continuo de visión por computadora: Su aplicación directa a la clasificación de malware es ineficaz, con rendimiento incluso inferior a la línea base "None"
Restricciones de almacenamiento: El almacenamiento de datos históricos está limitado por regulaciones de privacidad
Modelo de aprendizaje continuo especializado para el dominio del malware: Propone MalCL, alcanzando una precisión promedio del 55% en 11 tareas de aprendizaje continuo en 100 familias de malware, mejorando un 28% en comparación con métodos existentes
Repetición generativa mejorada con coincidencia de características: Utiliza un generador GAN combinado con pérdida de coincidencia de características (Feature Matching Loss), reduciendo las diferencias de características entre muestras originales y sintéticas
Mecanismo innovador de selección de muestras de repetición: Desarrolla múltiples estrategias de selección basadas en características de capas intermedias del clasificador, mejorando la alineación entre muestras generadas y datos originales
Construcción estratégica de conjuntos de tareas: Explora la estrategia de asignar clases grandes a tareas iniciales, mitigando efectivamente el olvido catastrófico
MalCL resuelve el problema del aprendizaje incremental de clases (Class-Incremental Learning):
Entrada: Secuencia de vectores de características de malware
Salida: Clasificación de familia de malware
Restricción: Cada tarea introduce nuevas categorías de malware, requiriendo mantener simultáneamente la capacidad de reconocimiento de categorías históricas
LG = 1/m ∑(i=1 a m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||
Donde D(f)(·) representa la salida de capas intermedias del discriminador, esta función de pérdida se enfoca en características intermedias más ricas en lugar de la salida final.
Este artículo cita trabajos importantes en los campos de aprendizaje continuo, detección de malware y redes generativas adversarias, incluyendo:
Shin et al. (2017): Aprendizaje continuo con repetición generativa profunda
Rahman, Coull, and Wright (2022): Primera exploración de aprendizaje continuo en clasificación de malware
Anderson and Roth (2018): Conjunto de datos EMBER
Arp et al. (2014): Método de extracción de características Drebin
Evaluación General: Este artículo propone una solución innovadora para el problema del olvido catastrófico en la clasificación de malware, con métodos técnicos y verificación experimental bastante completos. Aunque hay espacio para mejora en el rendimiento, proporciona contribuciones importantes para la investigación y aplicación en este campo.