2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.

academic

MalCL: Aprovechamiento de Repetición Generativa Basada en GAN para Combatir el Olvido Catastrófico en Clasificación de Malware

Información Básica

ID del Artículo: 2501.01110
Título: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Autores: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
Instituciones: ¹Universidad de Mujeres Ewha, ²Universidad de Texas en El Paso
Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
Fecha de Publicación: 2 de enero de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.01110

Resumen

Este artículo propone el sistema MalCL para abordar el problema del aprendizaje continuo en la clasificación de malware. El sistema emplea un método de repetición generativa (Generative Replay) basado en redes generativas adversarias (GAN), generando muestras de malware de alta calidad mediante pérdida de coincidencia de características e implementando un mecanismo innovador de selección de muestras basado en representaciones ocultas del modelo. En escenarios de aprendizaje incremental de clases en conjuntos de datos de malware de Windows y Android, el sistema demuestra mejoras significativas en el rendimiento, alcanzando una precisión promedio del 55% en muestras de malware de Windows, mejorando un 28% en comparación con otros modelos basados en repetición generativa.

Contexto de Investigación y Motivación

Problema Central

El desafío principal en la clasificación de malware es el fenómeno del olvido catastrófico (Catastrophic Forgetting). Cuando un modelo de aprendizaje automático se entrena continuamente con nuevos datos, su rendimiento en datos antiguos disminuye significativamente. Esto es particularmente grave en el dominio del malware porque:

Evolución rápida del malware: El Instituto AV-TEST registra 450,000 nuevas muestras de malware y programas potencialmente no deseados (PUA) diariamente
VirusTotal procesa más de 1 millón de envíos de software diariamente
Dilema de las empresas antivirus: Deben elegir entre eliminar muestras antiguas (arriesgándose a que resurja malware antiguo) o ignorar nuevas muestras (perdiendo amenazas emergentes)

Modelo de Amenaza

El artículo define un escenario de amenaza específico: los atacantes explotan malware heredado para eludir sistemas de aprendizaje automático actualizados solo con datos nuevos. A medida que aumenta la brecha temporal entre el entrenamiento original y el ataque, aumenta la probabilidad de evasión exitosa.

Limitaciones de Métodos Existentes

Métodos tradicionales de aprendizaje automático: No pueden manejar efectivamente el olvido catastrófico
Métodos de aprendizaje continuo de visión por computadora: Su aplicación directa a la clasificación de malware es ineficaz, con rendimiento incluso inferior a la línea base "None"
Restricciones de almacenamiento: El almacenamiento de datos históricos está limitado por regulaciones de privacidad

Contribuciones Principales

Modelo de aprendizaje continuo especializado para el dominio del malware: Propone MalCL, alcanzando una precisión promedio del 55% en 11 tareas de aprendizaje continuo en 100 familias de malware, mejorando un 28% en comparación con métodos existentes
Repetición generativa mejorada con coincidencia de características: Utiliza un generador GAN combinado con pérdida de coincidencia de características (Feature Matching Loss), reduciendo las diferencias de características entre muestras originales y sintéticas
Mecanismo innovador de selección de muestras de repetición: Desarrolla múltiples estrategias de selección basadas en características de capas intermedias del clasificador, mejorando la alineación entre muestras generadas y datos originales
Construcción estratégica de conjuntos de tareas: Explora la estrategia de asignar clases grandes a tareas iniciales, mitigando efectivamente el olvido catastrófico

Explicación Detallada del Método

Definición de Tareas

MalCL resuelve el problema del aprendizaje incremental de clases (Class-Incremental Learning):

Entrada: Secuencia de vectores de características de malware
Salida: Clasificación de familia de malware
Restricción: Cada tarea introduce nuevas categorías de malware, requiriendo mantener simultáneamente la capacidad de reconocimiento de categorías históricas

Arquitectura del Modelo

Flujo General

MalCL contiene dos componentes principales:

Módulo GAN: Genera muestras sintéticas de malware de tareas anteriores
Módulo Clasificador: Realiza la clasificación de familia de malware

Diseño de Arquitectura GAN

Generador (Generator):

4 capas de convolución 1D + 2 capas completamente conectadas + 3 capas de desconvolución
Activación ReLU y normalización por lotes en todas las capas excepto la última
Capa de salida con activación Sigmoid

Discriminador (Discriminator):

2 capas de convolución + 2 capas completamente conectadas
La lógica de aplanamiento de la segunda capa de convolución se utiliza para coincidencia de características
Capa de salida final con Sigmoid

Arquitectura del Clasificador

3 capas de convolución + 1 capa completamente conectada
Agrupación máxima y dropout después de las dos primeras capas de convolución
La lógica de aplanamiento de la tercera capa de convolución se utiliza para selección de muestras de repetición
Capa de salida con Softmax

Puntos de Innovación Técnica

1. Pérdida de Coincidencia de Características (Feature Matching Loss)

Pérdida tradicional de entropía cruzada binaria:

LG = -1/m ∑(i=1 a m) log(D(G(zi)))

Pérdida de coincidencia de características:

LG = 1/m ∑(i=1 a m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Donde D(f)(·) representa la salida de capas intermedias del discriminador, esta función de pérdida se enfoca en características intermedias más ricas en lugar de la salida final.

2. Estrategias de Selección de Muestras de Repetición

Selección basada en distancia L2 a etiqueta one-hot:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Selección basada en distancia L1 a regresión logística:

Por media de lote: Selecciona muestras cercanas a la media global
Por media de clase: Selecciona k muestras más cercanas al centro de cada clase

Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos EMBER:
- 337,035 archivos PE de malware de Windows
- 100 familias de malware, cada familia con >400 muestras
- Características incluyen tamaño de archivo, información de encabezados PE y COFF, características de DLL, etc.
Conjunto de Datos AZ-Class:
- 285,582 muestras de malware Android
- 100 familias de malware, cada familia con ≥200 muestras
- Utiliza características Drebin, incluyendo 8 categorías (acceso a hardware, permisos, llamadas API, etc.)
- Dimensión de características final: 2,439

Métricas de Evaluación

Precisión Promedio (Mean Accuracy): Precisión de clasificación promedio en todas las tareas
Precisión Mínima (Min Accuracy): Precisión más baja entre todas las tareas

Métodos de Comparación

Métodos Base:
- None: Entrenamiento solo con datos nuevos (límite inferior del olvido catastrófico)
- Joint: Entrenamiento con todos los datos históricos (límite superior ideal)
Trabajos Anteriores:
- GR (Generative Replay): Repetición generativa usando GAN
- BI-R (Brain-Inspired Replay): Repetición generativa mejorada usando VAE

Detalles de Implementación

Construcción de tareas: Primera tarea con 50 clases, tareas posteriores agregan 5 clases cada una, total de 11 tareas
Optimizadores: Adam para GAN, SGD para clasificador
Tamaño de lote: 256
Tasa de aprendizaje: Clasificador 1e-3, momento 0.9, decaimiento de peso 1e-7

Resultados Experimentales

Resultados Principales

Método	Conjunto de Datos EMBER
	Promedio	Mínimo
None (línea base)	27.5%	0.6%
Joint (límite superior)	88.7%	74.5%
GR	26.8%	9.5%
BI-R	27.0%	9.2%
MalCL (óptimo)	54.5%	21.8%

Hallazgos Clave:

MalCL mejora la línea base None en un 27%
Mejora los métodos de repetición generativa existentes (GR, BI-R) en un 28%
Configuración óptima: FML + distancia L1 a regresión logística de media de clase

Experimentos de Ablación

Comparación de Funciones de Pérdida

Pérdida de Coincidencia de Características vs Entropía Cruzada Binaria: FML supera a BCE en todas las estrategias de selección
L1 a regresión logística de media de clase: Mejor rendimiento, precisión del 55% vs 50% para L2 a etiqueta

Estrategias de Construcción de Conjuntos de Tareas

Construcción estratégica de tareas: Asignación de clases grandes a tareas iniciales

Primera tarea: 50 clases "gigantes" (promedio de 5,397 muestras)
Tareas posteriores: Selección aleatoria de clases pequeñas (promedio de 670 muestras)
Resultado: Precisión mejorada al 74%, cercana al rendimiento de la línea base Joint

Validación Cruzada de Conjuntos de Datos

Resultados del Conjunto de Datos AZ-Class:

Rendimiento superior al conjunto de datos EMBER
Rango de precisión más estrecho, indicando mayor estabilidad
Razón: El conjunto de datos EMBER tiene desbalance de clases más severo

Trabajo Relacionado

Clasificación de Métodos de Aprendizaje Continuo

Técnicas de Repetición:
- Repetición Exacta: Experience Replay (ER), iCaRL
- Repetición Generativa: GR, BI-R, DDGR
Métodos de Regularización:
- Elastic Weight Consolidation (EWC)
- Synaptic Intelligence (SI)

Aprendizaje Continuo en Clasificación de Malware

Rahman et al. fueron los primeros en explorar aprendizaje continuo en clasificación de malware
Chen et al. combinaron aprendizaje contrastivo y aprendizaje activo
Los métodos existentes se enfocaban principalmente en deriva conceptual en lugar de olvido catastrófico

Conclusiones y Discusión

Conclusiones Principales

MalCL mitiga efectivamente el olvido catastrófico en clasificación de malware
La pérdida de coincidencia de características mejora significativamente la calidad de muestras generadas
Las estrategias de selección de muestras basadas en capas ocultas del clasificador son efectivas
La construcción estratégica de tareas es crucial para la mejora del rendimiento

Limitaciones

Brecha significativa con la línea base Joint: MalCL óptimo 54.5% vs Joint 88.7%
Estrategias de selección global ineficaces: La estrategia L1 a media de lote produce cobertura de clases insuficiente
Sensibilidad al desbalance de datos: Las características de desbalance del conjunto de datos EMBER afectan el rendimiento

Direcciones Futuras

Mejorar la calidad de generación de malware sintético
Desarrollar modelos generativos más avanzados
Explorar métodos de entrenamiento híbrido combinando repetición generativa y entrenamiento conjunto
Extender a más tipos de malware
Integrar características más complejas que reflejen la naturaleza dinámica de las amenazas de malware

Evaluación Profunda

Fortalezas

Especificidad del problema: Aborda específicamente el olvido catastrófico en el dominio del malware
Innovación metodológica: Combina pérdida de coincidencia de características con estrategias diversificadas de selección de muestras
Experimentación exhaustiva: Validación multiplataforma (Windows/Android), múltiples métodos de comparación
Alto valor práctico: Resuelve un problema importante en protección de seguridad real
Detalles técnicos suficientes: Proporciona diseño arquitectónico completo y detalles de implementación

Deficiencias

Amplio espacio para mejora de rendimiento: Brecha del 33% con el límite superior ideal
Análisis de sobrecarga computacional ausente: No analiza detalladamente el costo computacional del entrenamiento y generación de GAN
Robustez ante muestras adversarias: No considera la robustez de muestras generadas ante ataques adversarios
Dependencia de ingeniería de características: Depende de características predefinidas, lo que puede limitar la capacidad de generalización
Evaluación de rendimiento a largo plazo: Carece de evaluación de rendimiento en secuencias de tiempo más largas

Impacto

Contribución Académica: Primera aplicación sistemática de repetición generativa basada en GAN a clasificación de malware
Valor Práctico: Proporciona solución de aprendizaje continuo práctica para empresas antivirus
Generalidad del Método: El marco técnico es extensible a otros campos de detección de seguridad
Compromiso de Código Abierto: Promete publicar código, facilitando reproducción e investigación futura

Escenarios Aplicables

Protección de Seguridad Empresarial: Sistemas de detección de malware que requieren actualización continua
Entornos con Recursos Limitados: Escenarios donde no se pueden almacenar grandes cantidades de datos históricos
Aplicaciones Sensibles a Privacidad: Entornos donde no se pueden retener muestras de malware originales
Sistemas de Detección en Tiempo Real: Sistemas de detección en línea que necesitan adaptarse rápidamente a nuevas amenazas

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje continuo, detección de malware y redes generativas adversarias, incluyendo:

Shin et al. (2017): Aprendizaje continuo con repetición generativa profunda
Rahman, Coull, and Wright (2022): Primera exploración de aprendizaje continuo en clasificación de malware
Anderson and Roth (2018): Conjunto de datos EMBER
Arp et al. (2014): Método de extracción de características Drebin

Evaluación General: Este artículo propone una solución innovadora para el problema del olvido catastrófico en la clasificación de malware, con métodos técnicos y verificación experimental bastante completos. Aunque hay espacio para mejora en el rendimiento, proporciona contribuciones importantes para la investigación y aplicación en este campo.