2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic

MalCL: Aprovechamiento de Repetición Generativa Basada en GAN para Combatir el Olvido Catastrófico en Clasificación de Malware

Información Básica

  • ID del Artículo: 2501.01110
  • Título: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
  • Autores: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
  • Instituciones: ¹Universidad de Mujeres Ewha, ²Universidad de Texas en El Paso
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: 2 de enero de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2501.01110

Resumen

Este artículo propone el sistema MalCL para abordar el problema del aprendizaje continuo en la clasificación de malware. El sistema emplea un método de repetición generativa (Generative Replay) basado en redes generativas adversarias (GAN), generando muestras de malware de alta calidad mediante pérdida de coincidencia de características e implementando un mecanismo innovador de selección de muestras basado en representaciones ocultas del modelo. En escenarios de aprendizaje incremental de clases en conjuntos de datos de malware de Windows y Android, el sistema demuestra mejoras significativas en el rendimiento, alcanzando una precisión promedio del 55% en muestras de malware de Windows, mejorando un 28% en comparación con otros modelos basados en repetición generativa.

Contexto de Investigación y Motivación

Problema Central

El desafío principal en la clasificación de malware es el fenómeno del olvido catastrófico (Catastrophic Forgetting). Cuando un modelo de aprendizaje automático se entrena continuamente con nuevos datos, su rendimiento en datos antiguos disminuye significativamente. Esto es particularmente grave en el dominio del malware porque:

  1. Evolución rápida del malware: El Instituto AV-TEST registra 450,000 nuevas muestras de malware y programas potencialmente no deseados (PUA) diariamente
  2. VirusTotal procesa más de 1 millón de envíos de software diariamente
  3. Dilema de las empresas antivirus: Deben elegir entre eliminar muestras antiguas (arriesgándose a que resurja malware antiguo) o ignorar nuevas muestras (perdiendo amenazas emergentes)

Modelo de Amenaza

El artículo define un escenario de amenaza específico: los atacantes explotan malware heredado para eludir sistemas de aprendizaje automático actualizados solo con datos nuevos. A medida que aumenta la brecha temporal entre el entrenamiento original y el ataque, aumenta la probabilidad de evasión exitosa.

Limitaciones de Métodos Existentes

  1. Métodos tradicionales de aprendizaje automático: No pueden manejar efectivamente el olvido catastrófico
  2. Métodos de aprendizaje continuo de visión por computadora: Su aplicación directa a la clasificación de malware es ineficaz, con rendimiento incluso inferior a la línea base "None"
  3. Restricciones de almacenamiento: El almacenamiento de datos históricos está limitado por regulaciones de privacidad

Contribuciones Principales

  1. Modelo de aprendizaje continuo especializado para el dominio del malware: Propone MalCL, alcanzando una precisión promedio del 55% en 11 tareas de aprendizaje continuo en 100 familias de malware, mejorando un 28% en comparación con métodos existentes
  2. Repetición generativa mejorada con coincidencia de características: Utiliza un generador GAN combinado con pérdida de coincidencia de características (Feature Matching Loss), reduciendo las diferencias de características entre muestras originales y sintéticas
  3. Mecanismo innovador de selección de muestras de repetición: Desarrolla múltiples estrategias de selección basadas en características de capas intermedias del clasificador, mejorando la alineación entre muestras generadas y datos originales
  4. Construcción estratégica de conjuntos de tareas: Explora la estrategia de asignar clases grandes a tareas iniciales, mitigando efectivamente el olvido catastrófico

Explicación Detallada del Método

Definición de Tareas

MalCL resuelve el problema del aprendizaje incremental de clases (Class-Incremental Learning):

  • Entrada: Secuencia de vectores de características de malware
  • Salida: Clasificación de familia de malware
  • Restricción: Cada tarea introduce nuevas categorías de malware, requiriendo mantener simultáneamente la capacidad de reconocimiento de categorías históricas

Arquitectura del Modelo

Flujo General

MalCL contiene dos componentes principales:

  1. Módulo GAN: Genera muestras sintéticas de malware de tareas anteriores
  2. Módulo Clasificador: Realiza la clasificación de familia de malware

Diseño de Arquitectura GAN

Generador (Generator):

  • 4 capas de convolución 1D + 2 capas completamente conectadas + 3 capas de desconvolución
  • Activación ReLU y normalización por lotes en todas las capas excepto la última
  • Capa de salida con activación Sigmoid

Discriminador (Discriminator):

  • 2 capas de convolución + 2 capas completamente conectadas
  • La lógica de aplanamiento de la segunda capa de convolución se utiliza para coincidencia de características
  • Capa de salida final con Sigmoid

Arquitectura del Clasificador

  • 3 capas de convolución + 1 capa completamente conectada
  • Agrupación máxima y dropout después de las dos primeras capas de convolución
  • La lógica de aplanamiento de la tercera capa de convolución se utiliza para selección de muestras de repetición
  • Capa de salida con Softmax

Puntos de Innovación Técnica

1. Pérdida de Coincidencia de Características (Feature Matching Loss)

Pérdida tradicional de entropía cruzada binaria:

LG = -1/m ∑(i=1 a m) log(D(G(zi)))

Pérdida de coincidencia de características:

LG = 1/m ∑(i=1 a m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Donde D(f)(·) representa la salida de capas intermedias del discriminador, esta función de pérdida se enfoca en características intermedias más ricas en lugar de la salida final.

2. Estrategias de Selección de Muestras de Repetición

Selección basada en distancia L2 a etiqueta one-hot:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Selección basada en distancia L1 a regresión logística:

  • Por media de lote: Selecciona muestras cercanas a la media global
  • Por media de clase: Selecciona k muestras más cercanas al centro de cada clase
Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Configuración Experimental

Conjuntos de Datos

  1. Conjunto de Datos EMBER:
    • 337,035 archivos PE de malware de Windows
    • 100 familias de malware, cada familia con >400 muestras
    • Características incluyen tamaño de archivo, información de encabezados PE y COFF, características de DLL, etc.
  2. Conjunto de Datos AZ-Class:
    • 285,582 muestras de malware Android
    • 100 familias de malware, cada familia con ≥200 muestras
    • Utiliza características Drebin, incluyendo 8 categorías (acceso a hardware, permisos, llamadas API, etc.)
    • Dimensión de características final: 2,439

Métricas de Evaluación

  • Precisión Promedio (Mean Accuracy): Precisión de clasificación promedio en todas las tareas
  • Precisión Mínima (Min Accuracy): Precisión más baja entre todas las tareas

Métodos de Comparación

  1. Métodos Base:
    • None: Entrenamiento solo con datos nuevos (límite inferior del olvido catastrófico)
    • Joint: Entrenamiento con todos los datos históricos (límite superior ideal)
  2. Trabajos Anteriores:
    • GR (Generative Replay): Repetición generativa usando GAN
    • BI-R (Brain-Inspired Replay): Repetición generativa mejorada usando VAE

Detalles de Implementación

  • Construcción de tareas: Primera tarea con 50 clases, tareas posteriores agregan 5 clases cada una, total de 11 tareas
  • Optimizadores: Adam para GAN, SGD para clasificador
  • Tamaño de lote: 256
  • Tasa de aprendizaje: Clasificador 1e-3, momento 0.9, decaimiento de peso 1e-7

Resultados Experimentales

Resultados Principales

MétodoConjunto de Datos EMBER
PromedioMínimo
None (línea base)27.5%0.6%
Joint (límite superior)88.7%74.5%
GR26.8%9.5%
BI-R27.0%9.2%
MalCL (óptimo)54.5%21.8%

Hallazgos Clave:

  • MalCL mejora la línea base None en un 27%
  • Mejora los métodos de repetición generativa existentes (GR, BI-R) en un 28%
  • Configuración óptima: FML + distancia L1 a regresión logística de media de clase

Experimentos de Ablación

Comparación de Funciones de Pérdida

  • Pérdida de Coincidencia de Características vs Entropía Cruzada Binaria: FML supera a BCE en todas las estrategias de selección
  • L1 a regresión logística de media de clase: Mejor rendimiento, precisión del 55% vs 50% para L2 a etiqueta

Estrategias de Construcción de Conjuntos de Tareas

Construcción estratégica de tareas: Asignación de clases grandes a tareas iniciales

  • Primera tarea: 50 clases "gigantes" (promedio de 5,397 muestras)
  • Tareas posteriores: Selección aleatoria de clases pequeñas (promedio de 670 muestras)
  • Resultado: Precisión mejorada al 74%, cercana al rendimiento de la línea base Joint

Validación Cruzada de Conjuntos de Datos

Resultados del Conjunto de Datos AZ-Class:

  • Rendimiento superior al conjunto de datos EMBER
  • Rango de precisión más estrecho, indicando mayor estabilidad
  • Razón: El conjunto de datos EMBER tiene desbalance de clases más severo

Trabajo Relacionado

Clasificación de Métodos de Aprendizaje Continuo

  1. Técnicas de Repetición:
    • Repetición Exacta: Experience Replay (ER), iCaRL
    • Repetición Generativa: GR, BI-R, DDGR
  2. Métodos de Regularización:
    • Elastic Weight Consolidation (EWC)
    • Synaptic Intelligence (SI)

Aprendizaje Continuo en Clasificación de Malware

  • Rahman et al. fueron los primeros en explorar aprendizaje continuo en clasificación de malware
  • Chen et al. combinaron aprendizaje contrastivo y aprendizaje activo
  • Los métodos existentes se enfocaban principalmente en deriva conceptual en lugar de olvido catastrófico

Conclusiones y Discusión

Conclusiones Principales

  1. MalCL mitiga efectivamente el olvido catastrófico en clasificación de malware
  2. La pérdida de coincidencia de características mejora significativamente la calidad de muestras generadas
  3. Las estrategias de selección de muestras basadas en capas ocultas del clasificador son efectivas
  4. La construcción estratégica de tareas es crucial para la mejora del rendimiento

Limitaciones

  1. Brecha significativa con la línea base Joint: MalCL óptimo 54.5% vs Joint 88.7%
  2. Estrategias de selección global ineficaces: La estrategia L1 a media de lote produce cobertura de clases insuficiente
  3. Sensibilidad al desbalance de datos: Las características de desbalance del conjunto de datos EMBER afectan el rendimiento

Direcciones Futuras

  1. Mejorar la calidad de generación de malware sintético
  2. Desarrollar modelos generativos más avanzados
  3. Explorar métodos de entrenamiento híbrido combinando repetición generativa y entrenamiento conjunto
  4. Extender a más tipos de malware
  5. Integrar características más complejas que reflejen la naturaleza dinámica de las amenazas de malware

Evaluación Profunda

Fortalezas

  1. Especificidad del problema: Aborda específicamente el olvido catastrófico en el dominio del malware
  2. Innovación metodológica: Combina pérdida de coincidencia de características con estrategias diversificadas de selección de muestras
  3. Experimentación exhaustiva: Validación multiplataforma (Windows/Android), múltiples métodos de comparación
  4. Alto valor práctico: Resuelve un problema importante en protección de seguridad real
  5. Detalles técnicos suficientes: Proporciona diseño arquitectónico completo y detalles de implementación

Deficiencias

  1. Amplio espacio para mejora de rendimiento: Brecha del 33% con el límite superior ideal
  2. Análisis de sobrecarga computacional ausente: No analiza detalladamente el costo computacional del entrenamiento y generación de GAN
  3. Robustez ante muestras adversarias: No considera la robustez de muestras generadas ante ataques adversarios
  4. Dependencia de ingeniería de características: Depende de características predefinidas, lo que puede limitar la capacidad de generalización
  5. Evaluación de rendimiento a largo plazo: Carece de evaluación de rendimiento en secuencias de tiempo más largas

Impacto

  1. Contribución Académica: Primera aplicación sistemática de repetición generativa basada en GAN a clasificación de malware
  2. Valor Práctico: Proporciona solución de aprendizaje continuo práctica para empresas antivirus
  3. Generalidad del Método: El marco técnico es extensible a otros campos de detección de seguridad
  4. Compromiso de Código Abierto: Promete publicar código, facilitando reproducción e investigación futura

Escenarios Aplicables

  1. Protección de Seguridad Empresarial: Sistemas de detección de malware que requieren actualización continua
  2. Entornos con Recursos Limitados: Escenarios donde no se pueden almacenar grandes cantidades de datos históricos
  3. Aplicaciones Sensibles a Privacidad: Entornos donde no se pueden retener muestras de malware originales
  4. Sistemas de Detección en Tiempo Real: Sistemas de detección en línea que necesitan adaptarse rápidamente a nuevas amenazas

Referencias

Este artículo cita trabajos importantes en los campos de aprendizaje continuo, detección de malware y redes generativas adversarias, incluyendo:

  • Shin et al. (2017): Aprendizaje continuo con repetición generativa profunda
  • Rahman, Coull, and Wright (2022): Primera exploración de aprendizaje continuo en clasificación de malware
  • Anderson and Roth (2018): Conjunto de datos EMBER
  • Arp et al. (2014): Método de extracción de características Drebin

Evaluación General: Este artículo propone una solución innovadora para el problema del olvido catastrófico en la clasificación de malware, con métodos técnicos y verificación experimental bastante completos. Aunque hay espacio para mejora en el rendimiento, proporciona contribuciones importantes para la investigación y aplicación en este campo.