2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic

MalCL : Exploiter la Relecture Générative Basée sur GAN pour Combattre l'Oubli Catastrophique dans la Classification des Malwares

Informations Fondamentales

  • ID de l'article : 2501.01110
  • Titre : MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
  • Auteurs : Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
  • Institutions : ¹Université Ewha Womans, ²Université du Texas à El Paso
  • Classification : cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle)
  • Date de publication : 2 janvier 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2501.01110

Résumé

Cet article propose le système MalCL pour aborder le problème de l'apprentissage continu dans la classification des malwares. Le système emploie une méthode de relecture générative basée sur les réseaux antagonistes génératifs (GAN), générant des échantillons de malwares de haute qualité par correspondance de caractéristiques et implémentant un mécanisme innovant de sélection d'échantillons basé sur les représentations cachées du modèle. Dans des scénarios d'apprentissage incrémental par classe sur des ensembles de données de malwares Windows et Android, le système démontre des améliorations de performance significatives, atteignant une précision moyenne de 55% sur les échantillons de malwares Windows, soit une amélioration de 28% par rapport aux autres modèles basés sur la relecture générative.

Contexte de Recherche et Motivation

Problème Central

La classification des malwares fait face au défi majeur du phénomène d'oubli catastrophique (Catastrophic Forgetting). Lorsqu'un modèle d'apprentissage automatique s'entraîne continuellement sur de nouvelles données, ses performances sur les anciennes données diminuent considérablement. Cela est particulièrement grave dans le domaine des malwares, car :

  1. Évolution rapide des malwares : L'Institut AV-TEST enregistre 450 000 nouveaux malwares et programmes potentiellement indésirables (PUA) quotidiennement
  2. VirusTotal traite plus d'un million de soumissions de logiciels par jour
  3. Dilemme des entreprises antivirus : soit supprimer les anciens échantillons (risquant la réapparition de malwares anciens), soit ignorer les nouveaux échantillons (manquant les menaces émergentes)

Modèle de Menace

L'article définit un scénario de menace spécifique : les attaquants exploitent les malwares hérités pour contourner les systèmes d'apprentissage automatique mis à jour uniquement avec de nouvelles données. À mesure que l'écart temporel entre l'entraînement initial et l'attaque augmente, la probabilité d'évasion réussie augmente.

Limitations des Approches Existantes

  1. Méthodes d'apprentissage automatique traditionnelles : Incapables de gérer efficacement l'oubli catastrophique
  2. Méthodes d'apprentissage continu de la vision par ordinateur : Application directe à la classification des malwares inefficace, performances inférieures à la ligne de base « Aucune »
  3. Contraintes de stockage : Stockage des données historiques limité en raison des réglementations sur la confidentialité

Contributions Principales

  1. Modèle d'apprentissage continu spécifique au domaine des malwares : Propose MalCL, atteignant une précision moyenne de 55% sur 11 tâches d'apprentissage continu avec 100 familles de malwares, soit une amélioration de 28% par rapport aux méthodes existantes
  2. Relecture générative améliorée par correspondance de caractéristiques : Utilise un générateur GAN combiné à une perte de correspondance de caractéristiques (Feature Matching Loss), réduisant les différences de caractéristiques entre les échantillons originaux et synthétiques
  3. Mécanisme innovant de sélection d'échantillons de relecture : Développe plusieurs stratégies de sélection basées sur les caractéristiques des couches intermédiaires du classificateur, améliorant l'alignement des échantillons générés avec les données originales
  4. Construction stratégique d'ensembles de tâches : Explore la stratégie d'attribution de grandes catégories aux tâches initiales, atténuant efficacement l'oubli catastrophique

Détails de la Méthode

Définition des Tâches

MalCL résout le problème de l'apprentissage incrémental par classe (Class-Incremental Learning) :

  • Entrée : Séquence de vecteurs de caractéristiques de malwares
  • Sortie : Classification des familles de malwares
  • Contrainte : Chaque tâche introduit de nouvelles catégories de malwares, nécessitant de maintenir simultanément la capacité de reconnaissance des catégories historiques

Architecture du Modèle

Flux Global

MalCL contient deux composants principaux :

  1. Module GAN : Génère des échantillons de malwares synthétiques des tâches passées
  2. Module Classificateur : Effectue la classification des familles de malwares

Conception de l'Architecture GAN

Générateur (Generator) :

  • 4 couches de convolution 1D + 2 couches entièrement connectées + 3 couches de déconvolution
  • ReLU et normalisation par batch utilisées sauf pour la dernière couche
  • Couche de sortie utilisant l'activation Sigmoid

Discriminateur (Discriminator) :

  • 2 couches de convolution + 2 couches entièrement connectées
  • La logique d'aplatissement de la deuxième couche de convolution utilisée pour la correspondance de caractéristiques
  • Couche de sortie finale utilisant Sigmoid

Architecture du Classificateur

  • 3 couches de convolution + 1 couche entièrement connectée
  • Les deux premières couches de convolution suivies de pooling maximal et dropout
  • La logique d'aplatissement de la troisième couche de convolution utilisée pour la sélection d'échantillons de relecture
  • Couche de sortie utilisant Softmax

Points d'Innovation Technique

1. Perte de Correspondance de Caractéristiques (Feature Matching Loss)

Perte d'entropie croisée binaire traditionnelle :

LG = -1/m ∑(i=1 à m) log(D(G(zi)))

Perte de correspondance de caractéristiques :

LG = 1/m ∑(i=1 à m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Où D(f)(·) représente la sortie de la couche intermédiaire du discriminateur, cette fonction de perte se concentrant sur les caractéristiques intermédiaires plus riches plutôt que sur la sortie finale.

2. Stratégies de Sélection d'Échantillons de Relecture

Sélection basée sur la distance L2 vers l'étiquette one-hot :

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Sélection basée sur la distance L1 vers la régression logistique :

  • Par moyenne par lot : Sélectionne les échantillons proches de la moyenne globale
  • Par moyenne par classe : Sélectionne k échantillons pour chaque classe les plus proches du centre de classe
Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Configuration Expérimentale

Ensembles de Données

  1. Ensemble de données EMBER :
    • 337 035 fichiers PE malveillants Windows
    • 100 familles de malwares, chaque famille > 400 échantillons
    • Les caractéristiques incluent la taille du fichier, les informations d'en-tête PE et COFF, les caractéristiques DLL, etc.
  2. Ensemble de données AZ-Class :
    • 285 582 échantillons de malwares Android
    • 100 familles de malwares, chaque famille ≥ 200 échantillons
    • Utilise les caractéristiques Drebin, incluant 8 catégories (accès matériel, permissions, appels API, etc.)
    • Dimension de caractéristique finale : 2 439

Métriques d'Évaluation

  • Précision Moyenne (Mean Accuracy) : Précision de classification moyenne sur toutes les tâches
  • Précision Minimale (Min Accuracy) : Précision la plus basse parmi toutes les tâches

Méthodes de Comparaison

  1. Méthodes de base :
    • Aucune : Entraînement uniquement sur les nouvelles données (limite inférieure de l'oubli catastrophique)
    • Joint : Entraînement utilisant toutes les données historiques (limite supérieure idéale)
  2. Travaux Antérieurs :
    • GR (Generative Replay) : Relecture générative utilisant GAN
    • BI-R (Brain-Inspired Replay) : Relecture générative améliorée utilisant VAE

Détails d'Implémentation

  • Construction des tâches : Première tâche avec 50 classes, tâches suivantes ajoutant 5 classes chacune, total de 11 tâches
  • Optimiseurs : Adam pour GAN, SGD pour le classificateur
  • Taille de lot : 256
  • Taux d'apprentissage : Classificateur 1e-3, momentum 0.9, décroissance de poids 1e-7

Résultats Expérimentaux

Résultats Principaux

MéthodeEnsemble de données EMBER
MoyenneMin
Aucune (ligne de base)27,5%0,6%
Joint (limite supérieure)88,7%74,5%
GR26,8%9,5%
BI-R27,0%9,2%
MalCL (meilleur)54,5%21,8%

Découvertes Clés :

  • MalCL améliore la ligne de base Aucune de 27%
  • Amélioration de 28% par rapport aux méthodes de relecture générative existantes (GR, BI-R)
  • Configuration optimale : FML + Distance L1 vers la régression logistique par classe

Études d'Ablation

Comparaison des Fonctions de Perte

  • Perte de correspondance de caractéristiques vs Entropie croisée binaire : FML surpasse BCE sur toutes les stratégies de sélection
  • L1 vers régression logistique par classe : Performance optimale, précision 55% vs 50% pour L2 vers étiquette

Stratégies de Construction d'Ensembles de Tâches

Construction stratégique des tâches : Attribution de grandes catégories aux tâches initiales

  • Première tâche : 50 catégories « géantes » (moyenne 5 397 échantillons)
  • Tâches suivantes : Sélection aléatoire de petites catégories (moyenne 670 échantillons)
  • Résultat : Précision améliorée à 74%, approchant la performance de la ligne de base Joint

Validation Interensembles

Résultats de l'ensemble de données AZ-Class :

  • Performance supérieure à l'ensemble de données EMBER
  • Plage de précision plus étroite, indiquant une plus grande stabilité
  • Raison : Déséquilibre de classe plus grave dans l'ensemble de données EMBER

Travaux Connexes

Classification des Méthodes d'Apprentissage Continu

  1. Techniques de Relecture :
    • Relecture Exacte : Experience Replay (ER), iCaRL
    • Relecture Générative : GR, BI-R, DDGR
  2. Méthodes de Régularisation :
    • Elastic Weight Consolidation (EWC)
    • Synaptic Intelligence (SI)

Apprentissage Continu dans la Classification des Malwares

  • Rahman et al. ont exploré pour la première fois l'apprentissage continu dans la classification des malwares
  • Chen et al. ont combiné l'apprentissage contrastif et l'apprentissage actif
  • Les méthodes existantes se concentrent principalement sur la dérive conceptuelle plutôt que sur l'oubli catastrophique

Conclusion et Discussion

Conclusions Principales

  1. MalCL atténue efficacement l'oubli catastrophique dans la classification des malwares
  2. La perte de correspondance de caractéristiques améliore significativement la qualité des échantillons générés
  3. Les stratégies de sélection d'échantillons basées sur les couches cachées du classificateur sont efficaces
  4. La construction stratégique des tâches est cruciale pour l'amélioration des performances

Limitations

  1. Écart significatif avec la ligne de base Joint : MalCL meilleur 54,5% vs Joint 88,7%
  2. Inefficacité de la stratégie de sélection globale : La stratégie L1 vers moyenne par lot produit une couverture de classe insuffisante
  3. Sensibilité au déséquilibre des données : Les caractéristiques de déséquilibre de l'ensemble de données EMBER affectent les performances

Directions Futures

  1. Améliorer la qualité de génération des malwares synthétiques
  2. Développer des modèles génératifs plus avancés
  3. Explorer des méthodes d'entraînement hybrides combinant relecture générative et entraînement joint
  4. Étendre à plus de types de malwares
  5. Intégrer des caractéristiques plus complexes reflétant la nature dynamique des menaces de malwares

Évaluation Approfondie

Points Forts

  1. Forte pertinence du problème : Aborde spécifiquement le problème de l'oubli catastrophique dans le domaine des malwares
  2. Innovation méthodologique : Combine la perte de correspondance de caractéristiques et des stratégies diversifiées de sélection d'échantillons
  3. Expérimentation complète : Validation multiplateforme (Windows/Android), multiples méthodes de comparaison
  4. Valeur pratique élevée : Résout un problème important dans la protection de sécurité réelle
  5. Détails techniques suffisants : Fournit une conception architecturale complète et des détails d'implémentation

Insuffisances

  1. Espace d'amélioration de performance important : Écart de 33% avec la limite supérieure idéale
  2. Analyse des frais de calcul manquante : N'analyse pas en détail les coûts de calcul de l'entraînement et de la génération GAN
  3. Robustesse aux échantillons adversariaux : Ne considère pas la robustesse des échantillons générés face aux attaques adversariales
  4. Dépendance à l'ingénierie des caractéristiques : Dépend de caractéristiques prédéfinies, pouvant limiter la capacité de généralisation
  5. Évaluation de performance à long terme : Manque d'évaluation de performance sur des séries temporelles plus longues

Impact

  1. Contribution Académique : Première application systématique de la relecture générative basée sur GAN à la classification des malwares
  2. Valeur Pratique : Fournit une solution d'apprentissage continu pratique pour les entreprises antivirus
  3. Généralité de la Méthode : Le cadre technique peut être étendu à d'autres domaines de détection de sécurité
  4. Engagement Open Source : S'engage à publier le code, favorisant la reproduction et le développement de la recherche

Scénarios d'Application

  1. Protection de Sécurité Entreprise : Systèmes de détection de malwares nécessitant une mise à jour continue
  2. Environnements aux Ressources Limitées : Scénarios où l'on ne peut pas stocker de grandes quantités de données historiques
  3. Applications Sensibles à la Confidentialité : Environnements où l'on ne peut pas conserver les échantillons de malwares originaux
  4. Systèmes de Détection en Temps Réel : Systèmes de détection en ligne nécessitant une adaptation rapide aux nouvelles menaces

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage continu, de la détection des malwares et des réseaux antagonistes génératifs, notamment :

  • Shin et al. (2017) : Apprentissage continu avec relecture générative profonde
  • Rahman, Coull, and Wright (2022) : Première exploration de l'apprentissage continu dans la classification des malwares
  • Anderson and Roth (2018) : Ensemble de données EMBER
  • Arp et al. (2014) : Méthode d'extraction de caractéristiques Drebin

Évaluation Globale : Cet article propose une solution innovante au problème de l'oubli catastrophique dans la classification des malwares, avec des contributions suffisantes en termes de méthodes techniques et de vérification expérimentale. Bien qu'il y ait encore de la place pour l'amélioration des performances, il apporte une contribution importante à la recherche et aux applications dans ce domaine.