2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.

academic

MalCL : Exploiter la Relecture Générative Basée sur GAN pour Combattre l'Oubli Catastrophique dans la Classification des Malwares

Informations Fondamentales

ID de l'article : 2501.01110
Titre : MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Auteurs : Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
Institutions : ¹Université Ewha Womans, ²Université du Texas à El Paso
Classification : cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle)
Date de publication : 2 janvier 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2501.01110

Résumé

Cet article propose le système MalCL pour aborder le problème de l'apprentissage continu dans la classification des malwares. Le système emploie une méthode de relecture générative basée sur les réseaux antagonistes génératifs (GAN), générant des échantillons de malwares de haute qualité par correspondance de caractéristiques et implémentant un mécanisme innovant de sélection d'échantillons basé sur les représentations cachées du modèle. Dans des scénarios d'apprentissage incrémental par classe sur des ensembles de données de malwares Windows et Android, le système démontre des améliorations de performance significatives, atteignant une précision moyenne de 55% sur les échantillons de malwares Windows, soit une amélioration de 28% par rapport aux autres modèles basés sur la relecture générative.

Contexte de Recherche et Motivation

Problème Central

La classification des malwares fait face au défi majeur du phénomène d'oubli catastrophique (Catastrophic Forgetting). Lorsqu'un modèle d'apprentissage automatique s'entraîne continuellement sur de nouvelles données, ses performances sur les anciennes données diminuent considérablement. Cela est particulièrement grave dans le domaine des malwares, car :

Évolution rapide des malwares : L'Institut AV-TEST enregistre 450 000 nouveaux malwares et programmes potentiellement indésirables (PUA) quotidiennement
VirusTotal traite plus d'un million de soumissions de logiciels par jour
Dilemme des entreprises antivirus : soit supprimer les anciens échantillons (risquant la réapparition de malwares anciens), soit ignorer les nouveaux échantillons (manquant les menaces émergentes)

Modèle de Menace

L'article définit un scénario de menace spécifique : les attaquants exploitent les malwares hérités pour contourner les systèmes d'apprentissage automatique mis à jour uniquement avec de nouvelles données. À mesure que l'écart temporel entre l'entraînement initial et l'attaque augmente, la probabilité d'évasion réussie augmente.

Limitations des Approches Existantes

Méthodes d'apprentissage automatique traditionnelles : Incapables de gérer efficacement l'oubli catastrophique
Méthodes d'apprentissage continu de la vision par ordinateur : Application directe à la classification des malwares inefficace, performances inférieures à la ligne de base « Aucune »
Contraintes de stockage : Stockage des données historiques limité en raison des réglementations sur la confidentialité

Contributions Principales

Modèle d'apprentissage continu spécifique au domaine des malwares : Propose MalCL, atteignant une précision moyenne de 55% sur 11 tâches d'apprentissage continu avec 100 familles de malwares, soit une amélioration de 28% par rapport aux méthodes existantes
Relecture générative améliorée par correspondance de caractéristiques : Utilise un générateur GAN combiné à une perte de correspondance de caractéristiques (Feature Matching Loss), réduisant les différences de caractéristiques entre les échantillons originaux et synthétiques
Mécanisme innovant de sélection d'échantillons de relecture : Développe plusieurs stratégies de sélection basées sur les caractéristiques des couches intermédiaires du classificateur, améliorant l'alignement des échantillons générés avec les données originales
Construction stratégique d'ensembles de tâches : Explore la stratégie d'attribution de grandes catégories aux tâches initiales, atténuant efficacement l'oubli catastrophique

Détails de la Méthode

Définition des Tâches

MalCL résout le problème de l'apprentissage incrémental par classe (Class-Incremental Learning) :

Entrée : Séquence de vecteurs de caractéristiques de malwares
Sortie : Classification des familles de malwares
Contrainte : Chaque tâche introduit de nouvelles catégories de malwares, nécessitant de maintenir simultanément la capacité de reconnaissance des catégories historiques

Architecture du Modèle

Flux Global

MalCL contient deux composants principaux :

Module GAN : Génère des échantillons de malwares synthétiques des tâches passées
Module Classificateur : Effectue la classification des familles de malwares

Conception de l'Architecture GAN

Générateur (Generator) :

4 couches de convolution 1D + 2 couches entièrement connectées + 3 couches de déconvolution
ReLU et normalisation par batch utilisées sauf pour la dernière couche
Couche de sortie utilisant l'activation Sigmoid

Discriminateur (Discriminator) :

2 couches de convolution + 2 couches entièrement connectées
La logique d'aplatissement de la deuxième couche de convolution utilisée pour la correspondance de caractéristiques
Couche de sortie finale utilisant Sigmoid

Architecture du Classificateur

3 couches de convolution + 1 couche entièrement connectée
Les deux premières couches de convolution suivies de pooling maximal et dropout
La logique d'aplatissement de la troisième couche de convolution utilisée pour la sélection d'échantillons de relecture
Couche de sortie utilisant Softmax

Points d'Innovation Technique

1. Perte de Correspondance de Caractéristiques (Feature Matching Loss)

Perte d'entropie croisée binaire traditionnelle :

LG = -1/m ∑(i=1 à m) log(D(G(zi)))

Perte de correspondance de caractéristiques :

LG = 1/m ∑(i=1 à m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Où D(f)(·) représente la sortie de la couche intermédiaire du discriminateur, cette fonction de perte se concentrant sur les caractéristiques intermédiaires plus riches plutôt que sur la sortie finale.

2. Stratégies de Sélection d'Échantillons de Relecture

Sélection basée sur la distance L2 vers l'étiquette one-hot :

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Sélection basée sur la distance L1 vers la régression logistique :

Par moyenne par lot : Sélectionne les échantillons proches de la moyenne globale
Par moyenne par classe : Sélectionne k échantillons pour chaque classe les plus proches du centre de classe

Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Configuration Expérimentale

Ensembles de Données

Ensemble de données EMBER :
- 337 035 fichiers PE malveillants Windows
- 100 familles de malwares, chaque famille > 400 échantillons
- Les caractéristiques incluent la taille du fichier, les informations d'en-tête PE et COFF, les caractéristiques DLL, etc.
Ensemble de données AZ-Class :
- 285 582 échantillons de malwares Android
- 100 familles de malwares, chaque famille ≥ 200 échantillons
- Utilise les caractéristiques Drebin, incluant 8 catégories (accès matériel, permissions, appels API, etc.)
- Dimension de caractéristique finale : 2 439

Métriques d'Évaluation

Précision Moyenne (Mean Accuracy) : Précision de classification moyenne sur toutes les tâches
Précision Minimale (Min Accuracy) : Précision la plus basse parmi toutes les tâches

Méthodes de Comparaison

Méthodes de base :
- Aucune : Entraînement uniquement sur les nouvelles données (limite inférieure de l'oubli catastrophique)
- Joint : Entraînement utilisant toutes les données historiques (limite supérieure idéale)
Travaux Antérieurs :
- GR (Generative Replay) : Relecture générative utilisant GAN
- BI-R (Brain-Inspired Replay) : Relecture générative améliorée utilisant VAE

Détails d'Implémentation

Construction des tâches : Première tâche avec 50 classes, tâches suivantes ajoutant 5 classes chacune, total de 11 tâches
Optimiseurs : Adam pour GAN, SGD pour le classificateur
Taille de lot : 256
Taux d'apprentissage : Classificateur 1e-3, momentum 0.9, décroissance de poids 1e-7

Résultats Expérimentaux

Résultats Principaux

Méthode	Ensemble de données EMBER
	Moyenne	Min
Aucune (ligne de base)	27,5%	0,6%
Joint (limite supérieure)	88,7%	74,5%
GR	26,8%	9,5%
BI-R	27,0%	9,2%
MalCL (meilleur)	54,5%	21,8%

Découvertes Clés :

MalCL améliore la ligne de base Aucune de 27%
Amélioration de 28% par rapport aux méthodes de relecture générative existantes (GR, BI-R)
Configuration optimale : FML + Distance L1 vers la régression logistique par classe

Études d'Ablation

Comparaison des Fonctions de Perte

Perte de correspondance de caractéristiques vs Entropie croisée binaire : FML surpasse BCE sur toutes les stratégies de sélection
L1 vers régression logistique par classe : Performance optimale, précision 55% vs 50% pour L2 vers étiquette

Stratégies de Construction d'Ensembles de Tâches

Construction stratégique des tâches : Attribution de grandes catégories aux tâches initiales

Première tâche : 50 catégories « géantes » (moyenne 5 397 échantillons)
Tâches suivantes : Sélection aléatoire de petites catégories (moyenne 670 échantillons)
Résultat : Précision améliorée à 74%, approchant la performance de la ligne de base Joint

Validation Interensembles

Résultats de l'ensemble de données AZ-Class :

Performance supérieure à l'ensemble de données EMBER
Plage de précision plus étroite, indiquant une plus grande stabilité
Raison : Déséquilibre de classe plus grave dans l'ensemble de données EMBER

Travaux Connexes

Classification des Méthodes d'Apprentissage Continu

Techniques de Relecture :
- Relecture Exacte : Experience Replay (ER), iCaRL
- Relecture Générative : GR, BI-R, DDGR
Méthodes de Régularisation :
- Elastic Weight Consolidation (EWC)
- Synaptic Intelligence (SI)

Apprentissage Continu dans la Classification des Malwares

Rahman et al. ont exploré pour la première fois l'apprentissage continu dans la classification des malwares
Chen et al. ont combiné l'apprentissage contrastif et l'apprentissage actif
Les méthodes existantes se concentrent principalement sur la dérive conceptuelle plutôt que sur l'oubli catastrophique

Conclusion et Discussion

Conclusions Principales

MalCL atténue efficacement l'oubli catastrophique dans la classification des malwares
La perte de correspondance de caractéristiques améliore significativement la qualité des échantillons générés
Les stratégies de sélection d'échantillons basées sur les couches cachées du classificateur sont efficaces
La construction stratégique des tâches est cruciale pour l'amélioration des performances

Limitations

Écart significatif avec la ligne de base Joint : MalCL meilleur 54,5% vs Joint 88,7%
Inefficacité de la stratégie de sélection globale : La stratégie L1 vers moyenne par lot produit une couverture de classe insuffisante
Sensibilité au déséquilibre des données : Les caractéristiques de déséquilibre de l'ensemble de données EMBER affectent les performances

Directions Futures

Améliorer la qualité de génération des malwares synthétiques
Développer des modèles génératifs plus avancés
Explorer des méthodes d'entraînement hybrides combinant relecture générative et entraînement joint
Étendre à plus de types de malwares
Intégrer des caractéristiques plus complexes reflétant la nature dynamique des menaces de malwares

Évaluation Approfondie

Points Forts

Forte pertinence du problème : Aborde spécifiquement le problème de l'oubli catastrophique dans le domaine des malwares
Innovation méthodologique : Combine la perte de correspondance de caractéristiques et des stratégies diversifiées de sélection d'échantillons
Expérimentation complète : Validation multiplateforme (Windows/Android), multiples méthodes de comparaison
Valeur pratique élevée : Résout un problème important dans la protection de sécurité réelle
Détails techniques suffisants : Fournit une conception architecturale complète et des détails d'implémentation

Insuffisances

Espace d'amélioration de performance important : Écart de 33% avec la limite supérieure idéale
Analyse des frais de calcul manquante : N'analyse pas en détail les coûts de calcul de l'entraînement et de la génération GAN
Robustesse aux échantillons adversariaux : Ne considère pas la robustesse des échantillons générés face aux attaques adversariales
Dépendance à l'ingénierie des caractéristiques : Dépend de caractéristiques prédéfinies, pouvant limiter la capacité de généralisation
Évaluation de performance à long terme : Manque d'évaluation de performance sur des séries temporelles plus longues

Impact

Contribution Académique : Première application systématique de la relecture générative basée sur GAN à la classification des malwares
Valeur Pratique : Fournit une solution d'apprentissage continu pratique pour les entreprises antivirus
Généralité de la Méthode : Le cadre technique peut être étendu à d'autres domaines de détection de sécurité
Engagement Open Source : S'engage à publier le code, favorisant la reproduction et le développement de la recherche

Scénarios d'Application

Protection de Sécurité Entreprise : Systèmes de détection de malwares nécessitant une mise à jour continue
Environnements aux Ressources Limitées : Scénarios où l'on ne peut pas stocker de grandes quantités de données historiques
Applications Sensibles à la Confidentialité : Environnements où l'on ne peut pas conserver les échantillons de malwares originaux
Systèmes de Détection en Temps Réel : Systèmes de détection en ligne nécessitant une adaptation rapide aux nouvelles menaces

Références

Cet article cite des travaux importants dans les domaines de l'apprentissage continu, de la détection des malwares et des réseaux antagonistes génératifs, notamment :

Shin et al. (2017) : Apprentissage continu avec relecture générative profonde
Rahman, Coull, and Wright (2022) : Première exploration de l'apprentissage continu dans la classification des malwares
Anderson and Roth (2018) : Ensemble de données EMBER
Arp et al. (2014) : Méthode d'extraction de caractéristiques Drebin

Évaluation Globale : Cet article propose une solution innovante au problème de l'oubli catastrophique dans la classification des malwares, avec des contributions suffisantes en termes de méthodes techniques et de vérification expérimentale. Bien qu'il y ait encore de la place pour l'amélioration des performances, il apporte une contribution importante à la recherche et aux applications dans ce domaine.