MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time.
In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations.
Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic
MalCL : Exploiter la Relecture Générative Basée sur GAN pour Combattre l'Oubli Catastrophique dans la Classification des Malwares
Cet article propose le système MalCL pour aborder le problème de l'apprentissage continu dans la classification des malwares. Le système emploie une méthode de relecture générative basée sur les réseaux antagonistes génératifs (GAN), générant des échantillons de malwares de haute qualité par correspondance de caractéristiques et implémentant un mécanisme innovant de sélection d'échantillons basé sur les représentations cachées du modèle. Dans des scénarios d'apprentissage incrémental par classe sur des ensembles de données de malwares Windows et Android, le système démontre des améliorations de performance significatives, atteignant une précision moyenne de 55% sur les échantillons de malwares Windows, soit une amélioration de 28% par rapport aux autres modèles basés sur la relecture générative.
La classification des malwares fait face au défi majeur du phénomène d'oubli catastrophique (Catastrophic Forgetting). Lorsqu'un modèle d'apprentissage automatique s'entraîne continuellement sur de nouvelles données, ses performances sur les anciennes données diminuent considérablement. Cela est particulièrement grave dans le domaine des malwares, car :
Évolution rapide des malwares : L'Institut AV-TEST enregistre 450 000 nouveaux malwares et programmes potentiellement indésirables (PUA) quotidiennement
VirusTotal traite plus d'un million de soumissions de logiciels par jour
Dilemme des entreprises antivirus : soit supprimer les anciens échantillons (risquant la réapparition de malwares anciens), soit ignorer les nouveaux échantillons (manquant les menaces émergentes)
L'article définit un scénario de menace spécifique : les attaquants exploitent les malwares hérités pour contourner les systèmes d'apprentissage automatique mis à jour uniquement avec de nouvelles données. À mesure que l'écart temporel entre l'entraînement initial et l'attaque augmente, la probabilité d'évasion réussie augmente.
Méthodes d'apprentissage continu de la vision par ordinateur : Application directe à la classification des malwares inefficace, performances inférieures à la ligne de base « Aucune »
Contraintes de stockage : Stockage des données historiques limité en raison des réglementations sur la confidentialité
Modèle d'apprentissage continu spécifique au domaine des malwares : Propose MalCL, atteignant une précision moyenne de 55% sur 11 tâches d'apprentissage continu avec 100 familles de malwares, soit une amélioration de 28% par rapport aux méthodes existantes
Relecture générative améliorée par correspondance de caractéristiques : Utilise un générateur GAN combiné à une perte de correspondance de caractéristiques (Feature Matching Loss), réduisant les différences de caractéristiques entre les échantillons originaux et synthétiques
Mécanisme innovant de sélection d'échantillons de relecture : Développe plusieurs stratégies de sélection basées sur les caractéristiques des couches intermédiaires du classificateur, améliorant l'alignement des échantillons générés avec les données originales
Construction stratégique d'ensembles de tâches : Explore la stratégie d'attribution de grandes catégories aux tâches initiales, atténuant efficacement l'oubli catastrophique
MalCL résout le problème de l'apprentissage incrémental par classe (Class-Incremental Learning) :
Entrée : Séquence de vecteurs de caractéristiques de malwares
Sortie : Classification des familles de malwares
Contrainte : Chaque tâche introduit de nouvelles catégories de malwares, nécessitant de maintenir simultanément la capacité de reconnaissance des catégories historiques
LG = 1/m ∑(i=1 à m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||
Où D(f)(·) représente la sortie de la couche intermédiaire du discriminateur, cette fonction de perte se concentrant sur les caractéristiques intermédiaires plus riches plutôt que sur la sortie finale.
Cet article cite des travaux importants dans les domaines de l'apprentissage continu, de la détection des malwares et des réseaux antagonistes génératifs, notamment :
Shin et al. (2017) : Apprentissage continu avec relecture générative profonde
Rahman, Coull, and Wright (2022) : Première exploration de l'apprentissage continu dans la classification des malwares
Anderson and Roth (2018) : Ensemble de données EMBER
Arp et al. (2014) : Méthode d'extraction de caractéristiques Drebin
Évaluation Globale : Cet article propose une solution innovante au problème de l'oubli catastrophique dans la classification des malwares, avec des contributions suffisantes en termes de méthodes techniques et de vérification expérimentale. Bien qu'il y ait encore de la place pour l'amélioration des performances, il apporte une contribution importante à la recherche et aux applications dans ce domaine.