MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time.
In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations.
Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic
MalCL: Nutzung von GAN-basierter generativer Wiederholung zur Bekämpfung katastrophaler Vergessenheit in der Malware-Klassifizierung
In diesem Artikel wird das MalCL-System zur Bewältigung des kontinuierlichen Lernens bei der Malware-Klassifizierung vorgestellt. Das System nutzt eine auf generativen gegnerischen Netzwerken (GAN) basierende generative Wiederholungsmethode, um hochwertige Malware-Samples durch Feature-Matching-Verlust zu generieren und implementiert einen innovativen Sample-Selektionsmechanismus basierend auf verborgenen Modelldarstellungen. In Szenarien des klasseninkrementiellen Lernens auf Windows- und Android-Malware-Datensätzen zeigt das System erhebliche Leistungsverbesserungen und erreicht eine durchschnittliche Genauigkeit von 55% bei Windows-Malware-Samples, was einer Verbesserung von 28% gegenüber anderen auf generativer Wiederholung basierenden Modellen entspricht.
Die Hauptherausforderung bei der Malware-Klassifizierung ist das Phänomen der katastrophalen Vergessenheit (Catastrophic Forgetting). Wenn ein Machine-Learning-Modell kontinuierlich auf neuen Daten trainiert wird, sinkt seine Leistung bei alten Daten erheblich. Dies ist im Malware-Bereich besonders schwerwiegend, da:
Malware sich schnell entwickelt: Das AV-TEST-Institut verzeichnet täglich 450.000 neue Malware-Varianten und potenziell unerwünschte Programme (PUA)
VirusTotal verarbeitet täglich über 1 Million Softwareeinreichungen
Antivirus-Unternehmen stehen vor einem Dilemma: Entweder alte Samples entfernen (mit dem Risiko, dass alte Malware erneut auftritt) oder neue Samples ignorieren (neue Bedrohungen verpassen)
Das Papier definiert ein konkretes Bedrohungsszenario: Angreifer nutzen Legacy-Malware, um Machine-Learning-Systeme zu umgehen, die nur mit neuen Daten aktualisiert wurden. Mit zunehmendem zeitlichen Abstand zwischen ursprünglichem Training und Angriff steigt die Wahrscheinlichkeit erfolgreicher Umgehung.
Traditionelle Machine-Learning-Methoden: Können katastrophale Vergessenheit nicht wirksam bewältigen
Kontinuierliche Lernmethoden aus der Computervision: Zeigen schlechte Ergebnisse bei direkter Anwendung auf Malware-Klassifizierung, teilweise sogar schlechter als die "None"-Baseline
Speicherbeschränkungen: Aufgrund von Datenschutzbestimmungen ist die Speicherung historischer Daten begrenzt
Kontinuierliches Lernmodell speziell für den Malware-Bereich: Präsentation von MalCL, das in 11 kontinuierlichen Lernaufgaben mit 100 Malware-Familien eine durchschnittliche Genauigkeit von 55% erreicht, was einer Verbesserung von 28% gegenüber bestehenden Methoden entspricht
Verbessertes Feature-Matching für generative Wiederholung: Einsatz eines GAN-Generators mit Feature-Matching-Verlust, um Unterschiede zwischen ursprünglichen und synthetischen Samples zu reduzieren
Innovativer Wiederholungs-Sample-Selektionsmechanismus: Entwicklung mehrerer Selektionsstrategien basierend auf Merkmalen der mittleren Schichten des Klassifizierers zur Verbesserung der Ausrichtung generierter Samples mit Originaldaten
Strategische Aufgabensatzbildung: Erkundung der Strategie, große Kategorien den Anfangsaufgaben zuzuweisen, um katastrophale Vergessenheit wirksam zu mildern
LG = 1/m ∑(i=1 bis m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||
Wobei D(f)(·) die Ausgabe der mittleren Schicht des Diskriminators darstellt. Diese Verlustfunktion konzentriert sich auf reichhaltigere mittlere Merkmale statt auf die endgültige Ausgabe.
Das Papier zitiert wichtige Arbeiten aus den Bereichen kontinuierliches Lernen, Malware-Erkennung und generative gegnerische Netzwerke, einschließlich:
Shin et al. (2017): Kontinuierliches Lernen mit tiefem generativem Replay
Rahman, Coull, and Wright (2022): Erste Erkundung kontinuierlichen Lernens in der Malware-Klassifizierung
Anderson and Roth (2018): EMBER-Datensatz
Arp et al. (2014): Drebin-Feature-Extraktionsmethode
Gesamtbewertung: Dieses Papier präsentiert eine innovative Lösung für das Problem der katastrophalen Vergessenheit in der Malware-Klassifizierung. Sowohl in technischen Methoden als auch in experimenteller Validierung ist es umfassend. Obwohl noch Raum für Leistungsverbesserungen besteht, leistet es wichtige Beiträge zur Forschung und Anwendung in diesem Bereich.