2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.

academic

MalCL: Nutzung von GAN-basierter generativer Wiederholung zur Bekämpfung katastrophaler Vergessenheit in der Malware-Klassifizierung

Grundlegende Informationen

Papier-ID: 2501.01110
Titel: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
Autoren: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
Institutionen: ¹Ewha Womans University, ²University of Texas at El Paso
Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz)
Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2501.01110

Zusammenfassung

In diesem Artikel wird das MalCL-System zur Bewältigung des kontinuierlichen Lernens bei der Malware-Klassifizierung vorgestellt. Das System nutzt eine auf generativen gegnerischen Netzwerken (GAN) basierende generative Wiederholungsmethode, um hochwertige Malware-Samples durch Feature-Matching-Verlust zu generieren und implementiert einen innovativen Sample-Selektionsmechanismus basierend auf verborgenen Modelldarstellungen. In Szenarien des klasseninkrementiellen Lernens auf Windows- und Android-Malware-Datensätzen zeigt das System erhebliche Leistungsverbesserungen und erreicht eine durchschnittliche Genauigkeit von 55% bei Windows-Malware-Samples, was einer Verbesserung von 28% gegenüber anderen auf generativer Wiederholung basierenden Modellen entspricht.

Forschungshintergrund und Motivation

Kernproblem

Die Hauptherausforderung bei der Malware-Klassifizierung ist das Phänomen der katastrophalen Vergessenheit (Catastrophic Forgetting). Wenn ein Machine-Learning-Modell kontinuierlich auf neuen Daten trainiert wird, sinkt seine Leistung bei alten Daten erheblich. Dies ist im Malware-Bereich besonders schwerwiegend, da:

Malware sich schnell entwickelt: Das AV-TEST-Institut verzeichnet täglich 450.000 neue Malware-Varianten und potenziell unerwünschte Programme (PUA)
VirusTotal verarbeitet täglich über 1 Million Softwareeinreichungen
Antivirus-Unternehmen stehen vor einem Dilemma: Entweder alte Samples entfernen (mit dem Risiko, dass alte Malware erneut auftritt) oder neue Samples ignorieren (neue Bedrohungen verpassen)

Bedrohungsmodell

Das Papier definiert ein konkretes Bedrohungsszenario: Angreifer nutzen Legacy-Malware, um Machine-Learning-Systeme zu umgehen, die nur mit neuen Daten aktualisiert wurden. Mit zunehmendem zeitlichen Abstand zwischen ursprünglichem Training und Angriff steigt die Wahrscheinlichkeit erfolgreicher Umgehung.

Einschränkungen bestehender Methoden

Traditionelle Machine-Learning-Methoden: Können katastrophale Vergessenheit nicht wirksam bewältigen
Kontinuierliche Lernmethoden aus der Computervision: Zeigen schlechte Ergebnisse bei direkter Anwendung auf Malware-Klassifizierung, teilweise sogar schlechter als die "None"-Baseline
Speicherbeschränkungen: Aufgrund von Datenschutzbestimmungen ist die Speicherung historischer Daten begrenzt

Kernbeiträge

Kontinuierliches Lernmodell speziell für den Malware-Bereich: Präsentation von MalCL, das in 11 kontinuierlichen Lernaufgaben mit 100 Malware-Familien eine durchschnittliche Genauigkeit von 55% erreicht, was einer Verbesserung von 28% gegenüber bestehenden Methoden entspricht
Verbessertes Feature-Matching für generative Wiederholung: Einsatz eines GAN-Generators mit Feature-Matching-Verlust, um Unterschiede zwischen ursprünglichen und synthetischen Samples zu reduzieren
Innovativer Wiederholungs-Sample-Selektionsmechanismus: Entwicklung mehrerer Selektionsstrategien basierend auf Merkmalen der mittleren Schichten des Klassifizierers zur Verbesserung der Ausrichtung generierter Samples mit Originaldaten
Strategische Aufgabensatzbildung: Erkundung der Strategie, große Kategorien den Anfangsaufgaben zuzuweisen, um katastrophale Vergessenheit wirksam zu mildern

Methodische Details

Aufgabendefinition

MalCL löst das Problem des klasseninkrementiellen Lernens (Class-Incremental Learning):

Eingabe: Sequenzen von Malware-Merkmalsvektoren
Ausgabe: Malware-Familien-Klassifizierung
Einschränkung: Jede Aufgabe führt neue Malware-Kategorien ein und muss gleichzeitig die Erkennungsfähigkeit für historische Kategorien bewahren

Modellarchitektur

Gesamtablauf

MalCL enthält zwei Kernkomponenten:

GAN-Modul: Generiert synthetische Malware-Samples aus früheren Aufgaben
Klassifizierer-Modul: Führt Malware-Familien-Klassifizierung durch

GAN-Architektur-Design

Generator:

4 eindimensionale Faltungsschichten + 2 vollständig verbundene Schichten + 3 Entfaltungsschichten
ReLU-Aktivierung und Batch-Normalisierung außer der letzten Schicht
Ausgabeschicht mit Sigmoid-Aktivierung

Diskriminator:

2 Faltungsschichten + 2 vollständig verbundene Schichten
Abflachungslogik der zweiten Faltungsschicht für Feature-Matching
Finale Ausgabe mit Sigmoid-Schicht

Klassifizierer-Architektur

3 Faltungsschichten + 1 vollständig verbundene Schicht
Max-Pooling und Dropout nach den ersten zwei Faltungsschichten
Abflachungslogik der dritten Faltungsschicht für Wiederholungs-Sample-Selektion
Ausgabeschicht mit Softmax

Technische Innovationen

1. Feature-Matching-Verlust

Traditioneller binärer Kreuzentropie-Verlust:

LG = -1/m ∑(i=1 bis m) log(D(G(zi)))

Feature-Matching-Verlust:

LG = 1/m ∑(i=1 bis m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Wobei D(f)(·) die Ausgabe der mittleren Schicht des Diskriminators darstellt. Diese Verlustfunktion konzentriert sich auf reichhaltigere mittlere Merkmale statt auf die endgültige Ausgabe.

2. Wiederholungs-Sample-Selektionsstrategien

Selektion basierend auf L2-Distanz zu One-Hot-Labels:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Selektion basierend auf L1-Distanz zu logistischer Regression:

Nach Batch-Mittelwert: Auswahl von Samples nahe dem globalen Mittelwert
Nach Klassen-Mittelwert: Auswahl von k Samples pro Klasse, die dem Klassenzentrum am nächsten sind

Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Experimentelle Einrichtung

Datensätze

EMBER-Datensatz:
- 337.035 bösartige Windows-PE-Dateien
- 100 Malware-Familien mit jeweils >400 Samples
- Merkmale umfassen Dateigröße, PE- und COFF-Header-Informationen, DLL-Merkmale usw.
AZ-Class-Datensatz:
- 285.582 Android-Malware-Samples
- 100 Malware-Familien mit jeweils ≥200 Samples
- Verwendung von Drebin-Merkmalen mit 8 Kategorien (Hardwarezugriff, Berechtigungen, API-Aufrufe usw.)
- Endgültige Merkmalsdimension: 2.439

Bewertungsmetriken

Durchschnittliche Genauigkeit (Mean Accuracy): Durchschnittliche Klassifizierungsgenauigkeit über alle Aufgaben
Minimale Genauigkeit (Min Accuracy): Niedrigste Genauigkeit unter allen Aufgaben

Vergleichsmethoden

Baseline-Methoden:
- None: Nur mit neuen Daten trainiert (Untergrenze der katastrophalen Vergessenheit)
- Joint: Training mit allen historischen Daten (ideale Obergrenze)
Frühere Arbeiten:
- GR (Generative Replay): Generative Wiederholung mit GAN
- BI-R (Brain-Inspired Replay): Verbesserte generative Wiederholung mit VAE

Implementierungsdetails

Aufgabenkonstruktion: Erste Aufgabe mit 50 Klassen, nachfolgende Aufgaben mit jeweils 5 zusätzlichen Klassen, insgesamt 11 Aufgaben
Optimierer: Adam für GAN, SGD für Klassifizierer
Batch-Größe: 256
Lernrate: Klassifizierer 1e-3, Momentum 0,9, Gewichtsabfall 1e-7

Experimentelle Ergebnisse

Hauptergebnisse

Methode	EMBER-Datensatz
	Durchschnitt	Minimum
None (Baseline)	27,5%	0,6%
Joint (Obergrenze)	88,7%	74,5%
GR	26,8%	9,5%
BI-R	27,0%	9,2%
MalCL (Optimal)	54,5%	21,8%

Wichtigste Erkenntnisse:

MalCL verbessert die None-Baseline um 27%
Verbesserung um 28% gegenüber bestehenden Generative-Replay-Methoden (GR, BI-R)
Optimale Konfiguration: FML + L1-Distanz zu Klassen-Mittelwert-Logistik-Regression

Ablationsstudien

Verlustfunktions-Vergleich

Feature-Matching-Verlust vs. binäre Kreuzentropie: FML übertrifft BCE bei allen Selektionsstrategien
L1 zu Klassen-Mittelwert-Logistik-Regression: Beste Leistung mit 55% Genauigkeit vs. 50% bei L2 zu Labels

Aufgabensatz-Konstruktionsstrategien

Strategische Aufgabenkonstruktion: Zuweisung großer Kategorien zu Anfangsaufgaben

Erste Aufgabe: 50 "riesige" Kategorien (durchschnittlich 5.397 Samples)
Nachfolgende Aufgaben: Zufällig ausgewählte kleine Kategorien (durchschnittlich 670 Samples)
Ergebnis: Genauigkeit steigt auf 74%, nahe an Joint-Baseline-Leistung

Datensatzübergreifende Validierung

AZ-Class-Datensatz-Ergebnisse:

Leistung besser als EMBER-Datensatz
Engere Genauigkeitsspanne, zeigt höhere Stabilität
Grund: EMBER-Datensatz hat schwerwiegendere Klassenunausgeglichenheit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

MalCL mildert effektiv katastrophale Vergessenheit in der Malware-Klassifizierung
Feature-Matching-Verlust verbessert erheblich die Qualität generierter Samples
Sample-Selektionsstrategien basierend auf verborgenen Klassifizierer-Schichten zeigen signifikante Effekte
Strategische Aufgabenkonstruktion ist entscheidend für Leistungsverbesserungen

Einschränkungen

Großer Abstand zur Joint-Baseline: MalCL optimal 54,5% vs. Joint 88,7%
Schlechte Leistung globaler Selektionsstrategien: L1-zu-Batch-Mittelwert-Strategie führt zu unzureichender Klassenabdeckung
Empfindlichkeit gegenüber Datensatzunausgeglichenheit: Unausgeglichenheit im EMBER-Datensatz beeinflusst die Leistung

Zukünftige Richtungen

Verbesserung der Qualität synthetischer Malware-Generierung
Entwicklung fortgeschrittenerer generativer Modelle
Erkundung hybrider Trainingsmethoden, die Vorteile generativer Wiederholung und gemeinsamen Trainings kombinieren
Erweiterung auf mehr Malware-Typen
Integration komplexerer Merkmale, die die dynamische Natur von Malware-Bedrohungen widerspiegeln

Tiefgreifende Bewertung

Stärken

Starke Problemorientierung: Speziell auf katastrophale Vergessenheit im Malware-Bereich ausgerichtet
Methodische Innovativität: Kombination von Feature-Matching-Verlust und diversifizierten Sample-Selektionsstrategien
Umfassende Experimente: Plattformübergreifende Validierung (Windows/Android) mit mehreren Vergleichsmethoden
Hoher praktischer Wert: Löst wichtige Probleme im realen Sicherheitsschutz
Ausreichende technische Details: Vollständige Architektur-Design- und Implementierungsdetails

Mängel

Großer Verbesserungsspielraum bei der Leistung: 33% Abstand zur idealen Obergrenze
Fehlende Analyse des Rechenaufwands: Keine detaillierte Analyse der Rechenkosten für GAN-Training und -Generierung
Robustheit gegenüber gegnerischen Samples: Keine Berücksichtigung der Robustheit generierter Samples gegen gegnerische Angriffe
Abhängigkeit von Feature-Engineering: Abhängigkeit von vordefinierten Merkmalen könnte die Generalisierungsfähigkeit einschränken
Fehlende langfristige Leistungsbewertung: Mangel an Leistungsbewertung über längere Zeitreihen

Auswirkungen

Akademischer Beitrag: Erste systematische Anwendung von GAN-basierter generativer Wiederholung auf Malware-Klassifizierung
Praktischer Wert: Bietet praktische kontinuierliche Lernlösungen für Antivirus-Unternehmen
Methodische Universalität: Technisches Framework ist auf andere Sicherheitserkennungsbereiche erweiterbar
Open-Source-Verpflichtung: Zusage zur Veröffentlichung von Code fördert Reproduzierbarkeit und Weiterentwicklung

Anwendungsszenarien

Unternehmensicherheitsschutz: Malware-Erkennungssysteme, die kontinuierliche Aktualisierungen erfordern
Ressourcenbegrenzte Umgebungen: Szenarien, in denen große Mengen historischer Daten nicht gespeichert werden können
Datenschutzsensitive Anwendungen: Umgebungen, in denen Originale Malware-Samples nicht aufbewahrt werden können
Echtzeit-Erkennungssysteme: Online-Erkennungssysteme, die sich schnell an neue Bedrohungen anpassen müssen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen kontinuierliches Lernen, Malware-Erkennung und generative gegnerische Netzwerke, einschließlich:

Shin et al. (2017): Kontinuierliches Lernen mit tiefem generativem Replay
Rahman, Coull, and Wright (2022): Erste Erkundung kontinuierlichen Lernens in der Malware-Klassifizierung
Anderson and Roth (2018): EMBER-Datensatz
Arp et al. (2014): Drebin-Feature-Extraktionsmethode

Gesamtbewertung: Dieses Papier präsentiert eine innovative Lösung für das Problem der katastrophalen Vergessenheit in der Malware-Klassifizierung. Sowohl in technischen Methoden als auch in experimenteller Validierung ist es umfassend. Obwohl noch Raum für Leistungsverbesserungen besteht, leistet es wichtige Beiträge zur Forschung und Anwendung in diesem Bereich.