2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic

MalCL: Nutzung von GAN-basierter generativer Wiederholung zur Bekämpfung katastrophaler Vergessenheit in der Malware-Klassifizierung

Grundlegende Informationen

  • Papier-ID: 2501.01110
  • Titel: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
  • Autoren: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
  • Institutionen: ¹Ewha Womans University, ²University of Texas at El Paso
  • Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2501.01110

Zusammenfassung

In diesem Artikel wird das MalCL-System zur Bewältigung des kontinuierlichen Lernens bei der Malware-Klassifizierung vorgestellt. Das System nutzt eine auf generativen gegnerischen Netzwerken (GAN) basierende generative Wiederholungsmethode, um hochwertige Malware-Samples durch Feature-Matching-Verlust zu generieren und implementiert einen innovativen Sample-Selektionsmechanismus basierend auf verborgenen Modelldarstellungen. In Szenarien des klasseninkrementiellen Lernens auf Windows- und Android-Malware-Datensätzen zeigt das System erhebliche Leistungsverbesserungen und erreicht eine durchschnittliche Genauigkeit von 55% bei Windows-Malware-Samples, was einer Verbesserung von 28% gegenüber anderen auf generativer Wiederholung basierenden Modellen entspricht.

Forschungshintergrund und Motivation

Kernproblem

Die Hauptherausforderung bei der Malware-Klassifizierung ist das Phänomen der katastrophalen Vergessenheit (Catastrophic Forgetting). Wenn ein Machine-Learning-Modell kontinuierlich auf neuen Daten trainiert wird, sinkt seine Leistung bei alten Daten erheblich. Dies ist im Malware-Bereich besonders schwerwiegend, da:

  1. Malware sich schnell entwickelt: Das AV-TEST-Institut verzeichnet täglich 450.000 neue Malware-Varianten und potenziell unerwünschte Programme (PUA)
  2. VirusTotal verarbeitet täglich über 1 Million Softwareeinreichungen
  3. Antivirus-Unternehmen stehen vor einem Dilemma: Entweder alte Samples entfernen (mit dem Risiko, dass alte Malware erneut auftritt) oder neue Samples ignorieren (neue Bedrohungen verpassen)

Bedrohungsmodell

Das Papier definiert ein konkretes Bedrohungsszenario: Angreifer nutzen Legacy-Malware, um Machine-Learning-Systeme zu umgehen, die nur mit neuen Daten aktualisiert wurden. Mit zunehmendem zeitlichen Abstand zwischen ursprünglichem Training und Angriff steigt die Wahrscheinlichkeit erfolgreicher Umgehung.

Einschränkungen bestehender Methoden

  1. Traditionelle Machine-Learning-Methoden: Können katastrophale Vergessenheit nicht wirksam bewältigen
  2. Kontinuierliche Lernmethoden aus der Computervision: Zeigen schlechte Ergebnisse bei direkter Anwendung auf Malware-Klassifizierung, teilweise sogar schlechter als die "None"-Baseline
  3. Speicherbeschränkungen: Aufgrund von Datenschutzbestimmungen ist die Speicherung historischer Daten begrenzt

Kernbeiträge

  1. Kontinuierliches Lernmodell speziell für den Malware-Bereich: Präsentation von MalCL, das in 11 kontinuierlichen Lernaufgaben mit 100 Malware-Familien eine durchschnittliche Genauigkeit von 55% erreicht, was einer Verbesserung von 28% gegenüber bestehenden Methoden entspricht
  2. Verbessertes Feature-Matching für generative Wiederholung: Einsatz eines GAN-Generators mit Feature-Matching-Verlust, um Unterschiede zwischen ursprünglichen und synthetischen Samples zu reduzieren
  3. Innovativer Wiederholungs-Sample-Selektionsmechanismus: Entwicklung mehrerer Selektionsstrategien basierend auf Merkmalen der mittleren Schichten des Klassifizierers zur Verbesserung der Ausrichtung generierter Samples mit Originaldaten
  4. Strategische Aufgabensatzbildung: Erkundung der Strategie, große Kategorien den Anfangsaufgaben zuzuweisen, um katastrophale Vergessenheit wirksam zu mildern

Methodische Details

Aufgabendefinition

MalCL löst das Problem des klasseninkrementiellen Lernens (Class-Incremental Learning):

  • Eingabe: Sequenzen von Malware-Merkmalsvektoren
  • Ausgabe: Malware-Familien-Klassifizierung
  • Einschränkung: Jede Aufgabe führt neue Malware-Kategorien ein und muss gleichzeitig die Erkennungsfähigkeit für historische Kategorien bewahren

Modellarchitektur

Gesamtablauf

MalCL enthält zwei Kernkomponenten:

  1. GAN-Modul: Generiert synthetische Malware-Samples aus früheren Aufgaben
  2. Klassifizierer-Modul: Führt Malware-Familien-Klassifizierung durch

GAN-Architektur-Design

Generator:

  • 4 eindimensionale Faltungsschichten + 2 vollständig verbundene Schichten + 3 Entfaltungsschichten
  • ReLU-Aktivierung und Batch-Normalisierung außer der letzten Schicht
  • Ausgabeschicht mit Sigmoid-Aktivierung

Diskriminator:

  • 2 Faltungsschichten + 2 vollständig verbundene Schichten
  • Abflachungslogik der zweiten Faltungsschicht für Feature-Matching
  • Finale Ausgabe mit Sigmoid-Schicht

Klassifizierer-Architektur

  • 3 Faltungsschichten + 1 vollständig verbundene Schicht
  • Max-Pooling und Dropout nach den ersten zwei Faltungsschichten
  • Abflachungslogik der dritten Faltungsschicht für Wiederholungs-Sample-Selektion
  • Ausgabeschicht mit Softmax

Technische Innovationen

1. Feature-Matching-Verlust

Traditioneller binärer Kreuzentropie-Verlust:

LG = -1/m ∑(i=1 bis m) log(D(G(zi)))

Feature-Matching-Verlust:

LG = 1/m ∑(i=1 bis m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

Wobei D(f)(·) die Ausgabe der mittleren Schicht des Diskriminators darstellt. Diese Verlustfunktion konzentriert sich auf reichhaltigere mittlere Merkmale statt auf die endgültige Ausgabe.

2. Wiederholungs-Sample-Selektionsstrategien

Selektion basierend auf L2-Distanz zu One-Hot-Labels:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

Selektion basierend auf L1-Distanz zu logistischer Regression:

  • Nach Batch-Mittelwert: Auswahl von Samples nahe dem globalen Mittelwert
  • Nach Klassen-Mittelwert: Auswahl von k Samples pro Klasse, die dem Klassenzentrum am nächsten sind
Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

Experimentelle Einrichtung

Datensätze

  1. EMBER-Datensatz:
    • 337.035 bösartige Windows-PE-Dateien
    • 100 Malware-Familien mit jeweils >400 Samples
    • Merkmale umfassen Dateigröße, PE- und COFF-Header-Informationen, DLL-Merkmale usw.
  2. AZ-Class-Datensatz:
    • 285.582 Android-Malware-Samples
    • 100 Malware-Familien mit jeweils ≥200 Samples
    • Verwendung von Drebin-Merkmalen mit 8 Kategorien (Hardwarezugriff, Berechtigungen, API-Aufrufe usw.)
    • Endgültige Merkmalsdimension: 2.439

Bewertungsmetriken

  • Durchschnittliche Genauigkeit (Mean Accuracy): Durchschnittliche Klassifizierungsgenauigkeit über alle Aufgaben
  • Minimale Genauigkeit (Min Accuracy): Niedrigste Genauigkeit unter allen Aufgaben

Vergleichsmethoden

  1. Baseline-Methoden:
    • None: Nur mit neuen Daten trainiert (Untergrenze der katastrophalen Vergessenheit)
    • Joint: Training mit allen historischen Daten (ideale Obergrenze)
  2. Frühere Arbeiten:
    • GR (Generative Replay): Generative Wiederholung mit GAN
    • BI-R (Brain-Inspired Replay): Verbesserte generative Wiederholung mit VAE

Implementierungsdetails

  • Aufgabenkonstruktion: Erste Aufgabe mit 50 Klassen, nachfolgende Aufgaben mit jeweils 5 zusätzlichen Klassen, insgesamt 11 Aufgaben
  • Optimierer: Adam für GAN, SGD für Klassifizierer
  • Batch-Größe: 256
  • Lernrate: Klassifizierer 1e-3, Momentum 0,9, Gewichtsabfall 1e-7

Experimentelle Ergebnisse

Hauptergebnisse

MethodeEMBER-Datensatz
DurchschnittMinimum
None (Baseline)27,5%0,6%
Joint (Obergrenze)88,7%74,5%
GR26,8%9,5%
BI-R27,0%9,2%
MalCL (Optimal)54,5%21,8%

Wichtigste Erkenntnisse:

  • MalCL verbessert die None-Baseline um 27%
  • Verbesserung um 28% gegenüber bestehenden Generative-Replay-Methoden (GR, BI-R)
  • Optimale Konfiguration: FML + L1-Distanz zu Klassen-Mittelwert-Logistik-Regression

Ablationsstudien

Verlustfunktions-Vergleich

  • Feature-Matching-Verlust vs. binäre Kreuzentropie: FML übertrifft BCE bei allen Selektionsstrategien
  • L1 zu Klassen-Mittelwert-Logistik-Regression: Beste Leistung mit 55% Genauigkeit vs. 50% bei L2 zu Labels

Aufgabensatz-Konstruktionsstrategien

Strategische Aufgabenkonstruktion: Zuweisung großer Kategorien zu Anfangsaufgaben

  • Erste Aufgabe: 50 "riesige" Kategorien (durchschnittlich 5.397 Samples)
  • Nachfolgende Aufgaben: Zufällig ausgewählte kleine Kategorien (durchschnittlich 670 Samples)
  • Ergebnis: Genauigkeit steigt auf 74%, nahe an Joint-Baseline-Leistung

Datensatzübergreifende Validierung

AZ-Class-Datensatz-Ergebnisse:

  • Leistung besser als EMBER-Datensatz
  • Engere Genauigkeitsspanne, zeigt höhere Stabilität
  • Grund: EMBER-Datensatz hat schwerwiegendere Klassenunausgeglichenheit

Verwandte Arbeiten

Klassifizierung von Kontinuierlichen Lernmethoden

  1. Wiederholungstechniken:
    • Exakte Wiederholung: Experience Replay (ER), iCaRL
    • Generative Wiederholung: GR, BI-R, DDGR
  2. Regularisierungsmethoden:
    • Elastic Weight Consolidation (EWC)
    • Synaptic Intelligence (SI)

Kontinuierliches Lernen in der Malware-Klassifizierung

  • Rahman et al. erkundeten erstmals kontinuierliches Lernen in der Malware-Klassifizierung
  • Chen et al. kombinierten kontrastives Lernen und aktives Lernen
  • Bestehende Methoden konzentrieren sich hauptsächlich auf Konzeptdrift statt katastrophale Vergessenheit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. MalCL mildert effektiv katastrophale Vergessenheit in der Malware-Klassifizierung
  2. Feature-Matching-Verlust verbessert erheblich die Qualität generierter Samples
  3. Sample-Selektionsstrategien basierend auf verborgenen Klassifizierer-Schichten zeigen signifikante Effekte
  4. Strategische Aufgabenkonstruktion ist entscheidend für Leistungsverbesserungen

Einschränkungen

  1. Großer Abstand zur Joint-Baseline: MalCL optimal 54,5% vs. Joint 88,7%
  2. Schlechte Leistung globaler Selektionsstrategien: L1-zu-Batch-Mittelwert-Strategie führt zu unzureichender Klassenabdeckung
  3. Empfindlichkeit gegenüber Datensatzunausgeglichenheit: Unausgeglichenheit im EMBER-Datensatz beeinflusst die Leistung

Zukünftige Richtungen

  1. Verbesserung der Qualität synthetischer Malware-Generierung
  2. Entwicklung fortgeschrittenerer generativer Modelle
  3. Erkundung hybrider Trainingsmethoden, die Vorteile generativer Wiederholung und gemeinsamen Trainings kombinieren
  4. Erweiterung auf mehr Malware-Typen
  5. Integration komplexerer Merkmale, die die dynamische Natur von Malware-Bedrohungen widerspiegeln

Tiefgreifende Bewertung

Stärken

  1. Starke Problemorientierung: Speziell auf katastrophale Vergessenheit im Malware-Bereich ausgerichtet
  2. Methodische Innovativität: Kombination von Feature-Matching-Verlust und diversifizierten Sample-Selektionsstrategien
  3. Umfassende Experimente: Plattformübergreifende Validierung (Windows/Android) mit mehreren Vergleichsmethoden
  4. Hoher praktischer Wert: Löst wichtige Probleme im realen Sicherheitsschutz
  5. Ausreichende technische Details: Vollständige Architektur-Design- und Implementierungsdetails

Mängel

  1. Großer Verbesserungsspielraum bei der Leistung: 33% Abstand zur idealen Obergrenze
  2. Fehlende Analyse des Rechenaufwands: Keine detaillierte Analyse der Rechenkosten für GAN-Training und -Generierung
  3. Robustheit gegenüber gegnerischen Samples: Keine Berücksichtigung der Robustheit generierter Samples gegen gegnerische Angriffe
  4. Abhängigkeit von Feature-Engineering: Abhängigkeit von vordefinierten Merkmalen könnte die Generalisierungsfähigkeit einschränken
  5. Fehlende langfristige Leistungsbewertung: Mangel an Leistungsbewertung über längere Zeitreihen

Auswirkungen

  1. Akademischer Beitrag: Erste systematische Anwendung von GAN-basierter generativer Wiederholung auf Malware-Klassifizierung
  2. Praktischer Wert: Bietet praktische kontinuierliche Lernlösungen für Antivirus-Unternehmen
  3. Methodische Universalität: Technisches Framework ist auf andere Sicherheitserkennungsbereiche erweiterbar
  4. Open-Source-Verpflichtung: Zusage zur Veröffentlichung von Code fördert Reproduzierbarkeit und Weiterentwicklung

Anwendungsszenarien

  1. Unternehmensicherheitsschutz: Malware-Erkennungssysteme, die kontinuierliche Aktualisierungen erfordern
  2. Ressourcenbegrenzte Umgebungen: Szenarien, in denen große Mengen historischer Daten nicht gespeichert werden können
  3. Datenschutzsensitive Anwendungen: Umgebungen, in denen Originale Malware-Samples nicht aufbewahrt werden können
  4. Echtzeit-Erkennungssysteme: Online-Erkennungssysteme, die sich schnell an neue Bedrohungen anpassen müssen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen kontinuierliches Lernen, Malware-Erkennung und generative gegnerische Netzwerke, einschließlich:

  • Shin et al. (2017): Kontinuierliches Lernen mit tiefem generativem Replay
  • Rahman, Coull, and Wright (2022): Erste Erkundung kontinuierlichen Lernens in der Malware-Klassifizierung
  • Anderson and Roth (2018): EMBER-Datensatz
  • Arp et al. (2014): Drebin-Feature-Extraktionsmethode

Gesamtbewertung: Dieses Papier präsentiert eine innovative Lösung für das Problem der katastrophalen Vergessenheit in der Malware-Klassifizierung. Sowohl in technischen Methoden als auch in experimenteller Validierung ist es umfassend. Obwohl noch Raum für Leistungsverbesserungen besteht, leistet es wichtige Beiträge zur Forschung und Anwendung in diesem Bereich.