2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.

academic

MalCL: GAN ベースの生成リプレイを活用したマルウェア分類における破滅的忘却の対抗

基本情報

論文ID: 2501.01110
タイトル: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
著者: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
所属機関: ¹梨花女子大学校、²テキサス大学エルパソ校
分類: cs.CR（暗号化とセキュリティ）、cs.AI（人工知能）
発表日: 2025年1月2日（arXiv プレプリント）
論文リンク: https://arxiv.org/abs/2501.01110

要約

本論文は、マルウェア分類における継続学習の問題に対処するため、MalCL システムを提案している。本システムは生成対抗ネットワーク（GAN）ベースの生成リプレイ（Generative Replay）方法を採用し、特徴マッチング損失を通じて高品質のマルウェアサンプルを生成し、モデルの隠れ表現に基づく革新的なサンプル選択メカニズムを実装している。Windows および Android マルウェアデータセット上のクラス増分学習シナリオにおいて、本システムは顕著なパフォーマンス向上を示し、Windows マルウェアサンプルで 55% の平均精度を達成し、他の生成リプレイベースのモデルと比較して 28% の向上を実現している。

研究背景と動機

核心的問題

マルウェア分類が直面する主な課題は**破滅的忘却（Catastrophic Forgetting）**現象である。機械学習モデルが新しいデータで継続的に訓練されると、旧データに対するパフォーマンスが著しく低下する。これはマルウェア領域では特に深刻である。理由としては以下が挙げられる：

マルウェアの急速な進化：AV-TEST 研究所は毎日 45 万個の新しいマルウェアと潜在的に有害なプログラム（PUA）を記録している
VirusTotal は毎日 100 万以上のソフトウェア提出を処理している
アンチウイルス企業のジレンマ：旧サンプルを削除するか（旧マルウェアの再出現のリスク）、新サンプルを無視するか（新興の脅威を見逃すリスク）

脅威モデル

論文は具体的な脅威シナリオを定義している：攻撃者は新しいデータのみで更新された機械学習システムを回避するために、レガシーマルウェアを利用する。元の訓練と攻撃の間の時間差が拡大するにつれて、成功した回避の可能性が増加する。

既存方法の限界

従来の機械学習方法：破滅的忘却に効果的に対処できない
コンピュータビジョン領域の継続学習方法：マルウェア分類に直接適用すると効果が低く、「None」ベースラインよりもパフォーマンスが劣る
ストレージの制限：プライバシー規制により、履歴データの保存が制限されている

核心的貢献

マルウェア領域専用の継続学習モデル：100 個のマルウェアファミリーの 11 個の継続学習タスクで 55% の平均精度を達成する MalCL を提案し、既存方法より 28% 向上
改善された特徴マッチング生成リプレイ：特徴マッチング損失（Feature Matching Loss）を組み合わせた GAN ジェネレータを採用し、元のサンプルと合成サンプル間の特徴差異を削減
革新的なリプレイサンプル選択メカニズム：分類器の中間層特徴に基づいて複数の選択戦略を開発し、生成サンプルと元データの整合性を向上
戦略的タスクセット構築：大規模なカテゴリを初期タスクに割り当てる戦略を探索し、破滅的忘却を効果的に緩和

方法の詳細

タスク定義

MalCL は**クラス増分学習（Class-Incremental Learning）**問題を解決する：

入力：マルウェア特徴ベクトルシーケンス
出力：マルウェアファミリー分類
制約：各タスクは新しいマルウェアカテゴリを導入し、同時に過去のカテゴリに対する認識能力を維持する必要がある

モデルアーキテクチャ

全体的なフロー

MalCL は 2 つのコアコンポーネントで構成される：

GAN モジュール：過去のタスクの合成マルウェアサンプルを生成
分類器モジュール：マルウェアファミリー分類を実行

GAN アーキテクチャ設計

ジェネレータ（Generator）：

4 つの 1D 畳み込み層 + 2 つの全結合層 + 3 つの逆畳み込み層
最後の層を除き、すべて ReLU 活性化とバッチ正規化を使用
出力層は Sigmoid 活性化を使用

ディスクリミネータ（Discriminator）：

2 つの畳み込み層 + 2 つの全結合層
第 2 畳み込み層のフラット化ロジックは特徴マッチングに使用
最終出力は Sigmoid 層を使用

分類器アーキテクチャ

3 つの畳み込み層 + 1 つの全結合層
最初の 2 つの畳み込み層の後に最大プーリングとドロップアウトを配置
第 3 畳み込み層のフラット化ロジックはリプレイサンプル選択に使用
出力層は Softmax を使用

技術的革新点

1. 特徴マッチング損失（Feature Matching Loss）

従来の二値交差エントロピー損失：

LG = -1/m ∑(i=1 to m) log(D(G(zi)))

特徴マッチング損失：

LG = 1/m ∑(i=1 to m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

ここで D(f)(·) はディスクリミネータの中間層出力を表し、この損失関数は最終出力ではなく、より豊かな中間特徴に焦点を当てている。

2. リプレイサンプル選択戦略

L2 距離からワンホットラベルへの選択：

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

L1 距離からロジスティック回帰への選択：

バッチ平均による：グローバル平均に近いサンプルを選択
クラス平均による：各クラスについてクラス中心に最も近い k 個のサンプルを選択

Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

実験設定

データセット

EMBER データセット：
- 337,035 個の悪意のある Windows PE ファイル
- 100 個のマルウェアファミリー、各ファミリー > 400 サンプル
- 特徴にはファイルサイズ、PE および COFF ヘッダ情報、DLL 特徴などを含む
AZ-Class データセット：
- 285,582 個の Android マルウェアサンプル
- 100 個のマルウェアファミリー、各ファミリー ≥ 200 サンプル
- Drebin 特徴を使用、8 つのカテゴリ（ハードウェアアクセス、権限、API 呼び出しなど）を含む
- 最終特徴次元：2,439

評価指標

平均精度（Mean Accuracy）：すべてのタスクの平均分類精度
最小精度（Min Accuracy）：すべてのタスク中の最低精度

比較方法

ベースライン方法：
- None：新しいデータのみで訓練（破滅的忘却の下限）
- Joint：すべての履歴データを使用して訓練（理想的な上限）
先行研究：
- GR（Generative Replay）：GAN を使用した生成リプレイ
- BI-R（Brain-Inspired Replay）：VAE を使用した拡張生成リプレイ