2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic

MalCL: GAN ベースの生成リプレイを活用したマルウェア分類における破滅的忘却の対抗

基本情報

  • 論文ID: 2501.01110
  • タイトル: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
  • 著者: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
  • 所属機関: ¹梨花女子大学校、²テキサス大学エルパソ校
  • 分類: cs.CR(暗号化とセキュリティ)、cs.AI(人工知能)
  • 発表日: 2025年1月2日(arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2501.01110

要約

本論文は、マルウェア分類における継続学習の問題に対処するため、MalCL システムを提案している。本システムは生成対抗ネットワーク(GAN)ベースの生成リプレイ(Generative Replay)方法を採用し、特徴マッチング損失を通じて高品質のマルウェアサンプルを生成し、モデルの隠れ表現に基づく革新的なサンプル選択メカニズムを実装している。Windows および Android マルウェアデータセット上のクラス増分学習シナリオにおいて、本システムは顕著なパフォーマンス向上を示し、Windows マルウェアサンプルで 55% の平均精度を達成し、他の生成リプレイベースのモデルと比較して 28% の向上を実現している。

研究背景と動機

核心的問題

マルウェア分類が直面する主な課題は**破滅的忘却(Catastrophic Forgetting)**現象である。機械学習モデルが新しいデータで継続的に訓練されると、旧データに対するパフォーマンスが著しく低下する。これはマルウェア領域では特に深刻である。理由としては以下が挙げられる:

  1. マルウェアの急速な進化:AV-TEST 研究所は毎日 45 万個の新しいマルウェアと潜在的に有害なプログラム(PUA)を記録している
  2. VirusTotal は毎日 100 万以上のソフトウェア提出を処理している
  3. アンチウイルス企業のジレンマ:旧サンプルを削除するか(旧マルウェアの再出現のリスク)、新サンプルを無視するか(新興の脅威を見逃すリスク)

脅威モデル

論文は具体的な脅威シナリオを定義している:攻撃者は新しいデータのみで更新された機械学習システムを回避するために、レガシーマルウェアを利用する。元の訓練と攻撃の間の時間差が拡大するにつれて、成功した回避の可能性が増加する。

既存方法の限界

  1. 従来の機械学習方法:破滅的忘却に効果的に対処できない
  2. コンピュータビジョン領域の継続学習方法:マルウェア分類に直接適用すると効果が低く、「None」ベースラインよりもパフォーマンスが劣る
  3. ストレージの制限:プライバシー規制により、履歴データの保存が制限されている

核心的貢献

  1. マルウェア領域専用の継続学習モデル:100 個のマルウェアファミリーの 11 個の継続学習タスクで 55% の平均精度を達成する MalCL を提案し、既存方法より 28% 向上
  2. 改善された特徴マッチング生成リプレイ:特徴マッチング損失(Feature Matching Loss)を組み合わせた GAN ジェネレータを採用し、元のサンプルと合成サンプル間の特徴差異を削減
  3. 革新的なリプレイサンプル選択メカニズム:分類器の中間層特徴に基づいて複数の選択戦略を開発し、生成サンプルと元データの整合性を向上
  4. 戦略的タスクセット構築:大規模なカテゴリを初期タスクに割り当てる戦略を探索し、破滅的忘却を効果的に緩和

方法の詳細

タスク定義

MalCL は**クラス増分学習(Class-Incremental Learning)**問題を解決する:

  • 入力:マルウェア特徴ベクトルシーケンス
  • 出力:マルウェアファミリー分類
  • 制約:各タスクは新しいマルウェアカテゴリを導入し、同時に過去のカテゴリに対する認識能力を維持する必要がある

モデルアーキテクチャ

全体的なフロー

MalCL は 2 つのコアコンポーネントで構成される:

  1. GAN モジュール:過去のタスクの合成マルウェアサンプルを生成
  2. 分類器モジュール:マルウェアファミリー分類を実行

GAN アーキテクチャ設計

ジェネレータ(Generator)

  • 4 つの 1D 畳み込み層 + 2 つの全結合層 + 3 つの逆畳み込み層
  • 最後の層を除き、すべて ReLU 活性化とバッチ正規化を使用
  • 出力層は Sigmoid 活性化を使用

ディスクリミネータ(Discriminator)

  • 2 つの畳み込み層 + 2 つの全結合層
  • 第 2 畳み込み層のフラット化ロジックは特徴マッチングに使用
  • 最終出力は Sigmoid 層を使用

分類器アーキテクチャ

  • 3 つの畳み込み層 + 1 つの全結合層
  • 最初の 2 つの畳み込み層の後に最大プーリングとドロップアウトを配置
  • 第 3 畳み込み層のフラット化ロジックはリプレイサンプル選択に使用
  • 出力層は Softmax を使用

技術的革新点

1. 特徴マッチング損失(Feature Matching Loss)

従来の二値交差エントロピー損失:

LG = -1/m ∑(i=1 to m) log(D(G(zi)))

特徴マッチング損失:

LG = 1/m ∑(i=1 to m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

ここで D(f)(·) はディスクリミネータの中間層出力を表し、この損失関数は最終出力ではなく、より豊かな中間特徴に焦点を当てている。

2. リプレイサンプル選択戦略

L2 距離からワンホットラベルへの選択

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

L1 距離からロジスティック回帰への選択

  • バッチ平均による:グローバル平均に近いサンプルを選択
  • クラス平均による:各クラスについてクラス中心に最も近い k 個のサンプルを選択
Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

実験設定

データセット

  1. EMBER データセット
    • 337,035 個の悪意のある Windows PE ファイル
    • 100 個のマルウェアファミリー、各ファミリー > 400 サンプル
    • 特徴にはファイルサイズ、PE および COFF ヘッダ情報、DLL 特徴などを含む
  2. AZ-Class データセット
    • 285,582 個の Android マルウェアサンプル
    • 100 個のマルウェアファミリー、各ファミリー ≥ 200 サンプル
    • Drebin 特徴を使用、8 つのカテゴリ(ハードウェアアクセス、権限、API 呼び出しなど)を含む
    • 最終特徴次元:2,439

評価指標

  • 平均精度(Mean Accuracy):すべてのタスクの平均分類精度
  • 最小精度(Min Accuracy):すべてのタスク中の最低精度

比較方法

  1. ベースライン方法
    • None:新しいデータのみで訓練(破滅的忘却の下限)
    • Joint:すべての履歴データを使用して訓練(理想的な上限)
  2. 先行研究
    • GR(Generative Replay):GAN を使用した生成リプレイ
    • BI-R(Brain-Inspired Replay):VAE を使用した拡張生成リプレイ

実装の詳細

  • タスク構築:最初のタスク 50 クラス、その後各タスクで 5 クラス追加、合計 11 タスク
  • オプティマイザ:GAN は Adam、分類器は SGD を使用
  • バッチサイズ:256
  • 学習率:分類器 1e-3、モーメンタム 0.9、重み減衰 1e-7

実験結果

主要な結果

方法EMBER データセット
平均最小
None(ベースライン)27.5%0.6%
Joint(上限)88.7%74.5%
GR26.8%9.5%
BI-R27.0%9.2%
MalCL(最適)54.5%21.8%

主要な発見

  • MalCL は None ベースラインから 27% 向上
  • 既存の生成リプレイ方法(GR、BI-R)から 28% 向上
  • 最適な構成:FML + L1 距離からクラス平均ロジスティック回帰

アブレーション実験

損失関数の比較

  • 特徴マッチング損失 vs 二値交差エントロピー:FML はすべての選択戦略で BCE より優れている
  • L1 からクラス平均ロジスティック回帰:最高のパフォーマンス、精度 55% vs L2 からラベルの 50%

タスクセット構築戦略

戦略的タスク構築:大規模なカテゴリを初期タスクに割り当てる

  • 最初のタスク:50 個の「巨大」カテゴリ(平均 5,397 サンプル)
  • 後続のタスク:ランダムに選択された小規模カテゴリ(平均 670 サンプル)
  • 結果:精度が 74% に向上し、Joint ベースラインのパフォーマンスに近づく

クロスデータセット検証

AZ-Class データセット結果

  • EMBER データセットより優れたパフォーマンス
  • 精度範囲がより狭く、より安定していることを示す
  • 理由:EMBER データセットはクラス不均衡がより深刻

関連研究

継続学習方法の分類

  1. リプレイ技術
    • 正確なリプレイ:Experience Replay(ER)、iCaRL
    • 生成リプレイ:GR、BI-R、DDGR
  2. 正則化方法
    • Elastic Weight Consolidation(EWC)
    • Synaptic Intelligence(SI)

マルウェア分類における継続学習

  • Rahman ら:マルウェア分類における継続学習を初めて探索
  • Chen ら:対比学習と能動学習を組み合わせ
  • 既存方法:主にコンセプトドリフトに焦点を当て、破滅的忘却ではない

結論と考察

主要な結論

  1. MalCL はマルウェア分類における破滅的忘却を効果的に緩和した
  2. 特徴マッチング損失は生成サンプルの品質を大幅に向上させた
  3. 分類器の隠れ層に基づくサンプル選択戦略は顕著な効果を示した
  4. 戦略的タスク構築はパフォーマンス向上に不可欠である

限界

  1. Joint ベースラインとの大きなギャップ:MalCL 最適 54.5% vs Joint 88.7%
  2. グローバル選択戦略の効果が低い:L1 からバッチ平均への戦略はクラスカバレッジが不足
  3. データセット不均衡への敏感性:EMBER データセットの不均衡特性がパフォーマンスに影響

今後の方向性

  1. 合成マルウェア生成品質の改善
  2. より高度な生成モデルの開発
  3. 混合訓練方法の探索:生成リプレイと結合訓練の利点を組み合わせ
  4. より多くのマルウェアタイプへの拡張
  5. より複雑な特徴の統合:マルウェア脅威の動的特性を反映

深い評価

長所

  1. 問題への針対性が強い:マルウェア領域における破滅的忘却の問題に特化
  2. 方法の革新性:特徴マッチング損失と多様なサンプル選択戦略の組み合わせ
  3. 実験の包括性:クロスプラットフォーム(Windows/Android)検証、複数の比較方法
  4. 実用的価値が高い:実際のセキュリティ防護における重要な問題を解決
  5. 技術詳細が充分:完全なアーキテクチャ設計と実装詳細を提供

不足

  1. パフォーマンス向上の余地が大きい:理想的な上限との間に 33% のギャップ
  2. 計算コスト分析の欠落:GAN 訓練と生成の計算コストの詳細分析がない
  3. 対抗的サンプルの堅牢性:生成サンプルが対抗的攻撃に対する堅牢性を考慮していない
  4. 特徴エンジニアリングへの依存:事前定義された特徴に依存し、汎化能力を制限する可能性
  5. 長期的なパフォーマンス評価の欠落:より長い時間シーケンスのパフォーマンス評価がない

影響力

  1. 学術的貢献:GAN ベースの生成リプレイをマルウェア分類に初めて体系的に適用
  2. 実用的価値:アンチウイルス企業に実用的な継続学習ソリューションを提供
  3. 方法の汎用性:技術フレームワークは他のセキュリティ検出領域に拡張可能
  4. オープンソース化の約束:コード公開により研究の再現と発展を促進

適用シーン

  1. 企業のセキュリティ防護:継続的な更新が必要なマルウェア検出システム
  2. リソース制限環境:大量の履歴データを保存できないシーン
  3. プライバシー敏感なアプリケーション:元のマルウェアサンプルを保持できない環境
  4. リアルタイム検出システム:新しい脅威に迅速に適応する必要があるオンライン検出システム

参考文献

本論文は継続学習、マルウェア検出、生成対抗ネットワーク等の領域における重要な研究を引用している。以下を含む:

  • Shin et al.(2017):深い生成リプレイによる継続学習
  • Rahman、Coull、Wright(2022):マルウェア分類における継続学習の初回探索
  • Anderson と Roth(2018):EMBER データセット
  • Arp et al.(2014):Drebin 特徴抽出方法

総合評価:本論文はマルウェア分類における破滅的忘却の問題に対して革新的なソリューションを提案し、技術方法と実験検証の両面で十分に充実している。パフォーマンスにはまだ向上の余地があるが、この領域の研究と応用に重要な貢献をしている。