Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time.
In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations.
Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
論文ID : 2501.01110タイトル : MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification著者 : Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*所属機関 : ¹梨花女子大学校、²テキサス大学エルパソ校分類 : cs.CR(暗号化とセキュリティ)、cs.AI(人工知能)発表日 : 2025年1月2日(arXiv プレプリント)論文リンク : https://arxiv.org/abs/2501.01110 本論文は、マルウェア分類における継続学習の問題に対処するため、MalCL システムを提案している。本システムは生成対抗ネットワーク(GAN)ベースの生成リプレイ(Generative Replay)方法を採用し、特徴マッチング損失を通じて高品質のマルウェアサンプルを生成し、モデルの隠れ表現に基づく革新的なサンプル選択メカニズムを実装している。Windows および Android マルウェアデータセット上のクラス増分学習シナリオにおいて、本システムは顕著なパフォーマンス向上を示し、Windows マルウェアサンプルで 55% の平均精度を達成し、他の生成リプレイベースのモデルと比較して 28% の向上を実現している。
マルウェア分類が直面する主な課題は**破滅的忘却(Catastrophic Forgetting)**現象である。機械学習モデルが新しいデータで継続的に訓練されると、旧データに対するパフォーマンスが著しく低下する。これはマルウェア領域では特に深刻である。理由としては以下が挙げられる:
マルウェアの急速な進化 :AV-TEST 研究所は毎日 45 万個の新しいマルウェアと潜在的に有害なプログラム(PUA)を記録しているVirusTotal は毎日 100 万以上のソフトウェア提出を処理している アンチウイルス企業のジレンマ :旧サンプルを削除するか(旧マルウェアの再出現のリスク)、新サンプルを無視するか(新興の脅威を見逃すリスク)論文は具体的な脅威シナリオを定義している:攻撃者は新しいデータのみで更新された機械学習システムを回避するために、レガシーマルウェアを利用する。元の訓練と攻撃の間の時間差が拡大するにつれて、成功した回避の可能性が増加する。
従来の機械学習方法 :破滅的忘却に効果的に対処できないコンピュータビジョン領域の継続学習方法 :マルウェア分類に直接適用すると効果が低く、「None」ベースラインよりもパフォーマンスが劣るストレージの制限 :プライバシー規制により、履歴データの保存が制限されているマルウェア領域専用の継続学習モデル :100 個のマルウェアファミリーの 11 個の継続学習タスクで 55% の平均精度を達成する MalCL を提案し、既存方法より 28% 向上改善された特徴マッチング生成リプレイ :特徴マッチング損失(Feature Matching Loss)を組み合わせた GAN ジェネレータを採用し、元のサンプルと合成サンプル間の特徴差異を削減革新的なリプレイサンプル選択メカニズム :分類器の中間層特徴に基づいて複数の選択戦略を開発し、生成サンプルと元データの整合性を向上戦略的タスクセット構築 :大規模なカテゴリを初期タスクに割り当てる戦略を探索し、破滅的忘却を効果的に緩和MalCL は**クラス増分学習(Class-Incremental Learning)**問題を解決する:
入力 :マルウェア特徴ベクトルシーケンス出力 :マルウェアファミリー分類制約 :各タスクは新しいマルウェアカテゴリを導入し、同時に過去のカテゴリに対する認識能力を維持する必要があるMalCL は 2 つのコアコンポーネントで構成される:
GAN モジュール :過去のタスクの合成マルウェアサンプルを生成分類器モジュール :マルウェアファミリー分類を実行ジェネレータ(Generator) :
4 つの 1D 畳み込み層 + 2 つの全結合層 + 3 つの逆畳み込み層 最後の層を除き、すべて ReLU 活性化とバッチ正規化を使用 出力層は Sigmoid 活性化を使用 ディスクリミネータ(Discriminator) :
2 つの畳み込み層 + 2 つの全結合層 第 2 畳み込み層のフラット化ロジックは特徴マッチングに使用 最終出力は Sigmoid 層を使用 3 つの畳み込み層 + 1 つの全結合層 最初の 2 つの畳み込み層の後に最大プーリングとドロップアウトを配置 第 3 畳み込み層のフラット化ロジックはリプレイサンプル選択に使用 出力層は Softmax を使用 従来の二値交差エントロピー損失:
LG = -1/m ∑(i=1 to m) log(D(G(zi)))
特徴マッチング損失:
LG = 1/m ∑(i=1 to m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||
ここで D(f)(·) はディスクリミネータの中間層出力を表し、この損失関数は最終出力ではなく、より豊かな中間特徴に焦点を当てている。
L2 距離からワンホットラベルへの選択 :
Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}
L1 距離からロジスティック回帰への選択 :
バッチ平均による :グローバル平均に近いサンプルを選択クラス平均による :各クラスについてクラス中心に最も近い k 個のサンプルを選択Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}
EMBER データセット :337,035 個の悪意のある Windows PE ファイル 100 個のマルウェアファミリー、各ファミリー > 400 サンプル 特徴にはファイルサイズ、PE および COFF ヘッダ情報、DLL 特徴などを含む AZ-Class データセット :285,582 個の Android マルウェアサンプル 100 個のマルウェアファミリー、各ファミリー ≥ 200 サンプル Drebin 特徴を使用、8 つのカテゴリ(ハードウェアアクセス、権限、API 呼び出しなど)を含む 最終特徴次元:2,439 平均精度(Mean Accuracy) :すべてのタスクの平均分類精度最小精度(Min Accuracy) :すべてのタスク中の最低精度ベースライン方法 :None :新しいデータのみで訓練(破滅的忘却の下限)Joint :すべての履歴データを使用して訓練(理想的な上限)先行研究 :GR(Generative Replay) :GAN を使用した生成リプレイBI-R(Brain-Inspired Replay) :VAE を使用した拡張生成リプレイタスク構築 :最初のタスク 50 クラス、その後各タスクで 5 クラス追加、合計 11 タスクオプティマイザ :GAN は Adam、分類器は SGD を使用バッチサイズ :256学習率 :分類器 1e-3、モーメンタム 0.9、重み減衰 1e-7方法 EMBER データセット 平均 最小 None(ベースライン) 27.5% 0.6% Joint(上限) 88.7% 74.5% GR 26.8% 9.5% BI-R 27.0% 9.2% MalCL(最適) 54.5% 21.8%
主要な発見 :
MalCL は None ベースラインから 27% 向上 既存の生成リプレイ方法(GR、BI-R)から 28% 向上 最適な構成:FML + L1 距離からクラス平均ロジスティック回帰 特徴マッチング損失 vs 二値交差エントロピー :FML はすべての選択戦略で BCE より優れているL1 からクラス平均ロジスティック回帰 :最高のパフォーマンス、精度 55% vs L2 からラベルの 50%戦略的タスク構築 :大規模なカテゴリを初期タスクに割り当てる
最初のタスク:50 個の「巨大」カテゴリ(平均 5,397 サンプル) 後続のタスク:ランダムに選択された小規模カテゴリ(平均 670 サンプル) 結果 :精度が 74% に向上し、Joint ベースラインのパフォーマンスに近づくAZ-Class データセット結果 :
EMBER データセットより優れたパフォーマンス 精度範囲がより狭く、より安定していることを示す 理由:EMBER データセットはクラス不均衡がより深刻 リプレイ技術 :正確なリプレイ :Experience Replay(ER)、iCaRL生成リプレイ :GR、BI-R、DDGR正則化方法 :Elastic Weight Consolidation(EWC) Synaptic Intelligence(SI) Rahman ら:マルウェア分類における継続学習を初めて探索 Chen ら:対比学習と能動学習を組み合わせ 既存方法:主にコンセプトドリフトに焦点を当て、破滅的忘却ではない MalCL はマルウェア分類における破滅的忘却を効果的に緩和した 特徴マッチング損失は生成サンプルの品質を大幅に向上させた 分類器の隠れ層に基づくサンプル選択戦略は顕著な効果を示した 戦略的タスク構築はパフォーマンス向上に不可欠である Joint ベースラインとの大きなギャップ :MalCL 最適 54.5% vs Joint 88.7%グローバル選択戦略の効果が低い :L1 からバッチ平均への戦略はクラスカバレッジが不足データセット不均衡への敏感性 :EMBER データセットの不均衡特性がパフォーマンスに影響合成マルウェア生成品質の改善 より高度な生成モデルの開発 混合訓練方法の探索 :生成リプレイと結合訓練の利点を組み合わせより多くのマルウェアタイプへの拡張 より複雑な特徴の統合 :マルウェア脅威の動的特性を反映問題への針対性が強い :マルウェア領域における破滅的忘却の問題に特化方法の革新性 :特徴マッチング損失と多様なサンプル選択戦略の組み合わせ実験の包括性 :クロスプラットフォーム(Windows/Android)検証、複数の比較方法実用的価値が高い :実際のセキュリティ防護における重要な問題を解決技術詳細が充分 :完全なアーキテクチャ設計と実装詳細を提供パフォーマンス向上の余地が大きい :理想的な上限との間に 33% のギャップ計算コスト分析の欠落 :GAN 訓練と生成の計算コストの詳細分析がない対抗的サンプルの堅牢性 :生成サンプルが対抗的攻撃に対する堅牢性を考慮していない特徴エンジニアリングへの依存 :事前定義された特徴に依存し、汎化能力を制限する可能性長期的なパフォーマンス評価の欠落 :より長い時間シーケンスのパフォーマンス評価がない学術的貢献 :GAN ベースの生成リプレイをマルウェア分類に初めて体系的に適用実用的価値 :アンチウイルス企業に実用的な継続学習ソリューションを提供方法の汎用性 :技術フレームワークは他のセキュリティ検出領域に拡張可能オープンソース化の約束 :コード公開により研究の再現と発展を促進企業のセキュリティ防護 :継続的な更新が必要なマルウェア検出システムリソース制限環境 :大量の履歴データを保存できないシーンプライバシー敏感なアプリケーション :元のマルウェアサンプルを保持できない環境リアルタイム検出システム :新しい脅威に迅速に適応する必要があるオンライン検出システム本論文は継続学習、マルウェア検出、生成対抗ネットワーク等の領域における重要な研究を引用している。以下を含む:
Shin et al.(2017):深い生成リプレイによる継続学習 Rahman、Coull、Wright(2022):マルウェア分類における継続学習の初回探索 Anderson と Roth(2018):EMBER データセット Arp et al.(2014):Drebin 特徴抽出方法 総合評価 :本論文はマルウェア分類における破滅的忘却の問題に対して革新的なソリューションを提案し、技術方法と実験検証の両面で十分に充実している。パフォーマンスにはまだ向上の余地があるが、この領域の研究と応用に重要な貢献をしている。