2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.

Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.

academic

MalCL: الاستفادة من إعادة التشغيل التوليدي القائم على GAN لمكافحة النسيان الكارثي في تصنيف البرامج الضارة

المعلومات الأساسية

معرّف الورقة: 2501.01110
العنوان: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
المؤلفون: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
المؤسسات: ¹جامعة إيوا للنساء، ²جامعة تكساس في إل باسو
التصنيف: cs.CR (التشفير والأمان)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 2 يناير 2025 (نسخة arXiv المسبقة)
رابط الورقة: https://arxiv.org/abs/2501.01110

الملخص

تقترح هذه الورقة نظام MalCL لمعالجة مشكلة التعلم المستمر في تصنيف البرامج الضارة. يستخدم النظام طريقة إعادة التشغيل التوليدي (Generative Replay) القائمة على الشبكات العدائية التوليدية (GAN)، حيث يولد عينات برامج ضارة عالية الجودة من خلال خسارة مطابقة الميزات، ويطبق آلية اختيار عينات مبتكرة بناءً على التمثيلات المخفية للنموذج. في سيناريوهات التعلم الإضافي للفئات على مجموعات بيانات البرامج الضارة لأنظمة Windows و Android، يُظهر النظام تحسناً ملحوظاً في الأداء، حيث يحقق دقة متوسطة بنسبة 55% على عينات البرامج الضارة لـ Windows، بزيادة قدرها 28% مقارنة بنماذج إعادة التشغيل التوليدي الأخرى.

خلفية البحث والدافع

المشكلة الأساسية

يواجه تصنيف البرامج الضارة تحدياً رئيسياً يُعرف بظاهرة النسيان الكارثي (Catastrophic Forgetting). عندما يتم تدريب نموذج التعلم الآلي بشكل مستمر على بيانات جديدة، ينخفض أداؤه بشكل كبير على البيانات القديمة. يكون هذا حاداً بشكل خاص في مجال البرامج الضارة لأن:

التطور السريع للبرامج الضارة: يسجل معهد AV-TEST 450,000 برنامج ضار جديد وبرنامج محتمل ضار (PUA) يومياً
VirusTotal تعالج أكثر من مليون عملية إرسال برنامج يومياً
معضلة شركات مكافحة الفيروسات: إما إزالة العينات القديمة (مع المخاطرة بعودة البرامج الضارة القديمة) أو تجاهل العينات الجديدة (فقدان التهديدات الناشئة)

نموذج التهديد

تحدد الورقة سيناريو تهديد محدد: يستغل المهاجمون البرامج الضارة القديمة للالتفاف حول أنظمة التعلم الآلي المحدثة بالبيانات الجديدة فقط. مع اتساع الفجوة الزمنية بين التدريب الأصلي والهجوم، تزداد احتمالية النجاح في التحايل.

قيود الطرق الموجودة

طرق التعلم الآلي التقليدية: غير قادرة على التعامل الفعال مع النسيان الكارثي
طرق التعلم المستمر من مجال رؤية الحاسوب: تطبيقها المباشر على تصنيف البرامج الضارة يعطي نتائج سيئة، وأداؤها أقل حتى من خط الأساس "None"
قيود التخزين: بسبب اللوائح الخصوصية، يكون تخزين البيانات التاريخية محدوداً

المساهمات الأساسية

نموذج تعلم مستمر متخصص في مجال البرامج الضارة: اقتراح MalCL الذي يحقق دقة متوسطة بنسبة 55% عبر 11 مهمة تعلم مستمر على 100 عائلة برامج ضارة، بتحسن قدره 28% عن الطرق الموجودة
إعادة تشغيل توليدي محسّن بمطابقة الميزات: استخدام مولد GAN مع خسارة مطابقة الميزات (Feature Matching Loss) لتقليل الفروقات بين الميزات الأصلية والاصطناعية
آلية اختيار عينات إعادة تشغيل مبتكرة: تطوير استراتيجيات اختيار متعددة بناءً على ميزات الطبقات الوسيطة في المصنف، مما يحسن محاذاة العينات المولدة مع البيانات الأصلية
بناء مجموعة مهام استراتيجي: استكشاف استراتيجية تخصيص الفئات الكبيرة للمهام الأولية، مما يخفف بشكل فعال من النسيان الكارثي

شرح الطريقة

تعريف المهام

يحل MalCL مشكلة التعلم الإضافي للفئات (Class-Incremental Learning):

المدخلات: سلسلة متجهات ميزات البرامج الضارة
المخرجات: تصنيف عائلة البرامج الضارة
القيود: تقدم كل مهمة فئات برامج ضارة جديدة، مع الحاجة للحفاظ على القدرة على التعرف على الفئات التاريخية

معمارية النموذج

سير العمل الكلي

يتضمن MalCL مكونين أساسيين:

وحدة GAN: توليد عينات برامج ضارة اصطناعية من المهام السابقة
وحدة المصنف: تصنيف عائلات البرامج الضارة

تصميم معمارية GAN

المولد (Generator):

4 طبقات التفاف أحادية البعد + طبقتا اتصال كامل + 3 طبقات التفاف معكوسة
استخدام تفعيل ReLU والتطبيع الدفعي في جميع الطبقات ما عدا الأخيرة
طبقة الإخراج تستخدم تفعيل Sigmoid

المميز (Discriminator):

طبقتا التفاف + طبقتا اتصال كامل
منطق التسطيح في الطبقة الثانية للالتفاف يُستخدم لمطابقة الميزات
الإخراج النهائي يستخدم طبقة Sigmoid

معمارية المصنف

3 طبقات التفاف + طبقة اتصال كاملة
أول طبقتي التفاف متبوعة بتجميع أقصى و dropout
منطق التسطيح في الطبقة الثالثة للالتفاف يُستخدم لاختيار عينات إعادة التشغيل
طبقة الإخراج تستخدم Softmax

نقاط الابتكار التقني

1. خسارة مطابقة الميزات (Feature Matching Loss)

خسارة الإنتروبيا الثنائية التقليدية:

LG = -1/m ∑(i=1 to m) log(D(G(zi)))

خسارة مطابقة الميزات:

LG = 1/m ∑(i=1 to m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

حيث D(f)(·) يمثل إخراج الطبقة الوسيطة في المميز، وتركز هذه الدالة على ميزات وسيطة أغنى بدلاً من الإخراج النهائي.

2. استراتيجيات اختيار عينات إعادة التشغيل

الاختيار بناءً على مسافة L2 إلى التسميات الفئوية الواحدة:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

الاختيار بناءً على مسافة L1 إلى الانحدار اللوجستي:

حسب متوسط الدفعة: اختيار العينات القريبة من المتوسط العام
حسب متوسط الفئة: اختيار k عينة لكل فئة الأقرب إلى مركز الفئة

Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

إعداد التجارب

مجموعات البيانات

مجموعة بيانات EMBER:
- 337,035 ملف PE ضار لـ Windows
- 100 عائلة برامج ضارة، كل عائلة تحتوي على أكثر من 400 عينة
- الميزات تشمل حجم الملف، معلومات رؤوس PE و COFF، ميزات DLL وغيرها
مجموعة بيانات AZ-Class:
- 285,582 عينة برامج ضارة لـ Android
- 100 عائلة برامج ضارة، كل عائلة تحتوي على ما لا يقل عن 200 عينة
- استخدام ميزات Drebin، تشمل 8 فئات (الوصول للأجهزة، الأذونات، استدعاءات API وغيرها)
- البعد النهائي للميزات: 2,439

مقاييس التقييم

الدقة المتوسطة (Mean Accuracy): متوسط دقة التصنيف عبر جميع المهام
الحد الأدنى للدقة (Min Accuracy): أقل دقة تصنيف عبر جميع المهام

طرق المقارنة

طرق الأساس:
- None: التدريب على البيانات الجديدة فقط (الحد الأدنى للنسيان الكارثي)
- Joint: التدريب باستخدام جميع البيانات التاريخية (الحد الأقصى المثالي)
الأعمال السابقة:
- GR (Generative Replay): استخدام GAN لإعادة التشغيل التوليدي
- BI-R (Brain-Inspired Replay): إعادة تشغيل محسّنة باستخدام VAE

تفاصيل التنفيذ

بناء المهام: المهمة الأولى تحتوي على 50 فئة، المهام اللاحقة تضيف 5 فئات لكل منها، إجمالي 11 مهمة
المحسّنات: GAN تستخدم Adam، المصنف يستخدم SGD
حجم الدفعة: 256
معدل التعلم: المصنف 1e-3، الزخم 0.9، تحلل الوزن 1e-7

نتائج التجارب

النتائج الرئيسية

الطريقة	مجموعة بيانات EMBER
	المتوسط	الحد الأدنى
None (خط الأساس)	27.5%	0.6%
Joint (الحد الأقصى)	88.7%	74.5%
GR	26.8%	9.5%
BI-R	27.0%	9.2%
MalCL (الأفضل)	54.5%	21.8%

النتائج الرئيسية:

MalCL يحسّن خط الأساس None بنسبة 27%
يحسّن طرق إعادة التشغيل التوليدي الموجودة (GR، BI-R) بنسبة 28%
أفضل تكوين: FML + مسافة L1 إلى متوسط الفئة للانحدار اللوجستي

تجارب الاستئصال

مقارنة دوال الخسارة

خسارة مطابقة الميزات مقابل الإنتروبيا الثنائية: FML تتفوق على BCE في جميع استراتيجيات الاختيار
L1 إلى متوسط الفئة للانحدار اللوجستي: تحقق أفضل أداء، دقة 55% مقابل 50% لـ L2 إلى التسميات

استراتيجيات بناء مجموعة المهام

بناء مهام استراتيجي: تخصيص فئات كبيرة للمهام الأولية

المهمة الأولى: 50 فئة "عملاقة" (متوسط 5,397 عينة)
المهام اللاحقة: اختيار عشوائي لفئات صغيرة (متوسط 670 عينة)
النتيجة: تحسن الدقة إلى 74%، قريبة جداً من أداء Joint

التحقق عبر مجموعات البيانات

نتائج مجموعة بيانات AZ-Class:

الأداء أفضل من مجموعة بيانات EMBER
نطاق الدقة أضيق، مما يشير إلى استقرار أكبر
السبب: عدم التوازن في فئات مجموعة بيانات EMBER أكثر حدة

الأعمال ذات الصلة

تصنيف طرق التعلم المستمر

تقنيات إعادة التشغيل:
- إعادة التشغيل الدقيقة: Experience Replay (ER)، iCaRL
- إعادة التشغيل التوليدية: GR، BI-R، DDGR
طرق التنظيم:
- Elastic Weight Consolidation (EWC)
- Synaptic Intelligence (SI)

التعلم المستمر في تصنيف البرامج الضارة

استكشف Rahman وآخرون للمرة الأولى التعلم المستمر في تصنيف البرامج الضارة
دمج Chen وآخرون التعلم المقارن والتعلم النشط
تركز الطرق الموجودة بشكل أساسي على انجراف المفاهيم بدلاً من النسيان الكارثي

الخلاصة والنقاش

الاستنتاجات الرئيسية

MalCL يخفف بشكل فعال من النسيان الكارثي في تصنيف البرامج الضارة
خسارة مطابقة الميزات تحسّن بشكل كبير جودة العينات المولدة
استراتيجيات اختيار العينات بناءً على الطبقات المخفية للمصنف فعالة بشكل ملحوظ
بناء المهام الاستراتيجي حاسم لتحسين الأداء

القيود

فجوة كبيرة مع خط الأساس Joint: أفضل MalCL 54.5% مقابل Joint 88.7%
ضعف استراتيجيات الاختيار العام: استراتيجية L1 إلى متوسط الدفعة تنتج تغطية فئات غير كافية
حساسية عدم التوازن: خصائص عدم التوازن في مجموعة بيانات EMBER تؤثر على الأداء

الاتجاهات المستقبلية

تحسين جودة توليد البرامج الضارة الاصطناعية
تطوير نماذج توليدية أكثر تقدماً
استكشاف طرق تدريب هجينة تجمع بين إعادة التشغيل التوليدي والتدريب المشترك
التوسع إلى أنواع برامج ضارة أكثر
دمج ميزات أكثر تعقيداً تعكس الطبيعة الديناميكية لتهديدات البرامج الضارة

التقييم المتعمق

المميزات

قوة استهداف المشكلة: معالجة متخصصة لمشكلة النسيان الكارثي في مجال البرامج الضارة
ابتكار الطريقة: دمج خسارة مطابقة الميزات واستراتيجيات اختيار عينات متنوعة
شمول التجارب: التحقق عبر الأنظمة الأساسية (Windows/Android)، طرق مقارنة متعددة
قيمة عملية عالية: حل مشكلة مهمة في الحماية الأمنية الفعلية
تفاصيل تقنية كافية: توفير تصميم معمارية كامل وتفاصيل التنفيذ

أوجه القصور

مجال تحسن الأداء كبير: فجوة 33% مع الحد الأقصى المثالي
غياب تحليل التكاليف الحسابية: عدم تحليل تفصيلي لتكاليف تدريب GAN والتوليد
قوة العينات المولدة ضد الهجمات: عدم النظر في قوة العينات المولدة ضد الهجمات الخصومية
الاعتماد على هندسة الميزات: الاعتماد على ميزات محددة مسبقاً قد يحد من القدرة على التعميم
تقييم الأداء طويل الأجل: غياب تقييم الأداء على سلاسل زمنية أطول

التأثير

المساهمة الأكاديمية: أول تطبيق منهجي لإعادة التشغيل التوليدي القائمة على GAN في تصنيف البرامج الضارة
القيمة العملية: توفير حل تعلم مستمر عملي لشركات مكافحة الفيروسات
عمومية الطريقة: يمكن توسيع الإطار التقني إلى مجالات كشف أمان أخرى
الالتزام بالمصدر المفتوح: الالتزام بنشر الكود يسهل إعادة الإنتاج والتطوير

السيناريوهات القابلة للتطبيق

الحماية الأمنية للمؤسسات: أنظمة كشف البرامج الضارة التي تتطلب تحديثاً مستمراً
البيئات محدودة الموارد: السيناريوهات التي لا يمكن فيها تخزين كميات كبيرة من البيانات التاريخية
التطبيقات الحساسة للخصوصية: البيئات التي لا يمكن فيها الاحتفاظ بعينات البرامج الضارة الأصلية
أنظمة الكشف في الوقت الفعلي: أنظمة الكشف عبر الإنترنت التي تتطلب التكيف السريع مع التهديدات الجديدة

المراجع

تستشهد الورقة بأعمال مهمة في مجالات التعلم المستمر وكشف البرامج الضارة والشبكات العدائية التوليدية، بما في ذلك:

Shin et al. (2017): التعلم المستمر مع إعادة التشغيل التوليدي العميق
Rahman, Coull, and Wright (2022): استكشاف التعلم المستمر لأول مرة في تصنيف البرامج الضارة
Anderson and Roth (2018): مجموعة بيانات EMBER
Arp et al. (2014): طريقة استخراج ميزات Drebin

التقييم الشامل: تقترح هذه الورقة حلاً مبتكراً لمشكلة النسيان الكارثي في تصنيف البرامج الضارة، مع تغطية كافية من حيث الطرق التقنية والتحقق التجريبي. على الرغم من وجود مجال للتحسن في الأداء، فإن الورقة تقدم مساهمة مهمة للبحث والتطبيق في هذا المجال.