2025-11-13T09:49:10.938500

MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification

Park, Ji, Park et al.
Continual Learning (CL) for malware classification tackles the rapidly evolving nature of malware threats and the frequent emergence of new types. Generative Replay (GR)-based CL systems utilize a generative model to produce synthetic versions of past data, which are then combined with new data to retrain the primary model. Traditional machine learning techniques in this domain often struggle with catastrophic forgetting, where a model's performance on old data degrades over time. In this paper, we introduce a GR-based CL system that employs Generative Adversarial Networks (GANs) with feature matching loss to generate high-quality malware samples. Additionally, we implement innovative selection schemes for replay samples based on the model's hidden representations. Our comprehensive evaluation across Windows and Android malware datasets in a class-incremental learning scenario -- where new classes are introduced continuously over multiple tasks -- demonstrates substantial performance improvements over previous methods. For example, our system achieves an average accuracy of 55% on Windows malware samples, significantly outperforming other GR-based models by 28%. This study provides practical insights for advancing GR-based malware classification systems. The implementation is available at \url {https://github.com/MalwareReplayGAN/MalCL}\footnote{The code will be made public upon the presentation of the paper}.
academic

MalCL: दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में विनाशकारी विस्मृति से निपटने के लिए GAN-आधारित जनरेटिव रीप्ले का लाभ उठाना

मूल जानकारी

  • पेपर ID: 2501.01110
  • शीर्षक: MalCL: Leveraging GAN-Based Generative Replay to Combat Catastrophic Forgetting in Malware Classification
  • लेखक: Jimin Park¹, AHyun Ji¹, Minji Park¹, Mohammad Saidur Rahman², Se Eun Oh¹*
  • संस्थान: ¹Ewha Womans University, ²University of Texas at El Paso
  • वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), cs.AI (कृत्रिम बुद्धिमत्ता)
  • प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2501.01110

सारांश

यह पेपर दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में सतत शिक्षा समस्या के समाधान के लिए MalCL प्रणाली प्रस्तावित करता है। यह प्रणाली जनरेटिव एडवर्सेरियल नेटवर्क (GAN) आधारित जनरेटिव रीप्ले विधि को अपनाती है, विशेषता मिलान हानि के माध्यम से उच्च गुणवत्ता वाले दुर्भावनापूर्ण सॉफ़्टवेयर नमूने उत्पन्न करती है, और मॉडल छिपे हुए प्रतिनिधित्व के आधार पर एक नवीन नमूना चयन तंत्र को लागू करती है। Windows और Android दुर्भावनापूर्ण सॉफ़्टवेयर डेटासेट पर वर्ग-वृद्धिशील शिक्षा परिदृश्य में, यह प्रणाली उल्लेखनीय प्रदर्शन सुधार प्रदर्शित करती है, Windows दुर्भावनापूर्ण सॉफ़्टवेयर नमूनों पर 55% की औसत सटीकता प्राप्त करती है, जो अन्य जनरेटिव रीप्ले-आधारित मॉडल की तुलना में 28% अधिक है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण का मुख्य चुनौती विनाशकारी विस्मृति (Catastrophic Forgetting) घटना है। जब मशीन लर्निंग मॉडल नए डेटा पर सतत प्रशिक्षण प्राप्त करता है, तो पुराने डेटा पर इसका प्रदर्शन काफी हद तक कम हो जाता है। यह दुर्भावनापूर्ण सॉफ़्टवेयर क्षेत्र में विशेष रूप से गंभीर है, क्योंकि:

  1. दुर्भावनापूर्ण सॉफ़्टवेयर का तीव्र विकास: AV-TEST संस्थान प्रतिदिन 450,000 नए दुर्भावनापूर्ण सॉफ़्टवेयर और संभावित हानिकारक प्रोग्राम (PUA) दर्ज करता है
  2. VirusTotal प्रतिदिन 1 मिलियन से अधिक सॉफ़्टवेयर सबमिशन को संसाधित करता है
  3. एंटीवायरस कंपनियों का दुविधा: या तो पुराने नमूनों को हटाएं (पुराने दुर्भावनापूर्ण सॉफ़्टवेयर की पुनरावृत्ति का जोखिम), या नए नमूनों को अनदेखा करें (नई उभरती धमकियों को मिस करें)

खतरे का मॉडल

पेपर एक विशिष्ट खतरे के परिदृश्य को परिभाषित करता है: हमलावर केवल नए डेटा के साथ अपडेट किए गए मशीन लर्निंग सिस्टम को बायपास करने के लिए विरासत दुर्भावनापूर्ण सॉफ़्टवेयर का उपयोग करता है। मूल प्रशिक्षण और हमले के बीच समय अंतराल बढ़ने के साथ, सफल परिहार की संभावना बढ़ जाती है।

मौजूदा विधियों की सीमाएं

  1. पारंपरिक मशीन लर्निंग विधियां: विनाशकारी विस्मृति को प्रभावी ढंग से संभाल नहीं सकती हैं
  2. कंप्यूटर विजन क्षेत्र की सतत शिक्षा विधियां: दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण पर सीधे अनुप्रयोग खराब प्रदर्शन करता है, प्रदर्शन "None" आधारभूत से भी कम है
  3. भंडारण सीमाएं: गोपनीयता विनियमों के कारण, ऐतिहासिक डेटा भंडारण सीमित है

मूल योगदान

  1. दुर्भावनापूर्ण सॉफ़्टवेयर डोमेन-विशिष्ट सतत शिक्षा मॉडल: MalCL प्रस्तावित करता है, 100 दुर्भावनापूर्ण सॉफ़्टवेयर परिवारों के 11 सतत शिक्षा कार्यों में 55% औसत सटीकता प्राप्त करता है, मौजूदा विधियों से 28% सुधार
  2. सुधारी गई विशेषता मिलान जनरेटिव रीप्ले: विशेषता मिलान हानि (Feature Matching Loss) के साथ GAN जनरेटर को अपनाता है, मूल नमूनों और संश्लेषित नमूनों के बीच विशेषता अंतर को कम करता है
  3. नवीन रीप्ले नमूना चयन तंत्र: वर्गीकरणकर्ता के मध्य परत विशेषताओं के आधार पर कई चयन रणनीतियां विकसित करता है, उत्पन्न नमूनों और मूल डेटा के संरेखण में सुधार करता है
  4. रणनीतिक कार्य सेट निर्माण: बड़ी श्रेणियों को प्रारंभिक कार्यों को आवंटित करने की रणनीति की खोज करता है, विनाशकारी विस्मृति को प्रभावी ढंग से कम करता है

विधि विवरण

कार्य परिभाषा

MalCL वर्ग-वृद्धिशील शिक्षा (Class-Incremental Learning) समस्या को हल करता है:

  • इनपुट: दुर्भावनापूर्ण सॉफ़्टवेयर विशेषता वेक्टर अनुक्रम
  • आउटपुट: दुर्भावनापूर्ण सॉफ़्टवेयर परिवार वर्गीकरण
  • बाधा: प्रत्येक कार्य नई दुर्भावनापूर्ण सॉफ़्टवेयर श्रेणियां पेश करता है, साथ ही ऐतिहासिक श्रेणियों की पहचान बनाए रखने की आवश्यकता है

मॉडल आर्किटेक्चर

समग्र प्रवाह

MalCL में दो मूल घटक हैं:

  1. GAN मॉड्यूल: पिछले कार्यों के संश्लेषित दुर्भावनापूर्ण सॉफ़्टवेयर नमूने उत्पन्न करता है
  2. वर्गीकरणकर्ता मॉड्यूल: दुर्भावनापूर्ण सॉफ़्टवेयर परिवार वर्गीकरण करता है

GAN आर्किटेक्चर डिजाइन

जनरेटर (Generator):

  • 4 एक-आयामी कनवल्शन परतें + 2 पूर्ण कनेक्टेड परतें + 3 विपरीत कनवल्शन परतें
  • अंतिम परत को छोड़कर सभी ReLU सक्रियण और बैच सामान्यीकरण का उपयोग करते हैं
  • आउटपुट परत Sigmoid सक्रियण का उपयोग करता है

विभेदक (Discriminator):

  • 2 कनवल्शन परतें + 2 पूर्ण कनेक्टेड परतें
  • दूसरी कनवल्शन परत का समतल तर्क विशेषता मिलान के लिए उपयोग किया जाता है
  • अंतिम आउटपुट Sigmoid परत का उपयोग करता है

वर्गीकरणकर्ता आर्किटेक्चर

  • 3 कनवल्शन परतें + 1 पूर्ण कनेक्टेड परत
  • पहली दो कनवल्शन परतों के बाद अधिकतम पूलिंग और ड्रॉपआउट
  • तीसरी कनवल्शन परत का समतल तर्क रीप्ले नमूना चयन के लिए उपयोग किया जाता है
  • आउटपुट परत Softmax का उपयोग करता है

तकनीकी नवाचार बिंदु

1. विशेषता मिलान हानि (Feature Matching Loss)

पारंपरिक बाइनरी क्रॉस-एंट्रॉपी हानि:

LG = -1/m ∑(i=1 to m) log(D(G(zi)))

विशेषता मिलान हानि:

LG = 1/m ∑(i=1 to m) ||Ex~pdata[D(f)(x)] - Ez~pz[D(f)(G(z))]||

जहां D(f)(·) विभेदक में मध्य परत आउटपुट को दर्शाता है, यह हानि फ़ंक्शन अंतिम आउटपुट के बजाय अधिक समृद्ध मध्य विशेषताओं पर ध्यान केंद्रित करता है।

2. रीप्ले नमूना चयन रणनीतियां

L2 दूरी से वन-हॉट लेबल के आधार पर चयन:

Sc,k = {s | argmin √((Ci(s) - yc)²), ∀s ∈ S, yc ∈ Y}

L1 दूरी से लॉजिस्टिक रिग्रेशन के आधार पर चयन:

  • बैच माध्य के अनुसार: वैश्विक माध्य के करीब नमूने चुनें
  • श्रेणी माध्य के अनुसार: प्रत्येक श्रेणी के लिए k नमूने चुनें जो श्रेणी केंद्र के सबसे करीब हों
Sc,k = {s | argmin |Li(s) - L̄i,c(xj)|, ∀s ∈ S, ∀x ∈ Xc}

प्रयोगात्मक सेटअप

डेटासेट

  1. EMBER डेटासेट:
    • 337,035 दुर्भावनापूर्ण Windows PE फाइलें
    • 100 दुर्भावनापूर्ण सॉफ़्टवेयर परिवार, प्रत्येक परिवार >400 नमूने
    • विशेषताओं में फाइल आकार, PE और COFF हेडर जानकारी, DLL विशेषताएं आदि शामिल हैं
  2. AZ-Class डेटासेट:
    • 285,582 Android दुर्भावनापूर्ण सॉफ़्टवेयर नमूने
    • 100 दुर्भावनापूर्ण सॉफ़्टवेयर परिवार, प्रत्येक परिवार ≥200 नमूने
    • Drebin विशेषताएं का उपयोग, 8 श्रेणियां शामिल हैं (हार्डवेयर एक्सेस, अनुमतियां, API कॉल आदि)
    • अंतिम विशेषता आयाम: 2,439

मूल्यांकन मेट्रिक्स

  • औसत सटीकता (Mean Accuracy): सभी कार्यों की औसत वर्गीकरण सटीकता
  • न्यूनतम सटीकता (Min Accuracy): सभी कार्यों में सबसे कम सटीकता

तुलना विधियां

  1. आधारभूत विधियां:
    • None: केवल नए डेटा पर प्रशिक्षण (विनाशकारी विस्मृति की निचली सीमा)
    • Joint: सभी ऐतिहासिक डेटा का उपयोग करके प्रशिक्षण (आदर्श ऊपरी सीमा)
  2. पूर्व कार्य:
    • GR (Generative Replay): GAN का उपयोग करके जनरेटिव रीप्ले
    • BI-R (Brain-Inspired Replay): VAE का उपयोग करके सुधारी गई जनरेटिव रीप्ले

कार्यान्वयन विवरण

  • कार्य निर्माण: पहला कार्य 50 श्रेणियां, बाद के प्रत्येक कार्य में 5 श्रेणियां जोड़ी जाती हैं, कुल 11 कार्य
  • ऑप्टिमाइज़र: GAN के लिए Adam, वर्गीकरणकर्ता के लिए SGD
  • बैच आकार: 256
  • सीखने की दर: वर्गीकरणकर्ता 1e-3, गति 0.9, वजन क्षय 1e-7

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधिEMBER डेटासेट
औसतन्यूनतम
None (आधारभूत)27.5%0.6%
Joint (ऊपरी सीमा)88.7%74.5%
GR26.8%9.5%
BI-R27.0%9.2%
MalCL (सर्वश्रेष्ठ)54.5%21.8%

मुख्य निष्कर्ष:

  • MalCL None आधारभूत से 27% सुधार करता है
  • मौजूदा जनरेटिव रीप्ले विधियों (GR, BI-R) से 28% सुधार करता है
  • सर्वश्रेष्ठ कॉन्फ़िगरेशन: FML + L1 दूरी से वर्ग माध्य लॉजिस्टिक रिग्रेशन

विलोपन प्रयोग

हानि फ़ंक्शन तुलना

  • विशेषता मिलान हानि बनाम बाइनरी क्रॉस-एंट्रॉपी: FML सभी चयन रणनीतियों पर BCE से बेहतर है
  • L1 से वर्ग माध्य लॉजिस्टिक रिग्रेशन: सर्वश्रेष्ठ प्रदर्शन, 55% सटीकता बनाम L2 से लेबल की 50%

कार्य सेट निर्माण रणनीति

रणनीतिक कार्य निर्माण: बड़ी श्रेणियों को प्रारंभिक कार्यों को आवंटित करें

  • पहला कार्य: 50 "विशाल" श्रेणियां (औसत 5,397 नमूने)
  • बाद के कार्य: यादृच्छिक रूप से छोटी श्रेणियां चुनें (औसत 670 नमूने)
  • परिणाम: सटीकता 74% तक सुधारी जाती है, Joint आधारभूत प्रदर्शन के करीब

क्रॉस-डेटासेट सत्यापन

AZ-Class डेटासेट परिणाम:

  • EMBER डेटासेट से बेहतर प्रदर्शन
  • सटीकता श्रेणी अधिक संकीर्ण, अधिक स्थिर दर्शाता है
  • कारण: EMBER डेटासेट में श्रेणी असंतुलन अधिक गंभीर है

संबंधित कार्य

सतत शिक्षा विधियों का वर्गीकरण

  1. रीप्ले तकनीकें:
    • सटीक रीप्ले: Experience Replay (ER), iCaRL
    • जनरेटिव रीप्ले: GR, BI-R, DDGR
  2. नियमितकरण विधियां:
    • Elastic Weight Consolidation (EWC)
    • Synaptic Intelligence (SI)

दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में सतत शिक्षा

  • Rahman आदि ने पहली बार दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में सतत शिक्षा की खोज की
  • Chen आदि ने विपरीत शिक्षा और सक्रिय शिक्षा को जोड़ा
  • मौजूदा विधियां मुख्य रूप से अवधारणा बहाव पर ध्यान केंद्रित करती हैं, विनाशकारी विस्मृति पर नहीं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. MalCL ने दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में विनाशकारी विस्मृति को प्रभावी ढंग से कम किया
  2. विशेषता मिलान हानि ने उत्पन्न नमूनों की गुणवत्ता में काफी सुधार किया
  3. वर्गीकरणकर्ता छिपी परत के आधार पर नमूना चयन रणनीति प्रभावी है
  4. रणनीतिक कार्य निर्माण प्रदर्शन सुधार के लिए महत्वपूर्ण है

सीमाएं

  1. Joint आधारभूत से अभी भी बड़ा अंतर: MalCL सर्वश्रेष्ठ 54.5% बनाम Joint 88.7%
  2. वैश्विक चयन रणनीति खराब प्रदर्शन: L1 से बैच माध्य रणनीति अपर्याप्त श्रेणी कवरेज उत्पन्न करती है
  3. डेटासेट असंतुलन संवेदनशीलता: EMBER डेटासेट की असंतुलन विशेषता प्रदर्शन को प्रभावित करती है

भविष्य की दिशाएं

  1. संश्लेषित दुर्भावनापूर्ण सॉफ़्टवेयर उत्पादन गुणवत्ता में सुधार
  2. अधिक उन्नत जनरेटिव मॉडल विकसित करें
  3. मिश्रित प्रशिक्षण विधियों की खोज करें जनरेटिव रीप्ले और संयुक्त प्रशिक्षण के लाभों को जोड़ते हुए
  4. अधिक दुर्भावनापूर्ण सॉफ़्टवेयर प्रकारों तक विस्तार करें
  5. अधिक जटिल विशेषताओं को एकीकृत करें जो दुर्भावनापूर्ण सॉफ़्टवेयर खतरे की गतिशील प्रकृति को प्रतिबिंबित करते हैं

गहन मूल्यांकन

शक्तियां

  1. समस्या लक्ष्यीकरण मजबूत: विशेष रूप से दुर्भावनापूर्ण सॉफ़्टवेयर डोमेन में विनाशकारी विस्मृति समस्या को हल करता है
  2. विधि नवाचार: विशेषता मिलान हानि और विविध नमूना चयन रणनीतियों को जोड़ता है
  3. व्यापक प्रयोग: क्रॉस-प्लेटफॉर्म (Windows/Android) सत्यापन, कई तुलना विधियां
  4. व्यावहारिक मूल्य उच्च: वास्तविक सुरक्षा सुरक्षा में महत्वपूर्ण समस्या को हल करता है
  5. तकनीकी विवरण पर्याप्त: पूर्ण आर्किटेक्चर डिजाइन और कार्यान्वयन विवरण प्रदान करता है

कमियां

  1. प्रदर्शन सुधार की गुंजाइश बड़ी: आदर्श ऊपरी सीमा से अभी भी 33% अंतर
  2. कम्प्यूटेशनल ओवरहेड विश्लेषण अनुपस्थित: GAN प्रशिक्षण और उत्पादन की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
  3. विरोधी नमूना मजबूती: उत्पन्न नमूनों की विरोधी हमलों के सामने मजबूती पर विचार नहीं किया गया
  4. विशेषता इंजीनियरिंग निर्भरता: पूर्वनिर्धारित विशेषताओं पर निर्भर, सामान्यीकरण क्षमता को सीमित कर सकता है
  5. दीर्घकालीन प्रदर्शन मूल्यांकन: लंबे समय के अनुक्रम में प्रदर्शन मूल्यांकन की कमी

प्रभाव

  1. शैक्षणिक योगदान: पहली बार GAN-आधारित जनरेटिव रीप्ले को दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में व्यवस्थित रूप से लागू किया
  2. व्यावहारिक मूल्य: एंटीवायरस कंपनियों को सतत शिक्षा समाधान प्रदान करता है
  3. विधि सामान्यता: तकनीकी ढांचा अन्य सुरक्षा पहचान क्षेत्रों तक विस्तारित हो सकता है
  4. ओपन-सोर्स प्रतिबद्धता: कोड को सार्वजनिक करने का वचन, अनुसंधान पुनरुत्पादन और विकास में सहायक

लागू परिदृश्य

  1. एंटरप्राइज सुरक्षा सुरक्षा: सतत अपडेट की आवश्यकता वाली दुर्भावनापूर्ण सॉफ़्टवेयर पहचान प्रणाली
  2. संसाधन-सीमित वातावरण: बड़ी मात्रा में ऐतिहासिक डेटा संग्रहीत नहीं कर सकने वाले परिदृश्य
  3. गोपनीयता-संवेदनशील अनुप्रयोग: मूल दुर्भावनापूर्ण सॉफ़्टवेयर नमूने नहीं रख सकने वाले वातावरण
  4. वास्तविक समय पहचान प्रणाली: नई धमकियों के अनुकूल होने के लिए तेजी से अनुकूलन की आवश्यकता वाली ऑनलाइन पहचान प्रणाली

संदर्भ

यह पेपर सतत शिक्षा, दुर्भावनापूर्ण सॉफ़्टवेयर पहचान और जनरेटिव एडवर्सेरियल नेटवर्क आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • Shin et al. (2017): गहरी जनरेटिव रीप्ले के साथ सतत शिक्षा
  • Rahman, Coull, and Wright (2022): दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में सतत शिक्षा की पहली खोज
  • Anderson and Roth (2018): EMBER डेटासेट
  • Arp et al. (2014): Drebin विशेषता निष्कर्षण विधि

समग्र मूल्यांकन: यह पेपर दुर्भावनापूर्ण सॉफ़्टवेयर वर्गीकरण में विनाशकारी विस्मृति समस्या के लिए एक नवीन समाधान प्रस्तावित करता है, तकनीकी विधि और प्रयोगात्मक सत्यापन दोनों पहलुओं में काफी व्यापक है। हालांकि प्रदर्शन में सुधार की गुंजाइश है, लेकिन यह क्षेत्र के अनुसंधान और अनुप्रयोग के लिए महत्वपूर्ण योगदान प्रदान करता है।