2025-11-12T22:58:10.887954

Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection

Aneja, Aneja, Kantarcioglu
Software systems can be represented as graphs, capturing dependencies among functions and processes. An interesting aspect of software systems is that they can be represented as different types of graphs, depending on the extraction goals and priorities. For example, function calls within the software can be captured to create function call graphs, which highlight the relationships between functions and their dependencies. Alternatively, the processes spawned by the software can be modeled to generate process interaction graphs, which focus on runtime behavior and inter-process communication. While these graph representations are related, each captures a distinct perspective of the system, providing complementary insights into its structure and operation. While previous studies have leveraged graph neural networks (GNNs) to analyze software behaviors, most of this work has focused on a single type of graph representation. The joint modeling of both function call graphs and process interaction graphs remains largely underexplored, leaving opportunities for deeper, multi-perspective analysis of software systems. This paper presents a pipeline for constructing and training Function Call Graphs (FCGs) and Process Call Graphs (PCGs) and learning joint embeddings. We demonstrate that joint embeddings outperform a single-graph model. In this paper, we propose GeminiNet, a unified neural network approach that learns joint embeddings from both FCGs and PCGs. We construct a new dataset of 635 Windows executables (318 malicious and 317 benign), extracting FCGs via Ghidra and PCGs via Any.Run sandbox. GeminiNet employs dual graph convolutional branches with an adaptive gating mechanism that balances contributions from static and dynamic views.
academic

फ़ंक्शन और प्रोसेस कॉल ग्राफ़ के संयुक्त एम्बेडिंग सीखना मैलवेयर डिटेक्शन के लिए

मूल जानकारी

  • पेपर ID: 2510.09984
  • शीर्षक: Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection
  • लेखक: Kartikeya Aneja (University of Wisconsin-Madison), Nagender Aneja (Virginia Tech), Murat Kantarcioglu (Virginia Tech)
  • वर्गीकरण: cs.LG (मशीन लर्निंग), cs.CR (क्रिप्टोग्राफी और सुरक्षा)
  • प्रकाशन सम्मेलन: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: New Perspectives in Advancing Graph Machine Learning
  • पेपर लिंक: https://arxiv.org/abs/2510.09984

सारांश

सॉफ्टवेयर सिस्टम को ग्राफ़ संरचनाओं के रूप में प्रदर्शित किया जा सकता है जो फ़ंक्शन और प्रोसेस के बीच निर्भरताओं को कैप्चर करते हैं। निष्कर्षण लक्ष्य और प्राथमिकताओं के आधार पर, सॉफ्टवेयर सिस्टम को विभिन्न प्रकार के ग्राफ़ के रूप में प्रदर्शित किया जा सकता है। उदाहरण के लिए, फ़ंक्शन कॉल ग्राफ़ (FCG) फ़ंक्शन के बीच संबंधों को उजागर करता है, जबकि प्रोसेस इंटरैक्शन ग्राफ़ (PCG) रनटाइम व्यवहार और प्रोसेस के बीच संचार पर ध्यान केंद्रित करता है। यद्यपि ये ग्राफ़ प्रतिनिधित्व संबंधित हैं, प्रत्येक सिस्टम के विभिन्न दृष्टिकोण को कैप्चर करता है और पूरक अंतर्दृष्टि प्रदान करता है। पूर्व अनुसंधान मुख्य रूप से एकल ग्राफ़ प्रतिनिधित्व पर केंद्रित है, FCG और PCG के संयुक्त मॉडलिंग का कार्य अपेक्षाकृत कम है। यह पेपर GeminiNet प्रस्तावित करता है, एक एकीकृत तंत्रिका नेटवर्क विधि जो FCG और PCG के संयुक्त एम्बेडिंग सीखता है। 635 Windows निष्पादन योग्य फ़ाइलों के डेटासेट पर प्रयोग दर्शाते हैं कि संयुक्त एम्बेडिंग एकल-ग्राफ़ मॉडल से काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मैलवेयर डिटेक्शन साइबर सुरक्षा क्षेत्र की मूल चुनौती है। पारंपरिक विधियां मुख्य रूप से विश्लेषण के लिए सॉफ्टवेयर प्रतिनिधित्व के एकल प्रकार पर निर्भर करती हैं, या तो स्थिर विश्लेषण (जैसे फ़ंक्शन कॉल ग्राफ़) या गतिशील विश्लेषण (जैसे प्रोसेस इंटरैक्शन ग्राफ़) का उपयोग करती हैं, लेकिन दोनों को शायद ही कभी जोड़ती हैं।

अनुसंधान का महत्व

  1. बहु-दृष्टिकोण विश्लेषण की आवश्यकता: सॉफ्टवेयर सिस्टम जटिल हैं, एकल दृष्टिकोण महत्वपूर्ण जानकारी को याद कर सकता है
  2. प्रतिकूल दृढ़ता: एकल मोडेलिटी पर निर्भरता प्रतिकूल हमलों के लिए असुरक्षित है, बहु-मोडेलिटी संलयन दृढ़ता में सुधार कर सकता है
  3. पूरक जानकारी: स्थिर FCG नियंत्रण प्रवाह संरचना को कैप्चर करता है, गतिशील PCG निष्पादन प्रक्षेपवक्र को प्रतिबिंबित करता है, दोनों पूरक हैं

मौजूदा विधियों की सीमाएं

  1. एकल ग्राफ़ प्रतिनिधित्व: अधिकांश अनुसंधान केवल FCG या PCG में से एक का उपयोग करते हैं
  2. अधूरी जानकारी: स्थिर विश्लेषण रनटाइम व्यवहार को कैप्चर नहीं कर सकता, गतिशील विश्लेषण अनिष्पादित कोड पथ को याद कर सकता है
  3. सरल संलयन विधि: मौजूदा बहु-मोडेलिटी विधियां मुख्य रूप से सरल संयोजन का उपयोग करती हैं, स्व-अनुकूली भार तंत्र की कमी है

अनुसंधान प्रेरणा

यह पेपर FCG और PCG के एम्बेडिंग प्रतिनिधित्व को संयुक्त रूप से सीखकर एक अधिक व्यापक, दृढ़ मैलवेयर डिटेक्शन सिस्टम बनाने का लक्ष्य रखता है, एकल मोडेलिटी की सीमाओं को दूर करता है।

मूल योगदान

  1. GeminiNet आर्किटेक्चर प्रस्तावित करना: दोहरी-शाखा ग्राफ़ कनवोल्यूशनल नेटवर्क डिज़ाइन किया गया जो FCG और PCG को अलग से संभालता है और स्व-अनुकूली गेटिंग तंत्र के माध्यम से एम्बेडिंग को संलयित करता है
  2. बहु-मोडेलिटी डेटासेट का निर्माण: 635 Windows निष्पादन योग्य फ़ाइलों वाला डेटासेट बनाया गया जो FCG और PCG दोनों को निकालता है
  3. संयुक्त नोड विशेषताएं डिज़ाइन करना: स्थानीय डिग्री वितरण (LDP) और Shannon एंट्रॉपी को जोड़ता है, संरचनात्मक और सांख्यिकीय जानकारी प्रदान करता है
  4. संलयन लाभ को सत्यापित करना: व्यापक प्रयोगों के माध्यम से संयुक्त एम्बेडिंग को एकल-ग्राफ़ मॉडल और सरल मिश्रण विधियों से बेहतर साबित करता है

विधि विवरण

कार्य परिभाषा

Windows निष्पादन योग्य फ़ाइल दी गई है, इसके फ़ंक्शन कॉल ग्राफ़ G₁=(V₁,E₁) और प्रोसेस कॉल ग्राफ़ G₂=(V₂,E₂) को निकालें, द्विआधारी वर्गीकरण (दुर्भावनापूर्ण/सौम्य) के लिए संयुक्त एम्बेडिंग प्रतिनिधित्व सीखें।

डेटासेट निर्माण

फ़ंक्शन कॉल ग्राफ़ (FCG)

  • उपकरण: Ghidra रिवर्स इंजीनियरिंग फ्रेमवर्क का उपयोग
  • प्रतिनिधित्व: नोड फ़ंक्शन का प्रतिनिधित्व करते हैं, निर्देशित किनारे फ़ंक्शन कॉल संबंध का प्रतिनिधित्व करते हैं
  • पैमाना: 635 निष्पादन योग्य फ़ाइलें, कुल 449,960 नोड और 1,048,741 किनारे
  • पूर्व-प्रसंस्करण: फ़ंक्शन नाम को संख्यात्मक पहचानकर्ताओं से बदला गया

प्रोसेस कॉल ग्राफ़ (PCG)

  • उपकरण: Any.Run मैलवेयर सैंडबॉक्स का उपयोग
  • निष्पादन समय: 60 सेकंड (Küchler आदि के अनुसंधान के आधार पर, 98% कोड कवरेज)
  • प्रतिनिधित्व: नोड प्रोसेस का प्रतिनिधित्व करते हैं, निर्देशित किनारे प्रोसेस के बीच संचार या निर्माण संबंध का प्रतिनिधित्व करते हैं
  • पैमाना: 3,053 नोड और 2,663 किनारे

नोड विशेषता डिज़ाइन

स्थानीय डिग्री वितरण (LDP)

प्रत्येक नोड के लिए 5-आयामी विशेषता वेक्टर की गणना करें:

  • नोड की स्वयं की डिग्री
  • पड़ोसी नोड्स की डिग्री का न्यूनतम, अधिकतम, माध्य, मानक विचलन

Shannon एंट्रॉपी

फ़ाइल-स्तर की जानकारी एंट्रॉपी की गणना करें: H(X) = -∑ᵢ pᵢ log₂ pᵢ

जहां pᵢ बाइट i की संभावना है। उच्च एंट्रॉपी मजबूत यादृच्छिकता को इंगित करता है (संभवतः मैलवेयर), कम एंट्रॉपी उच्च अतिरेक को इंगित करता है (संभवतः सौम्य सॉफ्टवेयर)।

संयुक्त विशेषता (LDP+Entropy)

LDP और Shannon एंट्रॉपी को संयोजित करें, 6-आयामी विशेषता वेक्टर बनाएं, स्थानीय संरचना और वैश्विक सांख्यिकीय जानकारी को संलयित करें।

GeminiNet आर्किटेक्चर

दोहरी-शाखा डिज़ाइन

शाखा 1: FCG → GCN₁ → वैश्विक पूलिंग → g₁
शाखा 2: PCG → GCN₂ → वैश्विक पूलिंग → g₂

स्व-अनुकूली गेटिंग तंत्र

प्रशिक्षणीय गेटिंग वेक्टर का परिचय दें: α = softmax(w)

जहां w प्रशिक्षणीय पैरामीटर है। अंतिम संयुक्त एम्बेडिंग है: g = α₁g₁ + α₂g₂

α₁ + α₂ = 1 और αᵢ ≥ 0 की बाधा को संतुष्ट करता है।

वर्गीकरण परत

संयुक्त एम्बेडिंग पूरी तरह से जुड़ी परत और ReLU सक्रियण के माध्यम से: ŷ = softmax(MLP(g))

तकनीकी नवाचार बिंदु

  1. स्व-अनुकूली भार संलयन: स्थिर संयोजन या औसत की तुलना में, गेटिंग तंत्र नमूने के अनुसार प्रत्येक मोडेलिटी के योगदान को अनुकूलित कर सकता है
  2. बहु-दानेदार विशेषताएं: स्थानीय टोपोलॉजी (LDP) और वैश्विक सांख्यिकी (एंट्रॉपी) जानकारी को जोड़ता है
  3. अंत-से-अंत सीखना: संपूर्ण आर्किटेक्चर अंत-से-अंत प्रशिक्षण योग्य है, गेटिंग भार स्वचालित रूप से अनुकूलित होते हैं
  4. आर्किटेक्चर लचीलापन: शाखाओं को बंद करके एकल-ग्राफ़ मॉडल में कम किया जा सकता है

प्रयोगात्मक सेटअप

डेटासेट

  • पैमाना: 635 Windows PE फ़ाइलें (318 दुर्भावनापूर्ण, 317 सौम्य)
  • स्रोत: मैलवेयर नमूने और सौम्य सॉफ्टवेयर नमूने
  • विभाजन: 5-गुना क्रॉस-सत्यापन

मूल्यांकन मेट्रिक्स

  • मुख्य मेट्रिक: F1 स्कोर (सटीकता और रिकॉल को संतुलित करता है)
  • सांख्यिकीय मेट्रिक्स: माध्य, मानक विचलन, न्यूनतम, माध्यिका, अधिकतम

तुलना विधियां

  1. एकल-ग्राफ़ मॉडल: केवल FCG या PCG का उपयोग
  2. मिश्रित ग्राफ़ मॉडल: FCG और PCG किनारे सूचियों को एकल ग्राफ़ में मिलाएं
  3. विभिन्न GNN आर्किटेक्चर: GCN, SGC, GIN, GraphSAGE, MLP

कार्यान्वयन विवरण

  • सत्यापन विधि: 5-गुना क्रॉस-सत्यापन
  • सीखने की दर शेड्यूलिंग: OneCycleLR, ReduceLROnPlateau
  • नियमितीकरण: Dropout
  • आर्किटेक्चर पैरामीटर: 4-6 परत GCN, 2-6 परत पूरी तरह से जुड़ी, 32-64 छिपी आयाम

प्रायोगिक परिणाम

मुख्य परिणाम

सर्वोत्तम कॉन्फ़िगरेशन प्रदर्शन

तालिका 1 के अनुसार, सर्वोत्तम कॉन्फ़िगरेशन प्राप्त करता है:

  • औसत F1 स्कोर: 0.85 (मानक विचलन 0.06-0.09)
  • उच्चतम F1 स्कोर: 0.94
  • सर्वोत्तम विशेषता: LDP+Entropy
  • सर्वोत्तम आर्किटेक्चर: SGC और GCN भारित योग संलयन के साथ

विभिन्न कॉन्फ़िगरेशन तुलना

  1. संयुक्त एम्बेडिंग (both_wsum): F1=0.85, माध्यिका≈0.87
  2. एकल PCG मॉडल: F1=0.81-0.83, माध्यिका≈0.82
  3. मिश्रित ग्राफ़ (both_merged): F1=0.72-0.73, माध्यिका≈0.72
  4. एकल FCG मॉडल: F1=0.68-0.72, माध्यिका≈0.67

विलोपन प्रयोग

ग्राफ़ प्रकार विलोपन

Kruskal-Wallis परीक्षण (p=3.86×10⁻⁷⁶) इंगित करता है कि विभिन्न कॉन्फ़िगरेशन के बीच महत्वपूर्ण अंतर हैं:

  • both_wsum > single_pcg > both_merged > single_fcg
  • सभी जोड़ीदार तुलनाएं महत्वपूर्ण हैं (Bonferroni सुधार के बाद)

विशेषता प्रकार विलोपन

Kruskal-Wallis परीक्षण (p=2.57×10⁻³³) विशेषता महत्व दिखाता है:

  • LDP+Entropy (माध्यिका≈0.85) > LDP (≈0.82) > Entropy (≈0.77)
  • संयुक्त विशेषता एकल विशेषता से काफी बेहतर है

सांख्यिकीय महत्व विश्लेषण

Dunn परीक्षण के माध्यम से सत्यापित:

  1. भारित योग संलयन किनारे मिश्रण विधि से काफी बेहतर है
  2. PCG का अकेले उपयोग FCG के अकेले उपयोग से बेहतर है
  3. संयुक्त विशेषता प्रदर्शन में काफी सुधार करती है

प्रायोगिक निष्कर्ष

  1. मोडेलिटी पूरकता: FCG और PCG पूरक जानकारी प्रदान करते हैं, संयुक्त उपयोग सर्वोत्तम परिणाम देता है
  2. संलयन विधि महत्व: स्व-अनुकूली भारित योग सरल किनारे मिश्रण से बेहतर है
  3. विशेषता संयोजन प्रभाव: संरचनात्मक विशेषता (LDP) और सांख्यिकीय विशेषता (एंट्रॉपी) का संयोजन सहक्रिया प्रभाव पैदा करता है
  4. आर्किटेक्चर दृढ़ता: कई GNN आर्किटेक्चर संयुक्त एम्बेडिंग डिज़ाइन से लाभान्वित हो सकते हैं

संबंधित कार्य

एकल-ग्राफ़ मैलवेयर डिटेक्शन

  1. FCG विधियां: Freitas & Dong, Chen आदि फ़ंक्शन कॉल ग्राफ़ का उपयोग करते हैं
  2. API कॉल ग्राफ़: Gao आदि, Hou आदि API कॉल अनुक्रम का उपयोग करते हैं
  3. नियंत्रण प्रवाह ग्राफ़: Peng आदि, Yan आदि नियंत्रण प्रवाह संरचना का विश्लेषण करते हैं
  4. नेटवर्क प्रवाह ग्राफ़: Busch आदि नेटवर्क प्रवाह जानकारी का उपयोग करते हैं

ग्राफ़ तंत्रिका नेटवर्क अनुप्रयोग

  • अधिकांश कार्य एकल ग्राफ़ प्रतिनिधित्व पर केंद्रित हैं
  • बहु-मोडेलिटी ग्राफ़ संलयन का व्यवस्थित अनुसंधान की कमी है
  • यह पेपर स्थिर-गतिशील संयुक्त विश्लेषण के अंतराल को भरता है

बहु-मोडेलिटी सीखना

मौजूदा विधियां मुख्य रूप से सरल संयोजन या औसत का उपयोग करती हैं, स्व-अनुकूली भार तंत्र की कमी है, यह पेपर का गेटिंग संलयन अधिक लचीला समाधान प्रदान करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. संयुक्त एम्बेडिंग लाभ: FCG और PCG का संयुक्त सीखना एकल मोडेलिटी से काफी बेहतर है
  2. संलयन तंत्र महत्व: स्व-अनुकूली गेटिंग तंत्र सरल मिश्रण रणनीति से बेहतर है
  3. विशेषता इंजीनियरिंग मूल्य: संरचनात्मक विशेषता और सांख्यिकीय विशेषता का संयोजन विभेदक क्षमता में सुधार करता है
  4. विधि सामान्यता: कमजोरी डिटेक्शन, बाइनरी समानता डिटेक्शन आदि कार्यों तक विस्तारित किया जा सकता है

सीमाएं

  1. डेटासेट पैमाना: 635 नमूने अपेक्षाकृत छोटे हैं, सामान्यीकरण क्षमता को प्रभावित कर सकते हैं
  2. निष्पादन समय सीमा: 60 सेकंड सैंडबॉक्स निष्पादन सभी दुर्भावनापूर्ण व्यवहार को कैप्चर नहीं कर सकता है
  3. विशेषता इंजीनियरिंग: हाथ से डिज़ाइन की गई LDP और एंट्रॉपी विशेषताओं पर निर्भर है
  4. कम्प्यूटेशनल जटिलता: दोहरी-शाखा आर्किटेक्चर कम्प्यूटेशनल ओवरहेड बढ़ाता है

भविष्य की दिशाएं

  1. पैमाना विस्तार: बड़े डेटासेट पर विधि की प्रभावशीलता को सत्यापित करें
  2. व्याख्यात्मकता: मॉडल निर्णय प्रक्रिया को समझने के लिए व्याख्या तकनीकें विकसित करें
  3. प्रतिकूल दृढ़ता: प्रतिकूल नमूनों के सामने दृढ़ता का मूल्यांकन करें
  4. स्वचालित विशेषता सीखना: हाथ से डिज़ाइन की गई विशेषताओं पर निर्भरता कम करें

गहन मूल्यांकन

शक्तियां

  1. मजबूत नवाचार: पहली बार FCG और PCG को मैलवेयर डिटेक्शन के लिए व्यवस्थित रूप से संयुक्त करता है
  2. तर्कसंगत विधि: दोहरी-शाखा आर्किटेक्चर डिज़ाइन तर्कसंगत है, गेटिंग तंत्र में सैद्धांतिक समर्थन है
  3. व्यापक प्रयोग: 5-गुना क्रॉस-सत्यापन, कई आर्किटेक्चर तुलना, सांख्यिकीय महत्व परीक्षण
  4. मजबूत परिणाम विश्वसनीयता: सुसंगत परिणाम विधि की प्रभावशीलता और स्थिरता को इंगित करते हैं

कमियां

  1. डेटासेट सीमाएं: केवल Windows PE फ़ाइलों तक सीमित, नमूना आकार अपेक्षाकृत छोटा है
  2. अपर्याप्त बेसलाइन तुलना: नवीनतम मैलवेयर डिटेक्शन विधियों के साथ तुलना की कमी है
  3. कम्प्यूटेशनल ओवरहेड विश्लेषण: दोहरी-शाखा आर्किटेक्चर की कम्प्यूटेशनल जटिलता का विस्तृत विश्लेषण नहीं
  4. हाइपरपैरामीटर संवेदनशीलता: गेटिंग तंत्र की हाइपरपैरामीटर संवेदनशीलता का अपर्याप्त विश्लेषण

प्रभाव

  1. शैक्षणिक योगदान: सुरक्षा क्षेत्र में बहु-मोडेलिटी ग्राफ़ सीखने के अनुप्रयोग के लिए नई सोच प्रदान करता है
  2. व्यावहारिक मूल्य: मैलवेयर डिटेक्शन सिस्टम में सीधे लागू किया जा सकता है
  3. पुनरुत्पादनशीलता: विधि विवरण स्पष्ट है, प्रयोगात्मक सेटअप विस्तृत है
  4. विस्तारशीलता: फ्रेमवर्क अन्य सॉफ्टवेयर विश्लेषण कार्यों तक विस्तारित किया जा सकता है

लागू परिस्थितियां

  1. मैलवेयर डिटेक्शन: एंटरप्राइज सुरक्षा उत्पाद, एंटीवायरस सॉफ्टवेयर
  2. सॉफ्टवेयर विश्लेषण: कमजोरी डिटेक्शन, कोड समानता विश्लेषण
  3. अनुसंधान मंच: बहु-मोडेलिटी ग्राफ़ सीखने के लिए परीक्षण मंच
  4. शैक्षणिक अनुप्रयोग: सुरक्षा क्षेत्र में ग्राफ़ तंत्रिका नेटवर्क की शिक्षण केस स्टडी

संदर्भ

पेपर 18 संबंधित संदर्भों का हवाला देता है, जिसमें शामिल हैं:

  • ग्राफ़ प्रतिनिधित्व सीखने की मूल विधियां
  • मैलवेयर डिटेक्शन संबंधित कार्य
  • ग्राफ़ तंत्रिका नेटवर्क आर्किटेक्चर (GCN, GIN, GraphSAGE, SGC)
  • सॉफ्टवेयर विश्लेषण उपकरण और मंच

मुख्य संदर्भ साहित्य में Xu आदि की GIN आर्किटेक्चर, Wu आदि की SGC सरलीकरण विधि, और मैलवेयर डिटेक्शन के कई संबंधित कार्य शामिल हैं, जो इस पेपर के लिए ठोस सैद्धांतिक आधार और तुलना बेंचमार्क प्रदान करते हैं।