2025-11-12T22:58:10.887954

Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection

Aneja, Aneja, Kantarcioglu
Software systems can be represented as graphs, capturing dependencies among functions and processes. An interesting aspect of software systems is that they can be represented as different types of graphs, depending on the extraction goals and priorities. For example, function calls within the software can be captured to create function call graphs, which highlight the relationships between functions and their dependencies. Alternatively, the processes spawned by the software can be modeled to generate process interaction graphs, which focus on runtime behavior and inter-process communication. While these graph representations are related, each captures a distinct perspective of the system, providing complementary insights into its structure and operation. While previous studies have leveraged graph neural networks (GNNs) to analyze software behaviors, most of this work has focused on a single type of graph representation. The joint modeling of both function call graphs and process interaction graphs remains largely underexplored, leaving opportunities for deeper, multi-perspective analysis of software systems. This paper presents a pipeline for constructing and training Function Call Graphs (FCGs) and Process Call Graphs (PCGs) and learning joint embeddings. We demonstrate that joint embeddings outperform a single-graph model. In this paper, we propose GeminiNet, a unified neural network approach that learns joint embeddings from both FCGs and PCGs. We construct a new dataset of 635 Windows executables (318 malicious and 317 benign), extracting FCGs via Ghidra and PCGs via Any.Run sandbox. GeminiNet employs dual graph convolutional branches with an adaptive gating mechanism that balances contributions from static and dynamic views.
academic

Apprendimento di Embedding Congiunti di Grafi di Chiamate di Funzioni e Processi per il Rilevamento di Malware

Informazioni Fondamentali

  • ID Articolo: 2510.09984
  • Titolo: Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection
  • Autori: Kartikeya Aneja (University of Wisconsin-Madison), Nagender Aneja (Virginia Tech), Murat Kantarcioglu (Virginia Tech)
  • Classificazione: cs.LG (Apprendimento Automatico), cs.CR (Crittografia e Sicurezza)
  • Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: New Perspectives in Advancing Graph Machine Learning
  • Link Articolo: https://arxiv.org/abs/2510.09984

Riassunto

I sistemi software possono essere rappresentati come strutture grafiche che catturano le dipendenze tra funzioni e processi. A seconda degli obiettivi di estrazione e delle priorità, i sistemi software possono essere rappresentati come diversi tipi di grafi. Ad esempio, il grafo di chiamate di funzioni (FCG) evidenzia le relazioni tra funzioni, mentre il grafo di interazione tra processi (PCG) si concentra sul comportamento a runtime e sulla comunicazione tra processi. Sebbene queste rappresentazioni grafiche siano correlate, ciascuna cattura prospettive diverse del sistema, fornendo intuizioni complementari. La ricerca precedente si è principalmente concentrata su rappresentazioni grafiche singole, con relativamente pochi lavori che affrontano la modellazione congiunta di FCG e PCG. Questo articolo propone GeminiNet, un approccio di rete neurale unificato che apprende gli embedding congiunti di FCG e PCG. Gli esperimenti su un dataset di 635 file eseguibili Windows dimostrano che gli embedding congiunti superano significativamente i modelli a grafo singolo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento di malware è una sfida centrale nel campo della sicurezza informatica. I metodi tradizionali si basano principalmente su rappresentazioni software singole per l'analisi, utilizzando o l'analisi statica (come i grafi di chiamate di funzioni) oppure l'analisi dinamica (come i grafi di interazione tra processi), ma raramente combinano i due approcci.

Importanza della Ricerca

  1. Necessità di Analisi Multi-Prospettiva: I sistemi software hanno una complessità intrinseca; una singola prospettiva può facilmente tralasciare informazioni importanti
  2. Robustezza Avversariale: La dipendenza da una singola modalità è vulnerabile agli attacchi avversariali; la fusione multi-modale può aumentare la robustezza
  3. Informazioni Complementari: L'FCG statico cattura la struttura del flusso di controllo, mentre il PCG dinamico riflette le traiettorie di esecuzione; i due sono complementari

Limitazioni dei Metodi Esistenti

  1. Rappresentazione Grafica Singola: La maggior parte della ricerca utilizza solo uno tra FCG o PCG
  2. Informazioni Incomplete: L'analisi statica non può catturare il comportamento a runtime; l'analisi dinamica potrebbe tralasciare i percorsi di codice non eseguiti
  3. Metodi di Fusione Semplici: I metodi multi-modali esistenti adottano principalmente concatenazione semplice, mancando di meccanismi di ponderazione adattivi

Motivazione della Ricerca

Questo articolo mira a costruire un sistema di rilevamento di malware più completo e robusto attraverso l'apprendimento congiunto delle rappresentazioni di embedding di FCG e PCG, superando le limitazioni delle modalità singole.

Contributi Fondamentali

  1. Proposta dell'Architettura GeminiNet: Progettazione di una rete di convoluzione grafica a doppio ramo che elabora separatamente FCG e PCG, fondendo gli embedding attraverso un meccanismo di gate adattivo
  2. Costruzione di Dataset Multi-Modale: Creazione di un dataset contenente 635 file eseguibili Windows con estrazione simultanea di FCG e PCG
  3. Progettazione di Caratteristiche di Nodi Congiunti: Combinazione della distribuzione di grado locale (LDP) e dell'entropia di Shannon, fornendo informazioni strutturali e statistiche
  4. Verifica dei Vantaggi della Fusione: Dimostrazione attraverso ampi esperimenti che gli embedding congiunti superano significativamente i modelli a grafo singolo e i metodi di semplice fusione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un file eseguibile Windows, estrarre il suo grafo di chiamate di funzioni G₁=(V₁,E₁) e il grafo di chiamate di processi G₂=(V₂,E₂), apprendere una rappresentazione di embedding congiunta per la classificazione binaria (malevolo/benigno).

Costruzione del Dataset

Grafo di Chiamate di Funzioni (FCG)

  • Strumento: Framework di ingegneria inversa Ghidra
  • Rappresentazione: I nodi rappresentano funzioni; gli archi diretti rappresentano relazioni di chiamate di funzioni
  • Scala: 635 file eseguibili, complessivamente 449.960 nodi e 1.048.741 archi
  • Pre-elaborazione: I nomi delle funzioni sono sostituiti da identificatori numerici

Grafo di Chiamate di Processi (PCG)

  • Strumento: Sandbox di malware Any.Run
  • Tempo di Esecuzione: 60 secondi (basato sulla ricerca di Küchler et al., copertura del codice del 98%)
  • Rappresentazione: I nodi rappresentano processi; gli archi diretti rappresentano comunicazione tra processi o relazioni di creazione
  • Scala: 3.053 nodi e 2.663 archi

Progettazione delle Caratteristiche dei Nodi

Distribuzione di Grado Locale (LDP)

Calcolo di un vettore di caratteristiche a 5 dimensioni per ogni nodo:

  • Grado del nodo stesso
  • Valore minimo, massimo, media e deviazione standard del grado dei nodi vicini

Entropia di Shannon

Calcolo dell'entropia informativa a livello di file: H(X) = -∑ᵢ pᵢ log₂ pᵢ

dove pᵢ è la probabilità del byte i. Un'entropia elevata indica forte casualità (possibile malware), mentre un'entropia bassa indica alta ridondanza (possibile software benigno).

Caratteristiche Combinate (LDP+Entropy)

Concatenazione di LDP e entropia di Shannon, formando un vettore di caratteristiche a 6 dimensioni che fonde informazioni strutturali locali e informazioni statistiche globali.

Architettura GeminiNet

Progettazione a Doppio Ramo

Ramo 1: FCG → GCN₁ → Pool Globale → g₁
Ramo 2: PCG → GCN₂ → Pool Globale → g₂

Meccanismo di Gate Adattivo

Introduzione di un vettore di gate apprendibile: α = softmax(w)

dove w è un parametro addestrabile. L'embedding congiunto finale è: g = α₁g₁ + α₂g₂

soggetto ai vincoli α₁ + α₂ = 1 e αᵢ ≥ 0.

Strato di Classificazione

L'embedding congiunto passa attraverso uno strato completamente connesso e attivazione ReLU: ŷ = softmax(MLP(g))

Punti di Innovazione Tecnica

  1. Fusione di Pesi Adattivi: Rispetto alla concatenazione statica o alla media, il meccanismo di gate può regolare adattivamente il contributo di ciascuna modalità in base al campione
  2. Caratteristiche Multi-Granularità: Combinazione di informazioni topologiche locali (LDP) e informazioni statistiche globali (entropia)
  3. Apprendimento End-to-End: L'intera architettura può essere addestrata end-to-end, con i pesi del gate ottimizzati automaticamente
  4. Flessibilità Architettonica: Può degradarsi a modello a grafo singolo disattivando i rami

Configurazione Sperimentale

Dataset

  • Scala: 635 file PE Windows (318 malevoli, 317 benigni)
  • Fonte: Campioni di malware e campioni di software benigno
  • Divisione: Convalida incrociata a 5 fold

Metriche di Valutazione

  • Metrica Principale: Punteggio F1 (bilancia precisione e richiamo)
  • Metriche Statistiche: Media, deviazione standard, valore minimo, mediana, valore massimo

Metodi di Confronto

  1. Modelli a Grafo Singolo: Utilizzo solo di FCG o PCG
  2. Modello a Grafo Unito: Fusione delle liste di archi di FCG e PCG in un grafo singolo
  3. Diverse Architetture GNN: GCN, SGC, GIN, GraphSAGE, MLP

Dettagli di Implementazione

  • Metodo di Convalida: Convalida incrociata a 5 fold
  • Pianificazione del Tasso di Apprendimento: OneCycleLR, ReduceLROnPlateau
  • Regolarizzazione: Dropout
  • Parametri Architettonici: GCN a 4-6 strati, strati completamente connessi a 2-6, dimensione nascosta 32-64

Risultati Sperimentali

Risultati Principali

Prestazioni della Configurazione Ottimale

Secondo la Tabella 1, la configurazione ottimale raggiunge:

  • Punteggio F1 Medio: 0,85 (deviazione standard 0,06-0,09)
  • Punteggio F1 Massimo: 0,94
  • Caratteristiche Ottimali: LDP+Entropy
  • Architettura Ottimale: SGC e GCN con fusione a somma ponderata

Confronto di Diverse Configurazioni

  1. Embedding Congiunto (both_wsum): F1=0,85, mediana≈0,87
  2. Modello PCG Singolo: F1=0,81-0,83, mediana≈0,82
  3. Grafo Unito (both_merged): F1=0,72-0,73, mediana≈0,72
  4. Modello FCG Singolo: F1=0,68-0,72, mediana≈0,67

Esperimenti di Ablazione

Ablazione del Tipo di Grafo

Il test di Kruskal-Wallis (p=3,86×10⁻⁷⁶) indica differenze significative tra diverse configurazioni:

  • both_wsum > single_pcg > both_merged > single_fcg
  • Tutti i confronti pairwise sono significativi (dopo correzione di Bonferroni)

Ablazione del Tipo di Caratteristica

Il test di Kruskal-Wallis (p=2,57×10⁻³³) mostra l'importanza delle caratteristiche:

  • LDP+Entropy (mediana≈0,85) > LDP (≈0,82) > Entropy (≈0,77)
  • Le caratteristiche combinate superano significativamente le caratteristiche singole

Analisi della Significatività Statistica

Verificata attraverso il test di Dunn:

  1. La fusione a somma ponderata è significativamente superiore al metodo di fusione di archi
  2. L'uso singolo di PCG è superiore all'uso singolo di FCG
  3. Le caratteristiche congiunte migliorano significativamente le prestazioni

Scoperte Sperimentali

  1. Complementarità Modale: FCG e PCG forniscono informazioni complementari; l'uso congiunto produce i migliori risultati
  2. Importanza del Metodo di Fusione: La somma ponderata adattiva è superiore alla semplice fusione di archi
  3. Effetto di Combinazione di Caratteristiche: La combinazione di caratteristiche strutturali (LDP) e caratteristiche statistiche (entropia) produce effetti sinergici
  4. Robustezza Architettonica: Molteplici architetture GNN traggono beneficio dalla progettazione di embedding congiunto

Lavori Correlati

Rilevamento di Malware a Grafo Singolo

  1. Metodi FCG: Freitas & Dong, Chen et al. utilizzano grafi di chiamate di funzioni
  2. Grafi di Chiamate API: Gao et al., Hou et al. utilizzano sequenze di chiamate API
  3. Grafi di Flusso di Controllo: Peng et al., Yan et al. analizzano strutture di flusso di controllo
  4. Grafi di Flusso di Rete: Busch et al. utilizzano informazioni di flusso di rete

Applicazioni di Reti Neurali Grafiche

  • La maggior parte dei lavori si concentra su rappresentazioni grafiche singole
  • Mancanza di ricerca sistematica sulla fusione di grafi multi-modali
  • Questo articolo colma il vuoto nell'analisi congiunta statica-dinamica

Apprendimento Multi-Modale

I metodi esistenti adottano principalmente concatenazione semplice o media, mancando di meccanismi di ponderazione adattivi; la fusione con gate di questo articolo fornisce una soluzione più flessibile.

Conclusioni e Discussione

Conclusioni Principali

  1. Vantaggi dell'Embedding Congiunto: L'apprendimento congiunto di FCG e PCG supera significativamente la modalità singola
  2. Importanza del Meccanismo di Fusione: Il meccanismo di gate adattivo è superiore alle strategie di semplice fusione
  3. Valore dell'Ingegneria delle Caratteristiche: La combinazione di caratteristiche strutturali e statistiche migliora la capacità discriminativa
  4. Generalità del Metodo: Estendibile a compiti di rilevamento di vulnerabilità, rilevamento di similarità binaria, ecc.

Limitazioni

  1. Scala del Dataset: 635 campioni sono relativamente piccoli e potrebbero influenzare la capacità di generalizzazione
  2. Limitazione del Tempo di Esecuzione: L'esecuzione in sandbox di 60 secondi potrebbe non catturare tutti i comportamenti malevoli
  3. Ingegneria delle Caratteristiche: Dipendenza da caratteristiche LDP e entropia progettate manualmente
  4. Complessità Computazionale: L'architettura a doppio ramo aumenta il sovraccarico computazionale

Direzioni Future

  1. Espansione di Scala: Validazione dell'efficacia del metodo su dataset più grandi
  2. Interpretabilità: Sviluppo di tecniche di interpretazione per comprendere i processi decisionali del modello
  3. Robustezza Avversariale: Valutazione della robustezza di fronte a campioni avversariali
  4. Apprendimento Automatico di Caratteristiche: Riduzione della dipendenza da caratteristiche progettate manualmente

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo approccio sistematico che unisce FCG e PCG per il rilevamento di malware
  2. Metodo Ragionevole: La progettazione dell'architettura a doppio ramo è ragionevole; il meccanismo di gate ha supporto teorico
  3. Esperimenti Completi: Convalida incrociata a 5 fold, confronto di molteplici architetture, test di significatività statistica
  4. Forte Potere Persuasivo dei Risultati: I risultati coerenti indicano l'efficacia e la stabilità del metodo

Insufficienze

  1. Limitazioni del Dataset: Limitato ai file PE Windows; la dimensione del campione è relativamente piccola
  2. Confronti di Base Insufficienti: Mancanza di confronto con i metodi più recenti di rilevamento di malware
  3. Analisi del Sovraccarico Computazionale: Mancanza di analisi dettagliata della complessità computazionale dell'architettura a doppio ramo
  4. Sensibilità agli Iperparametri: Analisi insufficiente della sensibilità del meccanismo di gate agli iperparametri

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive per l'applicazione dell'apprendimento di grafi multi-modali nel campo della sicurezza
  2. Valore Pratico: Può essere direttamente applicato ai sistemi di rilevamento di malware
  3. Riproducibilità: La descrizione del metodo è chiara; la configurazione sperimentale è dettagliata
  4. Estensibilità: Il framework è estendibile ad altri compiti di analisi software

Scenari Applicabili

  1. Rilevamento di Malware: Prodotti di sicurezza aziendale, software antivirus
  2. Analisi Software: Rilevamento di vulnerabilità, analisi di similarità di codice
  3. Piattaforma di Ricerca: Piattaforma di test per l'apprendimento di grafi multi-modali
  4. Applicazioni Educative: Caso di studio didattico per reti neurali grafiche nel campo della sicurezza

Bibliografia

L'articolo cita 18 riferimenti correlati, che coprono:

  • Metodi fondamentali di apprendimento di rappresentazioni grafiche
  • Lavori correlati al rilevamento di malware
  • Architetture di reti neurali grafiche (GCN, GIN, GraphSAGE, SGC)
  • Strumenti e piattaforme di analisi software

I riferimenti chiave includono l'architettura GIN di Xu et al., il metodo SGC semplificato di Wu et al., e molteplici lavori correlati al rilevamento di malware, fornendo una base teorica solida e benchmark di confronto per questo articolo.