2025-11-12T22:58:10.887954

Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection

Aneja, Aneja, Kantarcioglu

Software systems can be represented as graphs, capturing dependencies among functions and processes. An interesting aspect of software systems is that they can be represented as different types of graphs, depending on the extraction goals and priorities. For example, function calls within the software can be captured to create function call graphs, which highlight the relationships between functions and their dependencies. Alternatively, the processes spawned by the software can be modeled to generate process interaction graphs, which focus on runtime behavior and inter-process communication. While these graph representations are related, each captures a distinct perspective of the system, providing complementary insights into its structure and operation. While previous studies have leveraged graph neural networks (GNNs) to analyze software behaviors, most of this work has focused on a single type of graph representation. The joint modeling of both function call graphs and process interaction graphs remains largely underexplored, leaving opportunities for deeper, multi-perspective analysis of software systems. This paper presents a pipeline for constructing and training Function Call Graphs (FCGs) and Process Call Graphs (PCGs) and learning joint embeddings. We demonstrate that joint embeddings outperform a single-graph model. In this paper, we propose GeminiNet, a unified neural network approach that learns joint embeddings from both FCGs and PCGs. We construct a new dataset of 635 Windows executables (318 malicious and 317 benign), extracting FCGs via Ghidra and PCGs via Any.Run sandbox. GeminiNet employs dual graph convolutional branches with an adaptive gating mechanism that balances contributions from static and dynamic views.

academic

Apprendimento di Embedding Congiunti di Grafi di Chiamate di Funzioni e Processi per il Rilevamento di Malware

Informazioni Fondamentali

ID Articolo: 2510.09984
Titolo: Learning Joint Embeddings of Function and Process Call Graphs for Malware Detection
Autori: Kartikeya Aneja (University of Wisconsin-Madison), Nagender Aneja (Virginia Tech), Murat Kantarcioglu (Virginia Tech)
Classificazione: cs.LG (Apprendimento Automatico), cs.CR (Crittografia e Sicurezza)
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: New Perspectives in Advancing Graph Machine Learning
Link Articolo: https://arxiv.org/abs/2510.09984

Riassunto

I sistemi software possono essere rappresentati come strutture grafiche che catturano le dipendenze tra funzioni e processi. A seconda degli obiettivi di estrazione e delle priorità, i sistemi software possono essere rappresentati come diversi tipi di grafi. Ad esempio, il grafo di chiamate di funzioni (FCG) evidenzia le relazioni tra funzioni, mentre il grafo di interazione tra processi (PCG) si concentra sul comportamento a runtime e sulla comunicazione tra processi. Sebbene queste rappresentazioni grafiche siano correlate, ciascuna cattura prospettive diverse del sistema, fornendo intuizioni complementari. La ricerca precedente si è principalmente concentrata su rappresentazioni grafiche singole, con relativamente pochi lavori che affrontano la modellazione congiunta di FCG e PCG. Questo articolo propone GeminiNet, un approccio di rete neurale unificato che apprende gli embedding congiunti di FCG e PCG. Gli esperimenti su un dataset di 635 file eseguibili Windows dimostrano che gli embedding congiunti superano significativamente i modelli a grafo singolo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il rilevamento di malware è una sfida centrale nel campo della sicurezza informatica. I metodi tradizionali si basano principalmente su rappresentazioni software singole per l'analisi, utilizzando o l'analisi statica (come i grafi di chiamate di funzioni) oppure l'analisi dinamica (come i grafi di interazione tra processi), ma raramente combinano i due approcci.

Importanza della Ricerca

Necessità di Analisi Multi-Prospettiva: I sistemi software hanno una complessità intrinseca; una singola prospettiva può facilmente tralasciare informazioni importanti
Robustezza Avversariale: La dipendenza da una singola modalità è vulnerabile agli attacchi avversariali; la fusione multi-modale può aumentare la robustezza
Informazioni Complementari: L'FCG statico cattura la struttura del flusso di controllo, mentre il PCG dinamico riflette le traiettorie di esecuzione; i due sono complementari

Limitazioni dei Metodi Esistenti

Rappresentazione Grafica Singola: La maggior parte della ricerca utilizza solo uno tra FCG o PCG
Informazioni Incomplete: L'analisi statica non può catturare il comportamento a runtime; l'analisi dinamica potrebbe tralasciare i percorsi di codice non eseguiti
Metodi di Fusione Semplici: I metodi multi-modali esistenti adottano principalmente concatenazione semplice, mancando di meccanismi di ponderazione adattivi

Motivazione della Ricerca

Questo articolo mira a costruire un sistema di rilevamento di malware più completo e robusto attraverso l'apprendimento congiunto delle rappresentazioni di embedding di FCG e PCG, superando le limitazioni delle modalità singole.

Contributi Fondamentali

Proposta dell'Architettura GeminiNet: Progettazione di una rete di convoluzione grafica a doppio ramo che elabora separatamente FCG e PCG, fondendo gli embedding attraverso un meccanismo di gate adattivo
Costruzione di Dataset Multi-Modale: Creazione di un dataset contenente 635 file eseguibili Windows con estrazione simultanea di FCG e PCG
Progettazione di Caratteristiche di Nodi Congiunti: Combinazione della distribuzione di grado locale (LDP) e dell'entropia di Shannon, fornendo informazioni strutturali e statistiche
Verifica dei Vantaggi della Fusione: Dimostrazione attraverso ampi esperimenti che gli embedding congiunti superano significativamente i modelli a grafo singolo e i metodi di semplice fusione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un file eseguibile Windows, estrarre il suo grafo di chiamate di funzioni G₁=(V₁,E₁) e il grafo di chiamate di processi G₂=(V₂,E₂), apprendere una rappresentazione di embedding congiunta per la classificazione binaria (malevolo/benigno).

Costruzione del Dataset

Grafo di Chiamate di Funzioni (FCG)

Strumento: Framework di ingegneria inversa Ghidra
Rappresentazione: I nodi rappresentano funzioni; gli archi diretti rappresentano relazioni di chiamate di funzioni
Scala: 635 file eseguibili, complessivamente 449.960 nodi e 1.048.741 archi
Pre-elaborazione: I nomi delle funzioni sono sostituiti da identificatori numerici

Grafo di Chiamate di Processi (PCG)

Strumento: Sandbox di malware Any.Run
Tempo di Esecuzione: 60 secondi (basato sulla ricerca di Küchler et al., copertura del codice del 98%)
Rappresentazione: I nodi rappresentano processi; gli archi diretti rappresentano comunicazione tra processi o relazioni di creazione
Scala: 3.053 nodi e 2.663 archi

Progettazione delle Caratteristiche dei Nodi

Distribuzione di Grado Locale (LDP)

Calcolo di un vettore di caratteristiche a 5 dimensioni per ogni nodo:

Grado del nodo stesso
Valore minimo, massimo, media e deviazione standard del grado dei nodi vicini

Entropia di Shannon

Calcolo dell'entropia informativa a livello di file: H(X) = -∑ᵢ pᵢ log₂ pᵢ

dove pᵢ è la probabilità del byte i. Un'entropia elevata indica forte casualità (possibile malware), mentre un'entropia bassa indica alta ridondanza (possibile software benigno).

Caratteristiche Combinate (LDP+Entropy)

Concatenazione di LDP e entropia di Shannon, formando un vettore di caratteristiche a 6 dimensioni che fonde informazioni strutturali locali e informazioni statistiche globali.

Architettura GeminiNet

Progettazione a Doppio Ramo

Ramo 1: FCG → GCN₁ → Pool Globale → g₁
Ramo 2: PCG → GCN₂ → Pool Globale → g₂

Meccanismo di Gate Adattivo

Introduzione di un vettore di gate apprendibile: α = softmax(w)

dove w è un parametro addestrabile. L'embedding congiunto finale è: g = α₁g₁ + α₂g₂

soggetto ai vincoli α₁ + α₂ = 1 e αᵢ ≥ 0.

Strato di Classificazione

L'embedding congiunto passa attraverso uno strato completamente connesso e attivazione ReLU: ŷ = softmax(MLP(g))

Punti di Innovazione Tecnica

Fusione di Pesi Adattivi: Rispetto alla concatenazione statica o alla media, il meccanismo di gate può regolare adattivamente il contributo di ciascuna modalità in base al campione
Caratteristiche Multi-Granularità: Combinazione di informazioni topologiche locali (LDP) e informazioni statistiche globali (entropia)
Apprendimento End-to-End: L'intera architettura può essere addestrata end-to-end, con i pesi del gate ottimizzati automaticamente
Flessibilità Architettonica: Può degradarsi a modello a grafo singolo disattivando i rami

Configurazione Sperimentale

Dataset

Scala: 635 file PE Windows (318 malevoli, 317 benigni)
Fonte: Campioni di malware e campioni di software benigno
Divisione: Convalida incrociata a 5 fold

Metriche di Valutazione

Metrica Principale: Punteggio F1 (bilancia precisione e richiamo)
Metriche Statistiche: Media, deviazione standard, valore minimo, mediana, valore massimo

Metodi di Confronto

Modelli a Grafo Singolo: Utilizzo solo di FCG o PCG
Modello a Grafo Unito: Fusione delle liste di archi di FCG e PCG in un grafo singolo
Diverse Architetture GNN: GCN, SGC, GIN, GraphSAGE, MLP

Dettagli di Implementazione

Metodo di Convalida: Convalida incrociata a 5 fold
Pianificazione del Tasso di Apprendimento: OneCycleLR, ReduceLROnPlateau
Regolarizzazione: Dropout
Parametri Architettonici: GCN a 4-6 strati, strati completamente connessi a 2-6, dimensione nascosta 32-64

Risultati Sperimentali

Risultati Principali

Prestazioni della Configurazione Ottimale

Secondo la Tabella 1, la configurazione ottimale raggiunge:

Punteggio F1 Medio: 0,85 (deviazione standard 0,06-0,09)
Punteggio F1 Massimo: 0,94
Caratteristiche Ottimali: LDP+Entropy
Architettura Ottimale: SGC e GCN con fusione a somma ponderata

Confronto di Diverse Configurazioni

Embedding Congiunto (both_wsum): F1=0,85, mediana≈0,87
Modello PCG Singolo: F1=0,81-0,83, mediana≈0,82
Grafo Unito (both_merged): F1=0,72-0,73, mediana≈0,72
Modello FCG Singolo: F1=0,68-0,72, mediana≈0,67

Esperimenti di Ablazione

Ablazione del Tipo di Grafo

Il test di Kruskal-Wallis (p=3,86×10⁻⁷⁶) indica differenze significative tra diverse configurazioni:

both_wsum > single_pcg > both_merged > single_fcg
Tutti i confronti pairwise sono significativi (dopo correzione di Bonferroni)

Ablazione del Tipo di Caratteristica

Il test di Kruskal-Wallis (p=2,57×10⁻³³) mostra l'importanza delle caratteristiche:

LDP+Entropy (mediana≈0,85) > LDP (≈0,82) > Entropy (≈0,77)
Le caratteristiche combinate superano significativamente le caratteristiche singole

Analisi della Significatività Statistica

Verificata attraverso il test di Dunn:

La fusione a somma ponderata è significativamente superiore al metodo di fusione di archi
L'uso singolo di PCG è superiore all'uso singolo di FCG
Le caratteristiche congiunte migliorano significativamente le prestazioni

Scoperte Sperimentali

Complementarità Modale: FCG e PCG forniscono informazioni complementari; l'uso congiunto produce i migliori risultati
Importanza del Metodo di Fusione: La somma ponderata adattiva è superiore alla semplice fusione di archi
Effetto di Combinazione di Caratteristiche: La combinazione di caratteristiche strutturali (LDP) e caratteristiche statistiche (entropia) produce effetti sinergici
Robustezza Architettonica: Molteplici architetture GNN traggono beneficio dalla progettazione di embedding congiunto

Lavori Correlati

Rilevamento di Malware a Grafo Singolo

Metodi FCG: Freitas & Dong, Chen et al. utilizzano grafi di chiamate di funzioni
Grafi di Chiamate API: Gao et al., Hou et al. utilizzano sequenze di chiamate API
Grafi di Flusso di Controllo: Peng et al., Yan et al. analizzano strutture di flusso di controllo
Grafi di Flusso di Rete: Busch et al. utilizzano informazioni di flusso di rete

Applicazioni di Reti Neurali Grafiche

La maggior parte dei lavori si concentra su rappresentazioni grafiche singole
Mancanza di ricerca sistematica sulla fusione di grafi multi-modali
Questo articolo colma il vuoto nell'analisi congiunta statica-dinamica

Apprendimento Multi-Modale

I metodi esistenti adottano principalmente concatenazione semplice o media, mancando di meccanismi di ponderazione adattivi; la fusione con gate di questo articolo fornisce una soluzione più flessibile.

Conclusioni e Discussione

Conclusioni Principali

Vantaggi dell'Embedding Congiunto: L'apprendimento congiunto di FCG e PCG supera significativamente la modalità singola
Importanza del Meccanismo di Fusione: Il meccanismo di gate adattivo è superiore alle strategie di semplice fusione
Valore dell'Ingegneria delle Caratteristiche: La combinazione di caratteristiche strutturali e statistiche migliora la capacità discriminativa
Generalità del Metodo: Estendibile a compiti di rilevamento di vulnerabilità, rilevamento di similarità binaria, ecc.

Limitazioni

Scala del Dataset: 635 campioni sono relativamente piccoli e potrebbero influenzare la capacità di generalizzazione
Limitazione del Tempo di Esecuzione: L'esecuzione in sandbox di 60 secondi potrebbe non catturare tutti i comportamenti malevoli
Ingegneria delle Caratteristiche: Dipendenza da caratteristiche LDP e entropia progettate manualmente
Complessità Computazionale: L'architettura a doppio ramo aumenta il sovraccarico computazionale

Direzioni Future

Espansione di Scala: Validazione dell'efficacia del metodo su dataset più grandi
Interpretabilità: Sviluppo di tecniche di interpretazione per comprendere i processi decisionali del modello
Robustezza Avversariale: Valutazione della robustezza di fronte a campioni avversariali
Apprendimento Automatico di Caratteristiche: Riduzione della dipendenza da caratteristiche progettate manualmente

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo approccio sistematico che unisce FCG e PCG per il rilevamento di malware
Metodo Ragionevole: La progettazione dell'architettura a doppio ramo è ragionevole; il meccanismo di gate ha supporto teorico
Esperimenti Completi: Convalida incrociata a 5 fold, confronto di molteplici architetture, test di significatività statistica
Forte Potere Persuasivo dei Risultati: I risultati coerenti indicano l'efficacia e la stabilità del metodo

Insufficienze

Limitazioni del Dataset: Limitato ai file PE Windows; la dimensione del campione è relativamente piccola
Confronti di Base Insufficienti: Mancanza di confronto con i metodi più recenti di rilevamento di malware
Analisi del Sovraccarico Computazionale: Mancanza di analisi dettagliata della complessità computazionale dell'architettura a doppio ramo
Sensibilità agli Iperparametri: Analisi insufficiente della sensibilità del meccanismo di gate agli iperparametri

Impatto

Contributo Accademico: Fornisce nuove prospettive per l'applicazione dell'apprendimento di grafi multi-modali nel campo della sicurezza
Valore Pratico: Può essere direttamente applicato ai sistemi di rilevamento di malware
Riproducibilità: La descrizione del metodo è chiara; la configurazione sperimentale è dettagliata
Estensibilità: Il framework è estendibile ad altri compiti di analisi software

Scenari Applicabili

Rilevamento di Malware: Prodotti di sicurezza aziendale, software antivirus
Analisi Software: Rilevamento di vulnerabilità, analisi di similarità di codice
Piattaforma di Ricerca: Piattaforma di test per l'apprendimento di grafi multi-modali
Applicazioni Educative: Caso di studio didattico per reti neurali grafiche nel campo della sicurezza

Bibliografia

L'articolo cita 18 riferimenti correlati, che coprono:

Metodi fondamentali di apprendimento di rappresentazioni grafiche
Lavori correlati al rilevamento di malware
Architetture di reti neurali grafiche (GCN, GIN, GraphSAGE, SGC)
Strumenti e piattaforme di analisi software

I riferimenti chiave includono l'architettura GIN di Xu et al., il metodo SGC semplificato di Wu et al., e molteplici lavori correlati al rilevamento di malware, fornendo una base teorica solida e benchmark di confronto per questo articolo.