2025-11-22T13:13:16.451892

iCNN-LSTM: A batch-based incremental ransomware detection system using Sysmon

Ispahany, Islam, Khan et al.

In response to the increasing ransomware threat, this study presents a novel detection system that integrates Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) networks. By leveraging Sysmon logs, the system enables real-time analysis on Windows-based endpoints. Our approach overcomes the limitations of traditional models by employing batch-based incremental learning, allowing the system to continuously adapt to new ransomware variants without requiring complete retraining. The proposed model achieved an impressive average F2-score of 99.61\%, with low false positive and false negative rates of 0.17\% and 4.69\%, respectively, within a highly imbalanced dataset. This demonstrates exceptional accuracy in identifying malicious behaviour. The dynamic detection capabilities of Sysmon enhance the model's effectiveness by providing a reliable stream of security events, mitigating the vulnerabilities associated with static detection methods. Furthermore, the parallel processing of LSTM modules, combined with attention mechanisms, significantly improves training efficiency and reduces latency, making our system well-suited for real-world applications. These findings underscore the potential of our CNN-LSTM framework as a robust solution for real-time ransomware detection, ensuring adaptability and resilience in the face of evolving cyber threats.

academic

iCNN-LSTM: Un sistema di rilevamento del ransomware incrementale basato su batch utilizzando Sysmon

Informazioni Fondamentali

ID Articolo: 2501.01083
Titolo: iCNN-LSTM: A batch-based incremental ransomware detection system using Sysmon
Autori: Jamil Ispahany, MD Rafiqul Islam, M. Arif Khan, MD Zahidul Islam (Charles Sturt University, Australia)
Classificazione: cs.CR (Crittografia e Sicurezza)
Data di Pubblicazione: 2 gennaio 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2501.01083

Riassunto

In risposta alla crescente minaccia del ransomware, questo studio propone un nuovo sistema di rilevamento che integra reti neurali convoluzionali (CNN) e reti di memoria a lungo-breve termine (LSTM). Il sistema sfrutta i registri Sysmon per l'analisi in tempo reale su endpoint Windows. Adottando un approccio di apprendimento incrementale basato su batch, il sistema può adattarsi continuamente alle nuove varianti di ransomware senza richiedere un completo riaddestrament. Il modello proposto raggiunge un punteggio F2 medio del 99,61% su dataset altamente sbilanciati, con tassi di falsi positivi e falsi negativi rispettivamente del 0,17% e 4,69%, dimostrando un'eccezionale accuratezza nel riconoscimento di comportamenti malevoli.

Contesto di Ricerca e Motivazione

Definizione del Problema

Proliferazione delle Minacce di Ransomware: Dalla pandemia di COVID-19, il ransomware è diventato una sfida globale significativa, come dimostrato dall'attacco a Colonial Pipeline che ha causato perdite superiori a 4,4 milioni di dollari
Limitazioni dei Metodi di Rilevamento Tradizionali:
- I metodi basati su firma non riescono a rilevare nuove varianti o ransomware polimorfici
- I modelli di deep learning esistenti richiedono una ricostruzione da zero, con consumo di risorse enorme e bassa efficienza
- Mancanza di capacità di adattamento in tempo reale alle nuove minacce

Motivazione della Ricerca

Necessità di Rilevamento in Tempo Reale: Gli attacchi ransomware sono veloci e richiedono meccanismi di risposta rapida
Necessità dell'Apprendimento Incrementale: Le varianti di ransomware emergono frequentemente, i modelli devono essere aggiornati continuamente piuttosto che riaddestratti
Vantaggi del Rilevamento Dinamico: Rispetto al rilevamento statico, il rilevamento dinamico può superare tecniche di evasione come l'offuscamento e il polimorfismo

Contributi Principali

Nuova Architettura di Rilevamento: Propone un efficiente sistema di rilevamento del ransomware basato su flussi di registri Sysmon, raggiungendo un punteggio F2 del 99,61% e un basso tasso di falsi positivi del 4,69% su dataset sbilanciati
Meccanismo di Apprendimento Continuo: Implementa un metodo di apprendimento continuo basato su dati in mini-batch, risolvendo il problema dello squilibrio di classe attraverso la tecnica SMOTE, migliorando l'adattabilità del modello a nuovi ceppi di ransomware
Architettura di Elaborazione Efficiente: Propone un'architettura di deep learning CNN-LSTM con configurazione LSTM parallela e meccanismo di attenzione, riducendo significativamente il tempo di esecuzione e migliorando l'efficienza di elaborazione, adatta per applicazioni in tempo reale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Flusso di registri eventi Sysmon (contenente 29 tipi di eventi predefiniti inclusa creazione di processi, operazioni su file, connessioni di rete, ecc.) Output: Risultato di classificazione binaria (ransomware/software legittimo) Vincoli: Elaborazione in tempo reale, basso tasso di falsi positivi, adattamento a nuove varianti

Architettura del Modello

1. Progettazione del Framework Complessivo

Il sistema adotta un framework di rilevamento incrementale in batch, contenente i seguenti componenti chiave:

Strato di Raccolta Dati: Agente Sysmon che raccoglie eventi di sistema
Strato di Estrazione delle Caratteristiche: Conversione di vettori di parole utilizzando fastText
Strato di Selezione delle Caratteristiche: Selezione di caratteristiche critiche basata sul coefficiente di correlazione di Pearson
Strato di Classificazione: Modello ibrido CNN-LSTM
Strato di Aggiornamento Incrementale: Aggiornamento dei pesi del modello basato su mini-batch

2. Progettazione del Modulo CNN

Utilizza CNN unidimensionale per elaborare dati di eventi Sysmon serializzati:

$y[n] = b + \sum_{m=0}^{M-1} w[m] \cdot x[n + m]$

$a_k[n] = \sigma(b + \sum_{m=0}^{M-1} w[m] \cdot x[n + m])$

dove σ è la funzione di attivazione, wm sono i pesi del kernel di convoluzione e b è il termine di bias.

3. Progettazione del Modulo LSTM

Utilizza configurazione LSTM parallela per elaborare dipendenze temporali:

Porta di Oblio: $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
Porta di Input: $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
Valore Candidato: $\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$
Aggiornamento dello Stato della Cella: $C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$
Porta di Output: $o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$
Stato Nascosto: $h_t = o_t * \tanh(C_t)$

4. Meccanismo di Attenzione

Potenzia l'attenzione del modello alle informazioni critiche:

$e_t = v_a^T \tanh(W_a \cdot h_t)$ $\alpha_t = \frac{\exp(e_t)}{\sum_{k=1}^T \exp(e_k)}$ $c = \sum_{t=1}^T \alpha_t h_t$

Punti di Innovazione Tecnica

Elaborazione LSTM Parallela: Rispetto all'impilamento seriale tradizionale, la configurazione parallela riduce significativamente i colli di bottiglia computazionali
Apprendimento Incrementale in Batch: Evita i problemi di deriva concettuale e dimenticanza catastrofica dell'apprendimento incrementale per istanza
Selezione Dinamica delle Caratteristiche: Il meccanismo di selezione delle caratteristiche basato su PCC può adattarsi ai cambiamenti nella distribuzione dei dati
Bilanciamento di Classe SMOTE: Risolve efficacemente il problema dello squilibrio di classe con ransomware come classe minoritaria

Configurazione Sperimentale

Dataset

Scala: Circa 200.000 eventi (176.130 eventi legittimi, 20.710 eventi ransomware)
Famiglie di Ransomware: 6 famiglie principali (AvosLocker, BlackBasta, Conti, Hive, Lockbit, REvil)
Fonte dei Dati: Piattaforme VirusTotal e HybridAnalysis
Configurazione dell'Ambiente: Macchina virtuale Windows 11, connessione Internet completa, simulazione dell'ambiente di produzione reale

Preelaborazione dei Dati

Normalizzazione: Normalizzazione delle caratteristiche utilizzando Standard Scaler
Estrazione delle Caratteristiche: Incorporamento di parole fastText, elaborazione di 52 caratteristiche grezze
Selezione delle Caratteristiche: Selezione di 6 caratteristiche critiche basata su PCC (CallTrace, GrantedAccess, SourceUser, ecc.)
Bilanciamento di Classe: Tecnica SMOTE per affrontare lo squilibrio di classe

Metriche di Valutazione

Metrica Principale: Punteggio F2 (β=2, enfatizza il richiamo)
Metriche Ausiliarie: Punteggio F1, precisione, richiamo, accuratezza, tasso di falsi positivi, tasso di falsi negativi, tempo di esecuzione

Metodi di Confronto

Contiene 7 modelli di base:

LSTM impilato a 3 strati (Maniath et al.)
Modello combinato CNN-LSTM (Agrawal et al., Akhtar & Feng)
LSTM a singolo strato (Homayoun et al.)
CNN multi-strato con meccanismo di attenzione (Zhang et al.)
Impilamento seriale CNN-LSTM a tre strati (Bensaoud & Kalita)

Dettagli di Implementazione

Ottimizzazione degli Iperparametri: Sintonizzazione automatica utilizzando Optuna
Parametri CNN: Dimensione del kernel di convoluzione 9, numero di filtri 32
Parametri LSTM: 384 unità, tasso di dropout 0,103
Parametri di Addestramento: Ottimizzatore Adam, tasso di apprendimento 0,001, dimensione del batch 1024, 100 epoch

Risultati Sperimentali

Risultati Principali

Modello	Punteggio F1	Punteggio F2	Richiamo	Precisione	Tasso di Falsi Positivi	Tasso di Falsi Negativi	Tempo di Esecuzione
iCNN-LSTM	99,61%	99,61%	99,62%	99,61%	0,17%	4,69%	195,69s
Bensaoud & Kalita	99,56%	99,56%	99,56%	99,56%	0,22%	5,13%	303,35s
Akhtar & Feng	99,41%	99,40%	99,41%	99,41%	0,23%	5,22%	427,62s
Agrawal et al.	99,43%	99,43%	99,44%	99,43%	2,6%	6,45%	1585,54s

Prestazioni dell'Apprendimento Incrementale

Confronto con altri metodi di apprendimento incrementale:

Studio	Punteggio F1	Punteggio F2	Richiamo	Precisione
Roy & Chen	99,39%	99,03%	98,8%	100%
Al-rimy et al.	98,70%	99,02%	99,24%	98,16%
iCNN-LSTM	99,61%	99,61%	99,62%	99,61%

Esperimenti di Ablazione

LSTM Parallelo vs Seriale: La configurazione parallela riduce circa il 35% del tempo di addestramento rispetto alla configurazione seriale
Meccanismo di Attenzione: Migliora circa il 2% del punteggio F2
Selezione delle Caratteristiche: Le 6 caratteristiche selezionate da PCC rispetto alle 52 caratteristiche complete migliorano l'efficienza mantenendo le prestazioni

Risultati Sperimentali

Vantaggio di Efficienza Temporale: Tra i modelli con tasso di falsi positivi inferiore al 20%, questo metodo ha il tempo di esecuzione più breve
Stabilità: Il punteggio F2 rimane stabilmente superiore al 99% durante l'intero processo di aggiornamento incrementale
Adattabilità: Può adattarsi rapidamente a nuove famiglie di ransomware, con prestazioni che si riprendono rapidamente dopo l'aggiornamento

Lavori Correlati

Principali Direzioni di Ricerca

Rilevamento Basato su CNN: Utilizzo di reti convoluzionali per estrarre caratteristiche spaziali
Rilevamento Basato su LSTM: Elaborazione di dipendenze temporali nei dati sequenziali
Modelli Ibridi CNN-LSTM: Combinazione dei vantaggi di entrambi
Metodi di Apprendimento Incrementale: Apprendimento incrementale per istanza vs apprendimento incrementale in batch

Vantaggi di Questo Articolo

Capacità di Elaborazione in Tempo Reale: Rispetto ai metodi esistenti, questo metodo è specificamente progettato per flussi di dati in tempo reale
Efficienza dell'Apprendimento Incrementale: L'apprendimento incrementale in batch evita i problemi intrinseci dell'apprendimento incrementale per istanza
Innovazione Architettonica: La configurazione LSTM parallela migliora significativamente l'efficienza mantenendo le prestazioni

Conclusioni e Discussione

Conclusioni Principali

Il sistema iCNN-LSTM proposto raggiunge prestazioni eccellenti nel compito di rilevamento del ransomware
Il meccanismo di apprendimento incrementale in batch può adattarsi efficacemente alle nuove minacce senza richiedere un completo riaddestrament
L'architettura LSTM parallela e il meccanismo di attenzione migliorano significativamente l'efficienza di elaborazione

Limitazioni

Dimensione del Batch Fissa: Attualmente utilizza batch fissi di 10.000 eventi, mancando di meccanismi di regolazione dinamica
Rilevamento della Degradazione del Modello: Manca un meccanismo per rilevare e affrontare la degradazione delle prestazioni del modello
Analisi del Consumo di Risorse: Manca un'analisi dettagliata del consumo di risorse computazionali
Cambiamenti nell'Insieme di Caratteristiche: Quando l'insieme di caratteristiche cambia, è necessario riaddestrare i dati storici

Direzioni Future

Sviluppare strategie per il rilevamento dinamico e l'affrontamento della degradazione del modello
Esplorare meccanismi di regolazione adattiva della dimensione del batch
Analizzare in profondità il consumo di risorse computazionali e le strategie di ottimizzazione
Estendere a rilevamento di altri tipi di malware

Valutazione Approfondita

Punti di Forza

Forte Innovazione Tecnica: La combinazione di configurazione LSTM parallela e apprendimento incrementale in batch è innovativa
Progettazione Sperimentale Completa: Include esperimenti di confronto sufficienti e esperimenti di ablazione
Alto Valore di Applicazione Pratica: Risolve problemi critici nella distribuzione effettiva (tempestività, adattabilità)
Prestazioni Eccellenti: Raggiunge livelli leader in più metriche
Buona Chiarezza di Scrittura: I dettagli tecnici sono descritti chiaramente, le formule matematiche sono espresse accuratamente

Insufficienze

Limitazione della Scala del Dataset: Sebbene includa 6 famiglie di ransomware, la scala complessiva è relativamente limitata
Valutazione della Capacità di Generalizzazione: Manca la validazione su altri dataset
Robustezza agli Attacchi Avversariali: Non considera attacchi avversariali mirati al sistema di rilevamento
Discussione Insufficiente della Complessità di Distribuzione: Le sfide ingegneristiche che potrebbero affrontarsi nella distribuzione effettiva sono discusse insufficientemente

Impatto

Contributo Accademico: Fornisce un importante riferimento per l'applicazione dell'apprendimento incrementale nel campo della sicurezza informatica
Valore Pratico: Risolve direttamente problemi critici nella protezione della sicurezza informatica pratica
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impostazioni di iperparametri

Scenari Applicabili

Sicurezza della Rete Aziendale: Applicabile in ambienti aziendali che richiedono monitoraggio in tempo reale
Rilevamento e Risposta degli Endpoint (EDR): Può essere integrato in soluzioni EDR
Centro Operativo di Sicurezza (SOC): Fornisce capacità di rilevamento automatico delle minacce per SOC
Servizi di Sicurezza Cloud: Può essere distribuito come servizio di rilevamento della sicurezza cloud

Bibliografia

L'articolo cita un'ampia letteratura correlata, principalmente includendo:

Ricerca sull'applicazione del deep learning nel rilevamento di malware
Metodi di CNN e LSTM nell'elaborazione di dati sequenziali
Fondamenti teorici dell'apprendimento incrementale e dell'apprendimento online
Pratica applicativa di Sysmon nel monitoraggio dei sistemi

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità nel campo della sicurezza informatica, che mostra prestazioni eccellenti in innovazione tecnica, verifica sperimentale e valore di applicazione pratica. In particolare, i contributi nell'apprendimento incrementale e nel rilevamento in tempo reale hanno un significato importante per il campo.