2025-11-22T13:13:16.451892

iCNN-LSTM: A batch-based incremental ransomware detection system using Sysmon

Ispahany, Islam, Khan et al.

In response to the increasing ransomware threat, this study presents a novel detection system that integrates Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) networks. By leveraging Sysmon logs, the system enables real-time analysis on Windows-based endpoints. Our approach overcomes the limitations of traditional models by employing batch-based incremental learning, allowing the system to continuously adapt to new ransomware variants without requiring complete retraining. The proposed model achieved an impressive average F2-score of 99.61\%, with low false positive and false negative rates of 0.17\% and 4.69\%, respectively, within a highly imbalanced dataset. This demonstrates exceptional accuracy in identifying malicious behaviour. The dynamic detection capabilities of Sysmon enhance the model's effectiveness by providing a reliable stream of security events, mitigating the vulnerabilities associated with static detection methods. Furthermore, the parallel processing of LSTM modules, combined with attention mechanisms, significantly improves training efficiency and reduces latency, making our system well-suited for real-world applications. These findings underscore the potential of our CNN-LSTM framework as a robust solution for real-time ransomware detection, ensuring adaptability and resilience in the face of evolving cyber threats.

academic

iCNN-LSTM: Система пакетного инкрементального обнаружения программ-вымогателей с использованием Sysmon

Основная информация

ID статьи: 2501.01083
Название: iCNN-LSTM: A batch-based incremental ransomware detection system using Sysmon
Авторы: Jamil Ispahany, MD Rafiqul Islam, M. Arif Khan, MD Zahidul Islam (Charles Sturt University, Австралия)
Категория: cs.CR (Криптография и безопасность)
Дата публикации: 2 января 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.01083

Аннотация

В ответ на растущую угрозу программ-вымогателей в данном исследовании предложена новая система обнаружения, интегрирующая сверточные нейронные сети (CNN) и сети долгой краткосрочной памяти (LSTM). Система использует журналы Sysmon для реализации анализа в реальном времени на конечных точках Windows. Благодаря применению метода пакетного инкрементального обучения система способна непрерывно адаптироваться к новым вариантам программ-вымогателей без полного переобучения. Предложенная модель достигает среднего показателя F2 в 99,61% на высоко несбалансированном наборе данных с коэффициентом ложных срабатываний 0,17% и коэффициентом пропусков 4,69%, демонстрируя превосходную точность в выявлении вредоносного поведения.

Исследовательский контекст и мотивация

Определение проблемы

Рост угроз программ-вымогателей: С момента пандемии COVID-19 программы-вымогатели стали глобальной проблемой, например атака на Colonial Pipeline привела к убыткам более 4,4 млн долларов
Ограничения традиционных методов обнаружения:
- Методы на основе сигнатур не могут обнаруживать новые варианты или полиморфные программы-вымогатели
- Существующие модели глубокого обучения требуют полной переподготовки, что требует огромных ресурсов и неэффективно
- Отсутствует способность адаптироваться к новым угрозам в реальном времени

Научная мотивация

Потребность в обнаружении в реальном времени: Атаки программ-вымогателей происходят быстро, требуя механизмов быстрого реагирования
Необходимость инкрементального обучения: Частое появление новых вариантов программ-вымогателей требует непрерывного обновления модели, а не переподготовки
Преимущества динамического обнаружения: По сравнению со статическим обнаружением, динамическое обнаружение может преодолеть методы обхода, такие как запутывание и полиморфизм

Основные вклады

Новая архитектура обнаружения: Предложена эффективная система обнаружения программ-вымогателей на основе потока журналов Sysmon, достигающая показателя F2 в 99,61% и низкого коэффициента ложных срабатываний 4,69% на несбалансированном наборе данных
Механизм непрерывного обучения: Реализован метод непрерывного обучения на основе небольших пакетов данных, решающий проблему дисбаланса классов с помощью технологии SMOTE, повышающий адаптивность модели к новым штаммам программ-вымогателей
Эффективная архитектура обработки: Предложена архитектура глубокого обучения CNN-LSTM с параллельной конфигурацией LSTM и механизмом внимания, значительно сокращающая время выполнения и повышающая эффективность обработки, подходящая для приложений реального времени

Подробное описание методологии

Определение задачи

Входные данные: Поток событий журнала Sysmon (содержит 29 типов событий по умолчанию, включая создание процессов, операции с файлами, сетевые соединения) Выходные данные: Результат бинарной классификации (программа-вымогатель/безопасное программное обеспечение) Ограничения: Обработка в реальном времени, низкий коэффициент ложных срабатываний, адаптация к новым вариантам

Архитектура модели

1. Общий дизайн системы

Система использует структуру пакетного инкрементального обнаружения, содержащую следующие ключевые компоненты:

Уровень сбора данных: Агент Sysmon собирает системные события
Уровень извлечения признаков: Использование fastText для преобразования векторов слов
Уровень выбора признаков: Выбор ключевых признаков на основе коэффициента корреляции Пирсона
Уровень классификации: Гибридная модель CNN-LSTM
Уровень инкрементального обновления: Обновление весов модели на основе небольших пакетов

2. Дизайн модуля CNN

Используется одномерная свертка для обработки последовательных данных событий Sysmon:

$y[n] = b + \sum_{m=0}^{M-1} w[m] \cdot x[n + m]$

$a_k[n] = \sigma(b + \sum_{m=0}^{M-1} w[m] \cdot x[n + m])$

где σ — функция активации, wm — веса свертки, b — смещение.

3. Дизайн модуля LSTM

Используется параллельная конфигурация LSTM для обработки временных зависимостей:

Вентиль забывания: $f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$
Входной вентиль: $i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$
Кандидат значения: $\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$
Обновление состояния ячейки: $C_t = f_t * C_{t-1} + i_t * \tilde{C}_t$
Выходной вентиль: $o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$
Скрытое состояние: $h_t = o_t * \tanh(C_t)$

4. Механизм внимания

Усиливает внимание модели к ключевой информации:

$e_t = v_a^T \tanh(W_a \cdot h_t)$ $\alpha_t = \frac{\exp(e_t)}{\sum_{k=1}^T \exp(e_k)}$ $c = \sum_{t=1}^T \alpha_t h_t$

Технические инновации

Параллельная обработка LSTM: По сравнению с традиционной последовательной укладкой, параллельная конфигурация значительно снижает вычислительные узкие места
Пакетное инкрементальное обучение: Избегает проблем дрейфа концепции и катастрофического забывания, присущих инкрементальному обучению на примерах
Динамический выбор признаков: Механизм выбора признаков на основе PCC может адаптироваться к изменениям распределения данных
Балансировка классов SMOTE: Эффективно решает проблему дисбаланса, когда программы-вымогатели являются меньшинством

Экспериментальная установка

Набор данных

Объем: Около 200 000 событий (176 130 безопасных событий, 20 710 событий программ-вымогателей)
Семейства программ-вымогателей: 6 основных семейств (AvosLocker, BlackBasta, Conti, Hive, Lockbit, REvil)
Источник данных: Платформы VirusTotal и HybridAnalysis
Конфигурация окружения: Виртуальная машина Windows 11, полное подключение к интернету, имитация реальной производственной среды

Предварительная обработка данных

Нормализация: Использование Standard Scaler для нормализации признаков
Извлечение признаков: Встраивание слов fastText, обработка 52 исходных признаков
Выбор признаков: Выбор 6 ключевых признаков на основе PCC (CallTrace, GrantedAccess, SourceUser и др.)
Балансировка классов: Использование технологии SMOTE для обработки дисбаланса классов

Метрики оценки

Основная метрика: Показатель F2 (β=2, подчеркивающий полноту)
Вспомогательные метрики: Показатель F1, точность, полнота, точность, коэффициент ложных срабатываний, коэффициент пропусков, время выполнения

Методы сравнения

Включает 7 базовых моделей:

3-слойный LSTM с укладкой (Maniath et al.)
Комбинированная модель CNN-LSTM (Agrawal et al., Akhtar & Feng)
Однослойный LSTM (Homayoun et al.)
Многослойный CNN с механизмом внимания (Zhang et al.)
Трехслойный последовательный CNN-LSTM (Bensaoud & Kalita)

Детали реализации

Оптимизация гиперпараметров: Использование Optuna для автоматической настройки параметров
Параметры CNN: Размер ядра свертки 9, количество фильтров 32
Параметры LSTM: 384 единицы, коэффициент dropout 0,103
Параметры обучения: Оптимизатор Adam, скорость обучения 0,001, размер пакета 1024, 100 эпох

Результаты экспериментов

Основные результаты

Модель	Показатель F1	Показатель F2	Полнота	Точность	Коэффициент ложных срабатываний	Коэффициент пропусков	Время выполнения
iCNN-LSTM	99,61%	99,61%	99,62%	99,61%	0,17%	4,69%	195,69s
Bensaoud & Kalita	99,56%	99,56%	99,56%	99,56%	0,22%	5,13%	303,35s
Akhtar & Feng	99,41%	99,40%	99,41%	99,41%	0,23%	5,22%	427,62s
Agrawal et al.	99,43%	99,43%	99,44%	99,43%	2,6%	6,45%	1585,54s

Производительность инкрементального обучения

Сравнение с другими методами инкрементального обучения:

Исследование	Показатель F1	Показатель F2	Полнота	Точность
Roy & Chen	99,39%	99,03%	98,8%	100%
Al-rimy et al.	98,70%	99,02%	99,24%	98,16%
iCNN-LSTM	99,61%	99,61%	99,62%	99,61%

Абляционные исследования

Параллельный vs последовательный LSTM: Параллельная конфигурация сокращает время обучения примерно на 35% по сравнению с последовательной конфигурацией
Механизм внимания: Повышает показатель F2 примерно на 2%
Выбор признаков: 6 признаков, выбранных PCC, повышают эффективность по сравнению со всеми 52 признаками, сохраняя производительность

Экспериментальные выводы

Преимущество временной эффективности: Среди моделей с коэффициентом ложных срабатываний менее 20%, данный метод имеет самое короткое время выполнения
Стабильность: Показатель F2 стабильно остается выше 99% на протяжении всего процесса инкрементального обновления
Адаптивность: Способен быстро адаптироваться к новым семействам программ-вымогателей, производительность быстро восстанавливается после обновления

Связанные работы

Основные направления исследований

Обнаружение на основе CNN: Использование сверточных сетей для извлечения пространственных признаков
Обнаружение на основе LSTM: Обработка временных зависимостей в последовательных данных
Гибридные модели CNN-LSTM: Объединение преимуществ обоих подходов
Методы инкрементального обучения: Инкрементальное обучение на примерах vs пакетное инкрементальное обучение

Преимущества данной работы

Способность обработки в реальном времени: По сравнению с существующими методами, данный метод специально разработан для потоков данных в реальном времени
Эффективность инкрементального обучения: Пакетное инкрементальное обучение избегает внутренних проблем инкрементального обучения на примерах
Архитектурные инновации: Параллельная конфигурация LSTM значительно повышает эффективность при сохранении производительности

Заключение и обсуждение

Основные выводы

Предложенная система iCNN-LSTM достигает отличной производительности в задаче обнаружения программ-вымогателей
Механизм пакетного инкрементального обучения может эффективно адаптироваться к новым угрозам без полной переподготовки
Архитектура параллельного LSTM и механизм внимания значительно повышают эффективность обработки

Ограничения

Фиксированный размер пакета: В настоящее время используется фиксированный пакет из 10 000 событий, отсутствует механизм динамической регулировки
Обнаружение деградации модели: Отсутствует механизм обнаружения и реагирования на деградацию производительности модели
Анализ потребления ресурсов: Отсутствует подробный анализ потребления вычислительных ресурсов
Изменение набора признаков: При изменении набора признаков требуется переподготовка исторических данных

Направления будущих исследований

Разработка стратегий динамического обнаружения и реагирования на деградацию модели
Исследование механизмов динамической регулировки размера пакета
Глубокий анализ потребления вычислительных ресурсов и стратегии оптимизации
Расширение на обнаружение других типов вредоноса

Глубокая оценка

Достоинства

Высокая техническая инновативность: Сочетание параллельной конфигурации LSTM и пакетного инкрементального обучения обладает инновативностью
Полный дизайн экспериментов: Включает достаточное количество сравнительных экспериментов и абляционных исследований
Высокая практическая ценность: Решает ключевые проблемы при реальном развертывании (реальное время, адаптивность)
Отличная производительность: Достигает передовых результатов по нескольким метрикам
Хорошая ясность изложения: Технические детали описаны четко, математические формулы выражены точно

Недостатки

Ограничение размера набора данных: Хотя включает 6 семейств программ-вымогателей, общий размер относительно ограничен
Оценка обобщающей способности: Отсутствует проверка на других наборах данных
Устойчивость к противодействующим атакам: Не рассмотрены противодействующие атаки на систему обнаружения
Недостаточное обсуждение сложности развертывания: Инженерные вызовы при реальном развертывании обсуждены недостаточно

Влияние

Научный вклад: Предоставляет важную справку для применения инкрементального обучения в области кибербезопасности
Практическая ценность: Напрямую решает ключевые проблемы в защите реальной сетевой безопасности
Воспроизводимость: Предоставляет подробные детали реализации и настройки гиперпараметров

Применимые сценарии

Корпоративная сетевая безопасность: Подходит для корпоративных сред, требующих мониторинга в реальном времени
Обнаружение и реагирование на конечных точках (EDR): Может быть интегрирована в решения EDR
Центр безопасности (SOC): Предоставляет возможности автоматического обнаружения угроз для SOC
Облачные сервисы безопасности: Может быть развернута как облачный сервис обнаружения безопасности

Библиография

Статья цитирует богатый объем связанных работ, включая в основном:

Исследования применения глубокого обучения в обнаружении вредоноса
Методы CNN и LSTM в обработке последовательных данных
Теоретические основы инкрементального и онлайн-обучения
Практическое применение Sysmon в системном мониторинге

Общая оценка: Это высококачественная исследовательская работа в области кибербезопасности, демонстрирующая превосходные результаты в технической инновации, экспериментальной проверке и практической ценности применения. Особенно значительны вклады в области инкрементального обучения и обнаружения в реальном времени, имеющие важное значение для данной области.