2025-11-11T12:22:08.597062

LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy

Golec, Khamayseh, Melhem et al.

Sixth Generation (6G) wireless networks, which are expected to be deployed in the 2030s, have already created great excitement in academia and the private sector with their extremely high communication speed and low latency rates. However, despite the ultra-low latency, high throughput, and AI-assisted orchestration capabilities they promise, they are vulnerable to stealthy and long-term Advanced Persistent Threats (APTs). Large Language Models (LLMs) stand out as an ideal candidate to fill this gap with their high success in semantic reasoning and threat intelligence. In this paper, we present a comprehensive systematic review and taxonomy study for LLM-assisted APT detection in 6G networks. We address five research questions, namely, semantic merging of fragmented logs, encrypted traffic analysis, edge distribution constraints, dataset/modeling techniques, and reproducibility trends, by leveraging most recent studies on the intersection of LLMs, APTs, and 6G wireless networks. We identify open challenges such as explainability gaps, data scarcity, edge hardware limitations, and the need for real-time slicing-aware adaptation by presenting various taxonomies such as granularity, deployment models, and kill chain stages. We then conclude the paper by providing several research gaps in 6G infrastructures for future researchers. To the best of our knowledge, this paper is the first comprehensive systematic review and classification study on LLM-based APT detection in 6G networks.

academic

Обнаружение APT на основе LLM для беспроводных сетей 6G: систематический обзор и таксономия

Основная информация

ID статьи: 2505.18846
Название: LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy
Авторы: Muhammed Golec, Yaser Khamayseh, Suhib Bani Melhem, Abdulmalik Alwarafy
Классификация: cs.CR (криптография и безопасность)
Дата публикации: 23 июня 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.18846v2

Аннотация

В данной работе предлагается систематическое решение на основе больших языковых моделей (LLM) для обнаружения продвинутых постоянных угроз (APT) в сетях шестого поколения (6G), развертывание которых ожидается в 2030-х годах. Несмотря на то, что сети 6G обещают сверхнизкую задержку, высокую пропускную способность и возможности оркестрации на основе ИИ, они остаются уязвимы для скрытых долгосрочных APT-атак. Авторы, проанализировав 142 соответствующие статьи, предложили комплексную таксономию применения LLM при обнаружении APT и выявили ключевые проблемы, включая недостаток интерпретируемости, дефицит данных и ограничения граничного оборудования. Это первый систематический обзор, специально посвященный обнаружению APT на основе LLM в сетях 6G.

Исследовательский контекст и мотивация

Определение проблемы

Проблемы безопасности сетей 6G: гетерогенная архитектура сетей 6G (наземный, воздушный и спутниковый уровни) создает расширенную поверхность атаки, делая их уязвимыми для APT-атак
Ограничения традиционных методов обнаружения: системы обнаружения вторжений (IDS) на основе сигнатур сталкиваются с трудностями при анализе поведения при наличии зашифрованных слоев и динамической топологии
Проблема фрагментации данных: журналы данных, генерируемые сетями 6G, фрагментированы и несогласованны, что ограничивает анализ корреляций между уровнями

Значимость исследования

Своевременность: технология 6G вскоре будет коммерциализирована, проблемы безопасности требуют срочного решения
Технологическое слияние: пробел в исследованиях на пересечении трех областей: LLM, обнаружение APT и сети 6G
Практическая ценность: предоставление теоретического руководства для развертывания безопасности будущих сетей 6G

Ограничения существующих методов

Отсутствие методов оптимизации LLM для специфических ограничений 6G
Дефицит наборов данных для обнаружения APT и отсутствие представительности реального мира
Ограниченные ресурсы граничных устройств затрудняют развертывание полных моделей LLM

Основные вклады

Первый систематический обзор: предоставляет первый комплексный систематический обзор литературы по обнаружению APT на основе LLM в сетях 6G
Пятимерная исследовательская структура: определены пять ключевых исследовательских вопросов, охватывающих семантическую корреляцию, анализ зашифрованного трафика, граничные ограничения, моделирование наборов данных и воспроизводимость
Многоуровневая таксономия: предложена комплексная система классификации, включающая входные модальности, гранулярность обнаружения, технологии LLM, модели развертывания и жизненный цикл угроз
Выявление проблем и будущие направления: систематическое выявление открытых проблем и предложение конкретных направлений будущих исследований
Сравнительный анализ: детальное сравнение с 16 существующими обзорами, подчеркивающее уникальную ценность данного исследования

Подробное описание методологии

Методология систематического обзора

В работе используются метод систематического обзора литературы (SLR) Kitchenham и метод систематического картирования (SMS) Petersen:

Процесс сбора литературы:
- Этап идентификации: поиск в основных академических базах данных IEEE, ACM, Elsevier, Springer
- Этап отбора: удаление дубликатов, сокращение с 300+ до 126 статей
- Оценка квалификации: экспертный анализ, отбор 120 высококачественных статей
- Окончательное включение: дополнение методом снежного кома, окончательно определено 142 статьи

Стратегия поиска по ключевым словам:

[(LLM) OR (Large Language Model)] AND [(APT) OR (Advanced Persistent Threat)]
[(6G) OR (Wireless Networks)] AND [(LLM) OR (APT Detection)] AND [(Edge) OR (Cross-Layer Security)]
[(Cyber Threat Intelligence) OR (Provenance Logs)] AND [(LLM) OR (APT)] AND [(6G)]

Пятимерная структура исследовательских вопросов

RQ1: Семантическая корреляция фрагментированных журналов происхождения

Проблема: гетерогенная структура сетей 6G приводит к неравномерному и несогласованному распределению данных журналов
Решение: LLM интегрирует многоисточниковые данные журналов благодаря способности семантического рассуждения
Технический путь: графическое моделирование, методы семантического улучшения, рассуждение о корреляции

RQ2: Ограничения зашифрованных каналов 6G и решения на основе LLM

Технические ограничения: DoH и туннели сквозного шифрования приводят к размытости семантики трафика
Преимущества LLM: способность семантического рассуждения и абстракции контекста
Примеры применения: фреймворк APTSniffer достигает 97% F1-оценки при обнаружении APT

RQ3: Ограничения граничного развертывания и методы оптимизации

Ограничения ресурсов: ограниченная оперативная память и вычислительная мощность граничных устройств
Стратегии оптимизации:
- Сжатие модели (квантизация, обрезка, дистилляция)
- Параметрически эффективная тонкая настройка (LoRA, адаптеры)
- Совместное рассуждение (сотрудничество граница-облако)

RQ4: Наборы данных и методы моделирования

Типы наборов данных:
- Полусинтетические наборы данных (Unraveled, CICAPT-IIoT)
- Синтетически расширенные журналы (SAGA, Twitter-APT)
- Объединенные эталонные корпусы
Методы моделирования: анализ графов поведения, многоэтапные автокодировщики, гибридные экспертные системы

RQ5: Воспроизводимость и тенденции публикаций

Доступность кода: только 19% исследований делятся исходным кодом
Использование наборов данных: 46,7% используют синтетические данные, 43,3% используют открытые данные
Тенденции публикаций: исследования LLM-APT показывают экспоненциальный рост

Технологические инновации

Таксономия обнаружения LLM-APT

Предложена пятимерная система классификации:

Входные модальности: журналы, графы происхождения, пакеты PCAP
Гранулярность обнаружения: уровень пакета, уровень сеанса, уровень цепочки убийств
Технологии LLM: настройка подсказок, передача адаптеров, тонкая настройка
Модели развертывания: облако, граница, туманные вычисления
Жизненный цикл угроз: разведка, начальный доступ, боковое движение, утечка данных

Архитектура кросс-уровневого обнаружения APT

Уровень RAN: рассуждение APT на основе сеанса
Транспортный уровень: анализ последовательности трафика
Основная сеть: обнаружение нарушений политики
Облако/уровень оркестрации: корреляция оповещений

Экспериментальная установка

Методы сбора данных

Временной диапазон: 2018-2025 годы
Источники данных: академические базы данных, технические отчеты, ссылки
Критерии отбора: оценка качества, соответствие области, экспертная проверка

Измеряемые параметры

Доступность кода: ДА/НЕТ и распределение по платформам
Тип набора данных: доля синтетических/открытых/объединенных наборов данных
Протоколы оценки: перекрестная валидация, сравнение эталонов
Платформы публикации: распределение по конференциям/журналам и импакт-факторам

Результаты экспериментов

Статистика распределения литературы

Всего: 142 соответствующие статьи
Коэффициент открытого исходного кода: 19% (в основном на платформе GitHub)
Распределение наборов данных: синтетические данные 46,7%, открытые данные 43,3%, объединенные данные 10%
Платформы публикации: IEEE 35,2%, ACM 21,8%, Springer 9,9%

Тенденции годовых публикаций

2021: 0,7%
2022: 5,6%
2023: 10,6%
2024: 11,3%
2025: 12,7%

Демонстрирует явную тенденцию к росту, отражающую быстрое развитие этой области.

Анализ протоколов оценки

Сравнение эталонов: 26,8%
Тематические исследования: 24,4%
Сценарии моделирования: 22,0%
Синтетические сценарии: 14,6%
Реальные журналы: 12,2%
Стандарты SLR: 9,8%

Связанные работы

Анализ существующих обзоров

Авторы сравнили 16 связанных обзорных исследований и выявили три ключевых пробела:

Комплексное рассмотрение LLM, APT и 6G: существующие исследования не охватывают одновременно эти три области
Детальная таксономия обнаружения APT: большинство исследований не содержат детальной классификации, такой как жизненный цикл APT
Комплексное кросс-доменное сравнение: отсутствует многомерный сравнительный анализ

Траектория технологического развития

Универсальные LLM: BERT (2018), GPT-2 (2019), GPT-4 (2023)
Специализированные LLM для безопасности: SecBERT (2020), CyBERT (2021), CySecBERT (2022)
Новые технологии: настройка подсказок (2021), LoRA (2022), федеративные граничные LLM (2023+)

Выводы и обсуждение

Основные выводы

Техническая осуществимость: LLM имеет огромный потенциал при обнаружении APT в сетях 6G
Выявление проблем: ограничения семантического рассуждения, ограничения обработки в реальном времени, недостаток интерпретируемости, дефицит данных
Исследовательские пробелы: необходимость легких граничных LLM, мониторинг решений на основе XAI, многомодальные наборы данных реального мира

Ограничения

Ограничение контекстного окна: LLM имеет ограничения при обработке долгосрочных последовательностей событий
Ограничения ресурсов границы: ограничения вычислений и хранилища влияют на развертывание в реальном времени
Проблемы качества данных: существующие наборы данных APT не обладают представительностью реального мира
Отсутствие интерпретируемости: черный ящик влияет на приложения критической важности

Будущие направления

Технологические инновации:
- Графически улучшенные LLM для решения проблемы короткого контекстного окна
- Методы дистилляции и квантизации для оптимизации граничного рассуждения
- Модели слияния, чувствительные к XAI, для повышения интерпретируемости
Данные и оценка:
- Федеративные + синтетические корпусы для обогащения обучающих данных
- Кросс-уровневое совместное проектирование для адаптации к новым технологиям 6G
- Динамическое управление срезами на основе XAI
Системная архитектура:
- Интегрированные системы оркестрации, чувствительные к срезам
- Механизмы реагирования на угрозы в реальном времени
- Многомодальные протоколы безопасности

Глубокая оценка

Преимущества

Новаторское исследование: первый систематический обзор на пересечении LLM-APT-6G
Методологическая строгость: использование стандартных методов SLR и SMS, анализ 142 высококачественных статей
Полная система классификации: пятимерная таксономия охватывает технологию, развертывание, приложения и другие аспекты
Высокая практическая ценность: предоставление конкретной технологической дорожной карты для развертывания безопасности сетей 6G
Сильная перспективность: выявление ключевых проблем и предложение конкретных направлений решения

Недостатки

Отсутствие эмпирической проверки: как обзорная статья, не содержит экспериментальной проверки оригинальных алгоритмов
Ограниченная техническая глубина: недостаточное обсуждение деталей реализации некоторых конкретных технологий
Низкий уровень стандартизации: значительные различия в стандартах оценки и наборах данных в разных исследованиях
Недостаточное рассмотрение коммерциализации: недостаточный анализ затрат и выгод при практическом развертывании

Влияние

Академическая ценность: установление исследовательской структуры и стандартов для новой междисциплинарной области
Практическое значение: руководство по проектированию и развертыванию систем безопасности сетей 6G
Политическое влияние: предоставление технических справок для разработки стандартов сетевой безопасности
Промышленное продвижение: содействие индустриализации применения LLM в области кибербезопасности

Применимые сценарии

Операторы сетей 6G: проектирование архитектуры сетевой безопасности и развертывание систем обнаружения угроз
Компании безопасности: разработка продуктов обнаружения APT на основе LLM
Исследовательские учреждения: академические исследования и техническая разработка в соответствующих областях
Организации по стандартизации: разработка технических стандартов и нормативных актов безопасности сетей 6G

Библиография

В работе цитируется 142 высококачественные статьи, охватывающие последние исследования в нескольких областях, включая LLM, обнаружение APT и безопасность сетей 6G. Основные цитируемые работы включают статьи из ведущих конференций и журналов IEEE, ACM, Springer, а также последние исследования на платформе препринтов arXiv.

Резюме: Данная работа, являясь первым систематическим обзором в области обнаружения APT на основе LLM в сетях 6G, имеет важную академическую и практическую ценность. Благодаря строгой методологии и комплексному анализу она устанавливает исследовательскую структуру для этой новой междисциплинарной области, выявляет ключевые проблемы и предлагает конкретные решения. Несмотря на ограничения обзорной статьи в отношении технологических инноваций, ее перспективность и руководящая роль делают ее важным справочным материалом в этой области.