2025-11-11T12:22:08.597062

LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy

Golec, Khamayseh, Melhem et al.
Sixth Generation (6G) wireless networks, which are expected to be deployed in the 2030s, have already created great excitement in academia and the private sector with their extremely high communication speed and low latency rates. However, despite the ultra-low latency, high throughput, and AI-assisted orchestration capabilities they promise, they are vulnerable to stealthy and long-term Advanced Persistent Threats (APTs). Large Language Models (LLMs) stand out as an ideal candidate to fill this gap with their high success in semantic reasoning and threat intelligence. In this paper, we present a comprehensive systematic review and taxonomy study for LLM-assisted APT detection in 6G networks. We address five research questions, namely, semantic merging of fragmented logs, encrypted traffic analysis, edge distribution constraints, dataset/modeling techniques, and reproducibility trends, by leveraging most recent studies on the intersection of LLMs, APTs, and 6G wireless networks. We identify open challenges such as explainability gaps, data scarcity, edge hardware limitations, and the need for real-time slicing-aware adaptation by presenting various taxonomies such as granularity, deployment models, and kill chain stages. We then conclude the paper by providing several research gaps in 6G infrastructures for future researchers. To the best of our knowledge, this paper is the first comprehensive systematic review and classification study on LLM-based APT detection in 6G networks.
academic

Détection d'APT Pilotée par LLM pour les Réseaux Sans Fil 6G : Une Revue Systématique et une Taxonomie

Informations Fondamentales

  • ID de l'article : 2505.18846
  • Titre : LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy
  • Auteurs : Muhammed Golec, Yaser Khamayseh, Suhib Bani Melhem, Abdulmalik Alwarafy
  • Classification : cs.CR (Cryptographie et Sécurité)
  • Date de publication : 23 juin 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2505.18846v2

Résumé

Cet article propose une solution systématique basée sur les modèles de langage de grande taille (LLM) pour la détection des menaces persistantes avancées (APT) dans les réseaux sans fil de sixième génération (6G), dont le déploiement est prévu dans les années 2030. Bien que les réseaux 6G promettent une latence ultra-faible, un débit élevé et des capacités d'orchestration assistées par l'IA, ils restent vulnérables aux attaques APT discrètes et prolongées. Les auteurs, en analysant 142 articles connexes, proposent une taxonomie complète des LLM dans la détection d'APT et identifient les défis critiques tels que les lacunes en interprétabilité, la rareté des données et les limitations du matériel périphérique. Il s'agit de la première étude de synthèse systématique spécifiquement consacrée à la détection d'APT basée sur les LLM dans les réseaux 6G.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Défis de sécurité des réseaux 6G : L'architecture hétérogène des réseaux 6G (couches terrestre, aérienne et satellitaire) crée une surface d'attaque plus importante, les rendant vulnérables aux attaques APT
  2. Limitations des méthodes de détection traditionnelles : Les systèmes de détection d'intrusion (IDS) basés sur les signatures rencontrent des difficultés face aux couches chiffrées et aux topologies dynamiques, rendant la détection comportementale complexe
  3. Problème de fragmentation des données : Les données de journaux générées par les réseaux 6G sont fragmentées et incohérentes, limitant l'analyse de corrélation entre les couches

Importance de la Recherche

  • Pertinence temporelle : La technologie 6G est sur le point d'être commercialisée, et les problèmes de sécurité nécessitent une résolution urgente
  • Convergence technologique : Lacune de recherche interdisciplinaire entre les LLM, la détection d'APT et les réseaux 6G
  • Valeur pratique : Fournir des orientations théoriques pour le déploiement de la sécurité des futurs réseaux 6G

Limitations des Approches Existantes

  • Absence de méthodes d'optimisation des LLM spécifiques aux contraintes du 6G
  • Rareté des ensembles de données de détection d'APT et manque de représentativité du monde réel
  • Ressources limitées des appareils périphériques, rendant difficile le déploiement de modèles LLM complets

Contributions Principales

  1. Première revue systématique : Fournit la première synthèse bibliographique complète et systématique de la détection d'APT pilotée par LLM pour les réseaux 6G
  2. Cadre de recherche à cinq dimensions : Définit cinq questions de recherche fondamentales, couvrant l'association sémantique, l'analyse du trafic chiffré, les contraintes périphériques, la modélisation des ensembles de données et la reproductibilité
  3. Taxonomie multi-niveaux : Propose un système de classification complet incluant les modalités d'entrée, la granularité de détection, les techniques LLM, les modèles de déploiement et le cycle de vie des menaces
  4. Identification des défis et orientations futures : Identifie systématiquement les défis ouverts et propose des orientations de recherche futures spécifiques
  5. Analyse comparative : Effectue une comparaison détaillée avec 16 synthèses existantes, mettant en évidence la valeur unique de cette recherche

Détails Méthodologiques

Approche de Revue Systématique

Cet article adopte la méthode de revue systématique de la littérature (SLR) de Kitchenham et la méthode de cartographie systématique (SMS) de Petersen :

  1. Processus de collecte de littérature :
    • Phase d'identification : Recherche dans les principales bases de données académiques (IEEE, ACM, Elsevier, Springer)
    • Phase de filtrage : Suppression des documents en double, réduction de plus de 300 articles à 126
    • Évaluation de l'admissibilité : Analyse par des experts, sélection de 120 articles de haute qualité
    • Inclusion finale : Complément par la méthode boule de neige, finalisation de 142 articles
  2. Stratégie de mots-clés de recherche :
    [(LLM) OR (Large Language Model)] AND [(APT) OR (Advanced Persistent Threat)]
    [(6G) OR (Wireless Networks)] AND [(LLM) OR (APT Detection)] AND [(Edge) OR (Cross-Layer Security)]
    [(Cyber Threat Intelligence) OR (Provenance Logs)] AND [(LLM) OR (APT)] AND [(6G)]
    

Cadre de Questions de Recherche à Cinq Dimensions

RQ1 : Association Sémantique des Journaux de Traçabilité Fragmentés

  • Défi : La structure hétérogène des réseaux 6G entraîne une distribution inégale et incohérente des données de journaux
  • Solution : Les LLM intègrent les données de journaux multi-sources grâce à leurs capacités de raisonnement sémantique
  • Voie technologique : Modélisation basée sur des graphes, techniques d'amélioration sémantique, raisonnement associatif

RQ2 : Limitations des Canaux 6G Chiffrés et Solutions LLM

  • Limitations techniques : DoH et les tunnels chiffrés de bout en bout obscurcissent la sémantique du trafic
  • Avantages des LLM : Capacités de raisonnement sémantique et d'abstraction contextuelle
  • Cas d'application : Le cadre APTSniffer réalise une détection d'APT avec un score F1 de 97%

RQ3 : Contraintes de Déploiement Périphérique et Techniques d'Optimisation

  • Contraintes de ressources : RAM et capacités de calcul limitées des appareils périphériques
  • Stratégies d'optimisation :
    • Compression de modèles (quantification, élagage, distillation)
    • Ajustement fin efficace en paramètres (LoRA, Adaptateurs)
    • Raisonnement collaboratif (coopération périphérie-nuage)

RQ4 : Techniques de Modélisation et Ensembles de Données

  • Types d'ensembles de données :
    • Ensembles de données semi-synthétiques (Unraveled, CICAPT-IIoT)
    • Journaux augmentés synthétiquement (SAGA, Twitter-APT)
    • Corpus de référence fusionnés
  • Techniques de modélisation : Analyse de graphes comportementaux, autoencodeurs multi-étapes, systèmes d'experts hybrides

RQ5 : Reproductibilité et Tendances de Publication

  • Disponibilité du code : Seulement 19% des recherches partagent le code source
  • Utilisation d'ensembles de données : 46,7% utilisent des données synthétiques, 43,3% utilisent des données publiques
  • Tendances de publication : Croissance exponentielle de la recherche LLM-APT

Points d'Innovation Technologique

Taxonomie de Détection LLM-APT

Propose un système de classification à cinq dimensions :

  1. Modalités d'entrée : Journaux, graphes de traçabilité, paquets PCAP
  2. Granularité de détection : Niveau paquet, niveau session, niveau étape de chaîne de destruction
  3. Techniques LLM : Ajustement des invites, migration d'adaptateurs, ajustement fin
  4. Modèles de déploiement : Nuage, périphérie, informatique brouillard
  5. Cycle de vie des menaces : Reconnaissance, accès initial, mouvement latéral, exfiltration de données

Architecture de Détection d'APT Inter-Couches

  • Couche RAN : Raisonnement d'APT basé sur les sessions
  • Couche Transport : Analyse de séquences de trafic
  • Réseau cœur : Détection de violations de politique
  • Couche Nuage/Orchestration : Corrélation d'alertes

Configuration Expérimentale

Méthode de Collecte de Données

  • Période couverte : 2018-2025
  • Sources de données : Bases de données académiques, rapports techniques, références
  • Critères de filtrage : Évaluation de la qualité, conformité du champ d'application, examen par des experts

Dimensions d'Évaluation

  • Disponibilité du code : OUI/NON et distribution des plates-formes
  • Type d'ensemble de données : Proportion de données synthétiques/publiques/fusionnées
  • Protocoles d'évaluation : Validation croisée, comparaison de référence, etc.
  • Plates-formes de publication : Distribution conférence/journal et facteur d'impact

Résultats Expérimentaux

Statistiques de Distribution de la Littérature

  • Total : 142 articles connexes
  • Taux d'open source du code : 19% (principalement sur la plateforme GitHub)
  • Distribution des ensembles de données : Données synthétiques 46,7%, données publiques 43,3%, données fusionnées 10%
  • Plates-formes de publication : IEEE 35,2%, ACM 21,8%, Springer 9,9%

Tendances de Publication Annuelles

  • 2021 : 0,7%
  • 2022 : 5,6%
  • 2023 : 10,6%
  • 2024 : 11,3%
  • 2025 : 12,7%

Montrant une tendance de croissance évidente, reflétant le développement rapide du domaine.

Analyse des Protocoles d'Évaluation

  • Comparaison de référence : 26,8%
  • Études de cas : 24,4%
  • Scénarios de simulation : 22,0%
  • Scénarios synthétiques : 14,6%
  • Journaux réels : 12,2%
  • Normes SLR : 9,8%

Travaux Connexes

Analyse des Synthèses Existantes

Les auteurs comparent 16 études de synthèse connexes et identifient trois lacunes clés :

  1. Considération intégrée des LLM, APT et 6G : Les recherches existantes ne couvrent pas simultanément ces trois domaines
  2. Taxonomie détaillée de détection d'APT : La plupart des recherches manquent de classifications détaillées telles que le cycle de vie d'APT
  3. Comparaison intégrée inter-domaines : Absence d'analyse comparative multi-dimensionnelle

Trajectoire du Développement Technologique

  • LLM génériques : BERT (2018), GPT-2 (2019), GPT-4 (2023)
  • LLM spécialisés en sécurité : SecBERT (2020), CyBERT (2021), CySecBERT (2022)
  • Technologies émergentes : Ajustement des invites (2021), LoRA (2022), LLM fédérés périphériques (2023+)

Conclusions et Discussion

Conclusions Principales

  1. Faisabilité technologique : Les LLM ont un énorme potentiel dans la détection d'APT pour les réseaux 6G
  2. Identification des défis : Limitations du raisonnement sémantique, contraintes de traitement en temps réel, insuffisance d'interprétabilité, rareté des données
  3. Lacunes de recherche : Nécessité de LLM légers périphériques, surveillance des décisions pilotée par XAI, ensembles de données multimodaux du monde réel

Limitations

  1. Limitations de la fenêtre contextuelle : Les LLM présentent des limitations dans le traitement des séquences d'événements prolongés
  2. Contraintes des ressources périphériques : Les limitations de calcul et de stockage affectent le déploiement en temps réel
  3. Problèmes de qualité des données : Les ensembles de données d'APT existants manquent de représentativité du monde réel
  4. Absence d'interprétabilité : La nature de boîte noire affecte les applications critiques

Orientations Futures

  1. Innovation technologique :
    • LLM augmentés par graphes pour résoudre les problèmes de fenêtre contextuelle courte
    • Techniques de distillation et quantification pour optimiser l'inférence périphérique
    • Modèles de fusion sensibles à XAI pour améliorer l'interprétabilité
  2. Données et Évaluation :
    • Corpus fédérés + simulés pour enrichir les données d'entraînement
    • Conception collaborative inter-couches adaptée aux nouvelles technologies 6G
    • Gestion dynamique des tranches pilotée par XAI
  3. Architecture Système :
    • Systèmes d'orchestration sensibles aux tranches intégrés
    • Mécanismes de réponse aux menaces en temps réel
    • Protocoles de sécurité multimodaux

Évaluation Approfondie

Points Forts

  1. Recherche pionnière : Première revue systématique du domaine interdisciplinaire LLM-APT-6G
  2. Méthodologie rigoureuse : Adoption des méthodes SLR et SMS standard, analyse de 142 articles de haute qualité
  3. Système de classification complet : La taxonomie à cinq dimensions couvre les aspects technologiques, de déploiement et d'application
  4. Valeur pratique élevée : Fournit une feuille de route technologique concrète pour le déploiement de la sécurité des réseaux 6G
  5. Force prospective : Identifie les défis critiques et propose des orientations de solution spécifiques

Insuffisances

  1. Manque de validation empirique : En tant qu'article de synthèse, il manque de vérification expérimentale des algorithmes originaux
  2. Profondeur technologique limitée : Discussion insuffisante sur les détails d'implémentation de certaines techniques spécifiques
  3. Faible niveau de normalisation : Grandes variations dans les normes d'évaluation et les ensembles de données entre différentes recherches
  4. Considération insuffisante de la commercialisation : Analyse limitée du rapport coût-bénéfice du déploiement réel

Impact

  1. Valeur académique : Établit un cadre de recherche et des normes pour un domaine interdisciplinaire émergent
  2. Signification pratique : Guide la conception et le déploiement des systèmes de sécurité des réseaux 6G
  3. Impact politique : Fournit des références techniques pour l'élaboration des normes de sécurité réseau
  4. Promotion industrielle : Favorise l'application industrielle des LLM dans le domaine de la sécurité réseau

Scénarios d'Application

  1. Opérateurs de réseaux 6G : Conception d'architectures de sécurité réseau et déploiement de systèmes de détection des menaces
  2. Fournisseurs de sécurité : Développement de produits de détection d'APT basés sur les LLM
  3. Institutions de recherche : Recherche académique et développement technologique dans les domaines connexes
  4. Organisations de normalisation : Élaboration de normes et de spécifications techniques de sécurité pour les réseaux 6G

Références Bibliographiques

Cet article cite 142 articles de haute qualité, couvrant les dernières avancées de recherche dans plusieurs domaines incluant les LLM, la détection d'APT et la sécurité des réseaux 6G. Les références principales incluent des articles des principales conférences et revues (IEEE, ACM, Springer) ainsi que les dernières recherches des plates-formes de prépublication telles que arXiv.


Résumé : En tant que première revue systématique du domaine de la détection d'APT pilotée par LLM dans les réseaux 6G, cet article possède une valeur académique et pratique importante. Grâce à une méthodologie rigoureuse et une analyse complète, il établit un cadre de recherche pour ce domaine interdisciplinaire émergent, identifie les défis critiques et propose des solutions concrètes. Bien que, en tant qu'article de synthèse, il présente certaines limitations en matière d'innovation technologique, sa nature prospective et son caractère directif en font une référence importante dans le domaine.