2025-11-11T12:22:08.597062

LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy

Golec, Khamayseh, Melhem et al.
Sixth Generation (6G) wireless networks, which are expected to be deployed in the 2030s, have already created great excitement in academia and the private sector with their extremely high communication speed and low latency rates. However, despite the ultra-low latency, high throughput, and AI-assisted orchestration capabilities they promise, they are vulnerable to stealthy and long-term Advanced Persistent Threats (APTs). Large Language Models (LLMs) stand out as an ideal candidate to fill this gap with their high success in semantic reasoning and threat intelligence. In this paper, we present a comprehensive systematic review and taxonomy study for LLM-assisted APT detection in 6G networks. We address five research questions, namely, semantic merging of fragmented logs, encrypted traffic analysis, edge distribution constraints, dataset/modeling techniques, and reproducibility trends, by leveraging most recent studies on the intersection of LLMs, APTs, and 6G wireless networks. We identify open challenges such as explainability gaps, data scarcity, edge hardware limitations, and the need for real-time slicing-aware adaptation by presenting various taxonomies such as granularity, deployment models, and kill chain stages. We then conclude the paper by providing several research gaps in 6G infrastructures for future researchers. To the best of our knowledge, this paper is the first comprehensive systematic review and classification study on LLM-based APT detection in 6G networks.
academic

6G वायरलेस नेटवर्क के लिए LLM-संचालित APT डिटेक्शन: एक व्यवस्थित समीक्षा और वर्गीकरण

मूल जानकारी

  • पेपर ID: 2505.18846
  • शीर्षक: LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy
  • लेखक: Muhammed Golec, Yaser Khamayseh, Suhib Bani Melhem, Abdulmalik Alwarafy
  • वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा)
  • प्रकाशन समय: 25 जून 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2505.18846v2

सारांश

यह पेपर 2030 के दशक में तैनात किए जाने वाले छठी पीढ़ी (6G) वायरलेस नेटवर्क में उन्नत स्थायी खतरों (APT) की पहचान के लिए बड़े भाषा मॉडल (LLM) आधारित व्यवस्थित समाधान प्रस्तुत करता है। हालांकि 6G नेटवर्क अत्यंत कम विलंबता, उच्च थ्रूपुट और AI-सहायक ऑर्केस्ट्रेशन क्षमता का वादा करते हैं, फिर भी वे गुप्त दीर्घकालीन APT हमलों के लिए असुरक्षित हैं। लेखकों ने 142 संबंधित पत्रों का विश्लेषण करके APT पहचान में LLM का एक व्यापक वर्गीकरण प्रस्तुत किया है, और व्याख्या योग्यता अंतराल, डेटा की कमी, एज हार्डवेयर सीमाओं जैसी मुख्य चुनौतियों की पहचान की है। यह 6G नेटवर्क में LLM-आधारित APT पहचान के लिए पहला विशेषीकृत व्यवस्थित समीक्षा अध्ययन है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. 6G नेटवर्क सुरक्षा चुनौतियाँ: 6G नेटवर्क की विषम वास्तुकला (स्थलीय, वायु, उपग्रह परत) एक बड़ी हमले की सतह बनाती है, जो इसे APT हमलों के लिए असुरक्षित बनाती है
  2. पारंपरिक पहचान विधियों की सीमाएँ: हस्ताक्षर-आधारित घुसपैठ पहचान प्रणाली (IDS) एन्क्रिप्शन परत और गतिशील टोपोलॉजी का सामना करते समय व्यवहार पहचान जटिल हो जाती है
  3. डेटा विखंडन समस्या: 6G नेटवर्क द्वारा उत्पन्न लॉग डेटा विखंडित और असंगत है, जो परत-दर-परत संबंध विश्लेषण को सीमित करता है

अनुसंधान का महत्व

  • समयोपयोगिता: 6G तकनीक शीघ्र ही वाणिज्यिक होने वाली है, सुरक्षा समस्याएँ तत्काल समाधान की माँग करती हैं
  • तकनीकी संलयन: LLM, APT पहचान और 6G नेटवर्क तीन क्षेत्रों का अंतःविषय अनुसंधान अंतराल
  • व्यावहारिक मूल्य: भविष्य के 6G नेटवर्क सुरक्षा तैनाती के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है

मौजूदा विधियों की सीमाएँ

  • 6G विशिष्ट बाधाओं के लिए LLM अनुकूलन विधियों की कमी
  • APT पहचान डेटासेट की कमी और वास्तविक दुनिया की प्रतिनिधित्वशीलता की कमी
  • एज डिवाइस संसाधन सीमित, पूर्ण LLM मॉडल तैनाती में कठिनाई

मुख्य योगदान

  1. पहला व्यवस्थित समीक्षा: LLM-संचालित 6G नेटवर्क APT पहचान का पहला व्यापक व्यवस्थित साहित्य समीक्षा प्रदान करता है
  2. पाँच-आयामी अनुसंधान ढाँचा: पाँच मुख्य अनुसंधान प्रश्नों को परिभाषित करता है, जो शब्दार्थ संबंध, एन्क्रिप्टेड ट्रैफिक विश्लेषण, एज बाधाएँ, डेटासेट मॉडलिंग और पुनरुत्पादनशीलता को कवर करते हैं
  3. बहु-स्तरीय वर्गीकरण: इनपुट मोडैलिटी, पहचान दानेदारपन, LLM तकनीक, तैनाती मॉडल और खतरे जीवनचक्र सहित एक व्यापक वर्गीकरण प्रणाली प्रस्तुत करता है
  4. चुनौती पहचान और भविष्य की दिशा: व्यवस्थित रूप से खुली चुनौतियों की पहचान करता है और विशिष्ट भविष्य अनुसंधान दिशाएँ प्रस्तुत करता है
  5. तुलनात्मक विश्लेषण: 16 मौजूदा समीक्षाओं के साथ विस्तृत तुलना करता है, इस अनुसंधान के अद्वितीय मूल्य को उजागर करता है

विधि विवरण

व्यवस्थित समीक्षा विधि

यह पेपर Kitchenham की व्यवस्थित साहित्य समीक्षा (SLR) विधि और Petersen की व्यवस्थित मानचित्रण अनुसंधान (SMS) विधि का उपयोग करता है:

  1. साहित्य संग्रह प्रक्रिया:
    • पहचान चरण: IEEE, ACM, Elsevier, Springer आदि प्रमुख शैक्षणिक डेटाबेस में खोज
    • छानने का चरण: डुप्लिकेट दस्तावेज़ों को हटाना, 300+ से 126 तक कम करना
    • योग्यता मूल्यांकन: विशेषज्ञ विश्लेषण, 120 उच्च-गुणवत्ता वाले पत्रों का चयन
    • अंतिम समावेश: स्नोबॉल विधि द्वारा पूरक, अंतिम रूप से 142 पत्रों का निर्धारण
  2. खोज कीवर्ड रणनीति:
    [(LLM) OR (Large Language Model)] AND [(APT) OR (Advanced Persistent Threat)]
    [(6G) OR (Wireless Networks)] AND [(LLM) OR (APT Detection)] AND [(Edge) OR (Cross-Layer Security)]
    [(Cyber Threat Intelligence) OR (Provenance Logs)] AND [(LLM) OR (APT)] AND [(6G)]
    

पाँच-आयामी अनुसंधान प्रश्न ढाँचा

RQ1: विखंडित प्रोवेनेंस लॉग का शब्दार्थ संबंध

  • चुनौती: 6G नेटवर्क की विषम संरचना असमान और असंगत लॉग डेटा वितरण का कारण बनती है
  • समाधान: LLM शब्दार्थ तर्क क्षमता के माध्यम से बहु-स्रोत लॉग डेटा को एकीकृत करता है
  • तकनीकी पथ: ग्राफ-आधारित मॉडलिंग, शब्दार्थ वृद्धि तकनीक, संबंध तर्क

RQ2: एन्क्रिप्टेड 6G चैनल की सीमाएँ और LLM समाधान

  • तकनीकी सीमाएँ: DoH, एंड-टू-एंड एन्क्रिप्शन सुरंग ट्रैफिक शब्दार्थ को अस्पष्ट करती हैं
  • LLM लाभ: शब्दार्थ तर्क और संदर्भ अमूर्तता क्षमता
  • आवेदन उदाहरण: APTSniffer ढाँचा 97% F1 स्कोर के साथ APT पहचान प्राप्त करता है

RQ3: एज तैनाती बाधाएँ और अनुकूलन तकनीकें

  • संसाधन बाधाएँ: एज डिवाइस RAM और कम्प्यूटिंग क्षमता सीमित
  • अनुकूलन रणनीति:
    • मॉडल संपीड़न (परिमाणीकरण, छंटाई, आसवन)
    • पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग (LoRA, अडैप्टर)
    • सहयोगी अनुमान (एज-क्लाउड सहयोग)

RQ4: डेटासेट और मॉडलिंग तकनीकें

  • डेटासेट प्रकार:
    • अर्ध-सिंथेटिक डेटासेट (Unraveled, CICAPT-IIoT)
    • सिंथेटिक वृद्धि लॉग (SAGA, Twitter-APT)
    • मर्ज किए गए बेंचमार्क कॉर्पस
  • मॉडलिंग तकनीकें: व्यवहार ग्राफ विश्लेषण, बहु-चरण ऑटोएन्कोडर, मिश्रित विशेषज्ञ प्रणाली

RQ5: पुनरुत्पादनशीलता और प्रकाशन प्रवृत्ति

  • कोड उपलब्धता: केवल 19% अनुसंधान स्रोत कोड साझा करते हैं
  • डेटासेट उपयोग: 46.7% सिंथेटिक डेटा का उपयोग, 43.3% सार्वजनिक डेटा का उपयोग
  • प्रकाशन प्रवृत्ति: LLM-APT अनुसंधान में तेजी से वृद्धि

तकनीकी नवाचार बिंदु

LLM-APT पहचान वर्गीकरण

पाँच-आयामी वर्गीकरण प्रणाली प्रस्तुत करता है:

  1. इनपुट मोडैलिटी: लॉग, प्रोवेनेंस ग्राफ, PCAP पैकेट
  2. पहचान दानेदारपन: पैकेट-स्तर, सत्र-स्तर, किल चेन चरण-स्तर
  3. LLM तकनीक: प्रॉम्प्ट ट्यूनिंग, अडैप्टर स्थानांतरण, सूक्ष्म-ट्यूनिंग
  4. तैनाती मॉडल: क्लाउड, एज, फॉग कंप्यूटिंग
  5. खतरे जीवनचक्र: टोही, प्रारंभिक पहुँच, पार्श्व आंदोलन, डेटा एक्सफिल्ट्रेशन

क्रॉस-लेयर APT पहचान आर्किटेक्चर

  • RAN परत: सत्र-आधारित APT तर्क
  • परिवहन परत: ट्रैफिक अनुक्रम विश्लेषण
  • कोर नेटवर्क: नीति उल्लंघन पहचान
  • क्लाउड/ऑर्केस्ट्रेशन परत: अलर्ट सहसंबंध

प्रायोगिक सेटअप

डेटा संग्रह विधि

  • समय सीमा: 2018-2025
  • डेटा स्रोत: शैक्षणिक डेटाबेस, तकनीकी रिपोर्ट, संदर्भ
  • छानने के मानदंड: गुणवत्ता मूल्यांकन, दायरा अनुरूपता, विशेषज्ञ समीक्षा

मूल्यांकन आयाम

  • कोड उपलब्धता: हाँ/नहीं और प्लेटफॉर्म वितरण
  • डेटासेट प्रकार: सिंथेटिक/सार्वजनिक/मर्ज डेटासेट अनुपात
  • मूल्यांकन प्रोटोकॉल: क्रॉस-सत्यापन, बेंचमार्क तुलना आदि
  • प्रकाशन प्लेटफॉर्म: सम्मेलन/पत्रिका वितरण और प्रभाव कारक

प्रायोगिक परिणाम

साहित्य वितरण सांख्यिकी

  • कुल: 142 संबंधित पत्र
  • कोड ओपन-सोर्स दर: 19% (मुख्य रूप से GitHub प्लेटफॉर्म पर)
  • डेटासेट वितरण: सिंथेटिक डेटा 46.7%, सार्वजनिक डेटा 43.3%, मर्ज डेटा 10%
  • प्रकाशन प्लेटफॉर्म: IEEE 35.2%, ACM 21.8%, Springer 9.9%

वार्षिक प्रकाशन प्रवृत्ति

  • 2021: 0.7%
  • 2022: 5.6%
  • 2023: 10.6%
  • 2024: 11.3%
  • 2025: 12.7%

स्पष्ट वृद्धि प्रवृत्ति दिखाता है, जो इस क्षेत्र के तेजी से विकास को दर्शाता है।

मूल्यांकन प्रोटोकॉल विश्लेषण

  • बेंचमार्क तुलना: 26.8%
  • केस स्टडी: 24.4%
  • सिमुलेशन परिदृश्य: 22.0%
  • सिंथेटिक परिदृश्य: 14.6%
  • वास्तविक लॉग: 12.2%
  • SLR मानक: 9.8%

संबंधित कार्य

मौजूदा समीक्षा विश्लेषण

लेखकों ने 16 संबंधित समीक्षा अध्ययनों की तुलना की है, तीन मुख्य अंतराल पाए हैं:

  1. LLM, APT और 6G का व्यापक विचार: मौजूदा अनुसंधान इन तीनों क्षेत्रों को एक साथ कवर नहीं करता है
  2. विस्तृत APT पहचान वर्गीकरण: अधिकांश अनुसंधान APT जीवनचक्र आदि विस्तृत वर्गीकरण की कमी करते हैं
  3. अंतःविषय तुलना संश्लेषण: बहु-आयामी तुलनात्मक विश्लेषण की कमी

तकनीकी विकास पथ

  • सामान्य LLM: BERT (2018), GPT-2 (2019), GPT-4 (2023)
  • सुरक्षा-विशिष्ट LLM: SecBERT (2020), CyBERT (2021), CySecBERT (2022)
  • उभरती तकनीकें: प्रॉम्प्ट ट्यूनिंग (2021), LoRA (2022), संघीय एज LLM (2023+)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: LLM के पास 6G नेटवर्क APT पहचान में विशाल संभावनाएँ हैं
  2. चुनौती पहचान: शब्दार्थ तर्क सीमाएँ, वास्तविक समय प्रसंस्करण बाधाएँ, व्याख्या योग्यता अपर्याप्तता, डेटा की कमी
  3. अनुसंधान अंतराल: हल्के एज LLM, XAI-संचालित निर्णय निगरानी, बहु-मोडल वास्तविक डेटासेट की आवश्यकता

सीमाएँ

  1. संदर्भ विंडो सीमा: LLM दीर्घकालीन घटना अनुक्रम प्रसंस्करण में सीमाएँ हैं
  2. एज संसाधन बाधाएँ: कम्प्यूटिंग और भंडारण सीमाएँ वास्तविक समय तैनाती को प्रभावित करती हैं
  3. डेटा गुणवत्ता समस्या: मौजूदा APT डेटासेट वास्तविक दुनिया की प्रतिनिधित्वशीलता की कमी करते हैं
  4. व्याख्या योग्यता अभाव: ब्लैक-बॉक्स विशेषता महत्वपूर्ण कार्य अनुप्रयोगों को प्रभावित करती है

भविष्य की दिशाएँ

  1. तकनीकी नवाचार:
    • छोटी संदर्भ विंडो समस्या को हल करने के लिए ग्राफ-वर्धित LLM
    • एज अनुमान अनुकूलन के लिए आसवन और परिमाणीकरण तकनीकें
    • व्याख्या योग्यता में सुधार के लिए XAI-सचेत संलयन मॉडल
  2. डेटा और मूल्यांकन:
    • संघीय + सिमुलेशन कॉर्पस प्रशिक्षण डेटा समृद्ध करता है
    • 6G नई तकनीकों के अनुकूल क्रॉस-लेयर सहयोगी डिजाइन
    • XAI-संचालित गतिशील स्लाइसिंग प्रबंधन
  3. प्रणाली आर्किटेक्चर:
    • स्लाइस-सचेत ऑर्केस्ट्रेशन प्रणाली एकीकरण
    • वास्तविक समय खतरे प्रतिक्रिया तंत्र
    • बहु-मोडल सुरक्षा प्रोटोकॉल

गहन मूल्यांकन

शक्तियाँ

  1. अग्रणी अनुसंधान: LLM-APT-6G अंतःविषय क्षेत्र का पहला व्यवस्थित समीक्षा
  2. पद्धति कठोरता: मानक SLR और SMS विधि का उपयोग, 142 उच्च-गुणवत्ता वाले पत्रों का विश्लेषण
  3. वर्गीकरण प्रणाली पूर्णता: पाँच-आयामी वर्गीकरण तकनीक, तैनाती, अनुप्रयोग आदि कई परतों को कवर करता है
  4. उच्च व्यावहारिक मूल्य: 6G नेटवर्क सुरक्षा तैनाती के लिए विशिष्ट तकनीकी रोडमैप प्रदान करता है
  5. मजबूत दूरदर्शिता: मुख्य चुनौतियों की पहचान करता है और विशिष्ट समाधान दिशाएँ प्रस्तुत करता है

कमियाँ

  1. अनुभवजन्य सत्यापन की कमी: समीक्षा पेपर के रूप में, मूल एल्गोरिदम के प्रायोगिक सत्यापन की कमी
  2. तकनीकी गहराई सीमित: कुछ विशिष्ट तकनीकी कार्यान्वयन विवरणों पर चर्चा अपर्याप्त है
  3. मानकीकरण की कम डिग्री: विभिन्न अनुसंधानों के मूल्यांकन मानदंड और डेटासेट में महत्वपूर्ण अंतर
  4. व्यावसायीकरण विचार अपर्याप्त: वास्तविक तैनाती की लागत-लाभ विश्लेषण कम है

प्रभाव

  1. शैक्षणिक मूल्य: नई अंतःविषय क्षेत्र के लिए अनुसंधान ढाँचा और मानक स्थापित करता है
  2. व्यावहारिक महत्व: 6G नेटवर्क सुरक्षा प्रणाली डिजाइन और तैनाती का मार्गदर्शन करता है
  3. नीति प्रभाव: नेटवर्क सुरक्षा मानक निर्माण के लिए तकनीकी संदर्भ प्रदान करता है
  4. उद्योग संचालन: नेटवर्क सुरक्षा क्षेत्र में LLM के औद्योगिकीकरण अनुप्रयोग को बढ़ावा देता है

लागू परिदृश्य

  1. 6G नेटवर्क ऑपरेटर: नेटवर्क सुरक्षा आर्किटेक्चर डिजाइन और खतरे पहचान प्रणाली तैनाती
  2. सुरक्षा विक्रेता: LLM-आधारित APT पहचान उत्पाद विकास
  3. अनुसंधान संस्थान: संबंधित क्षेत्र के शैक्षणिक अनुसंधान और तकनीकी विकास
  4. मानक संगठन: 6G नेटवर्क सुरक्षा तकनीकी मानदंड और विनियमन निर्माण

संदर्भ

यह पेपर 142 उच्च-गुणवत्ता वाले पत्रों का हवाला देता है, जो LLM, APT पहचान, 6G नेटवर्क सुरक्षा आदि कई क्षेत्रों के नवीनतम अनुसंधान परिणामों को कवर करते हैं। मुख्य संदर्भ IEEE, ACM, Springer आदि शीर्ष सम्मेलन और पत्रिकाओं के पत्र, साथ ही arXiv जैसे प्रीप्रिंट प्लेटफॉर्म के नवीनतम अनुसंधान शामिल हैं।


सारांश: यह पेपर 6G नेटवर्क में LLM-संचालित APT पहचान क्षेत्र का पहला व्यवस्थित समीक्षा होने के नाते, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखता है। कठोर पद्धति और व्यापक विश्लेषण के माध्यम से, यह नई अंतःविषय क्षेत्र के लिए एक अनुसंधान ढाँचा स्थापित करता है, मुख्य चुनौतियों की पहचान करता है, और विशिष्ट समाधान प्रस्तुत करता है। हालांकि समीक्षा पेपर के रूप में तकनीकी नवाचार में कुछ सीमाएँ हैं, लेकिन इसकी दूरदर्शिता और मार्गदर्शन इसे इस क्षेत्र का एक महत्वपूर्ण संदर्भ बनाते हैं।