2025-11-11T12:22:08.597062

LLM-Driven APT Detection for 6G Wireless Networks: A Systematic Review and Taxonomy

Golec, Khamayseh, Melhem et al.

Sixth Generation (6G) wireless networks, which are expected to be deployed in the 2030s, have already created great excitement in academia and the private sector with their extremely high communication speed and low latency rates. However, despite the ultra-low latency, high throughput, and AI-assisted orchestration capabilities they promise, they are vulnerable to stealthy and long-term Advanced Persistent Threats (APTs). Large Language Models (LLMs) stand out as an ideal candidate to fill this gap with their high success in semantic reasoning and threat intelligence. In this paper, we present a comprehensive systematic review and taxonomy study for LLM-assisted APT detection in 6G networks. We address five research questions, namely, semantic merging of fragmented logs, encrypted traffic analysis, edge distribution constraints, dataset/modeling techniques, and reproducibility trends, by leveraging most recent studies on the intersection of LLMs, APTs, and 6G wireless networks. We identify open challenges such as explainability gaps, data scarcity, edge hardware limitations, and the need for real-time slicing-aware adaptation by presenting various taxonomies such as granularity, deployment models, and kill chain stages. We then conclude the paper by providing several research gaps in 6G infrastructures for future researchers. To the best of our knowledge, this paper is the first comprehensive systematic review and classification study on LLM-based APT detection in 6G networks.

academic

كشف التهديدات المستمرة المتقدمة في شبكات 6G اللاسلكية بقيادة نماذج اللغة الكبيرة: مراجعة منهجية وتصنيف

المعلومات الأساسية

معرّف الورقة: 2505.18846
العنوان: كشف التهديدات المستمرة المتقدمة في شبكات 6G اللاسلكية بقيادة نماذج اللغة الكبيرة: مراجعة منهجية وتصنيف
المؤلفون: محمد جولك، ياسر خمايسة، سهيب باني ملحم، عبدالملك الوراقي
التصنيف: cs.CR (التشفير والأمان)
تاريخ النشر: 23 يونيو 2025 (نسخة مسبقة من arXiv)
رابط الورقة: https://arxiv.org/abs/2505.18846v2

الملخص

تقدم هذه الورقة حلاً منهجياً قائماً على نماذج اللغة الكبيرة (LLM) لمشكلة كشف التهديدات المستمرة المتقدمة (APT) في شبكات الجيل السادس (6G) اللاسلكية المتوقع نشرها في ثلاثينيات القرن الحالي. على الرغم من أن شبكات 6G تعد بتأخير فائق منخفض وإنتاجية عالية وقدرات تنسيق مدعومة بالذكاء الاصطناعي، إلا أنها تبقى عرضة للهجمات الخفية والطويلة الأمد من نوع APT. يقدم المؤلفون من خلال تحليل 142 ورقة بحثية ذات صلة تصنيفاً شاملاً لاستخدام نماذج اللغة الكبيرة في كشف التهديدات المستمرة المتقدمة، ويحددون التحديات الرئيسية مثل الفجوات في القابلية للتفسير، وندرة البيانات، والقيود على أجهزة الحافة. تعتبر هذه أول دراسة مراجعة منهجية متخصصة في كشف التهديدات المستمرة المتقدمة القائم على نماذج اللغة الكبيرة في شبكات 6G.

خلفية البحث والدافع

تعريف المشكلة

تحديات أمان شبكات 6G: البنية غير المتجانسة لشبكات 6G (الطبقات الأرضية والجوية والفضائية) تخلق سطح هجوم أكبر، مما يجعلها عرضة لهجمات APT
قيود طرق الكشف التقليدية: أنظمة كشف الاختراق القائمة على التوقيع (IDS) تواجه صعوبات في التعامل مع الطبقات المشفرة والطوبولوجيا الديناميكية، مما يجعل الكشف السلوكي معقداً
مشكلة تجزئة البيانات: بيانات السجلات الناتجة عن شبكات 6G مجزأة وغير متسقة، مما يحد من تحليل الارتباط بين الطبقات

أهمية البحث

الملاءمة الزمنية: تقنية 6G على وشك التسويق التجاري، والمشاكل الأمنية تتطلب حلاً عاجلاً
التكامل التكنولوجي: فجوة بحثية في الدراسات المتقاطعة بين ثلاثة مجالات: نماذج اللغة الكبيرة وكشف التهديدات المستمرة المتقدمة وشبكات 6G
القيمة العملية: توفير إرشادات نظرية لنشر أمان شبكات 6G المستقبلية

قيود الطرق الموجودة

غياب طرق تحسين نماذج اللغة الكبيرة المخصصة للقيود المحددة لـ 6G
ندرة مجموعات بيانات كشف التهديدات المستمرة المتقدمة وافتقارها للتمثيل الحقيقي للعالم
محدودية موارد أجهزة الحافة، مما يصعب نشر نماذج اللغة الكبيرة الكاملة

المساهمات الأساسية

أول مراجعة منهجية: توفير أول مراجعة أدبية شاملة ومنهجية لكشف التهديدات المستمرة المتقدمة في شبكات 6G بقيادة نماذج اللغة الكبيرة
إطار عمل بخمسة أبعاد: تحديد خمس مسائل بحثية أساسية تغطي الارتباط الدلالي وتحليل حركة المرور المشفرة والقيود على الحافة وبناء نماذج مجموعات البيانات والقابلية للتكرار
تصنيف متعدد المستويات: اقتراح نظام تصنيف شامل يتضمن أنماط الإدخال ودقة الكشف وتقنيات نماذج اللغة الكبيرة ونماذج النشر ودورة حياة التهديد
تحديد التحديات والاتجاهات المستقبلية: تحديد منهجي للتحديات المفتوحة واقتراح اتجاهات بحثية محددة للمستقبل
تحليل مقارن: إجراء تحليل تفصيلي مع 16 مراجعة موجودة، مما يبرز القيمة الفريدة لهذا البحث

شرح الطريقة

طريقة المراجعة المنهجية

تعتمد الورقة على طريقة المراجعة الأدبية المنهجية (SLR) لـ Kitchenham وطريقة الرسم الخريطة المنهجية (SMS) لـ Petersen:

عملية جمع الأدبيات:
- مرحلة التحديد: البحث في قواعد البيانات الأكاديمية الرئيسية مثل IEEE و ACM و Elsevier و Springer
- مرحلة الفحص: إزالة المستندات المكررة، تقليل من 300+ إلى 126 ورقة
- تقييم الأهلية: تحليل الخبراء، فحص 120 ورقة عالية الجودة
- الإدراج النهائي: تكملة من خلال طريقة كرة الثلج، تحديد 142 ورقة نهائياً

استراتيجية الكلمات الرئيسية للبحث:

[(LLM) OR (Large Language Model)] AND [(APT) OR (Advanced Persistent Threat)]
[(6G) OR (Wireless Networks)] AND [(LLM) OR (APT Detection)] AND [(Edge) OR (Cross-Layer Security)]
[(Cyber Threat Intelligence) OR (Provenance Logs)] AND [(LLM) OR (APT)] AND [(6G)]

إطار العمل البحثي بخمسة أبعاد

RQ1: الارتباط الدلالي لسجلات الأصل المجزأة

التحدي: البنية غير المتجانسة لشبكات 6G تؤدي إلى توزيع غير متساوٍ وغير متسق لبيانات السجلات
الحل: تقوم نماذج اللغة الكبيرة بدمج بيانات السجلات متعددة المصادر من خلال قدرات الاستدلال الدلالي
المسار التقني: النمذجة القائمة على الرسوم البيانية والتقنيات المحسنة دلالياً والاستدلال الارتباطي

RQ2: القيود على قنوات 6G المشفرة وحلول نماذج اللغة الكبيرة

القيود التقنية: DoH والأنفاق المشفرة من طرف إلى طرف تؤدي إلى غموض دلالي في حركة المرور
مزايا نماذج اللغة الكبيرة: قدرات الاستدلال الدلالي والتجريد السياقي
حالات التطبيق: إطار عمل APTSniffer يحقق درجة F1 بنسبة 97% في كشف التهديدات المستمرة المتقدمة

RQ3: قيود النشر على الحافة وتقنيات التحسين

قيود الموارد: محدودية ذاكرة الوصول العشوائي (RAM) والقدرة الحسابية لأجهزة الحافة
استراتيجيات التحسين:
- ضغط النموذج (التكميم والقص والتقطير)
- الضبط الدقيق الفعال للمعاملات (LoRA والمحولات)
- الاستدلال التعاوني (التعاون بين الحافة والسحابة)

RQ4: تقنيات مجموعات البيانات والنمذجة

أنواع مجموعات البيانات:
- مجموعات البيانات شبه الاصطناعية (Unraveled و CICAPT-IIoT)
- السجلات المحسنة اصطناعياً (SAGA و Twitter-APT)
- دمج مجموعات البيانات المرجعية
تقنيات النمذجة: تحليل الرسوم البيانية السلوكية والمشفرات الذاتية متعددة المراحل وأنظمة الخبراء الهجينة

RQ5: القابلية للتكرار واتجاهات النشر

توفر الكود: فقط 19% من الدراسات تشارك الكود المصدري
استخدام مجموعات البيانات: 46.7% تستخدم بيانات اصطناعية، 43.3% تستخدم بيانات عامة
اتجاهات النشر: البحث في LLM-APT يظهر نمواً أسياً

نقاط الابتكار التقني

تصنيف كشف APT القائم على نماذج اللغة الكبيرة

اقتراح نظام تصنيف بخمسة أبعاد:

أنماط الإدخال: السجلات والرسوم البيانية للأصل وبيانات حزم PCAP
دقة الكشف: مستوى الحزمة ومستوى الجلسة ومستوى مراحل سلسلة القتل
تقنيات نماذج اللغة الكبيرة: ضبط المطالبات والنقل بالمحولات والضبط الدقيق
نماذج النشر: السحابة والحافة والحوسبة الضبابية
دورة حياة التهديد: الاستطلاع والوصول الأولي والحركة الجانبية وتسرب البيانات

معمارية كشف APT عبر الطبقات

طبقة RAN: الاستدلال القائم على الجلسة
طبقة النقل: تحليل تسلسل حركة المرور
الشبكة الأساسية: كشف انتهاكات السياسة
طبقة السحابة/التنسيق: ارتباط التنبيهات

الإعداد التجريبي

طريقة جمع البيانات

النطاق الزمني: 2018-2025
مصادر البيانات: قواعس البيانات الأكاديمية والتقارير التقنية والمراجع
معايير الفحص: تقييم الجودة والتوافق مع النطاق والمراجعة من قبل الخبراء

أبعاد التقييم

توفر الكود: نعم/لا وتوزيع المنصات
نوع مجموعة البيانات: نسبة البيانات الاصطناعية والعامة والمدمجة
بروتوكول التقييم: التحقق المتقاطع والمقارنة المعيارية وغيرها
منصات النشر: توزيع المؤتمرات والمجلات ومعامل التأثير

نتائج التجارب

إحصائيات توزيع الأدبيات

الإجمالي: 142 ورقة بحثية ذات صلة
معدل الكود مفتوح المصدر: 19% (بشكل أساسي على منصة GitHub)
توزيع مجموعات البيانات: بيانات اصطناعية 46.7%، بيانات عامة 43.3%، بيانات مدمجة 10%
منصات النشر: IEEE 35.2%، ACM 21.8%، Springer 9.9%

اتجاهات النشر السنوية

2021: 0.7%
2022: 5.6%
2023: 10.6%
2024: 11.3%
2025: 12.7%

يظهر اتجاهاً واضحاً للنمو، مما يعكس التطور السريع في هذا المجال.

تحليل بروتوكول التقييم

المقارنة المعيارية: 26.8%
دراسات الحالة: 24.4%
سيناريوهات المحاكاة: 22.0%
السيناريوهات الاصطناعية: 14.6%
السجلات الحقيقية: 12.2%
معايير SLR: 9.8%

الأعمال ذات الصلة

تحليل المراجعات الموجودة

يقارن المؤلفون 16 دراسة مراجعة ذات صلة ويكتشفون ثلاث فجوات رئيسية:

الاعتبار الشامل لـ LLM و APT و 6G: الدراسات الموجودة لا تغطي هذه المجالات الثلاثة معاً
تصنيف تفصيلي لكشف APT: معظم الدراسات تفتقر إلى تصنيف تفصيلي مثل دورة حياة APT
المقارنة الشاملة عبر المجالات: غياب تحليل المقارنة متعدد الأبعاد

المسار التطوري للتكنولوجيا

نماذج اللغة العامة: BERT (2018)، GPT-2 (2019)، GPT-4 (2023)
نماذج اللغة المتخصصة في الأمان: SecBERT (2020)، CyBERT (2021)، CySecBERT (2022)
التقنيات الناشئة: ضبط المطالبات (2021)، LoRA (2022)، نماذج اللغة الكبيرة الحدية الموحدة (2023+)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الجدوى التقنية: نماذج اللغة الكبيرة لديها إمكانات ضخمة في كشف التهديدات المستمرة المتقدمة في شبكات 6G
تحديد التحديات: قيود الاستدلال الدلالي وقيود المعالجة في الوقت الفعلي والافتقار إلى القابلية للتفسير وندرة البيانات
الفجوات البحثية: الحاجة إلى نماذج لغة كبيرة خفيفة الوزن على الحافة وأنظمة مراقبة القرار المدفوعة بـ XAI ومجموعات بيانات متعددة الأنماط الحقيقية

القيود

قيود نافذة السياق: نماذج اللغة الكبيرة لديها قيود في معالجة تسلسلات الأحداث الطويلة الأجل
قيود موارد الحافة: تؤثر قيود الحوسبة والتخزين على النشر في الوقت الفعلي
مشاكل جودة البيانات: مجموعات بيانات APT الموجودة تفتقر إلى التمثيل الحقيقي للعالم
غياب القابلية للتفسير: الطبيعة السوداء للصندوق تؤثر على تطبيقات المهام الحرجة

الاتجاهات المستقبلية

الابتكار التقني:
- نماذج لغة كبيرة محسنة بالرسوم البيانية لحل مشكلة نافذة السياق القصيرة
- تقنيات التقطير والتكميم لتحسين الاستدلال على الحافة
- نماذج الدمج الموجهة نحو XAI لتحسين القابلية للتفسير
البيانات والتقييم:
- مجموعات بيانات موحدة + محاكاة لإثراء بيانات التدريب
- تصميم التعاون عبر الطبقات للتكيف مع تقنيات 6G الجديدة
- إدارة الشرائح الديناميكية المدفوعة بـ XAI
معمارية النظام:
- أنظمة التنسيق الموجهة نحو الشرائح المتكاملة
- آليات الاستجابة للتهديدات في الوقت الفعلي
- بروتوكولات الأمان متعددة الأنماط

التقييم المتعمق

المزايا

بحث رائد: أول مراجعة منهجية في المجال المتقاطع بين LLM و APT و 6G
منهجية صارمة: استخدام طرق SLR و SMS القياسية، تحليل 142 ورقة عالية الجودة
نظام تصنيف شامل: تصنيف بخمسة أبعاد يغطي التكنولوجيا والنشر والتطبيقات وغيرها
قيمة عملية عالية: توفير خريطة طريق تقنية محددة لنشر أمان شبكات 6G
قوة استشرافية: تحديد التحديات الرئيسية واقتراح اتجاهات حل محددة

أوجه القصور

نقص التحقق التجريبي: كدراسة مراجعة، تفتقر إلى التحقق التجريبي للخوارزميات الأصلية
عمق تقني محدود: نقاش غير كافٍ لتفاصيل تنفيذ بعض التقنيات المحددة
درجة منخفضة من التوحيد: اختلافات كبيرة في معايير التقييم ومجموعات البيانات بين الدراسات المختلفة
اعتبار تجاري غير كافٍ: تحليل محدود لتحليل التكلفة والفائدة للنشر الفعلي

التأثير

القيمة الأكاديمية: إنشاء إطار عمل بحثي ومعايير لمجال متقاطع ناشئ
الأهمية العملية: توجيه تصميم ونشر أنظمة أمان شبكات 6G
التأثير السياسي: توفير مراجع تقنية لوضع معايير أمان الشبكات
دفع الصناعة: تعزيز التطبيقات الصناعية لنماذج اللغة الكبيرة في مجال أمان الشبكات

السيناريوهات المطبقة

مشغلو شبكات 6G: تصميم معمارية أمان الشبكة ونشر أنظمة كشف التهديدات
شركات الأمان: تطوير منتجات كشف APT القائمة على نماذج اللغة الكبيرة
المؤسسات البحثية: البحث الأكاديمي والتطوير التقني في المجالات ذات الصلة
منظمات المعايير: وضع معايير وأنظمة تقنية لأمان شبكات 6G

المراجع

تستشهد هذه الورقة بـ 142 ورقة بحثية عالية الجودة، تغطي أحدث نتائج البحث في مجالات متعددة بما فيها نماذج اللغة الكبيرة وكشف التهديدات المستمرة المتقدمة وأمان شبكات 6G. تتضمن المراجع الرئيسية أوراقاً من المؤتمرات والمجلات الرائدة مثل IEEE و ACM و Springer، بالإضافة إلى أحدث الأبحاث من منصات النسخ المسبقة مثل arXiv.

الملخص: تعتبر هذه الورقة، بصفتها أول مراجعة منهجية في مجال كشف التهديدات المستمرة المتقدمة القائم على نماذج اللغة الكبيرة في شبكات 6G، ذات قيمة أكاديمية وعملية مهمة. من خلال منهجية صارمة وتحليل شامل، تؤسس إطار عمل بحثي لهذا المجال المتقاطع الناشئ، وتحدد التحديات الرئيسية، وتقترح حلولاً محددة. على الرغم من أن الورقة كدراسة مراجعة لها قيود في الابتكار التقني، إلا أن طبيعتها الاستشرافية والتوجيهية تجعلها مرجعاً مهماً في هذا المجال.