2025-11-15T15:52:10.939408

DEHYDRATOR: Enhancing Provenance Graph Storage via Hierarchical Encoding and Sequence Generation

Ying, Zhu, Lv et al.

As the scope and impact of cyber threats have expanded, analysts utilize audit logs to hunt threats and investigate attacks. The provenance graphs constructed from kernel logs are increasingly considered as an ideal data source due to their powerful semantic expression and attack historic correlation ability. However, storing provenance graphs with traditional databases faces the challenge of high storage overhead, given the high frequency of kernel events and the persistence of attacks. To address this, we propose Dehydrator, an efficient provenance graph storage system. For the logs generated by auditing frameworks, Dehydrator uses field mapping encoding to filter field-level redundancy, hierarchical encoding to filter structure-level redundancy, and finally learns a deep neural network to support batch querying. We have conducted evaluations on seven datasets totaling over one billion log entries. Experimental results show that Dehydrator reduces the storage space by 84.55%. Dehydrator is 7.36 times more efficient than PostgreSQL, 7.16 times than Neo4j, and 16.17 times than Leonard (the work most closely related to Dehydrator, published at Usenix Security'23).

academic

DEHYDRATOR: تحسين تخزين رسم البيانات الأصلي عبر الترميز الهرمي وتوليد التسلسل

المعلومات الأساسية

معرّف الورقة: 2501.00446
العنوان: DEHYDRATOR: تحسين تخزين رسم البيانات الأصلي عبر الترميز الهرمي وتوليد التسلسل
المؤلفون: Jie Ying, Tiantian Zhu*, Mingqi Lv, Tieming Chen (جامعة تشجيانج الصناعية)
التصنيف: cs.CR (التشفير والأمان)
مجلة النشر: IEEE Transactions on Information Forensics and Security
رابط الورقة: https://arxiv.org/abs/2501.00446

الملخص

مع توسع نطاق التهديدات السيبرانية وتأثيرها، يستخدم المحللون سجلات التدقيق لتتبع التهديدات والتحقيق في الهجمات. يُعتبر رسم البيانات الأصلي المبني من سجلات النواة بشكل متزايد مصدراً مثالياً نظراً لقدرته التعبيرية الدلالية القوية وقدرته على ربط سجل الهجمات. ومع ذلك، بسبب التكرار العالي للأحداث في النواة واستمرار الهجمات، يواجه تخزين رسم البيانات الأصلي باستخدام قواعد البيانات التقليدية تحديات تكاليف تخزين عالية. لحل هذه المشكلة، نقترح DEHYDRATOR، وهو نظام تخزين فعال لرسم البيانات الأصلي. بالنسبة للسجلات التي تنتجها أطر التدقيق، يستخدم DEHYDRATOR ترميز رسم الخرائط الميداني لتصفية التكرار على مستوى الحقل، والترميز الهرمي لتصفية التكرار على مستوى البنية، وأخيراً يتعلم شبكة عصبية عميقة لدعم الاستعلامات الجماعية. تُظهر نتائج التقييم على سبعة مجموعات بيانات تتجاوز مليار إدخال سجل أن DEHYDRATOR يقلل مساحة التخزين بنسبة 84.55%، وهو أكثر كفاءة بـ 7.36 مرة من PostgreSQL، و7.16 مرة من Neo4j، و16.17 مرة من Leonard.

الخلفية البحثية والدافع

خلفية المشكلة

تزايد التهديدات السيبرانية: حتى مايو 2024، حدثت 9,478 حادثة تسرب بيانات، حيث أدى حدث MOAB في يناير 2024 إلى تسرب 26 مليار سجل
أهمية رسم البيانات الأصلي: يعمل رسم البيانات الأصلي كبنية رسم بياني موجه، حيث تمثل العقد كيانات النظام (العمليات والملفات والمقابس)، والحواف تمثل أحداث النظام، مع قدرة تعبيرية دلالية قوية وقدرة على ربط سجل الهجمات
تحديات التخزين: أربع ظواهر تؤدي إلى صعوبات التخزين:
- النمو غير القابل للعكس: للحفاظ على سلامة البيانات، يتم فقط إضافة البيانات وليس حذفها
- التوسع السريع: تنتج كل آلة جيجابايتات من السجلات يومياً
- المدة الطويلة: يستغرق اكتشاف الاختراق في المتوسط 188 يوماً
- متطلبات الاستعلام: الحاجة إلى دعم استعلامات واسعة النطاق لصيد التهديدات والتحليل السببي

قيود الطرق الموجودة

تنقسم أنظمة تخزين رسم البيانات الأصلي الفعالة الموجودة (ESSPGs) إلى فئتين:

الطرق القائمة على القص (مثل LogGC و CPR و NodeMerge و DPR): ضغط فقدان، قد يؤدي إلى نتائج سالبة كاذبة في المكونات العليا
الطرق القائمة على الترميز (مثل SEAL و SLEUTH و ELISE و Leonard): إما أنها لا تدعم الاستعلامات أو أن المكونات المساعدة تحتل مساحة تخزين كبيرة

الدافع البحثي

لا تستطيع الطرق الموجودة تلبية ثلاث متطلبات رئيسية في نفس الوقت:

المحتوى بدون فقدان: الاحتفاظ بجميع البيانات لتجنب النتائج السالبة الكاذبة
كفاءة التخزين: تقليل تكاليف التخزين
دعم الاستعلام: معالجة متطلبات الاستعلامات الواسعة النطاق

المساهمات الأساسية

اقتراح نظام DEHYDRATOR: نظام تخزين فعال لرسم البيانات الأصلي يتغلب على قيود الطرق الموجودة، باستخدام ترميز رسم الخرائط الميداني لتصفية التكرار على مستوى الحقل، والترميز الهرمي لتصفية التكرار على مستوى البنية، وشبكة عصبية عميقة لدعم الاستعلامات الجماعية
بناء نموذج أولي وتقييم واسع النطاق: التقييم على سبعة مجموعات بيانات (إجمالي أكثر من مليار سجل)، مع تقليل مساحة التخزين بنسبة 84.55%، وكفاءة أعلى من PostgreSQL و Neo4j و Leonard بمعدل 7.36 و 7.16 و 16.17 مرة على التوالي
تقييم وتحليل شامل: استكشاف تأثير المكونات والسيناريوهات المعمول بها وحدود الأداء، وتعريف مؤشر نسبة التأخير إلى التخزين (LSR) لموازنة تكاليف التخزين والتأخير

شرح الطريقة

تعريف المهمة

الإدخال: سجلات النواة الأصلية التي تجمعها أطر التدقيق الإخراج: رسم بيانات أصلي مخزن بكفاءة، يدعم متطلبات الاستعلام للمكونات العليا القيود: محتوى بدون فقدان، كفاءة التخزين، دعم الاستعلام

معمارية النظام

يعتمد DEHYDRATOR على إطار عمل ثلاثي المراحل:

1. مرحلة المعالجة المسبقة (Pretreatment)

تحليل السجل: استخدام التعبيرات العادية لاستخراج الحقول الرئيسية من السجلات الأصلية
بناء رسم البيانات الأصلي: بناء جدول العقد NT (IdentiID و Name و Type) وجدول الحواف ET (SrcID و DstID و TimeStamp و Operation)
ترميز رسم الخرائط الميداني: معالجة ثلاث فئات من التكرار على مستوى الحقل
- القيم الفريدة: استبدالها بأحرف رقمية أقصر
- القيم المتكررة: استبدالها بالفهارس
- القيم الإضافية: استبدالها بالإزاحات

2. مرحلة التخزين (Storage)

الترميز الهرمي:

نمذجة رسم البيانات الأصلي كرسم بياني موجه هرمي
لكل عقدة v، تسجيل جميع العقد المصدر ومعلومات الحافة الواردة
بناء جدول الخرائط المدمجة MMT وجدول الحواف الهرمية EThi
بنية القائمة المتداخلة: Operation: timeOffset: nodeOffset

تدريب النموذج:

اختيار فك التشفير الفردي Transformer
نمذجة مهمة التخزين كمهمة توليد تسلسل
استخدام ترميز char2vec والتوليد الانحداري التلقائي
بناء جدول التصحيح الخطأ ECT لمعالجة أخطاء تنبؤ النموذج

3. مرحلة الاستعلام (Query)

معلومات العقدة: الحصول على الفهرس من خلال جدول الخرائط MT، واسترجاع معلومات العقدة
معلومات الحافة: إدخال الفهرس إلى نموذج DNN، توليد التسلسل، تصحيح ECT، فك التشفير الهرمي للحصول على معلومات قابلة للقراءة

نقاط الابتكار التقني

تصميم الترميز الهرمي:
- بناءً على خصائص الاستعلام العكسي للتحليل السببي
- ضغط حواف متوازية متعددة في شكل ترميز مضغوط
- زيادة كثافة المعلومات وتسريع تدريب النموذج
اختيار نموذج DNN:
- فك التشفير الفردي Transformer بدلاً من LSTM متعدد الطبقات
- قدرة أفضل على المعالجة المتوازية واستخراج الميزات
- مناسب لتحديد الأنماط المتكررة منخفضة المستوى في مهام التخزين
آلية تصحيح الأخطاء:
- جدول ECT يسجل الموضع والحرف الصحيح
- ضمان محتوى بدون فقدان مع دعم ضغط DNN

إعداد التجربة

مجموعات البيانات

سبع مجموعات بيانات، إجمالي أكثر من مليار سجل:

G1-G4: مجموعات CADETS و THEIA و TRACE من DARPA TC E3
G5-G6: مجموعة TRACE من DARPA TC E4
G7: مجموعة فرعية من مجموعة بيانات DEPIMACT
متوسط عدد الحواف: 17,754,566 (أكبر بـ 9.6 مرات من Leonard)

مؤشرات التقييم

تكاليف التخزين: BPpre (المعالجة المسبقة) و BPpost (المعالجة اللاحقة) بالبايتات
تأخير التخزين: وقت التكلفة Ts
نسبة التأخير إلى التخزين: LSR = (BPpre - BPpost)/Ts

طرق المقارنة

PostgreSQL: قاعدة بيانات علائقية
Neo4j: قاعدة بيانات رسم بياني
Leonard: نظام تخزين قائم على DNN (Usenix Security'23)

تفاصيل التنفيذ

البيئة: Python 3.9, PyTorch 1.13.1, معالج AMD EPYC 7513, وحدة معالجة رسومات RTX A6000
المعاملات الفائقة: حجم الدفعة 4096، محسّن Adam، معدل التعلم 0.001، الحد الأقصى لجولات التدريب 5

نتائج التجربة

النتائج الرئيسية

النظام	متوسط تكاليف التخزين (MB)	متوسط التأخير (ثانية)	التحسن النسبي إلى DEHYDRATOR
PostgreSQL	1,818	45	7.36×
Neo4j	1,770	21	7.16×
Leonard	3,991	30,233	16.17×
DEHYDRATOR	247	3,205	-

أداء الاستعلام

في اختبارات استعلام BFS بأعماق مختلفة:

يُظهر Neo4j أفضل أداء (~4.92 ثانية)
DEHYDRATOR في المرتبة الثانية (~32.02 ثانية)
PostgreSQL الأسوأ (~32.08 ثانية)

تجارب الاستبعاد

تحليل مساهمة المكونات:

الرسم البياني الأصلي: 1598.69 MB
بعد ترميز رسم الخرائط الميداني: 405.2 MB (25.3%)
بعد الترميز الهرمي: 75.98 MB (4.7%)
بعد تدريب النموذج: 192.42 MB (12%)

تأثير الترميز الهرمي:

مع الترميز الهرمي: EThi 20.19M، وقت التدريب 660.69 ثانية، ECT 50.79M
بدون الترميز الهرمي: EThi 268.31M، وقت التدريب 5814.42 ثانية، ECT 1064.25M
يقلل الترميز الهرمي وقت التدريب بمعامل 8.8 مرات، ويقلل حجم ECT بمعامل 20.95 مرة

تحليل السيناريوهات المعمول بها

يثبت الاشتقاق النظري: عندما يكون متوسط الدرجة davg ≥ 3، يكون الترميز الهرمي فعالاً التحقق التجريبي: الترميز الهرمي فعال على مجموعات البيانات بدرجات 3 و 4 و 5

الأعمال ذات الصلة

كشف الاختراق

الطرق الاستكشافية: HOLMES و SLEUTH و Poirot وغيرها تبني قواعد مطابقة بناءً على MITRE ATT&CK
كشف الشذوذ: Streamspot و Unicorn و KAIROS وغيرها تكتشف الاختراقات من خلال تحديد انحرافات السلوك الطبيعي

التحقيق في الهجمات

تقوم أنظمة RapSheet و HERCULE و NODOZE بتقييم التهديدات والتحليل السببي
تقوم DEPIMPACT و ATLAS بتحليل التبعيات وتحديد أنماط الهجمات

ضغط الرسم البياني

الطرق الفاقدة: تقنيات القص مثل LogGC و CPR و NodeMerge و DPR
الطرق بدون فقدان: تقنيات الترميز مثل SEAL و ELISE و Leonard

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجح DEHYDRATOR في حل التحديات الثلاثة الكبرى لتخزين رسم البيانات الأصلي: محتوى بدون فقدان وكفاءة التخزين ودعم الاستعلام
الترميز الهرمي هو الابتكار الرئيسي، الذي يتعامل بفعالية مع التكرار على مستوى البنية
يُعتبر Transformer الفردي أكثر ملاءمة من LSTM متعدد الطبقات لمهام التخزين
يتفوق بشكل كبير على الطرق الموجودة على مجموعات البيانات الكبيرة

القيود

تأخير التخزين مرتفع: متوسط 3205 ثوانٍ، يمثل 13.29% من الفترة الزمنية لمجموعة البيانات
كفاءة الاستعلام: يؤدي التوليد الانحداري التلقائي إلى تأخير استعلام طويل للتسلسلات الطويلة
اختيار سعة النموذج: يفتقر إلى التوجيه النظري لتحديد سعة النموذج المثلى η
نطاق التطبيق: ينطبق بشكل أساسي على سيناريوهات التخزين البارد، ولا يدعم خصائص ACID

الاتجاهات المستقبلية

الاستفادة من تقنيات تسريع الذكاء الاصطناعي لتحسين كفاءة التدريب والاستدلال
التحليل النظري لاختيار سعة النموذج المثلى
التوسع إلى تطبيقات قاعدة بيانات الرسم البياني العامة
تحسين خوارزميات الاستعلام لتقليل التأخير

التقييم المتعمق

المزايا

أهمية المشكلة: حل نقطة ألم فعلية في مجال الأمن السيبراني
ابتكار الطريقة: يجمع الترميز الهرمي بذكاء بين الخصائص المجالية ومزايا DNN
كفاية التجربة: التحقق على مجموعات بيانات واسعة النطاق، مع تجارب استبعاد شاملة وتحليل مقارن
القيمة الهندسية: تحسن كبير في كفاءة التخزين، قيمة عملية قوية

أوجه القصور

مشكلة التأخير: لا يزال تأخير التخزين والاستعلام مرتفعاً، مما يحد من التطبيقات في الوقت الفعلي
التحليل النظري: يفتقر إلى التوجيه النظري لاختيار سعة النموذج
نطاق التطبيق: موجه بشكل أساسي لسيناريوهات رسم البيانات الأصلي المحددة، مع قابلية تعميم محدودة
مقارنة الخط الأساسي: قد تكون هناك مقارنة غير عادلة في تنفيذ Leonard

التأثير

المساهمة الأكاديمية: توفير مسار تقني جديد لتخزين رسم البيانات الأصلي
القيمة العملية: ذات أهمية كبيرة للبنية التحتية للأمن السيبراني
قابلية إعادة الإنتاج: الالتزام بفتح الكود والبيانات
القابلية للترويج: يمكن توسيع الطريقة إلى سيناريوهات تخزين رسم بياني أخرى

السيناريوهات المعمول بها

الأمن السيبراني: أنظمة EDR وصيد التهديدات والتحقيق في الهجمات
التخزين البارد: أرشفة وتحليل البيانات التاريخية
بيانات الرسم البياني الكبيرة: تخزين البنى الرسومية عالية الدرجة والعالية التكرار
الاستعلامات الجماعية: سيناريوهات التطبيق التي تتطلب عدداً كبيراً من الاستعلامات المتوازية

المراجع

تستشهد الورقة بـ 93 مرجعاً ذا صلة، تغطي أعمالاً مهمة في مجالات الأمن السيبراني وضغط الرسم البياني والتعلم العميق، مما يوفر أساساً نظرياً متيناً للبحث.