2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD: كشف الشذوذ القائم على الغابات العشوائية لبيانات الجداول

المعلومات الأساسية

  • معرّف الورقة: 2510.08747
  • العنوان: RFOD: كشف الشذوذ القائم على الغابات العشوائية لبيانات الجداول
  • المؤلفون: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • التصنيف: cs.LG (تعلم الآلة)، cs.DB (قواعد البيانات)
  • تاريخ النشر: 9 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.08747

الملخص

يعتبر كشف الشذوذ في بيانات الجداول أمراً حاسماً لضمان سلامة البيانات في المجالات عالية المخاطر مثل الأمن السيبراني والكشف عن الاحتيال المالي والرعاية الصحية. على الرغم من التقدم المستمر في تقنيات التنقيب عن البيانات والتعلم العميق، تواجه الطرق الحالية تحديات في التعامل مع بيانات الجداول المختلطة الأنواع، وغالباً ما تعتمد على أنظمة ترميز تفقد المعلومات الدلالية المهمة، وتفتقر إلى القابلية للتفسير. لحل هذه المشاكل، نقترح RFOD، وهو إطار عمل متخصص لكشف الشذوذ قائم على الغابات العشوائية لبيانات الجداول. يعيد RFOD تعريف كشف الشذوذ كمشكلة إعادة بناء شرطية على مستوى الميزات، حيث يتم تدريب غابة عشوائية مخصصة لكل ميزة، مما يحقق معالجة قوية لأنواع البيانات غير المتجانسة. تجمع الطريقة بين مسافة Gower المعدلة (AGD) لتسجيل مستوى الخلايا والمتوسط المرجح بعدم اليقين (UWA) لتجميع تسجيل الشذوذ على مستوى الصفوف. تُظهر التجارب الشاملة على 15 مجموعة بيانات حقيقية أن RFOD يتفوق باستمرار على أحدث طرق الأساس من حيث دقة الكشف، مع توفير متانة وقابلية توسع وقابلية تفسير متفوقة.

السياق البحثي والدافع

تعريف المشكلة

يهدف كشف الشذوذ إلى تحديد الحالات في البيانات التي تنحرف بشكل كبير عن التوزيع السائد، وهو أمر حاسم في المجالات عالية المخاطر مثل الأمن السيبراني والكشف عن الاحتيال المالي والرعاية الصحية. قد يؤدي عدم اكتشاف الشذوذ إلى تشويه التحليل وإخفاء الرؤى الحاسمة وتعطيل العمليات.

قيود الطرق الموجودة

  1. طرق التنقيب عن البيانات التقليدية:
    • تعتمد طرق مثل LOF و Isolation Forest و OCSVM عادةً على القرب العام أو الاستدلالات الإحصائية
    • غالباً ما تعالج الميزات بشكل مستقل، وتفشل في التقاط الشذوذ السياقي في العلاقات متعددة المتغيرات
    • الدعم الأصلي غير كافٍ للبيانات المختلطة الأنواع
  2. طرق التعلم العميق:
    • تفترض طرق مثل Deep SVDD و DevNet و ICL بشكل أساسي مدخلات رقمية نقية
    • تعتمد على المعالجة المسبقة (مثل الترميز الساخن) التي قد تفقد التفاصيل الدلالية
    • الطبيعة السوداء تعيق القابلية للتفسير

الدافع البحثي

تُظهر الطرق الموجودة أداءً غير متسق على بيانات الجداول المختلطة الأنواع، وتفتقر إلى حل موحد يوفر دقة كشف عالية وقابلية تفسير. تهدف هذه الورقة إلى تطوير إطار عمل لكشف الشذوذ يمكنه:

  • معالجة البيانات المختلطة الأنواع بشكل أصلي
  • توفير قابلية تفسير دقيقة الحبيبات
  • الحفاظ على دقة كشف عالية وكفاءة حسابية

المساهمات الأساسية

  1. نموذج إعادة البناء الشرطية على مستوى الميزات: يقترح نموذجاً جديداً يعيد تعريف كشف الشذوذ كمشكلة إعادة بناء شرطية على مستوى الميزات، مما يتجنب قيود نمذجة التوزيع المشترك العام
  2. إطار عمل RFOD: يصمم إطار عمل لكشف الشذوذ قائم على الغابات العشوائية يتضمن أربع وحدات أساسية:
    • غابات عشوائية مخصصة للميزات
    • آلية تقليم الغابات
    • مسافة Gower المعدلة (AGD)
    • المتوسط المرجح بعدم اليقين (UWA)
  3. مقياس مسافة AGD: يقترح طريقة قياس مسافة محسّنة تتكيف مع التوزيعات الرقمية المنحرفة وثقة الميزات الفئوية
  4. أداء تجريبي متفوق: يحقق أفضل أداء متوسطة على 15 مجموعة بيانات حقيقية، مع تحسن AUC-ROC يصل إلى 9.1% مقارنة بأفضل طريقة منافسة، وتقليل متوسط زمن الاختبار بنسبة 91.2%

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة التدريب XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} ومجموعة الاختبار XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}، الهدف هو حساب:

  • مصفوفة تسجيل الشذوذ على مستوى الخلايا: Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • متجه تسجيل الشذوذ على مستوى الصفوف: srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

معمارية النموذج

1. الغابات العشوائية المخصصة للميزات

تستخدم استراتيجية التحلل بترك ميزة واحدة، حيث يتم تدريب غابة عشوائية مخصصة RFj\mathbf{RF}_j لكل ميزة xj\mathbf{x}_j: RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

حيث Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}، ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j.

2. تقليم الغابات

الاحتفاظ بالأشجار المثلى بناءً على التحقق من الحقيبة الخارجية (OOB): Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

حيث β(0,1]\beta \in (0,1] هي نسبة الاحتفاظ، و UU هي الفهارس المرتبة بترتيب تنازلي حسب درجات OOB.

3. مسافة Gower المعدلة (AGD)

الميزات الرقمية: AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

الميزات الفئوية: AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

حيث pxi,jp_{x_{i,j}} هي احتمالية التنبؤ للفئة الحقيقية.

4. المتوسط المرجح بعدم اليقين (UWA)

حساب مصفوفة عدم اليقين U=[ui,j]\mathbf{U} = [u_{i,j}]، حيث ui,ju_{i,j} هي الانحراف المعياري لتنبؤات الأشجار. أوزان الثقة: W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} التسجيل النهائي على مستوى الصفوف: srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

نقاط الابتكار التقني

  1. إعادة البناء الشرطية مقابل النمذجة العامة: تتجنب مشكلة اللعنة البعدية في نمذجة التوزيع المشترك العام في الفضاء عالي الأبعاد
  2. الدعم الأصلي لبيانات الأنواع المختلطة: معالجة الميزات الرقمية والفئوية المختلطة دون الحاجة إلى ترميز معقد
  3. مقياس مسافة متكيف: يتكيف AGD مع التوزيعات المنحرفة من خلال تطبيع الكميات، ويتعامل مع عدم اليقين الفئوي من خلال المطابقة الحساسة للثقة
  4. التجميع الحساس لعدم اليقين: يستفيد UWA من تباين التنبؤ في بنية المجموعة لتعديل أوزان الميزات ديناميكياً

إعداد التجارب

مجموعات البيانات

استخدام 15 مجموعة بيانات جدولية عامة، تغطي مجالات الأمن السيبراني والمالية والرعاية الصحية:

المجالمجموعة البياناتعدد العيناتعدد الميزاتنسبة الشذوذ
الأمن السيبرانيBackdoor95,329422.44%
الأمن السيبرانيDoS109,3534214.95%
الأمن السيبرانيKDD4,898,4304119.86%
الماليةBank45,2111611.70%
الصحيةArrhythmia45227945.80%

مقاييس التقييم

  • AUC-ROC: قياس جودة ترتيب تسجيل الشذوذ
  • AUC-PR: التركيز على الدقة والاستدعاء، مناسب بشكل خاص للبيانات غير المتوازنة
  • F1-Score والدقة: مؤشرات الأداء التصنيفية المستندة إلى العتبة
  • Log-Loss: تقييم معايرة احتمالية الشذوذ
  • وقت التدريب ووقت الاختبار: تقييم الكفاءة وقابلية التوسع

طرق المقارنة

خطوط الأساس للتنقيب عن البيانات: ECOD و LOF و IF و OCSVM و OT خطوط الأساس للتعلم العميق: Deep SVDD و SLAD و DevNet و DIF و ICL

تفاصيل التنفيذ

  • جولات تدريب النماذج العميقة: 50
  • البيئة: Intel Xeon Platinum 8480C @3.80GHz، 256GB RAM، NVIDIA H200 GPU
  • معاملات RFOD: α[0.01,0.02]\alpha \in [0.01, 0.02] (حساسية AGD)، يتم اختيار β\beta بشكل متكيف من خلال التحقق من OOB

نتائج التجارب

النتائج الرئيسية

يُظهر RFOD أداءً ممتازة على جميع مقاييس التقييم:

  • متوسط الترتيب: يحتل المرتبة الثانية على الأقل على 5 مقاييس، مع احتلال المرتبة الأولى في AUC-ROC و F1
  • تحسن الأداء: متوسط تحسن 46.7% في AUC-PR مقارنة بطرق التنقيب عن البيانات، ومتوسط تحسن 24.8% في AUC-ROC مقارنة بطرق التعلم العميق
  • الاتساق: يتفوق على كل طريقة أساس على 80-100% من مجموعات البيانات

تجارب الاستئصال

التحقق من أهمية كل وحدة:

  1. تقليم الغابات: تحسن كبير في الأداء على مجموعات البيانات مثل Bank و Ethereum، مما يقلل الإفراط في التدريب
  2. AGD: المكون الأكثر أهمية، حيث ينخفض AUC-ROC من 0.96 إلى 0.41 على مجموعة بيانات DoS عند إزالته
  3. UWA: يوفر تحسناً مستقراً في الأداء على مجموعات البيانات الكبيرة مثل Backdoor و DoS

تحليل الحالات

باستخدام مجموعة بيانات Pima الطبية كمثال:

  • القابلية للتفسير على مستوى الخلايا: تُظهر الخرائط الحرارية أن RFOD يمكنه تحديد موقع مجموعات الميزات الشاذة بدقة
  • القابلية للتفسير على مستوى الصفوف: تقع القيم المتنبأ بها في منطقة عالية الكثافة من التوزيع الطبيعي، بينما تقع القيم الشاذة الفعلية في ذيل التوزيع
  • التحليل المقارن: ينتج OCSVM و DIF تنشيطاً موحداً عالياً، مما يصعب عزل مصادر الشذوذ الحقيقية

تحليل الكفاءة

  • وقت التدريب: أسرع بعدة رتب من حيث الحجم من طرق التعلم العميق، مع دعم المعالجة المتوازية
  • وقت الاختبار: تقليل متوسط زمن الاختبار بنسبة 91.2%
  • قابلية التوسع: اختبار على مجموعة بيانات KDD من 1% إلى 100% من حجم البيانات، مما يُظهر قابلية توسع خطية

الأعمال ذات الصلة

طرق التنقيب عن البيانات

تعتمد الطرق التقليدية مثل LOF و IF و OCSVM بشكل أساسي على معايير إحصائية أو قائمة على القرب، لكنها عادةً ما تفترض استقلالية الميزات، مما يصعب التقاط التفاعلات متعددة المتغيرات.

طرق التعلم العميق

يمكن لطرق مثل Deep SVDD و DevNet و ICL تعلم تمثيلات معقدة، لكنها مصممة بشكل أساسي للمدخلات الرقمية، وتتطلب معالجة مسبقة عند التعامل مع بيانات الأنواع المختلطة، وتفتقر إلى القابلية للتفسير.

مزايا هذه الورقة

يجمع RFOD بين قابلية تفسير طرق الأشجار ومتانة التعلم المجموعي، مع تجنب قيود النمذجة العامة من خلال النمذجة الشرطية على مستوى الميزات، مع توفير دعم أصلي لبيانات الأنواع المختلطة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يحل RFOD بنجاح مشكلة كشف الشذوذ في بيانات الجداول المختلطة الأنواع من خلال إعادة البناء الشرطية على مستوى الميزات
  2. يحسن تصميم AGD و UWA بشكل كبير دقة الكشف والمتانة
  3. توفر الطريقة قابلية تفسير وكفاءة حسابية متفوقة مع الحفاظ على دقة عالية

القيود

  1. حساسية المعاملات: على الرغم من أن معامل α\alpha نسبياً مستقر، إلا أنه لا يزال يتطلب بعض التعديل
  2. النفقات العامة للذاكرة: قد يؤدي تدريب غابات مستقلة لكل ميزة إلى ضغط على الذاكرة على البيانات عالية الأبعاد جداً
  3. معالجة الميزات الفئوية: قد تتطلب معالجة ميزات فئوية عالية الأساس مزيداً من التحسين

الاتجاهات المستقبلية

  1. استكشاف تقنيات اختيار الميزات والتقليل الأبعاد الأكثر كفاءة
  2. دراسة التطبيقات في سيناريوهات البيانات المتدفقة والتعلم عبر الإنترنت
  3. التوسع إلى بيانات السلاسل الزمنية والبيانات الهيكلية

التقييم المتعمق

المزايا

  1. ابتكار الطريقة: نموذج إعادة البناء الشرطية على مستوى الميزات هو فكرة جديدة وفعالة
  2. اكتمال التجارب: مقارنة شاملة على 15 مجموعة بيانات و 10 طرق أساس
  3. القابلية للتفسير: توفير قابلية تفسير مزدوجة على مستوى الخلايا والصفوف
  4. القيمة العملية: تحقيق توازن جيد بين الكفاءة والدقة

أوجه القصور

  1. التحليل النظري: نقص التحليل النظري العميق لتقارب الطريقة والتعقيد
  2. الحالات القصوى: يتطلب التحقق من الأداء على البيانات عالية الأبعاد جداً أو غير المتوازنة بشكل كبير
  3. إرشادات المعاملات: نقص المبادئ الموجهة بشكل منهجي لاختيار المعاملات

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد لكشف الشذوذ في بيانات الجداول
  2. القيمة العملية: إمكانية التطبيق المباشر في المجالات الحرجة مثل المالية والرعاية الصحية
  3. قابلية التكرار: وصف الخوارزمية واضح، سهل التنفيذ والتكرار

السيناريوهات المناسبة

  • كشف الشذوذ في بيانات الجداول المختلطة الأنواع
  • سيناريوهات القرار عالية المخاطر التي تتطلب قابلية تفسير
  • المراقبة الشاذة في الوقت الفعلي للبيانات متوسطة الحجم
  • تحليل أهمية الميزات وتحليل السبب الجذري

المراجع

تستشهد الورقة بالأعمال المهمة في مجال كشف الشذوذ، بما في ذلك:

  • الطرق الكلاسيكية: LOF (Breunig et al., 2000)، Isolation Forest (Liu et al., 2008)
  • طرق التعلم العميق: Deep SVDD (Ruff et al., 2018)، DevNet (Pang et al., 2019)
  • مقاييس المسافة: مسافة Gower (Gower, 1971)
  • معايير التقييم: ADBench (Han et al., 2022)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال كشف الشذوذ، تقترح إطار عمل طريقة مبتكر، مع التحقق التجريبي الشامل، وتتمتع بإمكانية تطبيق جيدة في الاستخدام العملي. تجعل مزايا قابلية التفسير والكفاءة للطريقة قادرة على المنافسة في النشر العملي.