2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.

Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.

academic

RFOD: सारणीबद्ध डेटा के लिए रैंडम फॉरेस्ट-आधारित आउटलायर डिटेक्शन

मूल जानकारी

पेपर ID: 2510.08747
शीर्षक: RFOD: Random Forest-based Outlier Detection for Tabular Data
लेखक: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
वर्गीकरण: cs.LG (मशीन लर्निंग), cs.DB (डेटाबेस)
प्रकाशन तिथि: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08747

सारांश

सारणीबद्ध डेटा में विसंगति (आउटलायर) का पता लगाना साइबर सुरक्षा, वित्तीय धोखाधड़ी का पता लगाने और स्वास्थ्यसेवा जैसे उच्च जोखिम वाले क्षेत्रों में डेटा अखंडता सुनिश्चित करने के लिए महत्वपूर्ण है। डेटा माइनिंग और गहन शिक्षण तकनीकों की निरंतर प्रगति के बावजूद, मौजूदा विधियाँ मिश्रित प्रकार के सारणीबद्ध डेटा को संभालने में चुनौतियों का सामना करती हैं, अक्सर ऐसी एन्कोडिंग योजनाओं पर निर्भर करती हैं जो महत्वपूर्ण शब्दार्थ जानकारी खो देती हैं, और व्याख्या क्षमता की कमी होती है। इन समस्याओं को हल करने के लिए, यह पेपर RFOD प्रस्तुत करता है, जो सारणीबद्ध डेटा के लिए विशेष रूप से डिज़ाइन किया गया एक रैंडम फॉरेस्ट-आधारित विसंगति पहचान ढांचा है। RFOD विसंगति पहचान को विशेषता-स्तरीय सशर्त पुनर्निर्माण समस्या के रूप में पुनः परिभाषित करता है, प्रत्येक विशेषता के लिए समर्पित रैंडम फॉरेस्ट प्रशिक्षित करता है, जो विषम डेटा प्रकारों के मजबूत संभालने को सक्षम करता है। यह विधि समायोजित Gower दूरी (AGD) को सेल-स्तरीय स्कोरिंग के लिए और अनिश्चितता-भारित औसत (UWA) को पंक्ति-स्तरीय विसंगति स्कोर एकत्रीकरण के लिए जोड़ती है। 15 वास्तविक डेटासेट पर व्यापक प्रयोग दर्शाते हैं कि RFOD पहचान सटीकता में लगातार अत्याधुनिक आधारभूत विधियों से बेहतर प्रदर्शन करता है, साथ ही असाधारण मजबूतता, स्केलेबिलिटी और व्याख्या क्षमता प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

विसंगति पहचान का उद्देश्य डेटा में उन उदाहरणों की पहचान करना है जो प्रमुख वितरण से महत्वपूर्ण रूप से विचलित होते हैं, जो साइबर सुरक्षा, वित्तीय धोखाधड़ी का पता लगाने और स्वास्थ्यसेवा जैसे उच्च जोखिम वाले क्षेत्रों में महत्वपूर्ण है। अनपहचानी विसंगतियाँ विश्लेषण को विकृत कर सकती हैं, महत्वपूर्ण अंतर्दृष्टि को छिपा सकती हैं और संचालन को बाधित कर सकती हैं।

मौजूदा विधियों की सीमाएँ

पारंपरिक डेटा माइनिंग विधियाँ:
- LOF, Isolation Forest, OCSVM आदि विधियाँ आमतौर पर वैश्विक निकटता या सांख्यिकीय अनुमान पर निर्भर करती हैं
- अक्सर विशेषताओं को स्वतंत्र रूप से संभालते हैं, बहुचर संबंधों में संदर्भ विसंगतियों को पकड़ नहीं सकते
- मिश्रित प्रकार के डेटा के लिए मूल समर्थन अपर्याप्त है
गहन शिक्षण विधियाँ:
- Deep SVDD, DevNet, ICL आदि विधियाँ मुख्य रूप से शुद्ध संख्यात्मक इनपुट मानती हैं
- पूर्व-प्रसंस्करण (जैसे वन-हॉट एन्कोडिंग) पर निर्भर करती हैं जो शब्दार्थ विवरण खो सकते हैं
- ब्लैक-बॉक्स प्रकृति व्याख्या क्षमता को बाधित करती है

अनुसंधान प्रेरणा

मौजूदा विधियाँ मिश्रित प्रकार के सारणीबद्ध डेटा पर असंगत प्रदर्शन करती हैं, और ऐसा कोई एकीकृत समाधान नहीं है जो उच्च पहचान सटीकता और व्याख्या क्षमता दोनों प्रदान करे। यह पेपर एक ऐसा ढांचा विकसित करने का लक्ष्य रखता है जो:

मिश्रित प्रकार के डेटा को मूल रूप से संभाल सके
सूक्ष्म-दानेदार व्याख्या क्षमता प्रदान करे
उच्च पहचान सटीकता और कम्प्यूटेशनल दक्षता बनाए रखे

मुख्य योगदान

विशेषता-स्तरीय सशर्त पुनर्निर्माण प्रतिमान: विसंगति पहचान को विशेषता-स्तरीय सशर्त पुनर्निर्माण समस्या के रूप में पुनः परिभाषित करने का एक नया प्रतिमान प्रस्तावित करता है, जो वैश्विक संयुक्त वितरण मॉडलिंग की सीमाओं से बचता है
RFOD ढांचा: रैंडम फॉरेस्ट-आधारित विसंगति पहचान ढांचा डिज़ाइन करता है, जिसमें चार मुख्य मॉड्यूल हैं:
- विशेषता-समर्पित रैंडम फॉरेस्ट
- फॉरेस्ट प्रूनिंग तंत्र
- समायोजित Gower दूरी (AGD)
- अनिश्चितता-भारित औसत (UWA)
AGD दूरी मेट्रिक: तिरछे संख्यात्मक वितरण और श्रेणीबद्ध विशेषता आत्मविश्वास के अनुकूल एक सुधारी गई दूरी मेट्रिक विधि प्रस्तावित करता है
उत्कृष्ट प्रायोगिक प्रदर्शन: 15 वास्तविक डेटासेट पर सर्वोत्तम औसत प्रदर्शन प्राप्त करता है, AUC-ROC में सर्वश्रेष्ठ प्रतिद्वंद्वी विधि की तुलना में 9.1% तक सुधार, परीक्षण समय विलंब में औसतन 91.2% की कमी

विधि विवरण

कार्य परिभाषा

प्रशिक्षण सेट $\mathbf{X}_{train} \in \mathbb{R}^{n \times d}$ और परीक्षण सेट $\mathbf{X}_{test} \in \mathbb{R}^{m \times d}$ दिए गए, लक्ष्य निम्नलिखित की गणना करना है:

सेल-स्तरीय विसंगति स्कोर मैट्रिक्स: $\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}$
पंक्ति-स्तरीय विसंगति स्कोर वेक्टर: $\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m$

मॉडल आर्किटेक्चर

1. विशेषता-समर्पित रैंडम फॉरेस्ट

छोड़ी गई-एक-विशेषता विघटन रणनीति का उपयोग करते हुए, प्रत्येक विशेषता $\mathbf{x}_j$ के लिए समर्पित रैंडम फॉरेस्ट $\mathbf{RF}_j$ प्रशिक्षित करता है: $\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n$

जहाँ $\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}$ , $\mathbf{y}^j_{train} = \mathbf{x}_j$ ।

2. फॉरेस्ट प्रूनिंग

बैग-आउट-ऑफ-बैग (OOB) सत्यापन के आधार पर इष्टतम पेड़ों को बनाए रखता है: $\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}$

जहाँ $\beta \in (0,1]$ संरक्षण अनुपात है, $U$ OOB स्कोर के अवरोही क्रम में सूचकांक है।

3. समायोजित Gower दूरी (AGD)

संख्यात्मक विशेषताएँ: $AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}$

श्रेणीबद्ध विशेषताएँ: $AGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}$

जहाँ $p_{x_{i,j}}$ वास्तविक श्रेणी की भविष्यवाणी की संभावना है।

4. अनिश्चितता-भारित औसत (UWA)

अनिश्चितता मैट्रिक्स $\mathbf{U} = [u_{i,j}]$ की गणना करता है, जहाँ $u_{i,j}$ पेड़ की भविष्यवाणी का मानक विचलन है। आत्मविश्वास भार: $\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}}$ अंतिम पंक्ति-स्तरीय स्कोर: $s_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}$

तकनीकी नवाचार बिंदु

सशर्त पुनर्निर्माण बनाम वैश्विक मॉडलिंग: उच्च-आयामी स्थान में वैश्विक संयुक्त वितरण मॉडलिंग की आयाम श्राप समस्या से बचता है
मिश्रित प्रकार के डेटा के लिए मूल समर्थन: जटिल एन्कोडिंग के बिना संख्यात्मक और श्रेणीबद्ध विशेषताओं के मिश्रण को संभाल सकता है
अनुकूली दूरी मेट्रिक: AGD मात्रात्मक मानकीकरण के माध्यम से तिरछे वितरण के अनुकूल होता है, आत्मविश्वास-जागरूक मिलान के माध्यम से श्रेणीबद्ध अनिश्चितता को संभालता है
अनिश्चितता-जागरूक एकत्रीकरण: UWA पहनावा संरचना के भविष्यवाणी विचरण का उपयोग करके विशेषता भार को गतिशील रूप से समायोजित करता है

प्रायोगिक सेटअप

डेटासेट

साइबर सुरक्षा, वित्त और स्वास्थ्यसेवा जैसे क्षेत्रों को कवर करते हुए 15 सार्वजनिक सारणीबद्ध डेटासेट का उपयोग करता है:

क्षेत्र	डेटासेट	नमूने	विशेषता आयाम	विसंगति अनुपात
साइबर सुरक्षा	Backdoor	95,329	42	2.44%
साइबर सुरक्षा	DoS	109,353	42	14.95%
साइबर सुरक्षा	KDD	4,898,430	41	19.86%
वित्त	Bank	45,211	16	11.70%
चिकित्सा	Arrhythmia	452	279	45.80%

मूल्यांकन मेट्रिक्स

AUC-ROC: विसंगति स्कोर की रैंकिंग गुणवत्ता को मापता है
AUC-PR: सटीकता और रिकॉल पर जोर देता है, विशेष रूप से वर्ग असंतुलन के लिए उपयुक्त
F1-स्कोर और सटीकता: थ्रेसहोल्ड-आधारित वर्गीकरण प्रदर्शन मेट्रिक्स
लॉग-हानि: विसंगति संभावना के अंशांकन का मूल्यांकन करता है
प्रशिक्षण समय और परीक्षण समय: दक्षता और स्केलेबिलिटी का मूल्यांकन करता है

तुलना विधियाँ

डेटा माइनिंग आधारभूत: ECOD, LOF, IF, OCSVM, OT गहन शिक्षण आधारभूत: Deep SVDD, SLAD, DevNet, DIF, ICL

कार्यान्वयन विवरण

गहन मॉडल प्रशिक्षण युग: 50
वातावरण: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, NVIDIA H200 GPU
RFOD पैरामीटर: $\alpha \in [0.01, 0.02]$ (AGD संवेदनशीलता), $\beta$ OOB सत्यापन के माध्यम से अनुकूली रूप से चुना जाता है

प्रायोगिक परिणाम

मुख्य परिणाम

RFOD सभी मूल्यांकन मेट्रिक्स पर उत्कृष्ट प्रदर्शन करता है:

औसत रैंकिंग: 5 मेट्रिक्स पर शीर्ष 2 में रैंक किया गया, जिनमें AUC-ROC और F1 पहले स्थान पर हैं
प्रदर्शन सुधार: डेटा माइनिंग विधियों की तुलना में AUC-PR में औसतन 46.7% सुधार, गहन शिक्षण विधियों की तुलना में AUC-ROC में औसतन 24.8% सुधार
सामंजस्य: 80-100% डेटासेट पर प्रत्येक आधारभूत विधि से बेहतर

विघटन प्रयोग

प्रत्येक मॉड्यूल की महत्ता को सत्यापित करता है:

फॉरेस्ट प्रूनिंग: Bank, Ethereum आदि डेटासेट पर प्रदर्शन में महत्वपूर्ण सुधार, अतिफिटिंग को कम करता है
AGD: सबसे महत्वपूर्ण घटक, हटाने के बाद DoS डेटासेट पर AUC-ROC 0.96 से 0.41 तक गिरता है
UWA: Backdoor और DoS जैसे बड़े डेटासेट पर स्थिर प्रदर्शन सुधार प्रदान करता है

केस विश्लेषण

Pima चिकित्सा डेटासेट के उदाहरण के साथ:

सेल-स्तरीय व्याख्या क्षमता: हीटमैप दिखाता है कि RFOD विसंगति विशेषता संयोजन को सटीक रूप से स्थानीयकृत कर सकता है
पंक्ति-स्तरीय व्याख्या क्षमता: भविष्यवाणी मान सामान्य वितरण के उच्च-घनत्व क्षेत्र में गिरते हैं, वास्तविक विसंगतियाँ वितरण की पूंछ में स्थित होती हैं
तुलनात्मक विश्लेषण: OCSVM और DIF समान उच्च सक्रियण उत्पन्न करते हैं, सच्ची विसंगति स्रोतों को अलग करना कठिन है

दक्षता विश्लेषण

प्रशिक्षण समय: गहन शिक्षण विधियों की तुलना में कई परिमाण तेज, समानांतरकरण का समर्थन करता है
परीक्षण समय: परीक्षण विलंब में औसतन 91.2% की कमी
स्केलेबिलिटी: KDD डेटासेट पर 1% से 100% डेटा स्केल तक परीक्षण, रैखिक स्केलिंग प्रदर्शित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

RFOD विशेषता-स्तरीय सशर्त पुनर्निर्माण के माध्यम से मिश्रित प्रकार के सारणीबद्ध डेटा की विसंगति पहचान समस्या को सफलतापूर्वक हल करता है
AGD और UWA का डिज़ाइन पहचान सटीकता और मजबूतता में महत्वपूर्ण रूप से सुधार करता है
यह विधि उच्च सटीकता बनाए रखते हुए असाधारण व्याख्या क्षमता और कम्प्यूटेशनल दक्षता प्रदान करती है

सीमाएँ

पैरामीटर संवेदनशीलता: हालांकि $\alpha$ पैरामीटर अपेक्षाकृत स्थिर है, फिर भी कुछ ट्यूनिंग की आवश्यकता है
मेमोरी ओवरहेड: प्रत्येक विशेषता के लिए स्वतंत्र फॉरेस्ट प्रशिक्षित करना अत्यधिक-आयामी डेटा पर मेमोरी दबाव उत्पन्न कर सकता है
श्रेणीबद्ध विशेषता संभालना: उच्च-आधार श्रेणीबद्ध विशेषताओं के संभालने के लिए आगे अनुकूलन की आवश्यकता हो सकती है

भविष्य की दिशाएँ

अधिक कुशल विशेषता चयन और आयाम में कमी तकनीकों की खोज करता है
स्ट्रीमिंग डेटा और ऑनलाइन शिक्षण परिदृश्यों में अनुप्रयोग का अध्ययन करता है
समय श्रृंखला और ग्राफ संरचना डेटा तक विस्तार करता है

गहन मूल्यांकन

लाभ

विधि नवाचार: विशेषता-स्तरीय सशर्त पुनर्निर्माण प्रतिमान एक नया और प्रभावी विचार है
प्रायोगिक पूर्णता: 15 डेटासेट, 10 आधारभूत विधियों की व्यापक तुलना
व्याख्या क्षमता: सेल-स्तरीय और पंक्ति-स्तरीय दोहरी व्याख्या क्षमता प्रदान करता है
व्यावहारिक मूल्य: दक्षता और सटीकता के बीच अच्छा संतुलन प्राप्त करता है

कमियाँ

सैद्धांतिक विश्लेषण: विधि अभिसरण और जटिलता के गहन सैद्धांतिक विश्लेषण की कमी
चरम परिदृश्य: अत्यधिक-आयामी या अत्यधिक असंतुलित डेटा पर प्रदर्शन को आगे सत्यापन की आवश्यकता है
पैरामीटर मार्गदर्शन: अधिक व्यवस्थित पैरामीटर चयन मार्गदर्शन सिद्धांतों की कमी

प्रभाव

शैक्षणिक योगदान: सारणीबद्ध डेटा विसंगति पहचान के लिए नई अनुसंधान दिशा प्रदान करता है
व्यावहारिक मूल्य: वित्त, चिकित्सा जैसे महत्वपूर्ण क्षेत्रों में सीधे अनुप्रयोग की संभावना
पुनरुत्पादनीयता: एल्गोरिथ्म विवरण स्पष्ट, कार्यान्वयन और पुनरुत्पादन में आसान

लागू परिदृश्य

मिश्रित प्रकार के सारणीबद्ध डेटा की विसंगति पहचान
व्याख्या क्षमता की आवश्यकता वाले उच्च जोखिम वाले निर्णय परिदृश्य
मध्यम आकार के डेटा की वास्तविक समय विसंगति निगरानी
विशेषता महत्ता विश्लेषण और मूल कारण विश्लेषण

संदर्भ

पेपर विसंगति पहचान क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

शास्त्रीय विधियाँ: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
गहन शिक्षण विधियाँ: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
दूरी मेट्रिक्स: Gower's Distance (Gower, 1971)
मूल्यांकन बेंचमार्क: ADBench (Han et al., 2022)

समग्र मूल्यांकन: यह विसंगति पहचान अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जो एक नवाचारी विधि ढांचा प्रस्तुत करता है, व्यापक प्रायोगिक सत्यापन के साथ, वास्तविक अनुप्रयोग में बहुत अच्छी संभावना है। विधि की व्याख्या क्षमता और दक्षता लाभ इसे वास्तविक तैनाती में प्रतिस्पर्धी बनाते हैं।