Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
RFOD: Random Forest-basierte Ausreißererkennung für Tabellendaten
- Paper-ID: 2510.08747
- Titel: RFOD: Random Forest-based Outlier Detection for Tabular Data
- Autoren: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
- Klassifizierung: cs.LG (Machine Learning), cs.DB (Database)
- Veröffentlichungsdatum: 9. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.08747
Die Ausreißererkennung in Tabellendaten ist für die Gewährleistung der Datenintegrität in risikoreichen Bereichen wie Cybersicherheit, Betrugserkennung im Finanzwesen und Gesundheitswesen von entscheidender Bedeutung. Trotz kontinuierlicher Fortschritte in Data-Mining- und Deep-Learning-Techniken stehen bestehende Methoden vor Herausforderungen bei der Verarbeitung von Tabellendaten mit gemischten Datentypen, verlassen sich häufig auf Kodierungsschemata, die wichtige semantische Informationen verlieren, und mangelt es an Interpretierbarkeit. Um diese Probleme zu beheben, wird RFOD vorgestellt – ein speziell für Tabellendaten entwickeltes Random-Forest-basiertes Ausreißererkennungsframework. RFOD definiert die Ausreißererkennung als ein Feature-Level-Conditional-Reconstruction-Problem neu und trainiert spezialisierte Random Forests für jedes Feature, um eine robuste Verarbeitung heterogener Datentypen zu erreichen. Die Methode kombiniert angepasste Gower-Distanz (AGD) für zelluläre Bewertungen und Uncertainty-Weighted Averaging (UWA) für die Aggregation von Anomaliebewertungen auf Zeilenebene. Umfangreiche Experimente auf 15 realen Datensätzen zeigen, dass RFOD die Erkennungsgenauigkeit durchgehend gegenüber modernsten Baseline-Methoden übertrifft und gleichzeitig überlegene Robustheit, Skalierbarkeit und Interpretierbarkeit bietet.
Die Ausreißererkennung zielt darauf ab, Instanzen in Daten zu identifizieren, die erheblich von der dominierenden Verteilung abweichen. Dies ist in risikoreichen Bereichen wie Cybersicherheit, Betrugserkennung im Finanzwesen und Gesundheitswesen von entscheidender Bedeutung. Nicht erkannte Anomalien können zu verzerrten Analysen, verborgenen kritischen Erkenntnissen und Betriebsstörungen führen.
- Traditionelle Data-Mining-Methoden:
- Methoden wie LOF, Isolation Forest und OCSVM verlassen sich typischerweise auf globale Nähe oder statistische Heuristiken
- Verarbeiten Features oft unabhängig und können kontextuelle Anomalien in multivariaten Beziehungen nicht erfassen
- Bieten unzureichende native Unterstützung für Daten mit gemischten Typen
- Deep-Learning-Methoden:
- Methoden wie Deep SVDD, DevNet und ICL setzen hauptsächlich rein numerische Eingaben voraus
- Verlassen sich auf Vorverarbeitung (z. B. One-Hot-Encoding), die semantische Details verlieren kann
- Die Black-Box-Natur behindert die Interpretierbarkeit
Bestehende Methoden zeigen inkonsistente Leistungen bei Tabellendaten mit gemischten Typen und bieten keine einheitliche Lösung, die sowohl hohe Erkennungsgenauigkeit als auch Interpretierbarkeit bietet. Dieses Paper zielt darauf ab, ein Ausreißererkennungsframework zu entwickeln, das:
- Nativ Daten mit gemischten Typen verarbeitet
- Feinkörnige Interpretierbarkeit bietet
- Hohe Erkennungsgenauigkeit und Recheneffizienz beibehält
- Feature-Level-Conditional-Reconstruction-Paradigma: Führt ein neues Paradigma ein, das die Ausreißererkennung als Feature-Level-Conditional-Reconstruction-Problem neu definiert und die Einschränkungen der globalen gemeinsamen Verteilungsmodellierung vermeidet
- RFOD-Framework: Entwirft ein Random-Forest-basiertes Ausreißererkennungsframework mit vier Kernmodulen:
- Feature-spezialisierte Random Forests
- Forest-Pruning-Mechanismus
- Angepasste Gower-Distanz (AGD)
- Uncertainty-Weighted Averaging (UWA)
- AGD-Distanzmetrik: Schlägt eine verbesserte Distanzmetrik vor, die schiefe numerische Verteilungen und Konfidenzwerte kategorialer Features berücksichtigt
- Überlegene experimentelle Leistung: Erreicht beste durchschnittliche Leistung auf 15 realen Datensätzen mit AUC-ROC-Verbesserungen von bis zu 9,1% gegenüber der besten konkurrierenden Methode und durchschnittlich 91,2% Reduktion der Test-Latenz
Gegeben ein Trainingssatz Xtrain∈Rn×d und ein Testsatz Xtest∈Rm×d, besteht das Ziel darin, zu berechnen:
- Zelluläre Anomaliebewertungsmatrix: Scell=[si,j]∈Rm×d
- Anomaliebewertungsvektor auf Zeilenebene: srow=[srow,1,…,srow,m]∈Rm
Verwendet eine Leave-One-Feature-Out-Zerlegungsstrategie, um spezialisierte Random Forests RFj für jedes Feature xj zu trainieren:
RFj:Xtrainj∈Rn×(d−1)→ytrainj∈Rn
wobei Xtrainj=Xtrain∖{xj} und ytrainj=xj.
Behält optimale Bäume basierend auf Out-of-Bag (OOB)-Validierung:
Prune(RF)={TU(i)∣1≤i≤⌊β⋅t⌋}
wobei β∈(0,1] das Beibehaltungsverhältnis ist und U Indizes in absteigender OOB-Score-Reihenfolge sind.
Numerische Features:
AGD(num)(xi,j,x^i,j)=Q1−α(xj)−Qα(xj)∣xi,j−x^i,j∣
Kategoriale Features:
AGD(cat)(xi,j,x^i,j)=1−pxi,j
wobei pxi,j die Vorhersagewahrscheinlichkeit der echten Kategorie ist.
Berechnet die Unsicherheitsmatrix U=[ui,j], wobei ui,j die Standardabweichung der Baum-Vorhersagen ist.
Konfidenzgewichte: W=1m×d−U~
Finale Anomaliebewertung auf Zeilenebene:
srow,i=d1∑j=1dwi,j⋅si,j
- Conditional Reconstruction vs. globale Modellierung: Vermeidet das Fluch-der-Dimensionalität-Problem bei der Modellierung globaler gemeinsamer Verteilungen in hochdimensionalen Räumen
- Native Unterstützung für Daten mit gemischten Typen: Verarbeitet numerische und kategoriale Features ohne komplexe Kodierung
- Adaptive Distanzmetrik: AGD passt sich schiefen Verteilungen durch Quantilnormalisierung an und behandelt kategoriale Unsicherheit durch konfidenzabhängiges Matching
- Unsicherheitsbewusste Aggregation: UWA nutzt die Vorhersagevarianz der Ensemble-Struktur, um Feature-Gewichte dynamisch anzupassen
Verwendet 15 öffentliche Tabellendatensätze aus Cybersicherheit, Finanzwesen und Gesundheitswesen:
| Bereich | Datensatz | Stichproben | Feature-Dimensionen | Anomaliequote |
|---|
| Cybersicherheit | Backdoor | 95.329 | 42 | 2,44% |
| Cybersicherheit | DoS | 109.353 | 42 | 14,95% |
| Cybersicherheit | KDD | 4.898.430 | 41 | 19,86% |
| Finanzwesen | Bank | 45.211 | 16 | 11,70% |
| Gesundheitswesen | Arrhythmia | 452 | 279 | 45,80% |
- AUC-ROC: Misst die Rangfolgequalität von Anomaliebewertungen
- AUC-PR: Betont Präzision und Recall, besonders geeignet für Klassenungleichgewicht
- F1-Score und Genauigkeit: Schwellenwert-basierte Klassifizierungsleistungsindikatoren
- Log-Loss: Bewertet die Kalibrierung von Anomaliewahrscheinlichkeiten
- Trainingszeit und Testzeit: Bewertet Effizienz und Skalierbarkeit
Data-Mining-Baselines: ECOD, LOF, IF, OCSVM, OT
Deep-Learning-Baselines: Deep SVDD, SLAD, DevNet, DIF, ICL
- Deep-Model-Trainings-Epochen: 50
- Umgebung: Intel Xeon Platinum 8480C @3,80GHz, 256GB RAM, NVIDIA H200 GPU
- RFOD-Parameter: α∈[0,01,0,02] (AGD-Sensitivität), β adaptiv durch OOB-Validierung ausgewählt
RFOD zeigt überlegene Leistung bei allen Bewertungsmetriken:
- Durchschnittliche Rangfolge: Rangfolge 1-2 bei allen 5 Metriken, Rangfolge 1 bei AUC-ROC und F1
- Leistungsverbesserung: Durchschnittlich 46,7% AUC-PR-Verbesserung gegenüber Data-Mining-Methoden, 24,8% AUC-ROC-Verbesserung gegenüber Deep-Learning-Methoden
- Konsistenz: Übertrifft alle Baseline-Methoden bei 80-100% der Datensätze
Validieren die Wichtigkeit jedes Moduls:
- Forest-Pruning: Signifikante Leistungsverbesserung bei Bank-, Ethereum-Datensätzen, reduziert Überanpassung
- AGD: Kritischste Komponente, AUC-ROC fällt von 0,96 auf 0,41 bei DoS-Datensatz ohne AGD
- UWA: Bietet stabile Leistungsverbesserung bei großen Datensätzen wie Backdoor und DoS
Am Beispiel des Pima-Gesundheitsdatensatzes:
- Zelluläre Interpretierbarkeit: Heatmaps zeigen, dass RFOD anomale Feature-Kombinationen präzise lokalisiert
- Zeilenebenen-Interpretierbarkeit: Vorhersagewerte fallen in Hochdichte-Bereiche normaler Verteilungen, echte Anomalien liegen in Verteilungsschwänzen
- Vergleichsanalyse: OCSVM und DIF erzeugen gleichmäßig hohe Aktivierungen, schwierig, echte Anomaliequellen zu isolieren
- Trainingszeit: Mehrere Größenordnungen schneller als Deep-Learning-Methoden, unterstützt Parallelisierung
- Testzeit: Durchschnittlich 91,2% Reduktion der Test-Latenz
- Skalierbarkeit: Tests auf KDD-Datensatz von 1% bis 100% Datengröße zeigen lineare Skalierung
Traditionelle Methoden wie LOF, IF und OCSVM verlassen sich hauptsächlich auf statistische oder nachbarschaftsbasierte Kriterien, setzen aber typischerweise Feature-Unabhängigkeit voraus und können multivariate Wechselwirkungen schwer erfassen.
Methoden wie Deep SVDD, DevNet und ICL können komplexe Darstellungen erlernen, sind aber hauptsächlich für numerische Eingaben konzipiert, erfordern Vorverarbeitung für Daten mit gemischten Typen und mangelt es an Interpretierbarkeit.
RFOD kombiniert die Interpretierbarkeit von Baum-Methoden mit der Robustheit des Ensemble-Lernens, vermeidet durch Feature-Level-Conditional-Modellierung die Einschränkungen globaler Modellierung und bietet native Unterstützung für Daten mit gemischten Typen.
- RFOD löst erfolgreich das Ausreißererkennungsproblem für Tabellendaten mit gemischten Typen durch Feature-Level-Conditional-Reconstruction
- Das Design von AGD und UWA verbessert Erkennungsgenauigkeit und Robustheit erheblich
- Die Methode bietet überlegene Interpretierbarkeit und Recheneffizienz bei Beibehaltung hoher Genauigkeit
- Parametersensitivität: Obwohl der α-Parameter relativ stabil ist, erfordert er gewisse Abstimmung
- Speicheraufwand: Das Training unabhängiger Forests für jedes Feature kann bei extrem hochdimensionalen Daten zu Speicherdruck führen
- Behandlung kategorialer Features: Die Verarbeitung hochkardinaler kategorialer Features könnte weitere Optimierung erfordern
- Erforschung effizienterer Feature-Selection- und Dimensionalitätsreduktions-Techniken
- Untersuchung von Anwendungen in Streaming- und Online-Learning-Szenarien
- Erweiterung auf Zeitreihendaten und Graph-strukturierte Daten
- Methodische Innovativität: Das Feature-Level-Conditional-Reconstruction-Paradigma ist ein neuartiger und effektiver Ansatz
- Experimentelle Umfassendheit: Umfassender Vergleich mit 15 Datensätzen und 10 Baseline-Methoden
- Interpretierbarkeit: Bietet duale Interpretierbarkeit auf Zellen- und Zeilenebene
- Praktischer Wert: Erreicht gutes Gleichgewicht zwischen Effizienz und Genauigkeit
- Theoretische Analyse: Mangelnde tiefgreifende theoretische Analyse von Konvergenz und Komplexität
- Extreme Szenarien: Leistung bei extrem hochdimensionalen oder stark unausgeglichenen Daten erfordert weitere Validierung
- Parameterführung: Mangelnde systematischere Richtlinien zur Parameterauswahl
- Akademischer Beitrag: Bietet neue Forschungsrichtung für Ausreißererkennung in Tabellendaten
- Praktischer Wert: Direktes Anwendungspotenzial in kritischen Bereichen wie Finanzwesen und Gesundheitswesen
- Reproduzierbarkeit: Klare Algorithmusbeschreibung, leicht zu implementieren und zu reproduzieren
- Ausreißererkennung in Tabellendaten mit gemischten Typen
- Hochrisiko-Entscheidungsszenarien, die Interpretierbarkeit erfordern
- Echtzeit-Anomaliemonitorierung bei mittleren Datenmengen
- Feature-Wichtigkeits- und Grundursachenanalyse
Das Paper zitiert wichtige Arbeiten im Bereich der Ausreißererkennung, einschließlich:
- Klassische Methoden: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
- Deep-Learning-Methoden: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
- Distanzmetriken: Gower's Distance (Gower, 1971)
- Bewertungs-Benchmarks: ADBench (Han et al., 2022)
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier zur Ausreißererkennung, das ein innovatives Methodenframework vorschlägt, umfassend experimentell validiert ist und großes Potenzial für praktische Anwendungen hat. Die Vorteile der Methode in Bezug auf Interpretierbarkeit und Effizienz machen sie bei praktischer Bereitstellung wettbewerbsfähig.