Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
RFOD: Random Forest-based Outlier Detection for Tabular Data
- 论文ID: 2510.08747
- 标题: RFOD: Random Forest-based Outlier Detection for Tabular Data
- 作者: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
- 分类: cs.LG (Machine Learning), cs.DB (Database)
- 发表时间: 2025年10月9日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.08747
表格数据中的异常值检测对于保障网络安全、金融欺诈检测和医疗保健等高风险领域的数据完整性至关重要。尽管数据挖掘和深度学习技术不断进步,但现有方法在处理混合类型表格数据时仍面临挑战,往往依赖会丢失重要语义信息的编码方案,且缺乏可解释性。为解决这些问题,本文提出了RFOD,一个专门针对表格数据的基于随机森林的异常检测框架。RFOD将异常检测重新定义为特征级条件重构问题,为每个特征训练专用的随机森林,实现了对异构数据类型的鲁棒处理。该方法结合了调整Gower距离(AGD)进行单元级评分和不确定性加权平均(UWA)进行行级异常评分聚合。在15个真实数据集上的广泛实验表明,RFOD在检测准确性方面始终优于最先进的基线方法,同时提供了卓越的鲁棒性、可扩展性和可解释性。
异常值检测旨在识别数据中显著偏离主导分布的实例,这在高风险领域如网络安全、金融欺诈检测和医疗保健中至关重要。未检测到的异常可能导致分析失真、隐藏关键洞察并破坏操作。
- 传统数据挖掘方法:
- LOF、Isolation Forest、OCSVM等方法通常依赖全局邻近性或统计启发式
- 往往独立处理特征,无法捕获多变量关系中的上下文异常
- 对混合类型数据的原生支持不足
- 深度学习方法:
- Deep SVDD、DevNet、ICL等方法主要假设纯数值输入
- 依赖预处理(如独热编码)可能丢失语义细节
- 黑盒性质阻碍可解释性
现有方法在混合类型表格数据上表现不一致,缺乏既能提供高检测精度又能提供可解释性的统一解决方案。本文旨在开发一个能够:
- 原生处理混合类型数据
- 提供细粒度的可解释性
- 保持高检测精度和计算效率
的异常检测框架。
- 特征级条件重构范式:提出了将异常检测重新定义为特征级条件重构问题的新范式,避免了全局联合分布建模的局限性
- RFOD框架:设计了基于随机森林的异常检测框架,包含四个核心模块:
- 特征专用随机森林
- 森林剪枝机制
- 调整Gower距离(AGD)
- 不确定性加权平均(UWA)
- AGD距离度量:提出了适应偏斜数值分布和类别特征置信度的改进距离度量方法
- 卓越的实验性能:在15个真实数据集上实现了最佳平均性能,AUC-ROC相比最佳竞争方法提升高达9.1%,测试时间延迟平均减少91.2%
给定训练集 Xtrain∈Rn×d 和测试集 Xtest∈Rm×d,目标是计算:
- 单元级异常评分矩阵:Scell=[si,j]∈Rm×d
- 行级异常评分向量:srow=[srow,1,…,srow,m]∈Rm
采用留一特征法分解策略,为每个特征 xj 训练专用随机森林 RFj:
RFj:Xtrainj∈Rn×(d−1)→ytrainj∈Rn
其中 Xtrainj=Xtrain∖{xj},ytrainj=xj。
基于袋外(OOB)验证保留最优树木:
Prune(RF)={TU(i)∣1≤i≤⌊β⋅t⌋}
其中 β∈(0,1] 是保留比例,U 是按OOB分数降序排列的索引。
数值特征:
AGD(num)(xi,j,x^i,j)=Q1−α(xj)−Qα(xj)∣xi,j−x^i,j∣
类别特征:
AGD(cat)(xi,j,x^i,j)=1−pxi,j
其中 pxi,j 是真实类别的预测概率。
计算不确定性矩阵 U=[ui,j],其中 ui,j 是树预测的标准差。
置信度权重:W=1m×d−U~
最终行级评分:
srow,i=d1∑j=1dwi,j⋅si,j
- 条件重构vs全局建模:避免了高维空间中全局联合分布建模的维度诅咒问题
- 混合类型数据原生支持:无需复杂编码即可处理数值和类别特征的混合
- 自适应距离度量:AGD通过分位数标准化适应偏斜分布,通过置信度感知匹配处理类别不确定性
- 不确定性感知聚合:UWA利用集成结构的预测方差动态调整特征权重
使用15个公开的表格数据集,涵盖网络安全、金融和医疗保健等领域:
| 领域 | 数据集 | 样本数 | 特征维度 | 异常比例 |
|---|
| 网络安全 | Backdoor | 95,329 | 42 | 2.44% |
| 网络安全 | DoS | 109,353 | 42 | 14.95% |
| 网络安全 | KDD | 4,898,430 | 41 | 19.86% |
| 金融 | Bank | 45,211 | 16 | 11.70% |
| 医疗 | Arrhythmia | 452 | 279 | 45.80% |
- AUC-ROC:衡量异常评分的排序质量
- AUC-PR:强调精确率和召回率,特别适用于类别不平衡
- F1-Score和准确率:基于阈值的分类性能指标
- Log-Loss:评估异常概率的校准
- 训练时间和测试时间:评估效率和可扩展性
数据挖掘基线:ECOD、LOF、IF、OCSVM、OT
深度学习基线:Deep SVDD、SLAD、DevNet、DIF、ICL
- 深度模型训练轮次:50
- 环境:Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, NVIDIA H200 GPU
- RFOD参数:α∈[0.01,0.02](AGD敏感性),β通过OOB验证自适应选择
RFOD在所有评价指标上都表现出色:
- 平均排名:在5个指标上均排名前2,其中AUC-ROC和F1排名第1
- 性能提升:相比数据挖掘方法AUC-PR平均提升46.7%,相比深度学习方法AUC-ROC平均提升24.8%
- 一致性:在80-100%的数据集上优于各个基线方法
验证了各模块的重要性:
- 森林剪枝:在Bank、Ethereum等数据集上显著提升性能,减少过拟合
- AGD:最关键组件,移除后DoS数据集AUC-ROC从0.96降至0.41
- UWA:在大型数据集如Backdoor和DoS上提供稳定的性能提升
以Pima医疗数据集为例:
- 单元级可解释性:热图显示RFOD能精确定位异常特征组合
- 行级可解释性:预测值落在正常分布的高密度区域,实际异常值位于分布尾部
- 对比分析:OCSVM和DIF产生均匀的高激活,难以隔离真正的异常源
- 训练时间:比深度学习方法快数个数量级,支持并行化
- 测试时间:平均减少91.2%的测试延迟
- 可扩展性:在KDD数据集上从1%到100%的数据规模测试,展现线性扩展性
传统方法如LOF、IF、OCSVM主要依赖统计或基于邻近性的准则,但通常假设特征独立性,难以捕获多变量交互。
Deep SVDD、DevNet、ICL等方法能学习复杂表示,但主要针对数值输入设计,处理混合类型数据时需要预处理,且缺乏可解释性。
RFOD结合了树方法的可解释性和集成学习的鲁棒性,通过特征级条件建模避免了全局建模的限制,同时提供了原生的混合类型数据支持。
- RFOD通过特征级条件重构成功解决了混合类型表格数据的异常检测问题
- AGD和UWA的设计显著提升了检测精度和鲁棒性
- 该方法在保持高精度的同时提供了卓越的可解释性和计算效率
- 参数敏感性:虽然α参数相对稳定,但仍需要一定的调优
- 内存开销:为每个特征训练独立森林可能在极高维数据上产生内存压力
- 类别特征处理:对于高基数类别特征的处理可能需要进一步优化
- 探索更高效的特征选择和降维技术
- 研究在流数据和在线学习场景下的应用
- 扩展到时间序列和图结构数据
- 方法创新性:特征级条件重构范式是一个新颖且有效的思路
- 实验充分性:15个数据集、10个基线方法的全面对比
- 可解释性:提供单元级和行级的双重可解释性
- 实用价值:在效率和精度间达到良好平衡
- 理论分析:缺乏对方法收敛性和复杂度的深入理论分析
- 极端场景:对于极高维或极不平衡数据的表现需要进一步验证
- 参数指导:缺乏更系统的参数选择指导原则
- 学术贡献:为表格数据异常检测提供了新的研究方向
- 实用价值:在金融、医疗等关键领域有直接应用潜力
- 可复现性:算法描述清晰,易于实现和复现
- 混合类型表格数据的异常检测
- 需要可解释性的高风险决策场景
- 中等规模数据的实时异常监控
- 特征重要性分析和根因分析
论文引用了异常检测领域的重要工作,包括:
- 经典方法:LOF (Breunig et al., 2000)、Isolation Forest (Liu et al., 2008)
- 深度学习方法:Deep SVDD (Ruff et al., 2018)、DevNet (Pang et al., 2019)
- 距离度量:Gower's Distance (Gower, 1971)
- 评估基准:ADBench (Han et al., 2022)
总体评价:这是一篇高质量的异常检测研究论文,提出了创新的方法框架,实验验证充分,在实际应用中具有很好的潜力。方法的可解释性和效率优势使其在实际部署中具有竞争力。