2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.

Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.

academic

RFOD: 표 형식 데이터를 위한 랜덤 포레스트 기반 이상치 탐지

기본 정보

논문 ID: 2510.08747
제목: RFOD: Random Forest-based Outlier Detection for Tabular Data
저자: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
분류: cs.LG (머신러닝), cs.DB (데이터베이스)
발표 시간: 2025년 10월 9일 (arXiv 사전 인쇄본)
논문 링크: https://arxiv.org/abs/2510.08747

초록

표 형식 데이터의 이상치 탐지는 사이버 보안, 금융 사기 탐지 및 의료 보건 등 고위험 분야의 데이터 무결성 보장에 필수적이다. 데이터 마이닝 및 심층 학습 기술의 지속적인 발전에도 불구하고, 기존 방법들은 혼합 유형 표 형식 데이터 처리 시 여전히 어려움을 겪고 있으며, 종종 중요한 의미 정보를 손실하는 인코딩 방식에 의존하고 해석 가능성이 부족하다. 이러한 문제를 해결하기 위해 본 논문은 표 형식 데이터를 위한 랜덤 포레스트 기반 이상치 탐지 프레임워크인 RFOD를 제안한다. RFOD는 이상치 탐지를 특성 수준 조건부 재구성 문제로 재정의하며, 각 특성에 대해 전용 랜덤 포레스트를 훈련하여 이질적 데이터 유형에 대한 견고한 처리를 실현한다. 이 방법은 셀 수준 평가를 위한 조정된 Gower 거리(AGD)와 행 수준 이상치 평가 집계를 위한 불확실성 가중 평균(UWA)을 결합한다. 15개의 실제 데이터셋에 대한 광범위한 실험은 RFOD가 탐지 정확도 측면에서 최첨단 기준 방법들을 지속적으로 능가하며, 동시에 우수한 견고성, 확장성 및 해석 가능성을 제공함을 보여준다.

연구 배경 및 동기

문제 정의

이상치 탐지는 데이터에서 주요 분포로부터 현저히 벗어난 인스턴스를 식별하는 것을 목표로 하며, 이는 사이버 보안, 금융 사기 탐지 및 의료 보건 등 고위험 분야에서 중요하다. 탐지되지 않은 이상치는 분석 왜곡, 핵심 통찰력 은폐 및 운영 방해를 초래할 수 있다.

기존 방법의 한계

전통적 데이터 마이닝 방법:
- LOF, Isolation Forest, OCSVM 등의 방법은 일반적으로 전역 근접성 또는 통계적 휴리스틱에 의존한다
- 특성을 독립적으로 처리하는 경향이 있어 다변량 관계의 맥락적 이상치를 포착할 수 없다
- 혼합 유형 데이터에 대한 기본 지원이 부족하다
심층 학습 방법:
- Deep SVDD, DevNet, ICL 등의 방법은 주로 순수 수치 입력을 가정한다
- 전처리(예: 원-핫 인코딩)에 의존하여 의미론적 세부 정보 손실 가능성이 있다
- 블랙박스 특성으로 인해 해석 가능성이 저해된다

연구 동기

기존 방법들은 혼합 유형 표 형식 데이터에서 일관성 없는 성능을 보이며, 높은 탐지 정확도와 해석 가능성을 모두 제공할 수 있는 통합 솔루션이 부족하다. 본 논문은 다음을 수행할 수 있는 이상치 탐지 프레임워크 개발을 목표로 한다:

혼합 유형 데이터의 기본 처리
세밀한 해석 가능성 제공
높은 탐지 정확도 및 계산 효율성 유지

핵심 기여

특성 수준 조건부 재구성 패러다임: 이상치 탐지를 특성 수준 조건부 재구성 문제로 재정의하는 새로운 패러다임 제안으로, 전역 결합 분포 모델링의 한계 회피
RFOD 프레임워크: 네 가지 핵심 모듈을 포함하는 랜덤 포레스트 기반 이상치 탐지 프레임워크 설계:
- 특성 전용 랜덤 포레스트
- 포레스트 가지치기 메커니즘
- 조정된 Gower 거리(AGD)
- 불확실성 가중 평균(UWA)
AGD 거리 메트릭: 왜곡된 수치 분포 및 범주형 특성 신뢰도에 적응하는 개선된 거리 측정 방법 제안
우수한 실험 성능: 15개의 실제 데이터셋에서 최고의 평균 성능 달성, AUC-ROC에서 최고 경쟁 방법 대비 최대 9.1% 향상, 테스트 시간 지연 평균 91.2% 감소

방법론 상세 설명

작업 정의

훈련 집합 $\mathbf{X}_{train} \in \mathbb{R}^{n \times d}$ 및 테스트 집합 $\mathbf{X}_{test} \in \mathbb{R}^{m \times d}$ 가 주어졌을 때, 목표는 다음을 계산하는 것이다:

셀 수준 이상치 평가 행렬: $\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}$
행 수준 이상치 평가 벡터: $\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m$

모델 아키텍처

1. 특성 전용 랜덤 포레스트

Leave-One-Feature-Out 분해 전략을 채택하여 각 특성 $\mathbf{x}_j$ 에 대해 전용 랜덤 포레스트 $\mathbf{RF}_j$ 를 훈련한다: $\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n$

여기서 $\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}$ , $\mathbf{y}^j_{train} = \mathbf{x}_j$ 이다.

2. 포레스트 가지치기

Out-Of-Bag(OOB) 검증을 기반으로 최적 트리 유지: $\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}$

여기서 $\beta \in (0,1]$ 는 유지 비율이고, $U$ 는 OOB 점수의 내림차순 인덱스이다.

3. 조정된 Gower 거리(AGD)

수치 특성: $AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}$

범주형 특성: $AGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}$

여기서 $p_{x_{i,j}}$ 는 실제 범주의 예측 확률이다.

4. 불확실성 가중 평균(UWA)

불확실성 행렬 $\mathbf{U} = [u_{i,j}]$ 계산, 여기서 $u_{i,j}$ 는 트리 예측의 표준편차이다. 신뢰도 가중치: $\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}}$ 최종 행 수준 평가: $s_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}$

기술 혁신 포인트

조건부 재구성 vs 전역 모델링: 고차원 공간에서 전역 결합 분포 모델링의 차원의 저주 문제 회피
혼합 유형 데이터 기본 지원: 복잡한 인코딩 없이 수치 및 범주형 특성의 혼합 처리
적응형 거리 메트릭: AGD는 분위수 정규화를 통해 왜곡된 분포에 적응하고, 신뢰도 인식 매칭을 통해 범주형 불확실성 처리
불확실성 인식 집계: UWA는 앙상블 구조의 예측 분산을 활용하여 특성 가중치를 동적으로 조정

실험 설정

데이터셋

사이버 보안, 금융 및 의료 보건 등의 분야를 포괄하는 15개의 공개 표 형식 데이터셋 사용:

분야	데이터셋	샘플 수	특성 차원	이상치 비율
사이버 보안	Backdoor	95,329	42	2.44%
사이버 보안	DoS	109,353	42	14.95%
사이버 보안	KDD	4,898,430	41	19.86%
금융	Bank	45,211	16	11.70%
의료	Arrhythmia	452	279	45.80%