2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD: 표 형식 데이터를 위한 랜덤 포레스트 기반 이상치 탐지

기본 정보

  • 논문 ID: 2510.08747
  • 제목: RFOD: Random Forest-based Outlier Detection for Tabular Data
  • 저자: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • 분류: cs.LG (머신러닝), cs.DB (데이터베이스)
  • 발표 시간: 2025년 10월 9일 (arXiv 사전 인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.08747

초록

표 형식 데이터의 이상치 탐지는 사이버 보안, 금융 사기 탐지 및 의료 보건 등 고위험 분야의 데이터 무결성 보장에 필수적이다. 데이터 마이닝 및 심층 학습 기술의 지속적인 발전에도 불구하고, 기존 방법들은 혼합 유형 표 형식 데이터 처리 시 여전히 어려움을 겪고 있으며, 종종 중요한 의미 정보를 손실하는 인코딩 방식에 의존하고 해석 가능성이 부족하다. 이러한 문제를 해결하기 위해 본 논문은 표 형식 데이터를 위한 랜덤 포레스트 기반 이상치 탐지 프레임워크인 RFOD를 제안한다. RFOD는 이상치 탐지를 특성 수준 조건부 재구성 문제로 재정의하며, 각 특성에 대해 전용 랜덤 포레스트를 훈련하여 이질적 데이터 유형에 대한 견고한 처리를 실현한다. 이 방법은 셀 수준 평가를 위한 조정된 Gower 거리(AGD)와 행 수준 이상치 평가 집계를 위한 불확실성 가중 평균(UWA)을 결합한다. 15개의 실제 데이터셋에 대한 광범위한 실험은 RFOD가 탐지 정확도 측면에서 최첨단 기준 방법들을 지속적으로 능가하며, 동시에 우수한 견고성, 확장성 및 해석 가능성을 제공함을 보여준다.

연구 배경 및 동기

문제 정의

이상치 탐지는 데이터에서 주요 분포로부터 현저히 벗어난 인스턴스를 식별하는 것을 목표로 하며, 이는 사이버 보안, 금융 사기 탐지 및 의료 보건 등 고위험 분야에서 중요하다. 탐지되지 않은 이상치는 분석 왜곡, 핵심 통찰력 은폐 및 운영 방해를 초래할 수 있다.

기존 방법의 한계

  1. 전통적 데이터 마이닝 방법:
    • LOF, Isolation Forest, OCSVM 등의 방법은 일반적으로 전역 근접성 또는 통계적 휴리스틱에 의존한다
    • 특성을 독립적으로 처리하는 경향이 있어 다변량 관계의 맥락적 이상치를 포착할 수 없다
    • 혼합 유형 데이터에 대한 기본 지원이 부족하다
  2. 심층 학습 방법:
    • Deep SVDD, DevNet, ICL 등의 방법은 주로 순수 수치 입력을 가정한다
    • 전처리(예: 원-핫 인코딩)에 의존하여 의미론적 세부 정보 손실 가능성이 있다
    • 블랙박스 특성으로 인해 해석 가능성이 저해된다

연구 동기

기존 방법들은 혼합 유형 표 형식 데이터에서 일관성 없는 성능을 보이며, 높은 탐지 정확도와 해석 가능성을 모두 제공할 수 있는 통합 솔루션이 부족하다. 본 논문은 다음을 수행할 수 있는 이상치 탐지 프레임워크 개발을 목표로 한다:

  • 혼합 유형 데이터의 기본 처리
  • 세밀한 해석 가능성 제공
  • 높은 탐지 정확도 및 계산 효율성 유지

핵심 기여

  1. 특성 수준 조건부 재구성 패러다임: 이상치 탐지를 특성 수준 조건부 재구성 문제로 재정의하는 새로운 패러다임 제안으로, 전역 결합 분포 모델링의 한계 회피
  2. RFOD 프레임워크: 네 가지 핵심 모듈을 포함하는 랜덤 포레스트 기반 이상치 탐지 프레임워크 설계:
    • 특성 전용 랜덤 포레스트
    • 포레스트 가지치기 메커니즘
    • 조정된 Gower 거리(AGD)
    • 불확실성 가중 평균(UWA)
  3. AGD 거리 메트릭: 왜곡된 수치 분포 및 범주형 특성 신뢰도에 적응하는 개선된 거리 측정 방법 제안
  4. 우수한 실험 성능: 15개의 실제 데이터셋에서 최고의 평균 성능 달성, AUC-ROC에서 최고 경쟁 방법 대비 최대 9.1% 향상, 테스트 시간 지연 평균 91.2% 감소

방법론 상세 설명

작업 정의

훈련 집합 XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} 및 테스트 집합 XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}가 주어졌을 때, 목표는 다음을 계산하는 것이다:

  • 셀 수준 이상치 평가 행렬: Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • 행 수준 이상치 평가 벡터: srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

모델 아키텍처

1. 특성 전용 랜덤 포레스트

Leave-One-Feature-Out 분해 전략을 채택하여 각 특성 xj\mathbf{x}_j에 대해 전용 랜덤 포레스트 RFj\mathbf{RF}_j를 훈련한다: RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

여기서 Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}, ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j이다.

2. 포레스트 가지치기

Out-Of-Bag(OOB) 검증을 기반으로 최적 트리 유지: Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

여기서 β(0,1]\beta \in (0,1]는 유지 비율이고, UU는 OOB 점수의 내림차순 인덱스이다.

3. 조정된 Gower 거리(AGD)

수치 특성: AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

범주형 특성: AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

여기서 pxi,jp_{x_{i,j}}는 실제 범주의 예측 확률이다.

4. 불확실성 가중 평균(UWA)

불확실성 행렬 U=[ui,j]\mathbf{U} = [u_{i,j}] 계산, 여기서 ui,ju_{i,j}는 트리 예측의 표준편차이다. 신뢰도 가중치: W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} 최종 행 수준 평가: srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

기술 혁신 포인트

  1. 조건부 재구성 vs 전역 모델링: 고차원 공간에서 전역 결합 분포 모델링의 차원의 저주 문제 회피
  2. 혼합 유형 데이터 기본 지원: 복잡한 인코딩 없이 수치 및 범주형 특성의 혼합 처리
  3. 적응형 거리 메트릭: AGD는 분위수 정규화를 통해 왜곡된 분포에 적응하고, 신뢰도 인식 매칭을 통해 범주형 불확실성 처리
  4. 불확실성 인식 집계: UWA는 앙상블 구조의 예측 분산을 활용하여 특성 가중치를 동적으로 조정

실험 설정

데이터셋

사이버 보안, 금융 및 의료 보건 등의 분야를 포괄하는 15개의 공개 표 형식 데이터셋 사용:

분야데이터셋샘플 수특성 차원이상치 비율
사이버 보안Backdoor95,329422.44%
사이버 보안DoS109,3534214.95%
사이버 보안KDD4,898,4304119.86%
금융Bank45,2111611.70%
의료Arrhythmia45227945.80%

평가 지표

  • AUC-ROC: 이상치 평가의 순위 품질 측정
  • AUC-PR: 정밀도 및 재현율 강조, 특히 클래스 불균형에 적합
  • F1-Score정확도: 임계값 기반 분류 성능 지표
  • Log-Loss: 이상치 확률의 보정 평가
  • 훈련 시간테스트 시간: 효율성 및 확장성 평가

비교 방법

데이터 마이닝 기준: ECOD, LOF, IF, OCSVM, OT 심층 학습 기준: Deep SVDD, SLAD, DevNet, DIF, ICL

구현 세부 사항

  • 심층 모델 훈련 에포크: 50
  • 환경: Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, NVIDIA H200 GPU
  • RFOD 매개변수: α[0.01,0.02]\alpha \in [0.01, 0.02] (AGD 민감도), β\beta는 OOB 검증을 통해 적응적으로 선택

실험 결과

주요 결과

RFOD는 모든 평가 지표에서 우수한 성능을 보인다:

  • 평균 순위: 5개 지표에서 모두 상위 2위, AUC-ROC 및 F1에서 1위
  • 성능 향상: 데이터 마이닝 방법 대비 AUC-PR 평균 46.7% 향상, 심층 학습 방법 대비 AUC-ROC 평균 24.8% 향상
  • 일관성: 80-100%의 데이터셋에서 각 기준 방법 능가

절제 실험

각 모듈의 중요성 검증:

  1. 포레스트 가지치기: Bank, Ethereum 등 데이터셋에서 성능 현저히 향상, 과적합 감소
  2. AGD: 가장 중요한 구성 요소, 제거 시 DoS 데이터셋 AUC-ROC가 0.96에서 0.41로 감소
  3. UWA: Backdoor 및 DoS와 같은 대규모 데이터셋에서 안정적인 성능 향상 제공

사례 분석

Pima 의료 데이터셋을 예로 들면:

  • 셀 수준 해석 가능성: 히트맵은 RFOD가 이상 특성 조합을 정확히 위치시킬 수 있음을 보여준다
  • 행 수준 해석 가능성: 예측값은 정상 분포의 고밀도 영역에 위치하며, 실제 이상치는 분포 꼬리에 위치한다
  • 비교 분석: OCSVM 및 DIF는 균일한 높은 활성화를 생성하여 진정한 이상 원인 격리가 어렵다

효율성 분석

  • 훈련 시간: 심층 학습 방법보다 수 배 빠르며, 병렬화 지원
  • 테스트 시간: 테스트 지연 평균 91.2% 감소
  • 확장성: KDD 데이터셋에서 1%에서 100%의 데이터 규모 테스트, 선형 확장성 입증

관련 연구

데이터 마이닝 방법

LOF, IF, OCSVM과 같은 전통적 방법은 주로 통계 또는 근접성 기반 기준에 의존하지만, 일반적으로 특성 독립성을 가정하여 다변량 상호작용 포착이 어렵다.

심층 학습 방법

Deep SVDD, DevNet, ICL 등의 방법은 복잡한 표현을 학습할 수 있지만, 주로 수치 입력을 위해 설계되었으며, 혼합 유형 데이터 처리 시 전처리가 필요하고 해석 가능성이 부족하다.

본 논문의 장점

RFOD는 트리 방법의 해석 가능성과 앙상블 학습의 견고성을 결합하며, 특성 수준 조건부 모델링을 통해 전역 모델링의 제한을 회피하면서 동시에 혼합 유형 데이터에 대한 기본 지원을 제공한다.

결론 및 논의

주요 결론

  1. RFOD는 특성 수준 조건부 재구성을 통해 혼합 유형 표 형식 데이터의 이상치 탐지 문제를 성공적으로 해결한다
  2. AGD 및 UWA의 설계는 탐지 정확도 및 견고성을 현저히 향상시킨다
  3. 이 방법은 높은 정확도를 유지하면서 우수한 해석 가능성 및 계산 효율성을 제공한다

한계

  1. 매개변수 민감도: α\alpha 매개변수가 상대적으로 안정적이지만, 여전히 일정한 조정이 필요하다
  2. 메모리 오버헤드: 각 특성에 대해 독립적인 포레스트를 훈련하면 극도로 고차원 데이터에서 메모리 압력이 발생할 수 있다
  3. 범주형 특성 처리: 높은 기수 범주형 특성의 처리는 추가 최적화가 필요할 수 있다

향후 방향

  1. 더 효율적인 특성 선택 및 차원 축소 기술 탐색
  2. 스트림 데이터 및 온라인 학습 시나리오에서의 응용 연구
  3. 시계열 및 그래프 구조 데이터로의 확장

심층 평가

장점

  1. 방법 혁신성: 특성 수준 조건부 재구성 패러다임은 새롭고 효과적인 아이디어이다
  2. 실험 충분성: 15개 데이터셋, 10개 기준 방법의 포괄적 비교
  3. 해석 가능성: 셀 수준 및 행 수준의 이중 해석 가능성 제공
  4. 실용적 가치: 효율성과 정확도 간의 좋은 균형 달성

부족한 점

  1. 이론적 분석: 방법의 수렴성 및 복잡도에 대한 심층적 이론 분석 부족
  2. 극단적 시나리오: 극도로 고차원 또는 극도로 불균형한 데이터에서의 성능 추가 검증 필요
  3. 매개변수 지침: 더 체계적인 매개변수 선택 지침 원칙 부족

영향력

  1. 학술적 기여: 표 형식 데이터 이상치 탐지를 위한 새로운 연구 방향 제공
  2. 실용적 가치: 금융, 의료 등 핵심 분야에서 직접 응용 가능성
  3. 재현성: 알고리즘 설명이 명확하여 구현 및 재현이 용이

적용 시나리오

  • 혼합 유형 표 형식 데이터의 이상치 탐지
  • 해석 가능성이 필요한 고위험 의사결정 시나리오
  • 중간 규모 데이터의 실시간 이상 모니터링
  • 특성 중요도 분석 및 근본 원인 분석

참고 문헌

논문은 이상치 탐지 분야의 중요한 연구를 인용하고 있으며, 다음을 포함한다:

  • 고전적 방법: LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
  • 심층 학습 방법: Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
  • 거리 메트릭: Gower's Distance (Gower, 1971)
  • 평가 벤치마크: ADBench (Han et al., 2022)

종합 평가: 이것은 이상치 탐지 연구 분야의 고품질 논문으로, 혁신적인 방법 프레임워크를 제안하며, 실험 검증이 충분하고 실제 응용에서 좋은 잠재력을 가지고 있다. 방법의 해석 가능성 및 효율성 장점은 실제 배포에서 경쟁력을 갖게 한다.