Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
- 論文ID: 2510.08747
- タイトル: RFOD: Random Forest-based Outlier Detection for Tabular Data
- 著者: Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
- 分類: cs.LG(機械学習)、cs.DB(データベース)
- 発表日: 2025年10月9日(arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.08747
表形式データにおける外れ値検出は、サイバーセキュリティ、金融詐欺検出、医療などの高リスク領域におけるデータ完全性の保証に不可欠である。データマイニングおよび深層学習技術の継続的な進歩にもかかわらず、既存手法は混合型表形式データの処理において課題に直面しており、重要な意味情報を喪失する可能性のあるエンコーディングスキームに依存し、解釈可能性に欠ける傾向がある。これらの問題を解決するため、本論文は表形式データに特化したランダムフォレストベースの外れ値検出フレームワークであるRFODを提案する。RFODは外れ値検出を特徴レベルの条件付き再構成問題として再定義し、各特徴に対して専用のランダムフォレストを訓練することで、異種データ型への堅牢な処理を実現する。本手法は、セル レベルのスコアリングのための調整ガワー距離(AGD)と行レベルの外れ値スコア集約のための不確実性加重平均(UWA)を組み合わせている。15個の実データセットに対する広範な実験により、RFODは検出精度において最先端のベースライン手法を一貫して上回り、同時に優れた堅牢性、スケーラビリティ、解釈可能性を提供することが示された。
外れ値検出は、支配的な分布から大きく逸脱するデータインスタンスを識別することを目的としており、サイバーセキュリティ、金融詐欺検出、医療などの高リスク領域において重要である。検出されない外れ値は、分析の歪み、重要な洞察の隠蔽、および操作の破壊につながる可能性がある。
- 従来のデータマイニング手法:
- LOF、Isolation Forest、OCSVMなどの手法は通常、グローバルな近接性または統計的ヒューリスティックに依存する
- 特徴を独立に処理することが多く、多変量関係における文脈的外れ値を捉えられない
- 混合型データへのネイティブサポートが不十分である
- 深層学習手法:
- Deep SVDD、DevNet、ICLなどの手法は主に純粋な数値入力を想定している
- 前処理(ワンホットエンコーディングなど)に依存し、意味的詳細を喪失する可能性がある
- ブラックボックスの性質が解釈可能性を阻害する
既存手法は混合型表形式データ上で一貫性のない性能を示し、高い検出精度と解釈可能性の両方を提供する統一的なソリューションが欠けている。本論文は以下を実現できるフレームワークの開発を目指している:
- 混合型データのネイティブ処理
- 細粒度の解釈可能性の提供
- 高い検出精度と計算効率の維持
- 特徴レベル条件付き再構成パラダイム:外れ値検出を特徴レベルの条件付き再構成問題として再定義する新しいパラダイムを提案し、グローバル結合分布モデリングの限界を回避する
- RFODフレームワーク:4つの核心モジュールを含むランダムフォレストベースの外れ値検出フレームワークを設計する:
- 特徴専用ランダムフォレスト
- フォレストプルーニング機構
- 調整ガワー距離(AGD)
- 不確実性加重平均(UWA)
- AGD距離度量:歪んだ数値分布とカテゴリ特徴の信頼度に適応する改善された距離度量方法を提案する
- 優れた実験性能:15個の実データセット上で最高の平均性能を達成し、AUC-ROCで最高競争手法比9.1%の向上、テスト時間遅延を平均91.2%削減
訓練集合 Xtrain∈Rn×d とテスト集合 Xtest∈Rm×d が与えられたとき、以下を計算することが目標である:
- セルレベルの外れ値スコア行列:Scell=[si,j]∈Rm×d
- 行レベルの外れ値スコアベクトル:srow=[srow,1,…,srow,m]∈Rm
Leave-One-Feature-Out分解戦略を採用し、各特徴 xj に対して専用ランダムフォレスト RFj を訓練する:
RFj:Xtrainj∈Rn×(d−1)→ytrainj∈Rn
ここで Xtrainj=Xtrain∖{xj}、ytrainj=xj である。
Out-of-Bag(OOB)検証に基づいて最適な木を保持する:
Prune(RF)={TU(i)∣1≤i≤⌊β⋅t⌋}
ここで β∈(0,1] は保持比率、U はOOBスコアで降順にソートされたインデックスである。
数値特徴:
AGD(num)(xi,j,x^i,j)=Q1−α(xj)−Qα(xj)∣xi,j−x^i,j∣
カテゴリ特徴:
AGD(cat)(xi,j,x^i,j)=1−pxi,j
ここで pxi,j は真のカテゴリの予測確率である。
不確実性行列 U=[ui,j] を計算する。ここで ui,j は木予測の標準偏差である。
信頼度重み:W=1m×d−U~
最終行レベルスコア:
srow,i=d1∑j=1dwi,j⋅si,j
- 条件付き再構成対グローバルモデリング:高次元空間におけるグローバル結合分布モデリングの次元の呪いを回避する
- 混合型データへのネイティブサポート:複雑なエンコーディングなしに数値特徴とカテゴリ特徴の混合を処理できる
- 適応的距離度量:AGDは分位数正規化により歪んだ分布に適応し、信頼度認識マッチングによりカテゴリの不確実性を処理する
- 不確実性認識集約:UWAはアンサンブル構造の予測分散を利用して特徴重みを動的に調整する
サイバーセキュリティ、金融、医療などの領域を網羅する15個の公開表形式データセットを使用する:
| 領域 | データセット | サンプル数 | 特徴次元 | 外れ値比率 |
|---|
| サイバーセキュリティ | Backdoor | 95,329 | 42 | 2.44% |
| サイバーセキュリティ | DoS | 109,353 | 42 | 14.95% |
| サイバーセキュリティ | KDD | 4,898,430 | 41 | 19.86% |
| 金融 | Bank | 45,211 | 16 | 11.70% |
| 医療 | Arrhythmia | 452 | 279 | 45.80% |
- AUC-ROC:外れ値スコアのランキング品質を測定
- AUC-PR:精度と再現率を強調し、特にクラス不均衡に適用
- F1スコアと精度:閾値ベースの分類性能指標
- ログロス:外れ値確率の較正を評価
- 訓練時間とテスト時間:効率とスケーラビリティを評価
データマイニングベースライン:ECOD、LOF、IF、OCSVM、OT
深層学習ベースライン:Deep SVDD、SLAD、DevNet、DIF、ICL
- 深層モデル訓練エポック:50
- 環境:Intel Xeon Platinum 8480C @3.80GHz、256GB RAM、NVIDIA H200 GPU
- RFODパラメータ:α∈[0.01,0.02](AGD感度)、β はOOB検証により適応的に選択
RFODはすべての評価指標で優れた性能を示す:
- 平均ランキング:5つの指標すべてで上位2位、AUC-ROCとF1で第1位
- 性能向上:データマイニング手法比AUC-PR平均46.7%向上、深層学習手法比AUC-ROC平均24.8%向上
- 一貫性:80~100%のデータセットで各ベースライン手法を上回る
各モジュールの重要性を検証する:
- フォレストプルーニング:Bank、Ethereumなどのデータセットで性能を大幅に向上させ、過学習を削減
- AGD:最も重要なコンポーネント。削除するとDoSデータセットのAUC-ROCは0.96から0.41に低下
- UWA:BackdoorやDoSなどの大規模データセット上で安定した性能向上を提供
Pimaメディカルデータセットの例:
- セルレベルの解釈可能性:ヒートマップはRFODが外れ値特徴の組み合わせを正確に特定できることを示す
- 行レベルの解釈可能性:予測値は正常分布の高密度領域に落ち、実際の外れ値は分布の尾部に位置する
- 比較分析:OCSVMとDIFは均一な高活性化を生成し、真の外れ値源の分離が困難である
- 訓練時間:深層学習手法より数桁高速で、並列化をサポート
- テスト時間:平均91.2%のテスト遅延を削減
- スケーラビリティ:KDDデータセット上で1%から100%のデータスケール試験を実施し、線形スケーリングを実証
LOF、IF、OCSVMなどの従来手法は主に統計的または近接性ベースの基準に依存するが、通常は特徴独立性を仮定し、多変量相互作用を捉えるのが困難である。
Deep SVDD、DevNet、ICLなどの手法は複雑な表現を学習できるが、主に数値入力用に設計されており、混合型データの処理には前処理が必要で、解釈可能性に欠ける。
RFODは木ベース手法の解釈可能性とアンサンブル学習の堅牢性を組み合わせ、特徴レベルの条件付きモデリングによってグローバルモデリングの制限を回避し、混合型データへのネイティブサポートを提供する。
- RFODは特徴レベルの条件付き再構成を通じて、混合型表形式データの外れ値検出問題を成功裏に解決する
- AGDとUWAの設計は検出精度と堅牢性を大幅に向上させる
- 本手法は高精度を維持しながら、優れた解釈可能性と計算効率を提供する
- パラメータ感度:α パラメータは比較的安定しているが、ある程度の調整が必要である
- メモリオーバーヘッド:各特徴に対して独立したフォレストを訓練することは、極めて高次元データ上でメモリ圧力を生じる可能性がある
- カテゴリ特徴処理:高基数カテゴリ特徴の処理にはさらなる最適化が必要な場合がある
- より効率的な特徴選択と次元削減技術の探索
- ストリーミングデータとオンライン学習シナリオでの応用研究
- 時系列とグラフ構造データへの拡張
- 方法の革新性:特徴レベルの条件付き再構成パラダイムは新規で有効なアプローチである
- 実験の充実性:15個のデータセット、10個のベースライン手法による包括的な比較
- 解釈可能性:セルレベルと行レベルの二重解釈可能性を提供
- 実用的価値:効率と精度の間で良好なバランスを達成
- 理論分析:方法の収束性と複雑性に関する深い理論分析が欠けている
- 極端なシナリオ:極めて高次元または極めて不均衡なデータでの性能をさらに検証する必要がある
- パラメータ指導:より体系的なパラメータ選択指針が欠けている
- 学術的貢献:表形式データの外れ値検出に新しい研究方向を提供
- 実用的価値:金融、医療などの重要領域への直接的な応用の可能性
- 再現性:アルゴリズム記述が明確で、実装と再現が容易
- 混合型表形式データの外れ値検出
- 解釈可能性が必要な高リスク意思決定シナリオ
- 中規模データのリアルタイム異常監視
- 特徴重要度分析と根本原因分析
論文は外れ値検出領域の重要な研究を引用している:
- 古典的手法:LOF(Breunig et al., 2000)、Isolation Forest(Liu et al., 2008)
- 深層学習手法:Deep SVDD(Ruff et al., 2018)、DevNet(Pang et al., 2019)
- 距離度量:ガワー距離(Gower, 1971)
- 評価ベンチマーク:ADBench(Han et al., 2022)
総合評価:これは外れ値検出研究の高品質な論文であり、革新的な方法フレームワークを提案し、実験検証が充分で、実際の応用における高い可能性を有している。方法の解釈可能性と効率の利点により、実際の展開において競争力を持つ。