2025-11-25T06:13:17.736050

RFOD: Random Forest-based Outlier Detection for Tabular Data

Ang, Yao, Bao et al.
Outlier detection in tabular data is crucial for safeguarding data integrity in high-stakes domains such as cybersecurity, financial fraud detection, and healthcare, where anomalies can cause serious operational and economic impacts. Despite advances in both data mining and deep learning, many existing methods struggle with mixed-type tabular data, often relying on encoding schemes that lose important semantic information. Moreover, they frequently lack interpretability, offering little insight into which specific values cause anomalies. To overcome these challenges, we introduce \textsf{\textbf{RFOD}}, a novel \textsf{\textbf{R}}andom \textsf{\textbf{F}}orest-based \textsf{\textbf{O}}utlier \textsf{\textbf{D}}etection framework tailored for tabular data. Rather than modeling a global joint distribution, \textsf{RFOD} reframes anomaly detection as a feature-wise conditional reconstruction problem, training dedicated random forests for each feature conditioned on the others. This design robustly handles heterogeneous data types while preserving the semantic integrity of categorical features. To further enable precise and interpretable detection, \textsf{RFOD} combines Adjusted Gower's Distance (AGD) for cell-level scoring, which adapts to skewed numerical data and accounts for categorical confidence, with Uncertainty-Weighted Averaging (UWA) to aggregate cell-level scores into robust row-level anomaly scores. Extensive experiments on 15 real-world datasets demonstrate that \textsf{RFOD} consistently outperforms state-of-the-art baselines in detection accuracy while offering superior robustness, scalability, and interpretability for mixed-type tabular data.
academic

RFOD : Détection d'Anomalies Basée sur les Forêts Aléatoires pour Données Tabulaires

Informations Fondamentales

  • ID de l'article : 2510.08747
  • Titre : RFOD: Random Forest-based Outlier Detection for Tabular Data
  • Auteurs : Yihao Ang, Peicheng Yao, Yifan Bao, Yushuo Feng, Qiang Huang, Anthony K. H. Tung, Zhiyong Huang
  • Classification : cs.LG (Apprentissage Automatique), cs.DB (Base de Données)
  • Date de Publication : 9 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.08747

Résumé

La détection d'anomalies dans les données tabulaires est essentielle pour garantir l'intégrité des données dans les domaines à haut risque tels que la cybersécurité, la détection de fraude financière et la santé. Malgré les progrès continus des techniques d'exploration de données et d'apprentissage profond, les méthodes existantes font face à des défis lors du traitement de données tabulaires de types mixtes, s'appuyant souvent sur des schémas d'encodage qui perdent des informations sémantiques importantes et manquent d'interprétabilité. Pour résoudre ces problèmes, cet article propose RFOD, un cadre de détection d'anomalies basé sur les forêts aléatoires spécialement conçu pour les données tabulaires. RFOD redéfinit la détection d'anomalies comme un problème de reconstruction conditionnelle au niveau des caractéristiques, en entraînant des forêts aléatoires dédiées pour chaque caractéristique, réalisant ainsi un traitement robuste des types de données hétérogènes. Cette méthode combine la distance de Gower ajustée (AGD) pour l'évaluation au niveau cellulaire et la moyenne pondérée par l'incertitude (UWA) pour l'agrégation des scores d'anomalies au niveau des lignes. Des expériences approfondies sur 15 ensembles de données réelles démontrent que RFOD surpasse systématiquement les méthodes de référence de pointe en termes de précision de détection, tout en offrant une robustesse, une scalabilité et une interprétabilité supérieures.

Contexte de Recherche et Motivation

Définition du Problème

La détection d'anomalies vise à identifier les instances dans les données qui s'écartent significativement de la distribution dominante, ce qui est crucial dans les domaines à haut risque tels que la cybersécurité, la détection de fraude financière et la santé. Les anomalies non détectées peuvent entraîner une distorsion de l'analyse, masquer des informations critiques et compromettre les opérations.

Limitations des Méthodes Existantes

  1. Méthodes d'exploration de données traditionnelles :
    • Les méthodes telles que LOF, Isolation Forest et OCSVM s'appuient généralement sur la proximité globale ou des heuristiques statistiques
    • Traitent souvent les caractéristiques indépendamment, incapables de capturer les anomalies contextuelles dans les relations multivariées
    • Support natif insuffisant pour les données de types mixtes
  2. Méthodes d'apprentissage profond :
    • Les méthodes telles que Deep SVDD, DevNet et ICL supposent principalement des entrées purement numériques
    • S'appuient sur le prétraitement (comme l'encodage one-hot) qui peut perdre les détails sémantiques
    • La nature de boîte noire entrave l'interprétabilité

Motivation de la Recherche

Les méthodes existantes montrent des performances inconsistantes sur les données tabulaires de types mixtes, manquant d'une solution unifiée capable de fournir à la fois une haute précision de détection et une interprétabilité. Cet article vise à développer un cadre de détection d'anomalies capable de :

  • Traiter nativement les données de types mixtes
  • Fournir une interprétabilité granulaire
  • Maintenir une haute précision de détection et une efficacité computationnelle

Contributions Principales

  1. Paradigme de Reconstruction Conditionnelle au Niveau des Caractéristiques : Propose un nouveau paradigme redéfinissant la détection d'anomalies comme un problème de reconstruction conditionnelle au niveau des caractéristiques, évitant les limitations de la modélisation de la distribution conjointe globale
  2. Cadre RFOD : Conçoit un cadre de détection d'anomalies basé sur les forêts aléatoires, comprenant quatre modules principaux :
    • Forêts aléatoires dédiées aux caractéristiques
    • Mécanisme d'élagage des forêts
    • Distance de Gower Ajustée (AGD)
    • Moyenne Pondérée par l'Incertitude (UWA)
  3. Métrique de Distance AGD : Propose une métrique de distance améliorée adaptée aux distributions numériques asymétriques et à la confiance des caractéristiques catégoriques
  4. Performance Expérimentale Supérieure : Réalise les meilleures performances moyennes sur 15 ensembles de données réelles, avec une amélioration AUC-ROC jusqu'à 9,1% par rapport aux meilleures méthodes concurrentes et une réduction moyenne de 91,2% de la latence de test

Détails de la Méthode

Définition de la Tâche

Étant donné l'ensemble d'entraînement XtrainRn×d\mathbf{X}_{train} \in \mathbb{R}^{n \times d} et l'ensemble de test XtestRm×d\mathbf{X}_{test} \in \mathbb{R}^{m \times d}, l'objectif est de calculer :

  • Matrice de scores d'anomalies au niveau cellulaire : Scell=[si,j]Rm×d\mathbf{S}_{cell} = [s_{i,j}] \in \mathbb{R}^{m \times d}
  • Vecteur de scores d'anomalies au niveau des lignes : srow=[srow,1,,srow,m]Rm\mathbf{s}_{row} = [s_{row,1}, \ldots, s_{row,m}] \in \mathbb{R}^m

Architecture du Modèle

1. Forêts Aléatoires Dédiées aux Caractéristiques

Adopte une stratégie de décomposition leave-one-feature-out, entraînant une forêt aléatoire dédiée RFj\mathbf{RF}_j pour chaque caractéristique xj\mathbf{x}_j : RFj:XtrainjRn×(d1)ytrainjRn\mathbf{RF}_j: \mathbf{X}^j_{train} \in \mathbb{R}^{n \times (d-1)} \rightarrow \mathbf{y}^j_{train} \in \mathbb{R}^n

Xtrainj=Xtrain{xj}\mathbf{X}^j_{train} = \mathbf{X}_{train} \setminus \{\mathbf{x}_j\}, ytrainj=xj\mathbf{y}^j_{train} = \mathbf{x}_j.

2. Élagage des Forêts

Conserve les arbres optimaux basés sur la validation out-of-bag (OOB) : Prune(RF)={TU(i)1iβt}\text{Prune}(\mathbf{RF}) = \{T_{U(i)} | 1 \leq i \leq \lfloor\beta \cdot t\rfloor\}

β(0,1]\beta \in (0,1] est le ratio de conservation, UU est l'indexation triée par scores OOB en ordre décroissant.

3. Distance de Gower Ajustée (AGD)

Caractéristiques numériques : AGD(num)(xi,j,x^i,j)=xi,jx^i,jQ1α(xj)Qα(xj)AGD^{(num)}(x_{i,j}, \hat{x}_{i,j}) = \frac{|x_{i,j} - \hat{x}_{i,j}|}{Q_{1-\alpha}(\mathbf{x}_j) - Q_\alpha(\mathbf{x}_j)}

Caractéristiques catégoriques : AGD(cat)(xi,j,x^i,j)=1pxi,jAGD^{(cat)}(x_{i,j}, \hat{x}_{i,j}) = 1 - p_{x_{i,j}}

pxi,jp_{x_{i,j}} est la probabilité prédite de la catégorie réelle.

4. Moyenne Pondérée par l'Incertitude (UWA)

Calcule la matrice d'incertitude U=[ui,j]\mathbf{U} = [u_{i,j}], où ui,ju_{i,j} est l'écart-type des prédictions d'arbres. Poids de confiance : W=1m×dU~\mathbf{W} = \mathbf{1}_{m \times d} - \tilde{\mathbf{U}} Score final au niveau des lignes : srow,i=1dj=1dwi,jsi,js_{row,i} = \frac{1}{d} \sum_{j=1}^d w_{i,j} \cdot s_{i,j}

Points d'Innovation Technique

  1. Reconstruction Conditionnelle vs Modélisation Globale : Évite le problème de malédiction de la dimensionnalité dans la modélisation de la distribution conjointe globale en espace de haute dimension
  2. Support Natif des Données de Types Mixtes : Traite les caractéristiques numériques et catégoriques mixtes sans encodage complexe
  3. Métrique de Distance Adaptative : AGD s'adapte aux distributions asymétriques via la normalisation par quantiles et gère l'incertitude catégorique via l'appariement sensible à la confiance
  4. Agrégation Sensible à l'Incertitude : UWA exploite la variance prédictive de la structure d'ensemble pour ajuster dynamiquement les poids des caractéristiques

Configuration Expérimentale

Ensembles de Données

Utilise 15 ensembles de données tabulaires publics, couvrant les domaines de la cybersécurité, de la finance et de la santé :

DomaineEnsemble de DonnéesNombre d'ÉchantillonsDimension des CaractéristiquesRatio d'Anomalies
CybersécuritéBackdoor95,329422.44%
CybersécuritéDoS109,3534214.95%
CybersécuritéKDD4,898,4304119.86%
FinanceBank45,2111611.70%
SantéArrhythmia45227945.80%

Métriques d'Évaluation

  • AUC-ROC : Mesure la qualité du classement des scores d'anomalies
  • AUC-PR : Souligne la précision et le rappel, particulièrement adapté aux données déséquilibrées
  • F1-Score et Précision : Indicateurs de performance de classification basés sur le seuil
  • Log-Loss : Évalue l'étalonnage des probabilités d'anomalies
  • Temps d'Entraînement et Temps de Test : Évalue l'efficacité et la scalabilité

Méthodes de Comparaison

Références d'exploration de données : ECOD, LOF, IF, OCSVM, OT Références d'apprentissage profond : Deep SVDD, SLAD, DevNet, DIF, ICL

Détails d'Implémentation

  • Nombre d'épochs d'entraînement des modèles profonds : 50
  • Environnement : Intel Xeon Platinum 8480C @3.80GHz, 256GB RAM, GPU NVIDIA H200
  • Paramètres RFOD : α[0.01,0.02]\alpha \in [0.01, 0.02] (sensibilité AGD), β\beta sélectionné de manière adaptative via validation OOB

Résultats Expérimentaux

Résultats Principaux

RFOD démontre des performances exceptionnelles sur toutes les métriques d'évaluation :

  • Classement Moyen : Classé dans les 2 premiers sur 5 métriques, classé 1er pour AUC-ROC et F1
  • Améliorations de Performance : Amélioration moyenne AUC-PR de 46,7% par rapport aux méthodes d'exploration de données, amélioration moyenne AUC-ROC de 24,8% par rapport aux méthodes d'apprentissage profond
  • Cohérence : Surpasse chaque méthode de référence sur 80-100% des ensembles de données

Études d'Ablation

Valide l'importance de chaque module :

  1. Élagage des Forêts : Amélioration significative sur les ensembles Bank et Ethereum, réduisant le surapprentissage
  2. AGD : Composant le plus critique, la suppression réduit l'AUC-ROC de 0.96 à 0.41 sur l'ensemble DoS
  3. UWA : Fournit des améliorations de performance stables sur les grands ensembles de données comme Backdoor et DoS

Analyse de Cas

Prenant l'ensemble de données médical Pima comme exemple :

  • Interprétabilité au Niveau Cellulaire : Les cartes thermiques montrent que RFOD peut localiser précisément les combinaisons de caractéristiques anormales
  • Interprétabilité au Niveau des Lignes : Les valeurs prédites se situent dans les régions de haute densité de la distribution normale, les valeurs anormales réelles se situant dans les queues de distribution
  • Analyse Comparative : OCSVM et DIF produisent des activations uniformes élevées, difficiles à isoler les véritables sources d'anomalies

Analyse d'Efficacité

  • Temps d'Entraînement : Plusieurs ordres de grandeur plus rapide que les méthodes d'apprentissage profond, supportant la parallélisation
  • Temps de Test : Réduction moyenne de 91,2% de la latence de test
  • Scalabilité : Tests sur l'ensemble de données KDD de 1% à 100% d'échelle de données, démontrant une scalabilité linéaire

Travaux Connexes

Méthodes d'Exploration de Données

Les méthodes traditionnelles telles que LOF, IF et OCSVM s'appuient principalement sur des critères statistiques ou basés sur la proximité, mais supposent généralement l'indépendance des caractéristiques, ce qui rend difficile la capture des interactions multivariées.

Méthodes d'Apprentissage Profond

Les méthodes telles que Deep SVDD, DevNet et ICL peuvent apprendre des représentations complexes, mais sont principalement conçues pour les entrées numériques, nécessitant un prétraitement lors du traitement de données de types mixtes, et manquent d'interprétabilité.

Avantages de Cet Article

RFOD combine l'interprétabilité des méthodes basées sur les arbres et la robustesse de l'apprentissage d'ensemble, évitant les limitations de la modélisation globale via la modélisation conditionnelle au niveau des caractéristiques, tout en fournissant un support natif des données de types mixtes.

Conclusion et Discussion

Conclusions Principales

  1. RFOD résout avec succès le problème de détection d'anomalies dans les données tabulaires de types mixtes via la reconstruction conditionnelle au niveau des caractéristiques
  2. La conception d'AGD et d'UWA améliore significativement la précision de détection et la robustesse
  3. Cette méthode fournit une interprétabilité et une efficacité computationnelle supérieures tout en maintenant une haute précision

Limitations

  1. Sensibilité aux Paramètres : Bien que le paramètre α\alpha soit relativement stable, un certain ajustement reste nécessaire
  2. Surcharge Mémoire : L'entraînement de forêts indépendantes pour chaque caractéristique peut créer une pression mémoire sur les données de très haute dimension
  3. Traitement des Caractéristiques Catégoriques : Le traitement des caractéristiques catégoriques de haute cardinalité peut nécessiter une optimisation supplémentaire

Directions Futures

  1. Explorer des techniques plus efficaces de sélection de caractéristiques et de réduction de dimensionnalité
  2. Étudier les applications dans les scénarios de flux de données et d'apprentissage en ligne
  3. Étendre à des données de séries temporelles et de structures graphiques

Évaluation Approfondie

Points Forts

  1. Innovativité de la Méthode : Le paradigme de reconstruction conditionnelle au niveau des caractéristiques est une approche nouvelle et efficace
  2. Complétude Expérimentale : Comparaison complète sur 15 ensembles de données et 10 méthodes de référence
  3. Interprétabilité : Fournit une double interprétabilité au niveau cellulaire et au niveau des lignes
  4. Valeur Pratique : Atteint un bon équilibre entre efficacité et précision

Insuffisances

  1. Analyse Théorique : Manque d'analyse théorique approfondie de la convergence et de la complexité de la méthode
  2. Cas Extrêmes : Les performances sur les données de très haute dimension ou extrêmement déséquilibrées nécessitent une vérification supplémentaire
  3. Orientation des Paramètres : Manque de principes de sélection de paramètres plus systématiques

Impact

  1. Contribution Académique : Fournit une nouvelle direction de recherche pour la détection d'anomalies dans les données tabulaires
  2. Valeur Pratique : Potentiel d'application directe dans les domaines critiques tels que la finance et la santé
  3. Reproductibilité : Description d'algorithme claire, facile à implémenter et reproduire

Scénarios d'Application

  • Détection d'anomalies dans les données tabulaires de types mixtes
  • Scénarios de prise de décision à haut risque nécessitant l'interprétabilité
  • Surveillance d'anomalies en temps réel sur données de taille moyenne
  • Analyse de l'importance des caractéristiques et analyse des causes racines

Références

L'article cite les travaux importants du domaine de la détection d'anomalies, notamment :

  • Méthodes classiques : LOF (Breunig et al., 2000), Isolation Forest (Liu et al., 2008)
  • Méthodes d'apprentissage profond : Deep SVDD (Ruff et al., 2018), DevNet (Pang et al., 2019)
  • Métriques de distance : Distance de Gower (Gower, 1971)
  • Benchmarks d'évaluation : ADBench (Han et al., 2022)

Évaluation Globale : Cet article est une recherche de haute qualité en détection d'anomalies, proposant un cadre méthodologique innovant, avec une vérification expérimentale complète et un excellent potentiel d'application pratique. Les avantages d'interprétabilité et d'efficacité de la méthode la rendent compétitive dans les déploiements pratiques.